吳喜之:中國人民大學教授,為多本專著和統計學教科書的作者
我今天的主題是給學生、給年輕人講的,因為我覺得這些是最根本的。即使你管理階層再好,你找不到人也什么也沒有,而對于每個人來說最重要的就是把自己的價值提高,而不是地位,這是兩回事。數據科學家的年薪是多少,這都不是我們的目標,也不是成功的標志,這是一種價值的標志。怎么樣才能有價值?我們要有能力,誰都想要你,不是因為你是他的親戚或者學生,他想要你這才是價值,我們要的是價值,而不是所謂的成功。
什么是數據科學?
數據科學有很多很多定義,最基本的定義就是computer science,還有數學、統計、目標、知識,這是最基本的,再說多了就過分了。一般對于年輕人來說,現在不可能到那么細的程度,我們應該變成一個通才,哪個公司都愿意要我們。清華大學之所以現在變成這個樣子,就是因為在1952年院系調整的時候,每一個專業就是一個生產線,弄的很細很細,沒有一個更寬廣的視野。大數據,所謂大就是這個樣子。數學關鍵是邏輯而不是具體的方法,不是你怎么求多項式的根,而是它的基本邏輯,它的數學語言,這一點要懂。數學邏輯是各種學科當中最嚴格的邏輯,無論你學邏輯的,學物理的,學什么的,文科學邏輯的肯定是不如學物理的,學物理的邏輯肯定不如學數學的,所以你要跟學數學的辯論的話就很困難。文理分科造成沒有邏輯的文章,沒有邏輯的法官。
數據科學家是做什么的?
對那些高科技公司來說,數據科學家可以挖掘新的信息,幫助公司開源節流。每個公司都是要這樣的,所以它需要的是人才,這是關鍵。我們說數據科學,當然科學也有藝術,這兩個都有關系。科學意味著沒有權威,不要迷信那些權威,中國人喜歡崇拜權威。任何科學研究的目的是基于數據,顛覆舊的理論,這樣才能往前進,所以你必須要有科學精神。
諾貝爾物理獎沒有一個是承認過去怎么樣的,而是推翻過去的事情,這是科學,是顛覆性的。
什么樣的人能成為數據科學家?
如果你擅長數學,有很清晰的邏輯思維能力,有技能組合,就可能當上數據科學家。投票顯示,數據分析和數據挖掘是最大的求職法寶。數據科學火爆的原因是,盡管高科技公司都有自己的數據科學團隊,但是那些非科技公司和很大的公司也需要做這些東西,他們需要能做這些東西的人。現在關鍵是人,關鍵是你們怎么樣讓自己成為被需要的人。
另外,你是不是做數據科學家的材料?相比專長于任何特定編程語言,泛型變成技巧更重要。最重要的素質就是能快速學習東西。在這個時代技術發展的突飛猛進,語言很快會過時,新的語言會迅速普及,所以學習東西快的人比單獨領域的專家更有前途,你有這個潛力你能干什么事。我要看你這個人的潛力,而不是你知道什么。知識再多你也超不過一個硬盤吧?但是硬盤沒有創造力。如果你每天花大量的時間編程,分析控制面板上的數據,獲得相關知識和信息,如果你對這樣的工作感興趣你就適合干這行。現在我沒事就處理編程數據,我看了這個以后覺得自己有點像。如果僅僅是想拿高工資,那可能覺得這樣的日子就很苦了。實際上不光是這個工作,干任何工作,即使是坐牢你也要把它當成樂趣。我有一個朋友,他就被上級陷害之類的坐牢了,現在坐牢很容易。他后來就跟我說,他覺得這件事情很享受,就是你怎么看這個問題了。你要是發愁過一天也是一天,高高興興的過一天也是一天,所以你要考慮怎么活才合適。
真正適合干這一行的人,會在業余時間里編程序、分析數據,他的目的就是自娛自樂,而不是為了要拿著什么學位,拿到什么樣的頭銜,最終他自己把自己的價值就提高了。如果你愛的不是數據本身,而是它給你帶來的高薪,那你很難跟上來的人來競爭了。要學會干一行愛一行,每個人都應該學會熱愛數據,即使是為了自己的事業前途也應該這樣想,為了自己的心理也應該這樣想。
還需要什么呢?我剛說了,學習能力比知識更重要,歡迎挑戰、樂于攀登。如果沒有挑戰了,沒有古怪的數據,我覺得很無聊,有點挑戰的我就很高興,我相信很多人都這樣,這樣活著才有意義,像豬一樣的活著沒有意義。你像富二代開著寶馬到處飆車,他是找不到活著的意義啊,穿名牌什么的,是讓別人覺得你有點價值,實際上別人一看你更沒有價值了。馬克思的座右銘“懷疑一切”,在懷疑中成長,我們國家從來不倡導這個,為什么咱們不宣傳這個?不要給自己貼標簽,就是我學什么方向的,別的不搞,歲數大了,學不會了,很多人都有這樣的借口,這實際上是借口,我現在每天都在網上學東西,所以我現在教的東西總是新的,我的書一版再版,我現在大概寫了有30本書了,為什么再版,因為我發現原來的有錯或者不全面,我一定要把事情說的更透徹一點,說的更好一點。
如何成為數據科學家?
計算機最根本的就是領域知識,你必須了解領域知識,你才能夠知道該怎么做
如果你僅僅是一個干巴巴的統計學家,你不了解統計,你可以做很多荒謬的事,不了解實際問題。有一個例子,在醫學雜志發表的一個很有名的文章,說如果父母在嬰兒房間內睡覺總是開著燈,嬰兒就會有高度近視。后來再發現,凡是父母高度近視的,往往有給小孩開燈的習慣。到底什么造成小孩高度近視,現在你們知道的,但是當時的人不知道,所以要有很深刻的領域知識,只有明白目標領域知識的人才能明白它的意義,知道往哪個方向努力,去判斷分析結果的可能性。如果沒有領域知識主導的人分析肯定有誤導,無論什么地位。在中國院士到哪兒都去發表理論,就像金正恩到哪兒都發表指示一樣。所以用數據來說話,其他的一切都是廢話。我每年看到很多很多的文章,包括一些大賽,這個賽那個賽,好多都是莫名其妙的假定,就連31個省市自治區的數據都假設是正態分布,這31個省市自治區的就不是樣本,更不用說是正態分布。
作為科學就這么多內容,對年輕人來說就是要明白這些基本的東西,太花哨的東西就沒意義了,那就是擴展了也不是沒意義,不要鉆進去出不來了。
你離得越遠看得越清楚,站得越高了解的全局越好
不要太具體了,不要迷信這些炒作的新名詞、新概念,用自己的大腦,用常識判斷,想想合不合理。過去某個人的經驗是他的經驗,不是你的經驗,他在特定環境、特定時間有作用,但不是現在。如果你要跟風就意味著永遠是跟隨,也絕對不會有出息。 炒作沒人管,只要有觀眾給你鼓掌,觀眾回去一腦袋漿糊,但是每個人自己不能糊涂。第一原料就是數據,什么是數據?照片都可以變成數據。
要有批判性思維
要有基于數據的批判性思維,而不是基于主觀經驗、權威或者是局部的知識,也不是迎合取寵式的思維。在中國取寵思維很厲害,你說GDP增加多少就是多少,這不是說的,要有人做。工具就是剛才說的能力加計算機系統加泛型。
個人還要有快速的自學能力和對數據分析的愛好
我從來沒學過計算機,也沒學過計算機編程。英文都沒學過,全都是自學的,所以我對自學很相信。現在我教的東西都是最近這幾年的東西,我現在實際上比一個全職教師教的課還多,但是我教的東西好多都是前一天網上才出現的,我覺得有價值,第二天就放到課堂上了。只有不斷的自學,不斷的學習才能當老師。如果你不斷的跟學生演示80年前的推導過程,顯示你的記憶力好,那不是好老師。
關于 “快樂”
什么人最快樂?被人需要,這是很重要的,就是你得有價值。因為你的專長、能力、善良、尊重、愛心、品質、性格、智力、分享。今天早上他們也講了,就是在公司里跟人家能相處,至少你得是可愛的。還要關心他人,能讓別人快樂的人是快樂的。如果買點東西在宿舍里藏在被窩里吃,那高興嗎?如果跟別人分享的話會更高興。尊敬別人的人是快樂的,一定要尊敬別人。如果大家都尊敬別人的話,社會上任何犯罪都沒有了,因為犯罪都是偷、搶、殺,侮辱別人這都是不尊敬別人的。誠實坦蕩的人是快樂的,這就是不能撒謊,永遠不能撒謊。還要心胸開闊,不去計較一些小事情。最關鍵的就是愛人如己,你愛人不是因為他能愛你回來,也不是因為他可愛,而是對任何事情都尊重,這是最根本的一點。如果這點你要做到了,如果人人都能做到,那世界就太理想了。不管怎么樣,我希望大家能夠快樂。
上述觀點來源于作者。