8月14日,騰訊網在正院會館舉辦了一場夏季思享會,而這次思享會的主題就是“大數據”。有意思的是,這次關于大數據的分享會請到了來自各個領域的學者和專家,是一場跨學科的思想碰撞。在現場的我聽完了整場分享,有趣的觀點不少,還有一些觀點是目前國內關注大數據的人們不太提及的,非常思辨。在這里,我也跟大家分享一些來自思享會上的有趣觀點。
海量數據的應用正在改變我們現有的生產方式,其不僅成為了一個重要的生產要素,還在一定程度上提高了生產效率。這時,海量數據應用帶來的信息風暴不僅影響到我們的工作、生活,還可以逐漸影響我們的思維方式。有人說大數據本身是一場革命,這場革命就是把“量化”這個概念推動到我們生活中的方方面面。
1、關于大數據帶來的機遇可以說是學界業界一致認同的,而北大新聞與傳播學院的劉德寰教授卻提出,大數據也可以是“大忽悠”,甚至存在大風險。
大數據就一定是全數據嗎?
即使是像BAT這樣的互聯網巨頭,他們所擁有的數據也只是一座”數據孤島“。因此,很多大數據其實是斷裂且封閉的。在這一座座孤島被打破之前,大數據都無法稱”全“。這種大而不全的數據導致我們無法真正獲得想要的規律。
大數據也許會帶來“假規律”和“偽相關”
雖然關于大數據的介紹和分析都告訴我們,大數據注重的是“相關關系”,而非“因果關系”,但是,如果只注重相關關系,數據量的增加將不可避免的帶來偽相關的現象。當數據量達到幾十萬之巨之后,只會導向“萬物相聯系”這一結論。這時,所選取的變量都會呈現為統計顯著,而這樣的數據分析無疑就失敗了。因此,即使大數據現在備受推崇,但傳統的抽樣調查和實驗等社會學研究方法也不應該被拋棄,而應該結合使用。
《大數據時代》的譯者周濤也回應了這個觀點:從技術層面上來看,我們的確需要找到因果關系。一方面,有的關聯如果沒有因果在背后是很難被發現的;另一方面,因果能夠幫助我們更好的解釋和分析相關。
大數據離不開對“人性”的理解
大數據的挖掘過程也需要注入思想,這種思想就體現為“人性”。統計數據不能代替對人性的理解,真正進行跟人相關的大數據挖掘的時候一定要關注人性,這個時候的算法和建模才是有針對性、有意義的。怎樣在數據中注入人性?觀察、實驗、調查等傳統的研究方法都是很好的選擇。比如,喬布斯就經常躲在蘋果體驗店外沒人看得見的地方觀察體驗店里的人的行為,這是最早期的研究方法,在擁有大數據的今天還在使用是有一定原因的。一句話:諸如“體會、體驗、直覺、靈機一動、內省”這些看似與大數據無關的東西有可能恰恰就是大數據的核心。
大數據+小應用的趨勢
所謂大數據的小應用,就是把大數據應用到各個獨立領域中去。大數據運算本身構造了一個擁有更多能力的“新算盤”,擁有這個新算盤不意味著擁有一切,而是有了一個可以在各個領域使用的科學的工具。怎樣做好大數據的小應用?有兩個方面:第一,大數據與小數據結合,這個小數據就是基于抽樣調查的數據;第二,來自各個獨立領域的專業知識非常重要,比如以心理學、法學、社會學、營銷學等混合知識作為背景,再去跟數據結合,就能夠探索出一個更科學的大數據分析和挖掘的方式。
2、關于大數據的產業應用,華大基因的董事長汪建表達了自己的看法:基因研究是一項很少被人了解的產業研究,但卻是真正的大數據應用。
怎樣有效的預測疾病、怎樣降低傳染病的發病率,這些都需要依靠于基因研究。人身體中的細胞數量有10的14次方個,而一個細胞的癌變就可能導致生命的終結。這一個癌細胞分解為RNA后就是10的9次方,變成蛋白質則是10的19次方,這么大的數據量足以構成大數據,而基因研究面對的就是如此量級的數據研究和應用。
以對腫瘤細胞的定性、定量研究為例。首先,要知道腫瘤細胞現在的基因是怎樣的,而當出現一兩個基因變化的時候,細胞又會變成什么樣。其次,當眾多腫瘤細胞的基因變化構成了相當量級的數據之后,我們就能通過數據來展現細胞癌變的動態變化過程,從而進一步預測疾病。這樣的研究如果用在先天性疾病的防治上將更有意義,這樣有出生缺陷的嬰兒會越來越少。華大在推進的”百萬人基因計劃“,就是一個名符其實的大數據應用。因此,汪建從基因研究出發,表達了自己對大數據的理解:從大目標出發,踐行大數據,實現大科學,從而將研究成功運用到各個領域中去,形成大產業。
3、關于“新技術給我們的生活帶來了什么”這個話題,北大哲學系教授吳國盛給出了一個讓我很認同的觀點:技術本身并不是價值中立的,它有著自身的邏輯和屬性,而這就使得我們在使用新技術時,也必須接受新技術的內在邏輯,而這就將改變我們原有的生活方式。
過去,我們認為技術是中性的,它是人類的使用工具,怎么使用它取決于人類自己,但事實并非如此。技術有著自己的自主性、自己的結構,某些技術必定指向某些事情。比如,互聯網是一種基于民主意識形態的技術配置,網民相對平等的分配信息,共同分享信息,所以這樣的技術發源于美國,而不是中國。而當互聯網進入中國之后,人們除了享受互聯網帶來的便捷高效,還要被迫接受互聯網世界中民主、平等、開放的意識形態,這是根植于互聯網技術中的。因此,雖然國內建起了互聯網高墻,但翻墻一事也是輕而易舉,這就是互聯網的內在邏輯決定的。
4、關于大數據與社會變革這個不太被提及的話題,來自不同領域的專家們都從各自的領域出發分享了自己的感受。
《大數據時代》的譯者周濤認為,大數據更高級的階段應該是數據的集成與共享,并把集成和共享本身作為一種商業模式。
他舉了一個通過大數據幫助全球能源更好的進行配置的例子。首先,周濤所在的電子科大與電力集團達成合作,通過大量遙感裝置和本地勘探數據了解到各個國家的能源供需情況。其次,通過與氣象局合作獲得氣象數據,包括日照、風速風向、降雨等,從而對太陽能、風能、水能等新能源做到短期預測,并實現能源負載平衡。而這些數據若再與電力集團的數據進行集成和分享,就能將各項能源更有效的調配使用。
專欄作家安替則談到一個問題:大數據是有階級性的,大數據時代也許是一個新的政治革命誕生的時代。
之前,社科院農發所社會問題研究中心主任于建嶸說過大數據讓每個人變得更加透明,我們生活中的各種行為將通過數據被采集,并且分析出來,因此普通老百姓可以說是沒有秘密的。然而,這些數據卻不是普通老百姓可以看到或使用的,真正擁有這些數據的是部分企業、機構和政府,普通用戶只是大數據的提供者,這就是階級的產生。
因此,在大數據時代,數據的擁有權是一個關鍵的問題。這跟資本在資本主義剛誕生時最原始的情況是相似的。如果我們說物質的匱乏造成資本的流動,資本主義的產生是一些企業崛起,并跟國家分享權力的話,我們也可以說大數據時代恰會濕一個新政治革命誕生的時代。如果擁有大數據的人們不讓民眾分享大數據的成果,反而用大數據來控制民眾(比如維穩),那也許會造成更大的國內沖突,甚至國際斗爭。
社會學教授郭于華關心的是社會當中的普通人怎樣面對和使用新技術,那么新技術是不是會縮小信息鴻溝和社會鴻溝?
她曾經做過一個研究:新生代農民工怎樣使用信息技術。她對研究結論的預判是:新技術將有助于新生代農民工的社會融入、城市融入。事實上,新技術確實給他們的生活帶來了改變:其一,農民工是一個公共生活缺失的人群,信息技術給他們相互之間的交流帶來了很多便利;其二,新媒體給了他們表達的渠道,這是以往所不曾有的;其三,他們可以通過新媒體即時調用各種所需要的信息,更加了解這個世界。
但即便如此,我們也不能過分夸大信息技術對弱勢群體的作用,因為它確實呈現出比較強的馬太效應:強勢著可以更好的、更有利的利用這些新技術,同時他們也會對其他人加以控制。所以,新技術有沒有可能穿透社會結構的屏障才是關鍵的問題。
其實,像郭于華教授這樣的調研,也是創業者們需要的。比如“豌豆莢”就曾經派人去東莞的工廠里做調研,了解打工族們對智能終端和移動應用的真正需求。感興趣的人可以點此閱讀調查結果。
關于大數據和新技術,其實除去技術層面的研究和應用,在與歷史、 社會、人文等學科交叉的過程中還將引發很多話題,希望以上這些觀點能給大家帶去一點不一樣的思考。