電子科技大學(xué)大數(shù)據(jù)研究中心主任、教授,《大數(shù)據(jù)時代》一書譯者周濤
——論壇二“大數(shù)據(jù)與社會變革”
【編者按】 “不管數(shù)據(jù)有多大,人類很重要的目標還是要把隱藏在關(guān)聯(lián)背后的因果關(guān)系找出來。”8月14日,2014夏季騰訊思享會“中國說”在北京正院公館舉辦。其中主題為“大數(shù)據(jù)與社會變革”論壇版塊由信息社會研究所所長王俊秀主持,邀請了電子科技大學(xué)大數(shù)據(jù)研究中心主任周濤、中國互聯(lián)網(wǎng)發(fā)展重要的參與者謝文、數(shù)托邦創(chuàng)始人楊玥和著名社會學(xué)學(xué)者于建嶸跨界碰撞。作為舍恩伯格的《大數(shù)據(jù)時代》一書的譯者,周濤在該環(huán)節(jié)第一個發(fā)言,他首先呼應(yīng)主題演講嘉賓劉德寰提出的“大數(shù)據(jù)可能變成大忽悠”的問題,指出大數(shù)據(jù)分析的核心問題是要在關(guān)聯(lián)背后找到因果,“如果放棄了對因果的追求,就是放棄了人凌駕計算機之上的智力優(yōu)勢,是人類自身的放縱和墮落。”隨后,他強調(diào)了大數(shù)據(jù)背后的大機會,以兩個例子,介紹了大數(shù)據(jù)在社會學(xué)中的應(yīng)用可以幫助反腐,而數(shù)據(jù)的集成共享則會促進眾多商業(yè)的創(chuàng)新創(chuàng)業(yè)。以下為周濤發(fā)言實錄:
嘉賓主持王俊秀:下面我們長話短說,有請電子科技大學(xué)大數(shù)據(jù)研究中心主任、也是舍恩伯格《大數(shù)據(jù)時代》一書的譯者周濤先生,首先,我想就剛才劉德寰教授談到的一個觀點,先讓周濤給我們講一下他眼中的大數(shù)據(jù),以及大數(shù)據(jù)現(xiàn)在在全球發(fā)展到什么階段,給我們簡單普及一下。
周濤(電子科技大學(xué)大數(shù)據(jù)研究中心主任、教授,《大數(shù)據(jù)時代》一書譯者):非常高興有機會和大家交流。首先,就剛才劉德寰老師提到的觀點,劉老師講不管是大忽悠、大風險還是關(guān)于抽樣,關(guān)于因果,核心問題我們到底找因果還是找關(guān)聯(lián)?我覺得我們可以從兩個層面看這個問題。一個是從技術(shù)層面,我們的確需要找到因果,因為關(guān)聯(lián)有的可能是假的關(guān)聯(lián),有的關(guān)聯(lián)沒有因果在背后是不能發(fā)現(xiàn)的。
舉個簡單例子,比如我們有很多運營商的數(shù)據(jù),一個人上飛機起飛前和下飛機落地的時候打的幾個電話,發(fā)的幾個短信可能是特別重要的,但如果你沒有人類的這些知識在里面,就很難從海量數(shù)據(jù)中發(fā)現(xiàn)這個關(guān)聯(lián)關(guān)系。
第二,今天汪建老師也來了,是我們科大的老師,我學(xué)理論物理時,他就是我們的老師,我們在測量很多東西,比如測量基本粒子,和基因一樣,都是一次實驗產(chǎn)生巨大的數(shù)字,如果我們只是測量基本粒子的生命周期,它雙向的周期和速度之間的關(guān)系,我們發(fā)現(xiàn)很多規(guī)律能找到一些關(guān)聯(lián),速度越快的話的越長,但光有這個關(guān)聯(lián)對物理來說沒有太大價值。只有有了相對論,有了因果上的原理,有了這個關(guān)聯(lián)來解釋和印證這個原理,它才顯得特別重要。
實際上,如果幾位老師站在哲學(xué)的角度,人類作為一個物種,一方面有形而下的需求,物質(zhì)上的滿足,主要獲得健康和安全。另外他有更大的形而上的需求,精神上的需求。我們這個物種存在的價值是什么?人和神之間的區(qū)別有多遠?找到這種因果關(guān)系是拉近了人和神的關(guān)系。我想大數(shù)據(jù)時代,不管數(shù)據(jù)有多大,我們?nèi)祟惡苤匾哪繕诉€是要把隱藏在背后的因果關(guān)系找出來。如果放棄了對因果的追求,就是放棄了人凌駕計算機之上的智力優(yōu)勢,是人類自身的放縱和墮落。
俊秀老師讓我普及一下,剛才很多老師講了很多宏觀的大方向,我是做技術(shù)的,我簡單舉兩個例子給大家看一下大數(shù)據(jù)是怎么運用的,算是一個非概念性的普及。
大數(shù)據(jù)實際運用的第一件事兒,是我們通過分析數(shù)據(jù)獲得一些價值。其中很大一部分,如剛才吳思老師所講可以用到社會學(xué)。比如通過數(shù)據(jù)軌跡的分析,實際上可以幫助反腐的。因為通過GPS的定位和圍欄技術(shù)能夠?qū)芏鄨鏊M行定位。比如今天我們在場所,當然還有比這更高級的場所,我們可以知道一個手機是不是經(jīng)常進出這個會所,通過他的銀行賬號關(guān)聯(lián),知道他是不是經(jīng)常購買奢侈品。還有醫(yī)保,我們通過對大量的電子病例和醫(yī)保單的詳細分析,可以找出哪些藥店搭售,也可以找出哪些診室、醫(yī)院,哪些具體的醫(yī)生存在過度醫(yī)療或者做一些不正當?shù)臋z測,包括知悉每種藥物在醫(yī)院不同病種的使用,找出哪個病種在這個醫(yī)院不同檢測和不同用藥的分布,這樣就能自動的幫助醫(yī)保機構(gòu),節(jié)省醫(yī)保基金,促進醫(yī)療資源的公平、公開的優(yōu)化配置,這就是典型的通過數(shù)據(jù)分析、模式識別,異常檢測的方式挖掘大數(shù)據(jù)的價值,解決一些社會問題,這只是一個初級階段。
大數(shù)據(jù)應(yīng)用更高級的階段,實際上是來自于數(shù)據(jù)的集成共享,把集成和共享作為一種商業(yè)模式,促進全中國大數(shù)據(jù)的創(chuàng)新創(chuàng)業(yè)。我也舉一個例子,我們和電力集團在做件什么好玩的事情呢?我們把大量人員的數(shù)據(jù)集中起來,這只是一個起點,為什么做這個事情呢?因為中國在全世界150個國家和地區(qū)做一些資源調(diào)配,我們需要通過大量的遙感和本地的勘探數(shù)據(jù)了解哪些國家的能源是供大于求,哪些國家是求大于供,這樣我們可以做一些更好的資源調(diào)配。這就積累了大量的大數(shù)據(jù),并且這個數(shù)據(jù)我們可以開放給中國兩百多家單位,所以,不僅是我們自己,滿足國家的需要,同時我們把數(shù)據(jù)接口開放出去。
有了這個一個數(shù)據(jù)還不夠,我們還做什么?我們通過與氣象局合作拿到一些氣象數(shù)據(jù)就知道這個地方短期日照怎么樣,風能怎么樣,降雨怎么樣,利用這個數(shù)據(jù)再和電力集團一起合作,我們就能實現(xiàn)這些能源短期的預(yù)測,能夠把真正的風能、太陽能、水能這些能源負載平衡,放進電網(wǎng)中來,這樣帶來的價值也是千億萬億的價值。
我們?yōu)榱烁闱宄茉矗ㄓ猩饘俚V藏的分布,以前能源局下面電力集團沒有這么好的數(shù)據(jù),但中國基礎(chǔ)信息和國家信息中心有更好的數(shù)據(jù),通過十幾顆遙感衛(wèi)星把有色金屬礦藏、水稻的分布都做得很好,又可以把這個數(shù)據(jù)合作起來,提供給電建和電力集團,來做礦藏和能源方面的思考。這些數(shù)據(jù)有一部分在短期內(nèi)未來一兩年內(nèi)就可以看到,相關(guān)部分會開放給普通的民眾,促進全中國大數(shù)據(jù)的創(chuàng)新、創(chuàng)業(yè)的生產(chǎn)。
最后,我想說一點,我同意劉德寰老師的觀點,大數(shù)據(jù)里帶有大的風險,恰如任何一個宏大概念背后有一些不懷好意的投資人一樣,但是這樣的大概念背后也必然有大機會,只要我們找準路子,大數(shù)據(jù)還是一個很有前途的方向。