信息大爆炸的今天,不討論大數(shù)據(jù)這個話題似乎就是跟不上時代。從醫(yī)藥到教育,再到其他各個領(lǐng)域,大數(shù)據(jù)充斥著現(xiàn)代社會的每個角落。而我們最關(guān)心的還是大數(shù)據(jù)最終將以什么樣的形式,怎么樣影響甚至改變我們的生活。來聽聽四位專家告訴你大數(shù)據(jù)到底有多少可能。
丹·瓦格納 Dan Wagner
Civis Analytics 的創(chuàng)始人兼首席執(zhí)行官
你曾經(jīng)說過,希望用大數(shù)據(jù)解決全球最大的問題。你最想解決的問題是什么?
我們主要關(guān)注兩個領(lǐng)域:教育和健康。在教育領(lǐng)域,我們專注于利用個人層面的數(shù)據(jù),幫助客戶發(fā)現(xiàn)那些申請和注冊的大學(xué)低于其潛能的低收入學(xué)生,并幫助這些機構(gòu)找到適當(dāng)?shù)姆椒ǎ屵@些孩子進(jìn)入與其潛能相匹配的大學(xué)。
保險投保也是我們的目標(biāo)之一,尤其是在《平價醫(yī)保法案》剛開始施行的頭幾個月。我們主要致力于與多家機構(gòu)合作,幫助它們找到?jīng)]有醫(yī)療保險的民眾,并讓他們加入到醫(yī)保計劃中來。這是一項非常艱巨的工作,因為沒有現(xiàn)成的無保險人員名冊。你只能通過統(tǒng)計推斷來完成這項工作。
最值得關(guān)注的問題之一是,保險如何從團體保險向個人保險發(fā)展,以及保險公司如何學(xué)會管理這一風(fēng)險。我們正同幾家機構(gòu)合作,利用數(shù)據(jù)提前發(fā)現(xiàn)諸如心血管疾病等個體風(fēng)險,提前了解病人面臨的風(fēng)險。
一旦發(fā)現(xiàn)有風(fēng)險,你會增加投保人的保費嗎?
你不能這么做。你只能根據(jù)諸如年齡等一系列精簡變量來確定保單價值。因此,你不能根據(jù)上述風(fēng)險來定價,但你需要管理這一風(fēng)險。
你同奧巴馬競選團隊合作時,大數(shù)據(jù)發(fā)揮了怎樣的作用?
我們帶來的最顯著改變是在媒體方面。具體來說,就是利用尼爾森收視率來追蹤競選廣告的投放和效果。透過收視率數(shù)據(jù),你就好像看到了一張人口統(tǒng)計表,能從中了解到觀眾群的構(gòu)成,例如是西班牙裔,還是女性。
我的做法是,根據(jù)我們計算得出的個人可說服得分來定義我們的觀眾。我們將這些數(shù)據(jù)與機頂盒數(shù)據(jù)相匹配。由此就能找到每一美元廣告投放能帶來最高可說服觀眾密度的電視欄目。有了這些數(shù)據(jù),我們基本就能根據(jù)一個單一的標(biāo)準(zhǔn)來決定廣告投放的優(yōu)先順序。這與人口統(tǒng)計學(xué)沒有任何關(guān)系。只需明確哪些是我們在個人層面上確定的、要特別針對的觀眾群。這是一項非常艱巨的工作,但從文化角度來看,這種方法很適合我們的競選團隊,因為,奧巴馬競選的典型特征是,選民搖擺不定。
我們應(yīng)當(dāng)如何解決數(shù)據(jù)分析中的安全問題?
你必須非常重視這個問題。很多這類機構(gòu)在收集信息,但我認(rèn)為,其中很多機構(gòu)都沒有意識到什么是最高標(biāo)準(zhǔn)的數(shù)據(jù)安全操作。我們的很多工作都是在亞馬遜云服務(wù)平臺上完成的,這比你內(nèi)部可能開發(fā)的東西要好得多,因為你可以利用亞馬遜提供的很多網(wǎng)絡(luò)協(xié)議。亞馬遜的云計算服務(wù)算是該領(lǐng)域最好的。
大數(shù)據(jù)熱潮中,我們可能犯的最大錯誤,或可能忽視的最重要問題是什么?
大數(shù)據(jù)熱潮最令人遺憾的一點是,人們只考慮其過程,而沒有考慮結(jié)果。有些時候,這股熱潮有些盲目,在某種意義上,它只是將對數(shù)據(jù)計算能力增長的信念孤立地看作是一種解決問題的手段。你將如何運用這些未來真的能改善人們生活的數(shù)據(jù)?這是個大問題。
在日常生活中,你是如何應(yīng)對信息過載問題的?
作為一個在互聯(lián)網(wǎng)相關(guān)公司工作的人,我有很多時間是在網(wǎng)上。但我盡量縮短通過各類電子設(shè)備進(jìn)行溝通的時間,并努力確保自己閱讀大量書籍。
埃里克·謝德特 Eric Schadt
伊坎基因組織學(xué)和多尺度生物學(xué)研究所(Icahn Institute for Genomics and Multiscale Biology)董事
如何證明超級計算在醫(yī)學(xué)研究中能發(fā)揮重要作用?
主要通過兩種途徑。一是管理當(dāng)下醫(yī)學(xué)領(lǐng)域產(chǎn)生的諸如 DNA 測序等海量數(shù)據(jù)。舉例來說,一位癌癥病人的全基因組序列會產(chǎn)生萬億字節(jié)之多的數(shù)據(jù)。想象一下,如果要為數(shù)十萬人做基因測序,就會產(chǎn)生千萬億,甚至百億億字節(jié)量級的數(shù)據(jù)。要對這些數(shù)據(jù)進(jìn)行管理并加以處理,使之轉(zhuǎn)化為能被醫(yī)界人員所用的信息,就需要超級計算設(shè)備和相關(guān)的專業(yè)知識。
另一個途徑是,利用需要超級計算在短時間內(nèi)完成的非常復(fù)雜的數(shù)學(xué)算法,根據(jù)已經(jīng)存在的疾病亞型,以及治療該疾病亞型可能的最佳方法建立一個疾病預(yù)測模型。
這使醫(yī)生在治療中的作用以及病人與醫(yī)生間的數(shù)據(jù)關(guān)系發(fā)生了怎樣的變化?
發(fā)生了根本性的變化。與我們現(xiàn)有方法的不同之處在于,我們更深入地研究個體,而非一個群體。就拿糖尿病來說,目前可能有 100 種不同的糖尿病亞型,而且你和你的鄰居得這種病的原因也各不相同。你可能是因胰腺β細(xì)胞功能受損所致;或者你肌肉中的攝取受體不能有效地吸收葡萄糖等等。不同的病因可能需要不同的治療方法。
醫(yī)生看到的只是晚期癥狀,但現(xiàn)在透過各類分辨率更高的科技產(chǎn)品他們能看到導(dǎo)致下游結(jié)果的上游病因。最近醫(yī)生們才看到了這些病因。其中涉及數(shù)百萬個變量,這是人腦無法理解的。
您剛才說到的都是數(shù)學(xué)幫助克服人腦缺陷的方面,這些數(shù)學(xué)計算程序有哪些缺陷需要人腦的幫助?
我們所做的工作是用一種需要人腦參與的方式來呈現(xiàn)信息,這是一種很棒的模式識別機器。目前在很大程度上人與機器是合作伙伴關(guān)系。也許 10 年、20 年以后,諸如 Watson 等計算機將變得非常強大,人的干預(yù)會大大降低。但目前還做不到。
很多組織收集的醫(yī)學(xué)數(shù)據(jù)只供己用,我們應(yīng)該對此感到擔(dān)憂嗎?
如果我們真的希望對人類健康產(chǎn)生影響,這些數(shù)據(jù)和模型必須對所有人進(jìn)行開放。
物理研究領(lǐng)域就有這樣的先例,強子對撞機試驗的全部數(shù)據(jù)都是對公眾開放的。當(dāng)然,存在如何保護個人隱私的問題。
可以通過技術(shù)解決隱私保護問題嗎?
我們當(dāng)然可以保護并存儲數(shù)據(jù),保護計算機環(huán)境的安全,并采取眾多安全協(xié)議來確保數(shù)據(jù)不會陷入危險。但有一點我們很清楚,任何形式的高維數(shù)據(jù)都無法真正做到匿名。就像照片一樣。你不能指望你的外貌也有隱私,因為人人都能看到你的臉,你不能將它藏起來。我認(rèn)為 DNA 以及諸如分子尺寸等其他數(shù)據(jù)最終也將歸入同樣的范疇,原因很簡單,當(dāng)技術(shù)足夠成熟的時候,基因測序會像照相一樣簡單、便宜。
在日常生活中,你是如何應(yīng)對信息過載問題的?
不能陷在大數(shù)據(jù)中。我會去玩單板滑雪、騎摩托車,或是做一些能幫助你放松,無需太動腦筋的活動。
安德烈斯·維根 Andreas Weigend
獨立顧問,亞馬遜公司前任首席科學(xué)家
你曾經(jīng)將大數(shù)據(jù)比作原油。
如果你在后院發(fā)現(xiàn)了原油,你的這個發(fā)現(xiàn)可能用處不大,因為你需要將原油精煉后才能供人們使用。原始數(shù)據(jù)也像原油一樣,不是拿來就可使用。亞馬遜和谷歌就是從事數(shù)據(jù)精煉提取的公司。當(dāng)然,據(jù)我所知,原油和數(shù)據(jù)兩者之間最大的區(qū)別是,數(shù)據(jù)一時半會兒不會被用光。而至于價格,信息產(chǎn)品和石油產(chǎn)品之間的關(guān)系也非常有意思。
原油的大部分好處被你所描述的精煉公司而不是被其用戶獲得。我們怎樣才能保證每個人都能從大數(shù)據(jù)中獲益?
我認(rèn)為,在蘋果公司的應(yīng)用商店發(fā)生的一切將會在數(shù)據(jù)經(jīng)濟領(lǐng)域再次上演,會有公司以這些數(shù)據(jù)為“原材料”推出服務(wù)。如果成立一個應(yīng)用商店,而另一家公司使用數(shù)據(jù)向消費者提供應(yīng)用并與數(shù)據(jù)公司共享收入,價值由此產(chǎn)生。
大約 10 年前,你曾擔(dān)任亞馬遜首席科學(xué)家。目前,世界是否已經(jīng)完全變樣了?
10 年前,我們已經(jīng)注意到行業(yè)的重點正由算法(意味著你可以從自己所有的數(shù)據(jù)中獲得任何東西)向僅僅需要獲得更多的原始數(shù)據(jù)這一方向轉(zhuǎn)移。所以說,現(xiàn)在的情況與當(dāng)年完全不同,不過,我們?nèi)匀挥蓄愃频南敕āX愃魉惯€是貝索斯。
你認(rèn)為哪些行業(yè)守著最豐富的數(shù)據(jù)金礦卻未找到利用金礦創(chuàng)造價值的方法?
中國有一家公司名叫騰訊,他們推出的微信完全顛覆了中國人的溝通方式。與之相對應(yīng)的另一家公司是中國電商公司阿里巴巴,該公司了解客戶對哪些商品感興趣,他們在搜索什么商品,以及他們最終買了哪些商品。阿里還清楚客戶是否退貨和有無付款問題等。
這兩家公司均擁有 10 億客戶。它們了解客戶的所有溝通習(xí)慣或所有財務(wù)交易情況,所以,它們確實大有可為。當(dāng)然,這也取決于你對哪些行業(yè)感興趣。不過,真正的潛力是這兩方面數(shù)據(jù)的交叉整合。比如,在需要做出信貸決定時,你可以從騰訊了解很多信息。因為,了解到你是否曾經(jīng)和妓女鬼混或與拉皮條的家伙有過來往,也能多多少少地了解你將來償還貸款的傾向。
在日常生活中,你是如何應(yīng)對信息過載這一問題的?
我們必須形成一個認(rèn)知習(xí)慣,認(rèn)識到人們是會錯過一些信息的。如果有人錯過了你的一封電子郵件,請不要生氣。請通過另一個渠道與他們聯(lián)絡(luò)。
威廉·庫科爾斯基 William Cukierski
Kaggle 公司的數(shù)據(jù)科學(xué)家
效果最好的競賽有哪些?
我最看好的一場競賽叫“找鯨大賽”。競賽中要尋找的鯨是生活在大西洋中的一種瀕危種群。這些搜尋者擁有強大的網(wǎng)絡(luò),不間斷地記錄鯨發(fā)出的聲音,他們也擁有自己的算法,且效果非常好。他們說:“要不我們把這些數(shù)據(jù)交給 Kaggle,看 Kaggle 有沒有更好的解決方案。”他們最后實現(xiàn)了非凡的成果。目前,這些強大的網(wǎng)絡(luò)能夠以接近 99% 的準(zhǔn)確率來偵測出鯨的聲音。我認(rèn)為,如果有人坐在紐約的辦公桌前就可以從事與日常工作毫無相干且在萬里之遙的一項工作,并為我們的日常生活帶來巨大好處,這將是一項多么了不起的事情!
你們還在設(shè)法利用數(shù)據(jù)分析來進(jìn)行癌癥研究。Kaggle 是否組織過很多醫(yī)療相關(guān)領(lǐng)域的競賽?
Kaggle 尚未在醫(yī)療領(lǐng)域涉足過多,主要原因是涉及泄露患者信息這個問題。另一個難題是擁有這些數(shù)據(jù)的個人和機構(gòu)把數(shù)據(jù)囤積了起來,不愿分享。
制藥公司擁有制藥試驗的數(shù)據(jù),它們把這些數(shù)據(jù)壓在了箱底。人們?yōu)榱藬?shù)據(jù)分享作了一些初步努力,也承諾在這方面展開合作,但結(jié)果還是各自都想保留自己手中的數(shù)據(jù)。從某種程度上說,主要還是擔(dān)心隱私保護問題。你可能不會愿意把別人的基因組公開發(fā)布,然后大家都看出來這是家住主干道 232 號的薩利·斯密斯(Sally Smith)的基因組。不過,與此同時,這些擔(dān)心也有些過度。對于這種問題,人們好像都在玩花招,說什么除非把數(shù)據(jù)直接交給你,不然你怎么能夠遠(yuǎn)距離地利用數(shù)據(jù)解決問題呢?如果能消除這些顧慮,你就可以取得一些實質(zhì)性的進(jìn)展。
你們公司在舉辦人人都可以參與的競賽,而有些占有數(shù)據(jù)的機構(gòu)卻牢牢抓著數(shù)據(jù)不放手。這是否是一個矛盾?
我在日常工作中面臨的最大挑戰(zhàn)之一是說服人們分享數(shù)據(jù),并令其確信這么做不會威脅到其機構(gòu)的生存。
經(jīng)常情況下,不是說你占有了數(shù)據(jù),數(shù)據(jù)就成為與生俱來的無價之寶,數(shù)據(jù)是需要挖掘和分析的。如果我們從一個機構(gòu)拿到了一組數(shù)據(jù),并將其公開,問題的解決方式是公開的,這不會產(chǎn)生什么問題,因為沒有其他人有相同的數(shù)據(jù),也沒有人會再去獲得并利用這些數(shù)據(jù)。
你認(rèn)為,關(guān)于大數(shù)據(jù)的各種說法和觀點,哪方面的失控最嚴(yán)重?
我必須糾正一下你的問題,應(yīng)該是哪些方面沒有失控。在與人們談?wù)摯髷?shù)據(jù)時,很難避免失控這個問題,也很難避免其老板的介入,同樣難以獲得老板支持地說“好吧,我們也做大數(shù)據(jù)吧”。我認(rèn)為,人們在數(shù)據(jù)量方面有些失控。所以,經(jīng)常有人會說,“我們有 10 億兆的數(shù)據(jù),我們有百萬兆的數(shù)據(jù)。”許多問題可以在更小的數(shù)據(jù)規(guī)模上得到解決。比如,用輸送帶來篩選利馬豆。銷售利馬豆的公司希望利用照相機來發(fā)現(xiàn)輸送帶上變質(zhì)的利馬豆。你可以想象,如果你能夠發(fā)現(xiàn)一粒棕色利馬豆,你就可以發(fā)現(xiàn)所有的棕色利馬豆,而不需天文級別的數(shù)據(jù)來解決這一問題。我認(rèn)為,95% 的問題適用于這個模型。剩余 5% 的問題的算法需要大量的數(shù)據(jù),提供的數(shù)據(jù)越多,其方案的效果就越好。Netflix 向用戶推薦電影就是最好的例證。