麻省理工學(xué)院的研究者約翰·古塔格(John Guttag)和柯林·斯塔爾茲(Collin Stultz)創(chuàng)建了一個(gè)計(jì)算機(jī)模型來分析之心臟病病患丟棄的心電圖數(shù)據(jù)。他們利用數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)在海量的數(shù)據(jù)中篩選,發(fā)現(xiàn)心電圖中出現(xiàn)三類異常者一年內(nèi)死于第二次心臟病發(fā)作的機(jī)率比未出現(xiàn)者高一至二倍。這種新方法能夠識(shí)別出更多的,無法通過現(xiàn)有的風(fēng)險(xiǎn)篩查被探查出的高危病人。
數(shù)據(jù)挖掘這一術(shù)語含義廣泛,指代一些通常由軟件實(shí)現(xiàn)的機(jī)制,目的是從巨量數(shù)據(jù)中提取出信息。數(shù)據(jù)挖掘往往又被稱作算法。威斯康星探索學(xué)院主任大衛(wèi)·克拉考爾(David Krakauer)說,數(shù)據(jù)量的增長——以及提取信息的能力的提高——也在影響著科學(xué)。“計(jì)算機(jī)的處理能力和存儲(chǔ)空間在呈指數(shù)增長,成本卻在指數(shù)級下降。從這個(gè)意義上來講,很多科學(xué)研究如今也遵循摩爾定律。”
在2005年,一塊1TB的硬盤價(jià)格大約為1,000美元,“但是現(xiàn)在一枚不到100美元的U盤就有那么大的容量。”研究智能演化的克拉考爾說?,F(xiàn)下關(guān)于大數(shù)據(jù)和數(shù)據(jù)挖掘的討論“之所以發(fā)生是因?yàn)槲覀冋幱隗@天動(dòng)地的變革當(dāng)中,而且我們正以前所未有的方式感知它。”克拉勞爾說。隨著我們通過電話、信用卡、電子商務(wù)、互聯(lián)網(wǎng)和電子郵件留下更多的生活痕跡,大數(shù)據(jù)不斷增長的商業(yè)影響也在如下時(shí)刻表現(xiàn)出來:你搜索一條飛往塔斯卡魯薩的航班,然后便看到網(wǎng)站上出現(xiàn)了塔斯卡魯薩的賓館打折信息;你觀賞的電影采用了以幾十萬G數(shù)據(jù)為基礎(chǔ)的計(jì)算機(jī)圖形圖像技術(shù);你光顧的商店在對顧客行為進(jìn)行數(shù)據(jù)挖掘的基礎(chǔ)上獲取最大化的利潤;用算法預(yù)測人們購票需求,航空公司以不可預(yù)知的方式調(diào)整價(jià)格;智能手機(jī)的應(yīng)用識(shí)別到你的位置,因此你收到附近餐廳的服務(wù)信息。
大數(shù)據(jù)在看著你嗎?
除了安全和商業(yè),大數(shù)據(jù)和數(shù)據(jù)挖掘在科研領(lǐng)域也正在風(fēng)起云涌。越來越多的設(shè)備帶著更加精密的傳感器,傳回愈發(fā)難以駕馭的數(shù)據(jù)流,于是人們需要日益強(qiáng)大的分析能力。在氣象學(xué)、石油勘探和天文學(xué)等領(lǐng)域,數(shù)據(jù)量的井噴式增長對更高層次的分析和洞察提供了支持,甚至提出了要求。
2005年6月至2007年12月海洋表面洋流示意圖。數(shù)據(jù)源:海面高度數(shù)據(jù)來自美國航空航天局(NASA)的Topex/Poseidon衛(wèi)星、Jason-1衛(wèi)星,以及海形圖任務(wù)/Jason-2衛(wèi)星測高儀;重力數(shù)據(jù)來自NASA/德國航空航天中心的重力恢復(fù)及氣候?qū)嶒?yàn)任務(wù);表面風(fēng)壓數(shù)據(jù)來自NASA的QuikScat任務(wù);海平面溫度數(shù)據(jù)來自NASA/日本宇宙航空研究開發(fā)機(jī)構(gòu)的先進(jìn)微波掃描輻射計(jì)-地球觀測系統(tǒng);海冰濃度和速度數(shù)據(jù)來自被動(dòng)微波輻射計(jì);溫度和咸度分布來自船載、系泊式測量儀器,以及國際Argo海洋觀測系統(tǒng)。
這幅2005年6月至2007年12月海洋表面洋流的示意圖集成了帶有數(shù)值模型的衛(wèi)星數(shù)據(jù)。漩渦和窄洋流在海洋中傳送熱量和碳。海洋環(huán)流和氣候評估項(xiàng)目提供了所有深度的洋流,但這里僅僅使用了表層洋流。這些示意圖用來測量海洋在全球碳循環(huán)中的作用,并監(jiān)測地球系統(tǒng)的不同部分內(nèi)部及之間的熱量、水和化學(xué)交換。
在醫(yī)學(xué)領(lǐng)域,2003年算是大數(shù)據(jù)涌現(xiàn)過程中的一個(gè)里程碑。那一年第一例人類基因組完成了測序。那次突破性的進(jìn)展之后,數(shù)以千計(jì)人類、靈長類、老鼠和細(xì)菌的基因組擴(kuò)充著人們所掌握的數(shù)據(jù)。每個(gè)基因組上有幾十億個(gè)“字母”,計(jì)算時(shí)出現(xiàn)紕漏的危險(xiǎn),催生了生物信息學(xué)。這一學(xué)科借助軟件、硬件以及復(fù)雜算法之力,支撐著新的科學(xué)類型。
精神障礙通常是具體病例具體分析,但是一項(xiàng)對150萬名病人病例的研究表明,相當(dāng)多的病人患有超過同一種疾病。芝加哥大學(xué)的西爾維奧·康特中心利用數(shù)據(jù)挖掘理解神經(jīng)精神障礙的成因以及之間的關(guān)系。“好幾個(gè)(研究)團(tuán)隊(duì)都在致力于這個(gè)問題的解決。”中心主任安德烈·柴斯基(Andrey Rzhetsky)說,“我們正試圖把它們?nèi)考{入模型,統(tǒng)一分析那些數(shù)據(jù)類型……尋找可能的環(huán)境因素。”
另一例生物信息學(xué)的應(yīng)用來自美國國家癌癥研究所。該所的蘇珊·霍爾貝克(Susan Holbeck)在60種細(xì)胞系上測試了5000對美國食品和藥品管理局批準(zhǔn)的抗癌藥品。經(jīng)過30萬次試驗(yàn)之后,霍爾貝克說:“我們知道每種細(xì)胞系里面每一條基因的RNA表達(dá)水平。我們掌握了序列數(shù)據(jù)、蛋白質(zhì)數(shù)據(jù),以及微觀RNA表達(dá)的數(shù)據(jù)。我們可以取用所有這些數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘,看一看為什么一種細(xì)胞系對混合藥劑有良好的反應(yīng),而另一種沒有。我們可以抽取一對觀察結(jié)果,開發(fā)出合適的靶向藥品,并在臨床測試。”
互聯(lián)網(wǎng)上的火眼金睛
當(dāng)醫(yī)學(xué)家忙于應(yīng)對癌癥、細(xì)菌和病毒之時(shí),互聯(lián)網(wǎng)上的政治言論已呈燎原之勢。整個(gè)推特圈上每天要出現(xiàn)超過5億條推文,其政治影響力與日俱增,使廉潔政府團(tuán)體面臨著數(shù)據(jù)挖掘技術(shù)帶來的巨大挑戰(zhàn)。
印第安納大學(xué)Truthy(意:可信)項(xiàng)目的目標(biāo)是從這種每日的信息泛濫中發(fā)掘出深層意義,博士后研究員埃米利奧·費(fèi)拉拉(Emilio Ferrara)說。“Truthy是一種能讓研究者研究推特上信息擴(kuò)散的工具。通過識(shí)別關(guān)鍵詞以及追蹤在線用戶的活動(dòng),我們研究正在進(jìn)行的討論。”Truthy是由印第安納研究者菲爾·孟澤(Fil Menczer)和亞力桑德羅·弗拉米尼(Alessandro Flammini)開發(fā)的。每一天,該項(xiàng)目的計(jì)算機(jī)過濾多達(dá)5千萬條推文,試圖找出其中蘊(yùn)含的模式。
大數(shù)據(jù)盯著“#bigdata”(意為大數(shù)據(jù))。這些是在推特上發(fā)布過“bigdata”的用戶之間的連接,用戶圖標(biāo)的尺寸代表了其粉絲數(shù)多寡。藍(lán)線表示一次回復(fù)或者提及,綠線表示一個(gè)用戶是另一個(gè)的粉絲。
一個(gè)主要的興趣點(diǎn)是“水軍”,費(fèi)拉拉說:協(xié)調(diào)一致的造勢運(yùn)動(dòng)本應(yīng)來自草根階層,但實(shí)際上是由“熱衷傳播虛假信息的個(gè)人和組織”發(fā)起的。2012年美國大選期間,一系列推文聲稱共和黨總統(tǒng)候選人米特·羅姆尼(Mitt Romney)在臉譜網(wǎng)上獲得了可疑的大批粉絲。“調(diào)查者發(fā)現(xiàn)共和黨人和民主黨人皆與此事無關(guān)。”費(fèi)拉拉說,“幕后另有主使。這是一次旨在令人們相信羅姆尼在買粉從而抹黑他的造勢運(yùn)動(dòng)。”
水軍的造勢運(yùn)動(dòng)通常很有特點(diǎn),費(fèi)拉拉說。“要想發(fā)起一場大規(guī)模的抹黑運(yùn)動(dòng),你需要很多推特賬號,”包括由程序自動(dòng)運(yùn)行、反復(fù)發(fā)布選定信息的假賬號。“我們通過分析推文的特征,能夠辨別出這種自動(dòng)行為。”
推文的數(shù)量年復(fù)一年地倍增,有什么能夠保證線上政治的透明呢?“我們這個(gè)項(xiàng)目的目的是讓技術(shù)掌握一點(diǎn)這樣的信息。”費(fèi)拉拉說,“找到一切是不可能的,但哪怕我們能夠發(fā)現(xiàn)一點(diǎn),也比沒有強(qiáng)。”
頭腦里的大數(shù)據(jù)
人腦是終極的計(jì)算機(jī)器,也是終極的大數(shù)據(jù)困境,因?yàn)樵讵?dú)立的神經(jīng)元之間有無數(shù)可能的連接。人類連接組項(xiàng)目是一項(xiàng)雄心勃勃地試圖繪制出不同腦區(qū)之間相互作用的計(jì)劃。
除了連接組,還有很多充滿數(shù)據(jù)的“組”:
基因組:由DNA編碼的,或者由RNA編碼的(比如病毒)——全部基因信息
轉(zhuǎn)錄組:由一個(gè)有機(jī)體的DNA產(chǎn)生的全套R(shí)NA“讀數(shù)”
蛋白質(zhì)組:所有可以用基因表達(dá)的蛋白質(zhì)
代謝組:一個(gè)有機(jī)體新陳代謝過程中的所有小分子,包括中間產(chǎn)物和最終產(chǎn)物
連接組項(xiàng)目的目標(biāo)是“從1,200位神經(jīng)健康的人身上收集先進(jìn)的神經(jīng)影像數(shù)據(jù),以及認(rèn)知、行為和人口數(shù)據(jù)”,圣路易斯市華盛頓大學(xué)的連接組項(xiàng)目辦事處的信息學(xué)主任丹尼爾·馬庫斯(Daniel Marcus)說。項(xiàng)目使用三種磁共振造影觀察腦的結(jié)構(gòu)、功能和連接。根據(jù)馬庫斯的預(yù)期,兩年之后數(shù)據(jù)收集工作完成之時(shí),連接組研究人員將埋首于大約100萬G數(shù)據(jù)。
20名健康人類受試者處于休息狀態(tài)下接受核磁共振掃描,得到的大腦皮層不同區(qū)域間新陳代謝活動(dòng)的關(guān)聯(lián)關(guān)系,并用不同的顏色表現(xiàn)出來。黃色和紅色區(qū)域在功能上與右半腦頂葉中的“種子”位置(右上角黃斑)相關(guān)。綠色和藍(lán)色區(qū)域則與之關(guān)聯(lián)較弱或者根本沒有關(guān)聯(lián)。
繪制腦區(qū)分布圖的“分區(qū)”是一項(xiàng)關(guān)鍵的任務(wù),這些腦區(qū)最早于兩到三世紀(jì)之前通過對少量大腦染色被識(shí)別出來。“我們將擁有1,200個(gè)人的數(shù)據(jù),”馬庫斯說,“因此我們可以觀察個(gè)人之間腦區(qū)分布的差別,以及腦區(qū)之間是如何關(guān)聯(lián)的。”為了識(shí)別腦區(qū)之間的連接,馬庫斯說,“我們在受試者休息時(shí)獲取的掃描圖中,觀察腦中的自發(fā)活動(dòng)在不同區(qū)域之間有何關(guān)聯(lián)。”比如,如果區(qū)域A和區(qū)域B自發(fā)地以每秒18個(gè)周期的頻率產(chǎn)生腦波,“這就說明它們處于同一網(wǎng)絡(luò)中。”馬庫斯說。“我們將利用整個(gè)大腦中的這些關(guān)聯(lián)數(shù)據(jù)創(chuàng)建一個(gè)表現(xiàn)出腦中的每一個(gè)點(diǎn)如何與其他每一個(gè)點(diǎn)關(guān)聯(lián)的矩陣。”(這些點(diǎn)將比磁共振成像無法“看到”的細(xì)胞大得多。)
星系動(dòng)物園:把天空轉(zhuǎn)包給大眾
星系動(dòng)物園項(xiàng)目打破了大數(shù)據(jù)的規(guī)矩:它沒有對數(shù)據(jù)進(jìn)行大規(guī)模的計(jì)算機(jī)數(shù)據(jù)挖掘,而是把圖像交給活躍的志愿者,由他們對星系做基礎(chǔ)性的分類。該項(xiàng)目2007年啟動(dòng)于英國牛津,當(dāng)時(shí)天文學(xué)家凱文·沙文斯基(Kevin Schawinski)剛剛蹬著眼睛瞧完了斯隆數(shù)字巡天計(jì)劃拍攝的5萬張圖片。
阿拉巴馬大學(xué)天文學(xué)教授、星系動(dòng)物園科學(xué)團(tuán)隊(duì)成員威廉·基爾(William Keel)說,沙文斯基的導(dǎo)師建議他完成95萬張圖像。“他的眼睛累得快要掉出眼窩了,便去了一家酒館。他在那里遇到了克里斯·林托特(Chris Lintott)。兩人以經(jīng)典的方式,在一張餐巾的背面畫出了星系動(dòng)物園的網(wǎng)絡(luò)結(jié)構(gòu)。”
星系是一個(gè)經(jīng)典的大數(shù)據(jù)問題:一臺(tái)最先進(jìn)的望遠(yuǎn)鏡掃描整個(gè)天空,可能會(huì)看到2000億個(gè)這樣的恒星世界。然而,“一系列與宇宙學(xué)和星系統(tǒng)計(jì)學(xué)相關(guān)的問題可以通過讓許多人做相當(dāng)簡單的分類工作得以解決。”基爾說,“五分鐘的輔導(dǎo)過后,分類便是一項(xiàng)瑣碎的工作,直到今日也并不適合以算法實(shí)現(xiàn)。”
星系動(dòng)物園的啟動(dòng)相當(dāng)成功,用戶流量讓一臺(tái)服務(wù)器癱瘓了,基爾說。斯隆巡天的全部95萬張圖片平均每張被看過60次之后,動(dòng)物園的管理者們轉(zhuǎn)向了更大規(guī)模的巡天數(shù)據(jù)??茖W(xué)受益匪淺,基爾說。“我的很多重要成果都來自人們發(fā)現(xiàn)的奇怪物體,”包括背光星系。這是星系動(dòng)物園志愿者們發(fā)現(xiàn)的差不多2000個(gè)背光星系之一。它被其后方的另一個(gè)星系照亮。來自背后的光令前景星系中的塵埃清晰可辨。星際塵埃在恒星的形成中扮演了關(guān)鍵的角色,但它本身也是由恒星制造的,因此檢測其數(shù)量和位置對于了解星系的歷史至關(guān)重要。
星系動(dòng)物園依賴統(tǒng)計(jì)學(xué)、眾多觀察者以及處理、檢查數(shù)據(jù)的邏輯。假如觀察某個(gè)特定星系的人增加時(shí),而認(rèn)為它是橢圓星系的人數(shù)比例保持不變,這個(gè)星系就不必再被觀察了。然而,對一些稀有的物體,基爾說,“你可能需要40至50名觀察者。”大眾科學(xué)正在發(fā)展自己的法則,基爾補(bǔ)充道。志愿者們的工作“已經(jīng)對一個(gè)真實(shí)存在的重大問題做出了貢獻(xiàn),是現(xiàn)存的任何軟件都無法實(shí)現(xiàn)的。鼠標(biāo)的點(diǎn)擊不該被浪費(fèi)。”這種動(dòng)物園方法在zooniverse.org 網(wǎng)站上得到了復(fù)制和優(yōu)化。這是一個(gè)運(yùn)行著大約20項(xiàng)目的機(jī)構(gòu),這些項(xiàng)目的處理對象包括熱帶氣旋、火星表面和船只航行日志上的氣象數(shù)據(jù)。
最終,軟件可能會(huì)取代志愿者,基爾說。但是計(jì)算機(jī)和人類之間的界線是可互換的。比如說超新星動(dòng)物園項(xiàng)目在軟件學(xué)會(huì)了任務(wù)之后就關(guān)閉了。
我們驚訝地得知志愿者們積累的龐大數(shù)據(jù)是計(jì)算機(jī)學(xué)習(xí)分類的理想材料。“一些星系動(dòng)物園用戶真的很反感這一點(diǎn)。”基爾說,“他們對于自己的點(diǎn)擊被用來訓(xùn)練軟件表達(dá)出明顯的怨恨。但是我們說,不要浪費(fèi)點(diǎn)擊。如果某人帶來了同樣有效的新算法,人們就不必做那些事情了。”
學(xué)習(xí)的渴望
人們長久以來改進(jìn)對圖像和語音的模式識(shí)別的努力已經(jīng)受益于更多的訓(xùn)練,威斯康星大學(xué)麥迪遜分校的克拉考爾說。“它不僅僅是有所改善,更是有了實(shí)際的效果。5到10年之前,iPhone上的Siri是個(gè)想都不敢想的點(diǎn)子,語音識(shí)別一塌糊涂?,F(xiàn)在我們擁有了這樣一批龐大的數(shù)據(jù)來訓(xùn)練算法,忽然之間它們就管用了。”
隨著數(shù)據(jù)及通訊價(jià)格持續(xù)下跌,新的思路和方法應(yīng)運(yùn)而生。如果你想了解你家中每一件設(shè)備消耗了多少水和能量,麥克阿瑟獎(jiǎng)獲得者西瓦塔克·帕特爾(Shwetak Patel)有個(gè)解決方案:用無線傳感器識(shí)別每一臺(tái)設(shè)備的唯一數(shù)字簽名。帕特爾的智能算法配合外掛傳感器,以低廉的成本找到耗電多的電器。位于加利福尼亞州海沃德市的這個(gè)家庭驚訝地得知,錄像機(jī)消耗了他們家11%的電力。
等到處理能力一次相對較小的改變令結(jié)果出現(xiàn)突破性的進(jìn)展,克拉考爾補(bǔ)充道,大數(shù)據(jù)的應(yīng)用可能會(huì)經(jīng)歷一次“相變”。
“大數(shù)據(jù)”是一個(gè)相對的說法,不是絕對的,克拉考爾指出。“大數(shù)據(jù)可以被視作一種比率—我們能計(jì)算的數(shù)據(jù)比上我們必須計(jì)算的數(shù)據(jù)。大數(shù)據(jù)一直存在。如果你想一下收集行星位置數(shù)據(jù)的丹麥天文學(xué)家第谷·布拉赫(Tycho Brahe,1546 - 1601),當(dāng)時(shí)還沒有解釋行星運(yùn)動(dòng)的開普勒理論,因此這個(gè)比率是歪曲的。這是那個(gè)年代的大數(shù)據(jù)。”大數(shù)據(jù)成為問題“是在技術(shù)允許我們收集和存儲(chǔ)的數(shù)據(jù)超過了我們對系統(tǒng)精推細(xì)研的能力之后。”克拉考爾說。
我們好奇,當(dāng)軟件繼續(xù)在大到無法想象的數(shù)據(jù)庫上執(zhí)行復(fù)雜計(jì)算,以此為基礎(chǔ)在科學(xué)、商業(yè)和安全領(lǐng)域制定決策,我們是不是把過多的權(quán)力交給了機(jī)器。在我們無法覷探之處,決策在沒人理解輸入與輸出、數(shù)據(jù)與決策之間的關(guān)系的情況下被自動(dòng)做出。“這正是我所從事的領(lǐng)域,”克拉考爾回應(yīng)道,“我的研究對象是宇宙中的智能演化,從大爆炸到大腦。我毫不懷疑你說的。”