人的大腦由約1000億個神經元組成,每個神經元又和大約一千個其他神經元相連,組成了一個極其復雜的網絡。在此之上,大腦還是一個動態系統,隨時間和環境在不斷變化,具有自組織、自適應和自學習的特征。而理解和認識大腦是公認的科學的最后堡壘。
一方面,現代社會進步的同時也給人們帶來巨大的心理上的壓力。據醫學權威雜志《柳葉刀》在2009年發表的對中國人群的調查發現,中國的月患精神疾病率高達17.5%。在西方社會,由于服用抗抑郁癥藥百憂靈的人群基數之大,在倫敦的自來水里甚至發現了百憂靈的殘留物。老年癡呆是另一類困擾著我們的疾病,數據表明香港人的女性平均壽命為86.7歲,而這一年齡有約一半以上的人是老年癡呆患者。想象一下:大街上行走的老年人有一半人找不回家了,這該是怎樣的一個社會。其他腦疾病如腦卒中(俗稱腦中風)每十二秒鐘就會奪走一個中國人的性命。
另一方面,腦科學的進步會推進人類社會的長足發展。我們社會可能面臨的智能化是繼第一次工業革命(蒸汽機的發明)、第二次工業革命(電氣化)和第三次工業革命(自動化)后的第四次工業革命。這次工業革命的一大特征是擬腦化,具有一定智能的機器人的出現將是這次工業革命的一大特征。
為達到上述目的:人類更健康的生存和更舒適的生活,研究、認識和理解大腦是其中的關鍵。歐盟于2013年啟動了人類大腦計劃,這計劃投資十億歐元為期十年,意在用計算機來模擬人腦。繼歐盟之后,奧巴馬也宣布了美國大腦計劃投資45億美元,旨在記錄每個神經元活動。目前中國的腦計劃也在醞釀中。
這些腦計劃的背后都有一個關鍵的問題:如何讀懂和解析出深藏在我們獲得的海量數據里的關于大腦的運行規律。這樣的數據可以是遺傳的數據,它決定了你將來的健康狀況、智力水平和大腦的結構,可以是成千上萬個神經元共同行為;它決定了你如何學習,如何對付一些突發狀況,也可以是更為粗略化的腦影像數據;它可以讓我們無創地首次觀察到每個人大腦的運行情況,或更為常見的各種認知行為指標如智商等。
這些前所末有的大數據為大腦研究開啟了全新的天地,一個典型的病人可以有至少1GB的原始數據,一千個人就有1TB的數據。目前在這方面做得較為成功的是南加州的Toga教授組,他們有一個一百多人組成的研究小組從UCLA被南加州大學整個買斷;據報道,Toga教授本人也以百萬美元的年薪搬到南加州大學。自2004年以來,他們開始收集老年癡呆癥的各種各樣的如前所述的數據,前后花了數億美元。但由于缺乏有效數理分析工具,在這方面一直沒有得到有顯著結果的結論,原因在于基于大數據,尋找老年癡呆病根相當于大海撈針。與他們合作,我所在團隊利用新發展的統計工具首先在這些數據中找到了可能的老年癡呆癥基因和對應的損壞腦區。為了克服上述困難,Toga團隊的另一個明星教授Paul Thomson另辟蹊徑,開始了另一個被稱為“迷”的研究項目。該項目的成功之處在于它并不需要索取原始數據,Thomson為你提供了一個分析方法軟件,通過該方法在各個具有數據的小組里得到一個或數個統計分析結果,然后這些統計結果通過一種叫作薈萃分析的統計方法匯總,Thomson得到一個總的結果。通過對幾萬位病人的數據分析,他們得到了許多十分有意義的結果。“迷”項目的成功實施為大數據應用中如何克服數據獲取這一難題提供了一個很好的、值得借鑒的解決方法。
近幾十年人工智能的快速發展具體體現于一些智能算法如深度學習的成功應用中。深度學習的成功秘訣在于:華人科學家李飛飛構建的一個大型的人臉數據庫、今天的大規模計算能力的提高。由于這兩點,深度學習在人臉識別上的精度甚至超過了人類。當然,人工智能最看得見的應用應該是機器人,具有很強計算能力又有大型數據為依托的機器人將在我們社會智能化發展中扮演十分重要的角色。
正像《大數據時代》作者維克多·施恩伯格指出,大數據的核心就是預測,通常被視為人工智能的一部分或者更精確說被視為是一種機器學習。因此大數據在腦科學研究中會大顯身手,腦科學研究可使我們開發出更有效和智能化的機器學習算法,又會反過來推動和幫助我們更好地開采大數據。