現在好像人人都愛說“大數據”,就像平時我去開會,不是用大數據分析這個,就是用大數據建構那個。可是我最近看《美國計算機學會通訊》(CACM)上面提到了幾次小數據,我覺得大家也有必要了解一下這個有趣的概念。
什么是小數據?小數據就是個體化的數據,是我們每個個體的數字化信息。比如我天天都喝一兩酒,突然有天喝完酒了胃疼,我就想了,這天和之前有何不同?原來,這天喝的酒是個新牌子,可能就是喝了這個新牌子的酒讓我胃疼。這就是我生活中的“小數據”,它不比大數據那樣浩瀚繁雜,卻對我自己至關重要。
第一個意識到“小數據”重要性的是美國康奈爾大學教授德波哈爾·艾斯汀。艾斯汀的父親去年去世了,而早在父親去世之前幾個月,這位計算機科學教授就注意到老人在數字社會脈動中的些許不同——他不再發送電子郵件,不去超級市場買菜,到附近散步的距離也越來越短。
然而,這種逐漸衰弱的狀態,真到醫院去檢查心電圖,卻不一定能看出來。到急診室檢查的時候,不管是測脈搏還是查病歷,這個90歲的老人都沒有表現出特別明顯的異常。可事實上,追蹤他每時每刻的個體化數據,他的生活其實已經明顯與之前不同。這種日常小數據帶來的生命訊息的警示和洞察,啟發了這位計算機科學教授——小數據可以看作是一種新的醫學證據,它是“your row of their data”(他們數據中屬于你的那行數據)。
人們愛說,大數據將改變當代醫學,譬如基因組學、蛋白質組學、代謝組學等等,不過由個人數字跟蹤驅動的小數據,也將有可能會對個人醫療帶來變革,特別是當可穿戴設備更成熟后,移動技術將可以連續、安全、私人地收集并分析你的數據,這可能包括你的工作、購物、睡覺、吃飯、鍛煉和通訊,這些數字追蹤將得到一幅只屬于你的健康自畫像。
擁有了這幅專屬于自己的數字自畫像,有什么好處呢?假設你是一名患者,這樣精確個體化的小數據也許可以幫助你回答:我每次服藥應該用怎樣的劑戀比渙耍┪鎪得魘檣匣嵊幸桓鲇靡┲傅跡歉鍪凳腔詿罅坎∪撕A渴萃臣品治齙美吹模什皇屎洗聳貝絲痰哪隳兀坑謔牽憔托枰私夤賾諛闋約旱摹靶∈蕁薄6雜諑圓 ⒁鐘糝ⅰ⒓且淞λネ撕涂寺薅韃。芐枰粘;疃浠氖蕁4笫菀話閌譴右桓齟驨的種群里面取得的,而小數據n=me。我們需要數據解放,把移動和網絡服務的數據解放到你我自己。
這樣一來,小數據也許可以為我們提供更多研究的可能性:能不能通過分析年老父母的集成數據,進而獲得他們的健康信息?能不能通過這些集成數據,比較不同的醫學治療方案?譬如數據跟蹤能說明你散步可以走多遠,你多早離開家,那就可以表明關節炎藥物治療效果如何。
更令人期待的是,小數據或許還將成為人類攻克癌癥的一個好幫手。現在許多人認識到需要用患者的數據進行個性化的癌癥治療。我們要特征化所有患者。腫瘤細胞的DNA引起不同的癌癥病人非常不同的變化。譬如,大致相同的基因變異或刪除只占患者的10%。即使是同一個腫瘤,其細胞的變異也不同。基因之間的相互作用可能引起二次變異,對患者的治療影響很大。所以,對許多患者用同一個治療方法是不可能成功的。個性化或者說層次式的藥物治療是要按照特定患者的條件開出藥方——不是“對癥下藥”,而是“對人下藥”。這些個性化的治療都需要記錄和分析個人行為隨時間變化的規律,這就是小數據。
當然,這并不是說大數據就不重要。在醫學上發現治療的一般規律需要大數據。歐美各國都在計劃編制患者信息的數據庫,不但為了癌癥治療,也為開發新的治療方法。集成大量在線數據庫可以推動個性化用藥,減輕他們的痛苦。從大數據得到規律,用小數據去匹配個人。
大數據流行,大家就“言必稱大數據”,可這并不是做學問的態度,不要碰到大量的數據,就給它戴上一頂帽子“大數據”。就像20年前,系統工程也很時髦。哪怕是做報告談到一個比較大的工程,都說那是系統工程。可系統工程又怎么樣呢?“那是很難的”,就沒有下文了。我們應該敞開思想,研究實際問題,切忌空談。