有人認為,大數據將有助于提高醫療保健行業的效率,促進在該行業推行問責制。然而到目前為止,其他行業在這方面要成功得多:通過對多種數據源進行大規模的整合和分析,獲得了實用價值。
那些成功行業弄明白了一個問題,那就是:當不同的數據集在具體某個人的層面上連接起來時,大數據就會產生變革性的價值。相比之下,生物醫學大數據分散在研究機構中,而且被特意地隔離起來,目的是為了保護病人的隱私。連接這些分散的數據,既有技術方面的挑戰,也有社會方面的挑戰。只有迎接兩個方面的挑戰,才能使生物醫學大數據對醫療保健行業發揮充分的作用。在今天的“觀點”欄目中,我們要著重分析這種連接所帶來的挑戰。
競選活動、政府和企業利用大數據盡可能更多地了解選民或客戶情況,然后利用先進的估算方法來制定策略。2012年奧巴馬競選的時候,把來自臉譜網(Facebook)、人口普查、選民列表以及積極推廣等多種渠道的數據綜合起來,以確認、接近和影響那些猶豫不決的選民。國家安全局通過電話公司和互聯網公司來確認恐怖分子。
通過用戶的上網歷史和地理環境,谷歌公司將每個人的搜索結果進行了個性化處理。在所有的這些事例中,關鍵是已經超出了綜合數據的范圍,將信息連接到了具體的人。知道在某個行政區域內有很多猶豫不決的選民是有所幫助的,但是跟這些具體的人們獲得聯系可能有助于贏得一場競選。
獲得大數據可能會使醫生和研究人員驗證新的假設,并確認那些可能遭受干預的領域。例如,通過從不同地區的商店所獲得的雜貨購買模式,能否預測出公共衛生數據庫中肥胖癥和2型糖尿病的患病率呢?能否像配藥時對后續配方進行測量那樣,將家庭監視裝置所記錄的運動量跟降膽固醇藥物的療效相互關聯起來呢?病人的臉譜網網友在多大程度上能夠影響他們對生活方式的選擇和對醫學治療的依從呢?至于這些相互關聯的推斷是否真正地存在于大數據中,以及醫生們將如何利用這些信息,這些情況都還不清楚。
然而,將數據連接到具體病人的層面上來,是探索這些可能性的先決條件。
在有效利用生物醫學大數據方面,首要的挑戰就是要確定衛生保健信息的潛在來源是什么,以及確定將這些數據連接起來之后所帶來的價值如何。將數據集按照“大小”從不同的方面進行條理化,這個大數據就會提供解決問題的潛在方案。
一些大數據,如電子健康記錄(EHRs),提供詳盡資料,包括病人接受診斷時的多種資料(如:圖片、診斷記錄等)。盡管如此,其他大數據,如保險理賠數據,提供縱深資料——顧及病人在很長一段時間里、在某個狹窄的疾病類型范圍內所經歷的病史。當連接數據有助于填補空白的時候,這些大數據才會增加價值。
只有記住這些,才能更容易明白如何將衛生保健系統之外非傳統來源的生物醫學數據融入這些情況之中。盡管數據的質量有所不同,但社會媒體、信用卡購物、人口普查記錄以及大量其他類型的數據,都會有助于收集一個病人的歷史資料,特別是有助于揭示可能對健康產生影響的社會因素和環境因素。