當前位置：大數據 → 業界動態 → 正文

從肝炎、流感到大數據預測疾病

責任編輯：editor006 |來源：企業網D1Net 2014-07-29 16:46:57 本文摘自：IT之家網站

7月28日是世界肝炎日。關于這一點，相信很多人或許已經從媒體、社交網站和朋友圈得知，比如百度今天就通過各種社交渠道發布了一組主題為“小心肝兒”的圖片，包含了各種關于肝臟保護和使用的常識和竅門，各種有關肝炎的現狀等等。

這些知識包括：世界每三個慢性肝炎患者里就有一個在中國；再比如，中國是肝炎嚴重流行區之一，乙肝病毒感染者的人數有1.2億；還有，中國每年有近40萬人死于肝臟疾病；以及，每飲酒一次相當于得一次輕度肝炎，等等。

但是這還遠遠不夠。

首先，你想跨越國界，來一場說走就走的旅行？根據去年CEVHAP（亞太撲滅病毒性肝炎聯盟）的數據，亞太區每30秒就有一人死于病毒性肝炎，死亡率是艾滋病的3倍，而從1990年到現在，亞太區死于病毒性肝炎的人數已經從每年70萬人增長到100萬人。

其次，你不進行國際旅行，但你像這個國家里一半人那樣，住在城市里。賈雷德戴蒙德在《槍炮、病菌與鋼鐵》中說的，很多群眾性傳染疾病只有在積聚起足夠多的人口才可能發生，很多我們熟知的傳染病出現的時間都出奇地晚，它們都源自大規模的城鎮化。你總知道中國的城鎮化將是最近數十年這個星球最大的奇觀吧？

對于病毒性肝炎，乃至其他一系列的傳染病來說，那些小貼士有用，但是不足夠有用。非常年代，你需要在過去的經驗中非常陌生、但未來會對你非常有用的工具：大數據。

為何要在肝炎日談大數據？

上面已經說過，世衛組織從2011年起設立世界肝炎日，絕非只因為這天是空閑的。人們并不重視肝炎，一方面是由于肝炎并不像其他一些病毒那樣致命和傳播快速、普遍，另一方面則是由于肝炎具備一些特征，例如只有部分疫苗，以及非季節性和非飛沫傳播等，使其并不那么容易預防。

但是你應該比之前更重視它，因為第一它是很嚴重的傳染疾病，其二是因為我們現在有了更好的工具：大數據。相信我，紅極一時的《大數據時代——生活、工作與思維的大變革》一書，就是源于谷歌使用大數據對2009年甲型H1N1流感的成功預測。作者在引言中說，“這是當今社會所獨有的一種新型能力，以一種前所未有的方式，通過對海量數據進行分析，獲得有巨大價值的產品和服務，或深刻的洞見”。

具體到肝炎，盡管從百年前發現肝炎病毒和部分疫苗以來，人類在醫學上的進展屈指可數，但除了打疫苗和切斷傳播途徑、遠離易感人群，其實還有另外一種積極的預防方法——那就是上述“深刻的洞見”，養成使用大數據分析工具的習慣，經常性地了解所在地或目的地的流行病情況，盡可能地遠離高危的傳染源發地。

目前可供個人使用的大數據工具主要有兩類，一類是來自醫學監測機構的大數據，類似中國的疾控中心，美國的Carolinas Health Care，日本京都大學荒牧研究所等，以來自就診患者統計為主，輔以大數據分析手段，以顯示某地區目前流行病的發病情況為主，預測疾病流行走向為輔；另一類則來自搜索引擎和數據分析機構，包括google trends的疾病預測，百度預測6月上線的疾病預測，以及基于社交搜索的sickwether、patientslikeme和融合性的Healthmap等，以預測疾病流行走向為主，展示區域發病情況為輔。

兩種數據工具的手段大同小異，區別只在于前者提供的數據多是針對大區域的、服務機構的數據需要，后者則多針對小區域甚至某個城市商圈，為個人消費者服務。考慮到中國人的具體需求，這里我們主要介紹針對國外旅行的google預測，和針對國內的百度預測。

Google預測：曾經很準，現在不好說

谷歌流感預測（www.google.org/flutrends）早在2008年即已推出，原理是采用流感趨勢系統監測全美的網絡搜索，尋找與流感相關的詞語，比如“咳嗽”和“發燒”等，并利用這些搜索結果來提前9個星期預測可能與流感相關的就醫量。

2009年在H1N1爆發幾周前，谷歌公司的工程師們在《Nature》上發表了一篇論文，介紹了GFT，成功預測了H1N1在全美范圍的傳播，甚至具體到特定的地區和州，而且判斷非常及時，令公共衛生官員們和計算機科學家們倍感震驚。

這個工具最初運行表現很好，許多國家的研究人員已經證實，其流感樣疾病（influenza-like illness, ILI）的估計是準確的，并且可以提前數周乃至數月，不像疾控中心一樣要在流感爆發一兩周之后才可以做到。

但此后的2013年，《新科學家》發現，在過去3年，該系統一直高估與流感相關的就醫量，在這類數據最有用的流感季節高峰期尤其預測不準確。在2012/2013流感季節，它預測的就醫量是美國疾控中心（CDC）最終記錄結果的兩倍；在2011/2012流感季節，它高估了逾50%。

《scientists》雜志認為錯誤源自一種被稱作大數據浮夸（Big Data Hubris）的算法變化，例如對模型的人工優化，或是模型對某些不當關鍵詞的自動調整（例如某些搜索其實源于季節而非真實發病），google對此也做出了一些調整，但效果仍待評估。

百度預測：新鮮上線，期待閃光

百度的疾病預測（http://trends.baidu.com/disease/）于今年6月上線，目前可以對全國331個地級市，2870個區縣的四種疾病進行未來趨勢的預測，某些城市甚至已經細化到具體的商圈。目前該產品提供流感、肝炎、肺結核和性病四種疾病的活躍度、流行指數，以及各種疾病相關的城市和醫院排行榜，用戶可以查看過去30天以內的數據和未來7天的預測趨勢。而且百度還在疾病預測的頁面上，整合了百度旗下其他優勢產品資源，比如在頁面右下角提供了百度百科和百度健康的鏈接，用戶點擊過去就可以了解到有關當前頁面疾病的各種相關知識。

因為上線時間較短，百度預測的效果還很難評估，但考慮到比google預測上線較晚，加入了一些最新的技術成果和數據采集結果，這款產品在技術上應該是靠譜的。

例如，從公開資料來看，該產品模型的搭建一是通過歷史數據構建統計規律性，比如流感或者手足口等疾病具有季節性周期的規律，二是通過研究疾病人數與其它相關數據的相關性來計算預測結果，同時從統計的角度來驗證數據的正確性，以機器提供的數據為基礎，加入對異常數據的監控和分析。

而為了讓預測的準確率更高，百度還做了另外兩方面的努力。其一是在數據合作上，不僅引入權威機構的相關數據而且保持同步更新，這其中不僅包含數據互通，同時也會與合作方的專家進行產品交流。

另一點不同在于，百度預測引入社交、天氣、人群遷徙等搜索之外的數據，在搜索數據上，google的query數據依賴于Google Correlation產品，而百度則是直接從原始日志中進行清洗、消岐、擴展和分析，相對來說，理論上更容易避免“春天感冒怎么辦”這樣的查詢影響結果。此外，百度的地理劃分可以細化到城市商圈，可以查詢的疾病也比google多。有鑒于此，我們有理由給予其更多的期待。

結語：無論如何，你應該試試

從此前世界杯預測的結果來看，百度擁有比google更靈活的數據挖掘手段，和更專業的分析團隊，但目前我們面對的現實是，百度尚未提供國外服務，因此我建議在國內使用百度預測，在國外則使用google預測，或者試試基于社交媒體數據的sickwether，據說準確率也不錯，達到90%。

需要指出的是，對google的差錯過分擔心是沒有必要的。正如《大數據時代》一書所說，大數據本身探尋的是一種趨勢，而非精準性，大數據時代需要學會接受數據的不完美。換言之，不能因為不精確而放棄大數據的應用和發展，若要無限接近統計結果的真，必須讓大數據與精細的傳統統計方法互補，而非兩者相互替代。

百度也需要面對一些挑戰。例如，目前我國對大數據給健康服務業發展帶來的影響認識不足，在當前的產業發展規劃中，忽視了大數據對該產業的影響，這些都需要百度運用其行業影響去改善。

總的來說，從現在開始，你應該養成出門前看看“疾病預報”的習慣，正如看天氣預報那樣，它惠而不費，而且已經足夠好用，這并不僅限于肝炎。至少我已經開始這么做了。

關鍵字：流感谷歌大數據