7月28日是世界肝炎日。關于這一點,相信很多人或許已經從媒體、社交網站和朋友圈得知,比如百度今天就通過各種社交渠道發布了一組主題為“小心肝兒”的圖片,包含了各種關于肝臟保護和使用的常識和竅門,各種有關肝炎的現狀等等。
這些知識包括:世界每三個慢性肝炎患者里就有一個在中國;再比如,中國是肝炎嚴重流行區之一,乙肝病毒感染者的人數有1.2億;還有,中國每年有近40萬人死于肝臟疾病;以及,每飲酒一次相當于得一次輕度肝炎,等等。
但是這還遠遠不夠。
首先,你想跨越國界,來一場說走就走的旅行?根據去年CEVHAP(亞太撲滅病毒性肝炎聯盟)的數據,亞太區每30秒就有一人死于病毒性肝炎,死亡率是艾滋病的3倍,而從1990年到現在,亞太區死于病毒性肝炎的人數已經從每年70萬人增長到100萬人。
其次,你不進行國際旅行,但你像這個國家里一半人那樣,住在城市里。賈雷德 戴蒙德在《槍炮、病菌與鋼鐵》中說的,很多群眾性傳染疾病只有在積聚起足夠多的人口才可能發生,很多我們熟知的傳染病出現的時間都出奇地晚,它們都源自大規模的城鎮化。你總知道中國的城鎮化將是最近數十年這個星球最大的奇觀吧?
對于病毒性肝炎,乃至其他一系列的傳染病來說,那些小貼士有用,但是不足夠有用。非常年代,你需要在過去的經驗中非常陌生、但未來會對你非常有用的工具:大數據。
為何要在肝炎日談大數據?
上面已經說過,世衛組織從2011年起設立世界肝炎日,絕非只因為這天是空閑的。人們并不重視肝炎,一方面是由于肝炎并不像其他一些病毒那樣致命和傳播快速、普遍,另一方面則是由于肝炎具備一些特征,例如只有部分疫苗,以及非季節性和非飛沫傳播等,使其并不那么容易預防。
但是你應該比之前更重視它,因為第一它是很嚴重的傳染疾病,其二是因為我們現在有了更好的工具:大數據。相信我,紅極一時的《大數據時代——生活、工作與思維的大變革》一書,就是源于谷歌使用大數據對2009年甲型H1N1流感的成功預測。作者在引言中說,“這是當今社會所獨有的一種新型能力,以一種前所未有的方式,通過對海量數據進行分析,獲得有巨大價值的產品和服務,或深刻的洞見”。
具體到肝炎,盡管從百年前發現肝炎病毒和部分疫苗以來,人類在醫學上的進展屈指可數,但除了打疫苗和切斷傳播途徑、遠離易感人群,其實還有另外一種積極的預防方法——那就是上述“深刻的洞見”,養成使用大數據分析工具的習慣,經常性地了解所在地或目的地的流行病情況,盡可能地遠離高危的傳染源發地。
目前可供個人使用的大數據工具主要有兩類,一類是來自醫學監測機構的大數據,類似中國的疾控中心,美國的Carolinas Health Care,日本京都大學荒牧研究所等,以來自就診患者統計為主,輔以大數據分析手段,以顯示某地區目前流行病的發病情況為主,預測疾病流行走向為輔;另一類則來自搜索引擎和數據分析機構,包括google trends的疾病預測,百度預測6月上線的疾病預測,以及基于社交搜索的sickwether、patientslikeme和融合性的Healthmap等,以預測疾病流行走向為主,展示區域發病情況為輔。
兩種數據工具的手段大同小異,區別只在于前者提供的數據多是針對大區域的、服務機構的數據需要,后者則多針對小區域甚至某個城市商圈,為個人消費者服務。考慮到中國人的具體需求,這里我們主要介紹針對國外旅行的google預測,和針對國內的百度預測。
Google預測:曾經很準,現在不好說
谷歌流感預測(www.google.org/flutrends)早在2008年即已推出,原理是采用流感趨勢系統監測全美的網絡搜索,尋找與流感相關的詞語,比如“咳嗽”和“發燒”等,并利用這些搜索結果來提前9個星期預測可能與流感相關的就醫量。
2009年在H1N1爆發幾周前,谷歌公司的工程師們在《Nature》上發表了一篇論文,介紹了GFT,成功預測了H1N1在全美范圍的傳播,甚至具體到特定的地區和州,而且判斷非常及時,令公共衛生官員們和計算機科學家們倍感震驚。
這個工具最初運行表現很好,許多國家的研究人員已經證實,其流感樣疾病(influenza-like illness, ILI)的估計是準確的,并且可以提前數周乃至數月,不像疾控中心一樣要在流感爆發一兩周之后才可以做到。
但此后的2013年,《新科學家》發現,在過去3年,該系統一直高估與流感相關的就醫量,在這類數據最有用的流感季節高峰期尤其預測不準確。在2012/2013流感季節,它預測的就醫量是美國疾控中心(CDC)最終記錄結果的兩倍;在2011/2012流感季節,它高估了逾50%。
《scientists》雜志認為錯誤源自一種被稱作大數據浮夸(Big Data Hubris)的算法變化,例如對模型的人工優化,或是模型對某些不當關鍵詞的自動調整(例如某些搜索其實源于季節而非真實發病),google對此也做出了一些調整,但效果仍待評估。
百度預測:新鮮上線,期待閃光
百度的疾病預測(http://trends.baidu.com/disease/)于今年6月上線,目前可以對全國331個地級市,2870個區縣的四種疾病進行未來趨勢的預測,某些城市甚至已經細化到具體的商圈。目前該產品提供流感、肝炎、肺結核和性病四種疾病的活躍度、流行指數,以及各種疾病相關的城市和醫院排行榜,用戶可以查看過去30天以內的數據和未來7天的預測趨勢。而且百度還在疾病預測的頁面上,整合了百度旗下其他優勢產品資源,比如在頁面右下角提供了百度百科和百度健康的鏈接,用戶點擊過去就可以了解到有關當前頁面疾病的各種相關知識。
因為上線時間較短,百度預測的效果還很難評估,但考慮到比google預測上線較晚,加入了一些最新的技術成果和數據采集結果,這款產品在技術上應該是靠譜的。
例如,從公開資料來看,該產品模型的搭建一是通過歷史數據構建統計規律性,比如流感或者手足口等疾病具有季節性周期的規律,二是通過研究疾病人數與其它相關數據的相關性來計算預測結果,同時從統計的角度來驗證數據的正確性,以機器提供的數據為基礎,加入對異常數據的監控和分析。
而為了讓預測的準確率更高,百度還做了另外兩方面的努力。其一是在數據合作上,不僅引入權威機構的相關數據而且保持同步更新,這其中不僅包含數據互通,同時也會與合作方的專家進行產品交流。
另一點不同在于,百度預測引入社交、天氣、人群遷徙等搜索之外的數據,在搜索數據上,google的query數據依賴于Google Correlation產品,而百度則是直接從原始日志中進行清洗、消岐、擴展和分析,相對來說,理論上更容易避免“春天感冒怎么辦”這樣的查詢影響結果。此外,百度的地理劃分可以細化到城市商圈,可以查詢的疾病也比google多。有鑒于此,我們有理由給予其更多的期待。
結語:無論如何,你應該試試
從此前世界杯預測的結果來看,百度擁有比google更靈活的數據挖掘手段,和更專業的分析團隊,但目前我們面對的現實是,百度尚未提供國外服務,因此我建議在國內使用百度預測,在國外則使用google預測,或者試試基于社交媒體數據的sickwether,據說準確率也不錯,達到90%。
需要指出的是,對google的差錯過分擔心是沒有必要的。正如《大數據時代》一書所說,大數據本身探尋的是一種趨勢,而非精準性,大數據時代需要學會接受數據的不完美。換言之,不能因為不精確而放棄大數據的應用和發展,若要無限接近統計結果的真,必須讓大數據與精細的傳統統計方法互補,而非兩者相互替代。
百度也需要面對一些挑戰。例如,目前我國對大數據給健康服務業發展帶來的影響認識不足,在當前的產業發展規劃中,忽視了大數據對該產業的影響,這些都需要百度運用其行業影響去改善。
總的來說,從現在開始,你應該養成出門前看看“疾病預報”的習慣,正如看天氣預報那樣,它惠而不費,而且已經足夠好用,這并不僅限于肝炎。至少我已經開始這么做了。