2014年時代雜志的年度人物稱號由埃博拉患者護理人員獲得,在向他們致敬的同時,讓我們回顧一下去年這場飽受關注并且持續到今年的全球性傳染病事件。
本文由統計之都創作小組 (code99) 撰寫,參與本篇文稿的 code99 成員有:熊熹, 鄧一碩,劉辰昂,關菁菁
2014年繼馬航客機失聯事件之后,始發于西非幾內亞的埃博拉病毒疫情經由傳統媒體和數字媒體走入全球公眾視野。據世界衛生組織提供的資料[1]顯示,埃博拉病毒最早在1976年同時爆發的兩起疫情中首次出現的,一起在蘇丹,另一起在剛果民主共和國。后者發生在位于埃博拉河附近的一處村莊,該病由此得名。該次埃博拉疫情在剛果民主共和國爆發的是扎伊爾標準亞種,累計318人患病,280人死亡,致死率88%;在蘇丹爆發的則是蘇丹亞種,累計284人患病,151人死亡,致死率53%;另外還有雷斯頓、科特迪瓦、邦地布優等三個亞種,對動物和人類的危害相對溫和。據悉,目前正在肆虐全球的埃博拉病毒,正是致死率最高的扎伊爾標準亞種。
埃博拉病毒疫情時隔幾年便爆發一次,不過之前每次疫情規模都比較小,主要集中在一個地區爆發,并且局限在中非。特別地,剛果民眾共和國史上曾多次爆發埃博拉疫情。
2014年3月開始爆發的埃博拉病毒疫情的爆發規模引起了國際社會的關注,并且被世界衛生組織列為“國際間關注的公共衛生緊急事件”(歷史第三次)。首先,這次疫情涉及到了多個國家和地區。全境范圍受影響的國家包括幾內亞、利比里亞和塞拉利昂。部分領土受影響的地區包括馬里的卡伊,西班牙的馬德里,美國的達拉斯、德克薩斯州和紐約市,英國蘇格蘭地區的格拉斯哥市,尼日利亞的拉各斯哈科特港,以及塞內加爾的達喀爾。其次,這次埃博拉病毒疫情出現的病例和死亡數字超過了所有其它疫情的總和。截止2014年12月31號,累計20206人患病,7905人死亡[2]。并且數字還在不斷增加。而所有的埃博拉護理者,則被美國時代周刊選為2014年的年度人物。
回望過去幾十年,人類無疑在信息、科技、生物、醫療等領域取得了今非昔比的成果。反觀2014年埃博拉病毒疫情的爆發、傳播、媒體報導、控制,我們不禁開始思考在這個大數據時代,數據、統計、理性思考、批判思維能為人類對疫情防控帶來什么好處?這篇文章試圖從三個角度去闡述大數據如何與疫情防控緊密相連。本文第一部分討論了如何通過交通數據、移動通信數據與社交媒體數據等非傳統公共衛生數據來測算乃至預測疫情風險;第二部分重點關注死亡率的不同估算方法帶來的對于疫情風險的不同認知;第三部分聚焦在埃博拉病毒疫情的治療和防控支出數據。
一、數據驅動的疫情預測
1. 由交通數據預測疫情[3]
全球人口流動的日趨頻繁使某區域爆發的疫情會給全球其他國家和地區帶來潛在的疫情風險,于是如何對此類疫情風險進行有效的預測和評估自然就成了一個值得探究的課題。本次埃博拉爆發的一個重大特征即是,疫情通過交通運輸突破國境,在源爆發地幾內亞之外多國肆虐。對于國際間的人口流動,飛機顯然是最主要的交通方式,因此對機場人口流動數據的統計分析也就成了重中之重。
事實上機場數據也早已被很多領域的研究者們所重視,基于此類數據分析建模的案例也已屢見不鮮。對于埃博拉疫情傳播的分析,也有研究人員給出了他們的方法,其中一種就是通過估計引入風險(import risk)的方法來量化埃博拉對某一地區可能造成的影響。
對于引入風險的估計,最核心的問題便是如何通過動態模型或是統計模型將風險量化。這里介紹一種比較直觀簡介的估計方式,首先把引入風險分為相對引入風險(relative import risk)和絕對引入風險(absolute import risk)。不妨假設X為疫情爆發區域的某個機場,而Y則是世界上任意一塊區域,那么我們可以通過條件概率的形式來定義相對引入風險,即P(Y|X)。而對于絕對引入風險我們則可以通過聯合概率來定義,即P(X,Y)=P(Y|X)P(X),這里需要注意的是P(X)往往遠小于P(Y|X),因此P(X,Y)也會遠遠小于P(Y|X)。在實際應用中,相對風險較絕對風險而言更有價值,其主要原因在于P(X)的估計在大部分時間都難以實現,事實上P(X)的估計需要依賴于大量的參數來描述X所在地區的各類因素,而絕對風險的估計卻恰恰依賴于P(X)。與此相反,相對風險的計算則僅僅需要各機場人口流動的數據即可,即無需考慮地區本身的相關因素。
將全球各地的機場數據整合后,人們即可以得到各地點相對引入風險的估計值,下一步則是考慮如何將分析結果向公眾展示。顯然數據可視化往往是直觀有效展示分析結果的最佳方式,有人提供了一種基于D3實現的交互式網絡分析圖表。(圖一展示了一個交互式圖表的截圖。有興趣的讀者可翻閱原圖。圖表鏈接:http://rocs.hu-berlin.de/D3/ebola/)
2. 由移動通信數據預測疫情
埃博拉病毒在西非的爆發引起了全世界的關注,人們紛紛把注意力頭像了機場等引起人口流動的公共場所,正如上一節所說,機場數據的確對于流行病學家等研究者們而言具有極高的分析價值,但除此之外,基于手機移動端產生的數據同樣極具應用潛力。
用戶每次利用手機通話的過程中都會同時產生相應的通話記錄數據,其中自然也包含了電話號碼、通話時間以及大致的通信地點等重要信息。對于運營商而言,這些數據可以為各地基站的部署提供參考從而提升通信網絡。另一方面對于城市規劃者而言則可以基于該數據判斷相關地點是否需要拓展相應的公共交通設施。
然而除了上述這些相對常用的應用外,在流行病學的應用卻更令人期待,更激動人心。事實上到目前為止一般情況下對于疾病擴散建模的常用方法依然是基于人口普查的數據以及相關調查。然而對于通信記錄數據,人們卻可以得到實時更新的數據,也就是說在實際應用中無需估計某地區的人口是否會遷移。同時幸運的是,在近幾年中確實并不缺乏類似的成功案例。2009年在墨西哥爆發的豬流感,研究人員就曾利用通信數據監測公眾對于政府發布的健康預警信息的反應。此后2010年隨海地地震爆發的霍亂疫情,研究人員則同樣基于手機通信數據建模并給出了最需要援助地點的最優估計。
在對于埃博拉病毒研究的實際操作中卻更為復雜,一個最主要的原因在于西非大部分民眾并沒有手機或者其他通信設備。不過盡管如此,某種程度上它卻依然優于基于陳舊數據的統計分析。事實上研究人員如果可以從一個傳染病爆發的地域追蹤到人口的流動,那么對于下一個最有可能爆發傳染病的地點就會有一個比較有效的估計和預測,從而可以提前展開合理有效的資源配置。遺憾的是,盡管很多相關的機構都做了很大程度的努力,但出于隱私等問題的考慮,電信運營商依然不允許研究人員使用這部分數據。
3. 由社交媒體數據預測疫情 [4]
網絡和社交媒體數據,對埃博拉病毒的預警,發揮了重大作用。HealthMap是一個利用大數據反應疫情的網站/應用,它使用一定的算法來抓取來自社交媒體網站、本地新聞和政府網站、傳染病醫師的社交網絡和其他渠道的數據,用于探測和跟蹤的疾病暴發。2014年3月14號,HealthMap通過自己的系統,預警了幾內亞境內爆發的“神秘出血熱”。2014年3月19號,HealthMap確認其為埃博拉病毒并對世界衛生組織發出警告,還給出了其在幾內亞東南部熱帶雨林地區傳播的粗略地點和路徑。2014年3月23號,世界衛生組織正式宣布埃博拉疫情爆發并報告了第一個確診案例。在這時,HealthMap已經追蹤了在幾內亞的29例確診和29人死亡 ——所有數據和報告都來源于社交媒體和當地政府網站等。
HealthMap利用復雜而算法,過濾不相關的數據,結合領域內專家的幫助,再對相關的信息進行分類,確定疾病的類型并在地圖上定位爆發地點。針對這次埃博拉疫情,在世界衛生組織宣布當天,HealthMap就上線了專門的頁面,其中包含一個實時可交互的地圖。全球網友可以通過這個可交互地圖來免費了解疫情,其中包括具體的暴發地點和跟蹤新的病例和死亡人數的信息。該系統還能夠記錄公眾的關注度。用戶可以在地圖上放大特定的國家和地區,上面會標記主要病例報告。用戶點擊標記會指向爆發的新聞報道。同時,在地圖底部的滾動條可以讓你通過點擊關鍵日期,以追蹤病情進展。
這不是HealthMap第一次立功了。這個組織成立于2006年,由一組研究人員,流行病學家和軟件開發人員組成的團隊,利用網上各式各樣的數據來源,監測和預測的疾病暴發,并實現對公共健康威脅的實時監控。他們匯集了各式不相干的數據源,包括網絡新聞集中平臺,目擊者報告,專家策劃討論和官方驗證的報告。除了實時和可交互的呈現數據,HealthMap也致力于預測疾病風險。曾經有報導稱,該組織成功使用boosted regression tree等模型成功預測了SARS在中國境內爆發的死亡率。
HealthMap的官網宣稱,他們主要的數據來源是 ProMED(一個國際傳染病協會,成員主要為一線醫生和研究人員)郵件列表、世界衛生組織官網,GeoSentinel(來自國際旅行醫學協會和美國疾病預防控制中心的臨床醫生以個人身份的檢測)、世界動物健康組織官網、聯合國糧農組織、EuroSurveillance(歐洲地區以同行評審為目的的傳染病監測和交流的信息平臺)、Wildlife Data Integration Network(一個全球野生動物基本新聞源)、谷歌新聞搜索,百度新聞和搜搜資訊。另一份公開發表的論文顯示,大部分數據來自ProMED (61. 58%),谷歌等其他搜索引擎新聞則貢獻了25. 24%,除此之外比較重要的來源還包括 RSS 訂閱(12. 11%), 推特等社交媒體(8. 7%)[5]。這和新聞中極力鼓吹的完全通過社交媒體預測埃博拉疫情,似乎還是有一定的差距。這個社交媒體并不是大眾所以為的普通公開社交媒體,而是全球一線醫護人員建立的社交網絡。事實上,谷歌以及其他一些社交媒體都試圖通過抓取網絡關鍵詞來監控和預測疾病信息,但是并沒有取得如此好的效果。谷歌曾經宣稱自己的系統很好地預測了美國每一季的流感爆發,而實際數據顯示,他們的系統常常高估了患病率。普通人對疾病的感知和在社交網絡的分享,的確不如實際病情那么準確。另一方面,推特的數據顯示,埃博拉引起了美國用戶前所未有的恐慌,各州的討論數字一片飄紅,網絡極端言論層出不窮。但實際上美國至今也只有4個確診案例和一個死亡案例。
來自以色列貝斯醫療中心的臨床信息學專家Brad Crotty博士在接受采訪時說,HealthMap事實上還有很多工作要做,以排除“背景噪音”。這位專家并不是這個組織的成員。
Crotty博士說:“你的確可以得到早期預警,但他們并不總是正確的。”
而正在負責HealthMap運營的Sumiko Mekaru博士則稱,他們的本意是作為傳統和官方健康報告的輔助,而不是取代它們。
二、疫情死亡率的計算與估計[6]
死亡率的計算十分重要,特別是對于傳染性疾病。病死率在流行病學中是一個非常重要的估計指標,因為它告訴我們感染特定疾病后死亡的概率。如果正在爆發中的估算準確,甚至可以幫助我們確定病毒是否在危害性方面發生變異,以及研究最合適的治療方案。
正在西非乃至全球 肆虐的埃博拉病毒,有著眾所周知的高致死率。在以往 的爆發中,高達90%的被感染者死于埃博拉。和本次大爆發同宗的扎伊爾型埃博拉病毒以往平均死亡率為80%。這也是為什么,世界衛生組織最新疫情報告中的數據看起來有那么一丁點像好消息—— 盡管埃博拉感染率正在以驚人的速度攀升,報告中整體死亡率卻只有53%,從塞拉利昂的39%到幾內亞的64%。這比以往幾次疫情爆發要相對溫和一點。難道是這次爆發的病毒比以往的致死率與危害性低一點?還是說我們已經有了更有效的治療方案?
實際上此處有一個隱情:明顯降低的死亡率可能更多是因為官方測算方式的緣故,而非病毒的致死率,或者說患者接受的治療水平導致的。事實上,最近幾周感染人數的急劇增加,正是報告死亡率看起來不那么高的其中一個主要原因。
官方所謂的死亡率,或者說一個爆發疾病的“病死率”,有若干計算方式。其中最為簡單的,就是目前死亡人數除以目前總感染人數。世界衛生組織最近報告的死亡率也就是這樣計算的。
但是這種方法并沒有考慮到,許多依然存活的病人——特別是剛剛被診斷又病得很厲害的——很可能也不能活下來。因此這低估了實際死亡率。特別是疾病在快速擴張時,這種低估效應會被加大。來自英國愛丁堡大學研究傳染病的進化生物學家Andrew Rambaut認為,這種計算也忽視了那些被確診為埃博拉感染者,卻在被批準恢復并出院之前已經離開醫院的患者的生死。許多這樣的病人后來都死了,但是卻沒有被統計在官方死亡數據中。
另一種計算方式是只考慮已經確認恢復而不再需要治療與已經死于疾病的患者,而不計入目前還在治療中的病人。這樣的結果看起來更為克制精確。根據11月5號塞拉利昂健康與衛生部最新疫情報告,841個確診病人被治療后出院了,而1,103個確診病人已經過世。這樣該地的埃博拉死亡率應該是57%,而非世界衛生組織報告的39%。不過來自哈佛公共衛生學院的流行病學專家Marc Lipsitch認為,這樣的計算方式依然不夠準確。治愈出院的病人通常比死于病癥的病人,要在醫院待更長的時間。也就是說不計入計算的還在治療中的病人,實際上是更可能治愈的那批。因此這樣的計算會高估實際死亡率。
另一種更為精確的方法是,只計算那些同時感染了,又經歷了足夠長的時間,以至于要么死于病癥要么恢復出院的人的最終結果。這樣的計算,自然更接近于死亡率的定義與本質。Rambaut注意到,Science上一篇研究埃博拉病毒的最新變異的報告中,今年五月底開始的一次地區性爆發中共確診了78名埃博拉患者,23名存活下來。也就是說今年爆發的埃博拉病毒實際致死率應為70%。值得注意的是,這份報告由來自四個國家的五十多名奮戰在一線的醫療工作者共同完成,其中五名共同作者并沒有等到文章在Science上的發表。因為他們在研究與等待上線過程中已經感染了埃博拉去世了。
世界衛生組織戰略部主管Christopher Dye說,目前組織正在轉向這個測算方法,并在為將每一個病患的記錄都整理為護理案例而努力。Dye說,“我們需要最有效的估計。我們想知道埃博拉在這次爆發中的致死率,是否與之前在中非的幾次爆發有所不同,以及目前爆發中不同的治療方案是否有不同的效果。”
不過,即使這個方法依然是不夠完美的。在大多數疾病爆發中,由于病患并沒有尋求醫療機構的幫助而導致統計案例缺失,從而帶來致死率估計的偏差。Lipsitch認為,這種偏差可能是偏大的,也可能是偏小的。許多案例的病情相對溫和——感染患者并不需要看醫生就能自行康復——因此統計到的數據高估了實際死亡率(這正是墨西哥H1N1流感爆發時的情況,專家懷疑中東呼吸綜合征爆發時也存在這種情況)。不過Lipsitch也說,溫和版的埃博拉不大可能像溫和版流感那樣難以發現,只是考慮到這些地方整體缺少醫療條件,有可能存在一定數量的自愈患者沒有被統計到。
另一方面,研究者注意到許多埃博拉感染者還沒去到醫院已經死在家中(通常還感染了其他家庭成員和照顧者)。這意味著他們的死亡并沒有被計算——從而低估了致死率。
到底有多少未被記錄的埃博拉病毒死亡病例發生,我們將永遠不得而知。衛生官員正在跟蹤疑似病例和可能病例,其中有許多是在被確診為埃博拉之前已經死了的。是否將這些案例放在致死率計算中是另一個潛在的誤差來源。另外,確診測試在不同的地區有不同的模式:例如,有些地方已經做了更多的驗尸測試。Lipsitch說:“怎么在這些誤差中保持平衡始終是一個大問題”
Dye在一封郵件中寫道:“我們并非不知道估計死亡率的種種困難。我也并不認為,埃博拉的死亡率在塞拉利昂的死亡率(39%)比在幾內亞(64%)低。盡管目前的數據從表面上看如此,但我們需要排除所有的估計誤差才能相信這個是事實。”
另外,最早根據社交網絡大數據預測了今年埃博拉全球性爆發的HealthMap(前文有詳細介紹),則給出了死亡率另一種測算方式。他們認為,最準確的死亡率要等到疫情完全被控制,所有感染者要么過世,要么確認存活之后才能得到。目前報告的53%,只不過是死亡案例比例(proportion of fatal cases ,以下簡稱 PFC)。
盡管埃博拉惡名昭彰,但并不是一感染上馬上就死去。如果沒有適當調整,目前的估算方式(也就是前文提到的最簡單并正在被世界衛生組織采用的PFC)沒有考慮到從患者被感染到死去的滯后時間——按照HealthMap采用的獨創方差最優化方法,對本次爆發案例做出的估算,這個時間平均大約應該是16天。這意味著9月8號報告的2296名死亡案例實際上對應著8月23號報告的感染案例。根據這個滯后時間調整的PFC為我們提供了對真實致死率一個更好的近似。下圖是他們根據世界衛生組織提供的數據計算和繪制的調整后死亡率圖:
根據上圖,調整后的埃博拉死亡率——大約在80-85%之間——比實際報告的結果高多了。不過這個調整后死亡率和無國界醫生組織提供的數據比較一致。從今年三月份開始無國界醫生組織收治了2077名疑似感染者,其中1038名被確診,確診患者中241名康復出院,也就是說死亡率高達77%。
三、數讀埃博拉:醫療支出
對于全球防治埃博拉疫情所需的花費,目前有幾個數據或許可以給我們提供一點大概范圍。
第一個要提到的數據是聯合國今年九月份的調查報告。https://docs.unocha.org/sites/dms/CAP/Ebola_outbreak_Sep_2014.pdf
當時對抵抗埃博拉病毒的下六個月所需花費的估計是大概10億美元(987.8M)。花費主要在五個方面:
停止擴散(STOP the outbreak)[5M+23.8M]
治療患者(TREAT the infected)[331.2M + 14.0M]
保證關鍵服務 (ENSURE essential services)[107.7M+97.1M+2.5M+64.8M]
維持穩定(PRESERVE stability)[42.6M+23.4M+45.8M+3.2M]
防治未受感染國家被感染 (PREVENT outbreaks in countries currently unaffected)[11.9M]
這當然是9月份當時的估計,現在看來會不一定準確,但最少可以大家看清楚大概那些地方最需要花錢,大概要多少。同時也可以給有捐款的國家和個人一些需求的信息。
第二個數據是關于治療患者的費用的。美國商業媒體Bloomberg發布了一篇文章,標題是: Bill for Ebola Adds Up as Care Costs $1,000 an Hour(治療埃博拉的費用加起來有每小時一千美元)。 這個聽起來有點聳人聽聞。仔細一讀文章,原來講的是醫院在治療在美國德州去世的埃博拉病人Thomas Eric Duncan 時的花費情況。在對這位病人的醫治過程中,每天的花費大概在18,000到24,000之間,報道時去上限,得到每小時一千美元的估計。我想花在給非洲的病人治病的花費肯定比這個數字要小太多。
第三個數據是關于誰出錢的問題的。這里有個表,是對應當時下六個月所需的987.8M美元的來源的。http://data.163.com/14/1020/02/A8VGQE1600014MTN.html在當時的這些捐款中,世界銀行,美國,非洲發展銀行占了大頭。世界上大多數國家都多多少少有貢獻。資金來源和用途的透明公布有助于讓出力的國家,組織和個人對資金的合理運用有及時了解,這樣也可以促進更多的力量來加入抗擊疾病的戰斗中。
小結
雖然最近關于埃博拉的報道不在像幾個月前那么熱鬧,現在全球抵御埃博拉疫情的戰役仍在緊張的進行中。在這個信息時代里,隨著我們收集數據和運用數據的能力的爆發,世界各個角落都緊密地聯系在這個信息網絡中。數據和對其適當的分析已然成為人類征服自然界和適應自然界的重要力量。