汪浩
金域檢驗首席數(shù)據(jù)官
為什么中國的電商指數(shù)能預測特朗普當選?
前不久,一定有很多人追蹤過美國大選,這次大選的結果讓人跌破眼鏡,因為所有媒體在選前都認為希拉里會贏,都認為特朗普是弱勢的一方,但結果卻是迥然不同的。
其實早在三個月前,我們中國人手里就已經(jīng)有了一些能夠預示這個結果的數(shù)據(jù)。
阿里巴巴在大選前對美國總統(tǒng)候選人各自的粉絲購買的宣傳品做了比較,紅線就是特朗普的,他的粉絲買了帽子、面具、標語等等;藍色的是希拉里,你會發(fā)現(xiàn)兩組支持者的熱情是不一樣的。
在這屆的美國大選中,只有55%的合法選民去投票,特朗普獲勝的關鍵因素就是,支持他的人比支持希拉里的人更狂熱,他們都去投票了。
阿里巴巴的數(shù)據(jù)在三個月之前就能看出端倪,最后果然是特朗普贏了,所以數(shù)據(jù)能告訴我們很多智慧。當今數(shù)據(jù)的量已經(jīng)非常龐大,要按字節(jié)算的話,它已經(jīng)超過了太陽系所有原子數(shù)目的總和,如果我們能夠把這些大數(shù)據(jù)很好地運用起來,就能給我們非常多新的信息和知識。
這一張圖是我們中國的數(shù)據(jù),右邊是百度地圖顯示的最近某年春運期間的人口遷徙方向,左邊是該年春運第一天,十大人口遷出城市和十大人口遷入城市。
只要看到這個,我們很快就能理解為什么三四線城市的房價支撐力比一線城市弱得多,我們知道,人口總是從三四線城市流向一線城市,因此北上廣這些地方房價的指數(shù)一定是很高的。
我們的主觀感知往往與大數(shù)據(jù)結論相悖
我們很多主觀感覺和個人想象,往往和大數(shù)據(jù)的結果是不相符的。
在我出國之前,印象中一直覺得我們國家是貧窮的,我們的生活質量、健康指數(shù)比發(fā)達國家落后。但是這張圖告訴我們,事實并非如此。
這是由一位美國科學家把很多個國家的人均收入和平均壽命從1800年起進行對比,而后畫出來的圖像。這上面每一個圓點對應一個國家一年的平均國民收入和平均壽命,黃色的點代表美國,紅色的點代表中國。美國的數(shù)據(jù)從1802年開始,實際上美國的起點和中國人是很像的,它有很多年是停滯發(fā)展的,從這張圖可以看到,在它的國民收入不停增長的同時,它的國民平均壽命,并沒有什么太大變化,它一直是平的。
而中國則不一樣,中國是因為1800年之后,有過很多災難和戰(zhàn)爭,所以在將近100年的時間,中國的紅點一直就在左下角徘徊,國民收入和人均壽命一直有波動。
但是從1949年以后,雖然中國還沒有富起來,但由于有了相對規(guī)范的社會管理和一些衛(wèi)生政策的實施,我們國民的平均壽命開始有了飛躍式增長。實際上它很快和發(fā)達國家的平均壽命持平,達到了65~70歲。一直到改革開放之后,這個紅點開始向右移動,那就說明中國人在健康之后,又富了起來。
這些數(shù)據(jù)如果不畫出來,也許我們對歷史的解讀會有一個不同的結論。
非醫(yī)學專業(yè)的人,也能通過大數(shù)據(jù)幫助人類健康
那么大數(shù)據(jù)能夠為我們的醫(yī)療和健康做什么事情呢?
它可以拯救生命。1854年,倫敦曾經(jīng)有過霍亂的大爆發(fā),當時每年有兩萬三千多人因此喪生。沒有人能知道為什么,因為當初顯微鏡看不到病原體,很多醫(yī)療技術還沒有被發(fā)明。在這種情況下,倫敦開始研發(fā)它的大數(shù)據(jù)。
他們做的一件事情就是統(tǒng)計倫敦市民的死亡數(shù)據(jù),每個街道每戶人家,哪一年死了什么人,都登記下來。有一個非常勤奮的衛(wèi)生官員,還把倫敦地圖畫出來,并且根據(jù)這個倫敦市民死亡數(shù)據(jù)去調(diào)查死者的年紀和死因,并統(tǒng)計了霍亂的死亡癥狀和數(shù)據(jù),把霍亂在倫敦擴散的情況和地圖做了對比,就是右邊這個圖。
他很快就找到了霍亂的傳染源,雖然傳染源的水也看不出有任何污染,倫敦政府的官員將信將疑,但還是關閉了這個水源。關掉之后的第二年,倫敦霍亂死亡人數(shù)大大下降。
這個數(shù)據(jù)分析,拯救了成千上萬個人,這就是大數(shù)據(jù)對我們的神奇作用。
下面這個是現(xiàn)代版的大數(shù)據(jù)研究,根據(jù)美國幾百萬人的電子病歷做出的分析。
左邊記錄了所有人的疾病,如果一個病人又有疾病a,又有疾病b,就在a和b之間連一條曲線,你就看到有些疾病互相關聯(lián)得比較緊密,有一些疾病沒有什么關聯(lián);通過這些數(shù)據(jù),整合成右邊的疾病網(wǎng)絡,我們可以看到人是怎么樣產(chǎn)生疾病或傳染疾病的。比如背部的肌肉疼痛,可能會有的并發(fā)癥。
這些圖是由像我這樣并沒有受過醫(yī)學訓練的人畫出來的,我也并不懂醫(yī)學的原理,但是因為我們有了城市人群的醫(yī)療數(shù)據(jù),我們就能知道很多病之間是有關聯(lián)的,我們治病a的時候,可能要考慮病b,不能頭疼醫(yī)頭腳疼醫(yī)腳,而應該是系統(tǒng)性地進行治療。
因此這就是現(xiàn)代數(shù)據(jù)對人們健康生活的一個重要指導作用。那么大數(shù)據(jù)對我們城市健康還有什么深刻的影響呢?
大家都很關心PM2.5,這是紐約市對空氣污染和人口晝夜分布做出的分析。
他們在城市里到處布置傳感器,測量不同位置PM2.5的濃度,然后畫出來它的分布情況。深紅色就是PM2.5比較高的地方,也就是說曼哈頓的下端和布魯克林的上端污染最嚴重。但這里并沒有告訴它對人口的影響。
下面是麻省理工學院一個研究團隊,把這些數(shù)據(jù)和其它不同數(shù)據(jù)聯(lián)合起來做出的分析。
左邊是紐約市人口居住密度的數(shù)據(jù),深綠色表示居住人口比較多;右邊通過美國移動手機的位置數(shù)據(jù)分析紐約市晝夜人口分布差異,我們可以看到白天人口集中在曼哈頓的下端和布魯克林的上端。
把這兩方面的數(shù)據(jù)和PM2.5的監(jiān)測數(shù)據(jù)放到一起,可以得出不同時間霧霾對人的影響。
現(xiàn)有的宮頸癌防治方案都是由西方制定的
中國人需要自己的大數(shù)據(jù)研發(fā)精準醫(yī)療
我們可以利用大數(shù)據(jù)做到精準醫(yī)療。
什么叫精準醫(yī)療?就是在制定預防措施和治療方案的時候,把人的基因、生活環(huán)境和生活習慣等因素考量進去,使得治療手段更有效率、更健康,這就叫精準醫(yī)療,精準醫(yī)療是離不開精準數(shù)據(jù)的。
我們的團隊現(xiàn)在擁有中國2300多項醫(yī)學檢驗的海量數(shù)據(jù),每年處理的標本量超過了四千萬例,覆蓋了全國98%的人口、所有的民族,所有的年齡層次以及性別。
其中一項是宮頸癌篩查。在過去幾年當中,我們?yōu)?7個省市,大概1600多萬人做了宮頸癌的篩查,之后我們從數(shù)據(jù)中獲得了很多以前我們不知道的信息。
一個是,我們找到了針對中國人口漏檢率最低的檢測方式。
左邊我們看到用細胞學檢測方式會有百分之一點幾的漏檢率,右邊病毒學的檢測方式,漏檢率就更高,百分之八九左右。
但是如果我們團隊把兩種檢測結合起來一起做,漏檢率可以降低到0.6%,數(shù)據(jù)更加準確了,結果就更好了。
其次,我們發(fā)現(xiàn)宮頸癌的感染病毒HPV的100多種型別中,中國人群感染率最高的型別是52型,16型,58型,這和全球HPV數(shù)據(jù)中心報道的感染率最高的16和18型不同。
但是,目前宮頸癌的預防、宮頸癌的篩查和患者管理指南主要是基于HPV16/18型等高危型HPV設計和制定的,我國并沒有自己獨特的預防、篩查和患者管理方案,這值得我們重視和思考。
有了中國人口的大數(shù)據(jù),我們就能夠幫助我們中國人開發(fā)有助于自己特點的,更優(yōu)化的醫(yī)療手段和藥物,并且,大數(shù)據(jù)也使預防成為可能。
為什么將來我們不再需要那么多醫(yī)院?
想要在一個人得病之前就知道他將來要得什么病,這是很難的一個事情,如果沒有數(shù)據(jù),基本上是不可能的。
但是現(xiàn)在我們的技術手段和工作方式已經(jīng)與以前非常不同了,比如說一個嬰兒從出生那一刻就開始產(chǎn)生大量的數(shù)據(jù),我們把它成長的每個階段的數(shù)據(jù)都記錄、保存起來,于是后面就能夠在人的任何方面,進行數(shù)據(jù)的挖掘和分析。
比如說我們?nèi)チ酸t(yī)院,留下了電子病歷;我們?nèi)チ顺校覀兞粝铝速徺I食物的證據(jù);我們?nèi)チ嗽\所跟醫(yī)生談過,那么醫(yī)生給了我們什么建議;我們在學校做了什么、我們的生活習慣是什么、我們抽不抽煙……這些數(shù)據(jù)都可以量化,都可以在城市內(nèi)對大范圍的人群進行量化。
那么,我們未來的醫(yī)療就已經(jīng)不是簡單的住不住院的問題,去不去急診的問題,它會包含日常保健、疾病預防、急性病和慢性病的管理,甚至臨終護理等等。
比如90%的宮頸癌是可以預防和治愈的。宮頸癌從感染到癌變可以長達10年,10年足以讓患者做很多的工作,讓它不產(chǎn)生癌變。而宮頸癌跟很多風險因子有很直接的關系,我們有了數(shù)據(jù),就可以針對這些高風險的宮頸癌感染人群進行預防和護理,改變不利的生活方式,那么就能夠延遲,甚至成功地阻止宮頸癌癌變。
那么有了大數(shù)據(jù)和大預防,我們城市生活當中的醫(yī)療資源還可以得到更好、更恰當?shù)睦谩?/p>
這是我們在以前埃森哲做的一些研究,這個金字塔上的百分比是有病人口的百分比,金字塔側面的數(shù)據(jù)是,它對社會醫(yī)療資源的消耗程度。
那么我們就看到了,健康人群只消耗一個社會20%的衛(wèi)生資源,其他80%都被有病人群消耗掉了。在有病人群里面,只有20%左右是非常復雜的非常急的病,這些病會消耗掉整體60%的資源。
這就告訴我們,如果我們可以盡量阻止健康人口變成有病人口,防止慢性病人口變成復雜病人口,那么我們就能把社會的醫(yī)療資源節(jié)約起來,更合理地匹配和應用。
那么我們將來還會需要那么多醫(yī)院嗎?答案是:不需要那么多了。
我們還需要醫(yī)院,但是我們可以在大數(shù)據(jù)的指引下,對人生活的每一個階段進行干預和指導,做個性化的醫(yī)療服務。
有了大數(shù)據(jù),我們對城市人口的集體行為有了更多的認知,我們了解到一個社會是如何互動的,數(shù)據(jù)可以對出現(xiàn)的問題提供有針對性的解決方案,我們將會因此而更健康,我們的生存環(huán)境將會因此而更美好。
謝謝大家。