大數據很熱門,各行各業都在談大數據,據說連賣油條的都在用移動互聯網,在談大數據了。自從我說了我們醫院今年的信息工作重點有三項:移動互聯網、云、大數據以后,我也被當成大數據專家,受邀發表議論和在論壇上演講了。
雖然大數據很熱門,大家也都在談大數據,但是真正懂行的專家還是很少。因此,大數據有點像青少年談性Teenager sex,Everyone talks about it(每個人都在談), nobody really knows how to do it(沒人真正知道怎么做), everyone thinks everyone else is doing it(每個人都認為別人都在做),so everyone claims they are doing it too(所以每個人都聲稱自己在做)。
既然大家都不懂,起點也就差不多,所以受邀請演講我也就不會那么心虛了。在準備講稿之前,我刻意沒有去看書,也沒有去看文獻。完全從一個臨床醫生的角度去思考什么是大數據,大數據會給醫學帶來什么影響,我甚至杜撰了幾個關于大數據的英文詞,如果這幾個詞真的是存在的,純屬巧合。
先談談循證醫學
最近,我的一位好友,來自美國的Michael A. Belfort教授在著名的“新英格蘭醫學雜志NEJM”上發表了一篇文章。對于做臨床的醫生來講,這輩子能夠在NEJM發表哪怕一篇文章也就值了,所以我就通過WhatsApp向他表示了祝賀。他的這篇文章是來自美國母胎醫學協作網絡的一項大樣本多中心隨機對照研究,是I類證據,理論上講這篇文章的結論是基本上判了STAN(ST Analysis,胎兒心電圖ST段分析)的“死刑”。
這篇文章的題目是:A RandomizedTrial of Intrapartum Fetal ECG ST-Segment Analysis.Michael A. Belfort, M.B.,B.Ch., M.D., Ph.D.et al, N Engl J Med 2015; 373:632-641,August 13, 2015.
本研究招募了11,108 名孕婦,隨即分為“開放組”和“不開放組”,“不開放組”有5576名孕婦,進行常規胎心監護;“開放組”有5532名孕婦,在常規胎心監護的基礎上給予STAN結果。對兩組孕婦比較圍產兒總的不良結局:死胎、新生兒死亡、5分鐘Apgar評分小于等于3分、新生兒抽搐、臍動脈pH 小于等于7.05、剩余堿大于等于12 mmol/L、分娩時新生兒插管或人工通氣、或新生兒腦病。在“開放組”組,共有52例不良結局(0.9%),在“不開放組”,共有40例不良結局(0.7%)。結論是,在常規胎心監護的基礎上,加用STAN并不能改善圍產兒的不良結局。
這種小概率事件,通過樣本量不大的研究,得出的就是一個I類的循證醫學證據。但是,很有可能多幾例和少幾例的情況就會導致完全不同的結論。還有可能是如果其他人再做一個同樣的研究,也可能得出完全相反的結論,也是I類證據。
讓我們再看看另外一個案例,OGTT的標準是如何制訂的。在1964年,O’Sullivan招募752名正常孕婦,口服100克葡萄糖,在空腹、口服糖水1h、2h、3h測定血糖水平,取第97.7百分位數,得到的平均血糖具體數值是:90mg/dl 、165mg/dl 、143mg/dl 、127mg/dl。為了記憶方便,O’Sullivan修正了數值(Rounded off value),制訂了沿用到現在的OGTT標準:90mg/dl 、165mg/dl、145mg/dl、125mg/dl。目前我們臨床應用的很多診斷標準都是這么來的,從幾百人到幾千人的數據形成標準,由點推論到面。
這就是現代醫學的基礎,這就是現代醫學的標準。如果從大數據的角度來看,無論是Michael A. Belfort教授的結論,還是OGTT的標準,都樣本量太小,太不可靠。
大數據就是精準醫療
大數據會從根本上改變我們目前的臨床醫學,這種改變將會是革命性的,是顛覆性的。我們現在的診斷標準和臨床指南是從幾百人到幾千人的數據中得到的,是抽樣得到的,是由點推論到面(From someone to ALL),是農業時代和工業時代的做法。現在我們已經進入了信息時代,互聯網時代,大數據時代,這種舊的思維方式和統計學方法已經不適用了。我上面所列舉的兩個例子完全可以用海量的大數據來替代,因此得到的數據會更加可靠,結論也就會更加可信。
以下是我對醫學大數據的定義:
Big Data: Each and everyone=ALL,大數據就是包括所有的人
Population Big Data(群體大數據):Something about everyone(所有人的某些方面的數據,例如所有人血糖的平均值)
Personal Big Data(個人大數據):Everything about someone(某個人的所有數據,例如一個人的基因組學、蛋白組學等)
Population Big Data(群體大數據)+PersonalBig Data(個人大數據)=Precision Medicine(精準醫療),將一個人的個人大數據與群體的大數據比較就會發現問題在哪里,就可以進行真正的精準醫療。
大數據會改變整個臨床醫學
現有的臨床疾病診斷體系基本上是以器官和系統為基礎的,我們的臨床學科也是以器官和系統分類的,例如腎臟科、心臟科、眼科、血液科等,這是在農業時代形成和工業時代完善的。
但是,很多疾病的表型(例如腎炎、各種遺傳綜合征)看上去是一樣的或很類似的,但是基因型可能完全不一樣。對于這些表型相同或類似的腎炎,我們需要的是完全不同的治療方法,在治療之前我們必須知道它們的基因型;很多表型完全不相干的疾病,可能基因型是完全一樣的,例如某一細胞信號通路的障礙可能會同時導致腎臟出問題、肝臟出問題,眼睛也出問題。但是這種病人往往會找不同科室的醫生去看,采取的治療方案也會不一樣。
Big Data(大數據)&Sequencing(測序)將會改變這一切,未來的疾病可能會是以分子分型的,而不是像現在這樣以器官和系統命名的。未來你的診斷可能不會是像現在這樣的“腎炎”、“肝炎”了,可能會是由各種數字和代碼組成的,例如你的疾病是:2698-4D7B,或者是A28-736,我們的科室也可能不僅僅是眼科或腎臟科了,還可能會出現各種奇怪名稱的科室和專科醫生。
Big Data會改變醫學統計學和臨床流行病學,有了大數據,大多數的統計學方法可能都不需要了。
Big Data會改變疾病的診斷體系,分子診斷的名稱會取代多數的器官和系統的疾病名稱。
Big Data會改變治療方式,精準的靶向治療去取代目前的粗放式的shotgun治療方法。
沒有Big Data的時代,我們很多疾病的診斷標準都是Arbitrary(隨意的), Presumption(推定的),Rounded off value(修正的數值和標準),現在是時候改變了。
醫療大數據存在的問題
It’s not big enough
It’s not clean enough
真正的醫療大數據專家太少