在我國,公立醫院掌握著醫療的核心數據。近年來, IT公司爭相競標大型公立醫院信息平臺的搭建權,用免費、燒錢等策略跑馬圈地已經成為各路玩家心照不宣的“行規”,企業看中的是潛藏在醫療數據中的巨大商業價值。如今,互聯網和信息技術已經普遍覆蓋大型公立醫院,早在2004年,華東地區二級以上醫院的信息化建設覆蓋率就已經達到90%以上。那么問題來了,“地”圈完了,錢燒完了,醫療數據又如何變現呢?互聯網和信息技術公司又如何扭虧為盈呢?
11月24-25日,由中國醫療器械行業協會智慧及移動醫療分會、醫用軟件分會聯合主辦的“第三屆中國智慧健康醫療發展高峰論壇”在武漢召開。
北京大學人民醫院是國內首家通過HIMSS7級的醫院。該院信息中心主任、醫學大數據研究中心副主任劉帆到場分享了他在醫療大數據應用、價值挖掘和變現的一些心得體會,貝殼社記者整理了全程干貨以饗讀者:
醫療數據的商業價值是挖掘出來的
近年來,不少醫院投入千萬甚至上億元成本,做信息化建設。但醫院是否思考過,醫療信息能用來做什么事?能利用的程度?用來做管理還是做決策?還是要降低成本?提高效率?僅僅是這么簡單嗎?
▲信息整合,是利用數據的第一步
過去,我們醫院的信息化建設就是由多家公司共同完成的,所以到了2011年到2012年,醫院的信息整合面臨嚴峻考驗,我們嘗試用平臺把所有信息整合在一起。
通過平臺實現資源、流程和數據的整合后,我們建立了三大數據中心,即前臺的臨床數據中心(CDR)、后臺的運營管理系統(人力資源、財務、固定資產、物流采購庫存統一管理的系統),以及醫院的影像數據中心。
▲臨床數據中心(CDR)
醫生最需要臨床數據整合。特別是以病人為中心,以其患者索引號(EMPI)和時間軸主線,把所有的臨床數據做統一化、標準化、結構化管理的CDR。
現在所有行業都可以用身份證來索引信息,但唯一在醫療行業,還存在衛生部的居民健康卡、人社部的社保卡、城市自己的城市居民健康卡、以及醫院自己的就診卡,造成病人的大量信息無法以唯一的識別號來索引。2014年,國務院提出要建立以身份證為索引的社會信用體系,唯獨醫療被排除在外。
因此,CDR最基本的問題是,如何把一個人全生命周期的健康醫療數據串聯在一起。2013年,北大人民醫院將患者的歷史臨床數據都遷移到CDR系統中,并做清洗處理。
醫院患者索引號(EMPI)的作用,就是把歷次門急診、體檢、住院中發生的檢查、診斷、治療等信息串聯在一起。這樣一來,以后產生的數據都是簡單化,且標準化的。現在醫院已經存儲了大約471萬患者的數據。下圖是北大人民醫院CDR目前的使用情況:
▲影像中心
由于很多學科都以影像為支撐,醫院的影像系統非常復雜,包括心電圖、DSA(血管造影)、超聲、核醫學、病理,就連口腔和CT都有影像。所以,如何在醫院里如何以病人為中心,統一調度所有影像數據,就是一個不小的挑戰。
2012年,醫院建立影像數據中心,在這個系統里,醫生可以調閱一個病人的所有的影像數據。平臺實現了統一管理、存儲、調閱和展現。
▲運營數據中心
2008年起,北大人民醫院開始對所有后臺運營的數據建立統一的管理系統。此后陸續建成了固定資產管理、物流采購管理、物流庫存管理、統一采購平臺、財務應付管理、財務應收管理、人力資源管理和外圍業務運營系統等。
由于固定資產管理和藥品、低值和高值耗材的管理占了醫院流水的60%多,我們決定統一用物流管理平臺來管控;人力資源管理系統則主要管理薪酬、五險一金、獎金績效等;統一的B2B平臺則實現了對外自動化的采購流程—— 無需人工,平臺自動和供應商進行供應鏈的整合。
運營管理系統非常重要,是整個醫院后臺支撐的基石。
三大信息模塊數據的變現思路
我一直提倡要從需求端出發。醫生的科研需求大致可以分為八大類:風險預測模型、人群健康管理、藥物及器械安全型監測、疾病及治療的異質性分析、精準醫療及臨床決策、醫療質量及行為評估、公共健康和研究應用。
目前,我們能夠看到的應用主要有三件事:
· 用數據形成臨床流程和臨床指南
· 用智能科研平臺改進醫學標準
· 用數據驅動科學的醫院管理
大數據如何輔助科研?
要讓大數據真正服務于科研,必須要思考的問題是,如何把大量的臨床資料和臨床科研整合在一起,將數據轉化為解決臨床需求的知識。大數據科研平臺的核心功能,就是提供一個平臺,運用各種大數據技術和傳統的統計學方法等,為醫生和科研人員提供一個工具。
大數據帶來的真正意義是,通過歷史的數據發現新的規律,做沒有假設的研究。
科研、IT和數字科學三方合作的基本邏輯是:首先,也是最重要的一點,醫生在長期的臨床工作實踐中,總結、思考后,提出科研問題和目標;第二,基于這個目標,醫生提出需要哪些數據,并從所有數據中確定所需要的臨床條件;最后,技術人員根據這些需求把數據整理好,最終達到支持臨床研究的目的。
我們醫院曾經有一個心內科專家提出,想要做出心衰病人出院1年后再入院發生率的預測模型,了解其影響因素。因為心衰病人基數大,且住院期間發生的費用是其醫療總費用的60%,從衛生經濟學角度上說,這個研究非常有意義—— 減少再入院率是減少醫療費用的關鍵因素。
對于這個項目而言,第一件事就是確定研究對象。技術人員根據ICD診斷為心衰的指數,篩選出了自2010年到2015年間的14985份疑似病歷,但ICD只能作為初選的納入標準。
確定真正的研究對象,要使用改良的Framingham心力衰竭診斷標準進行復核。要從每份疑似病歷中提取癥狀、體征、診斷、病史、輔助檢查和治療等數據,并通過數據分析把有差異的病歷都抽取出來。
評估下來,如果靠人來篩選的話,每份病歷需要耗費半小時,以每天連續工作10小時、無節假日計算,需2.05年的時間。這樣的投入成本讓研究看起來不可操作。
并且,已有的主客觀病歷數據,都是非結構化的,不可以直接被使用。
這種情況下,北大人民醫院的科研數據平臺nova就發揮作用了。
平臺首先做的就是做自然語言分析,其使用NLP(將非結構化數據進行結構化處理的一種分詞方法),將自然語言進行全切分,比如將“他說的確實在理”這句話,切分為“他”、“說”、“的確”、“確實”“實在”、“在理”。
將院內CDR(如醫院DB,HIS, LIS, DBn等),院外客觀數據(健康管理智能硬件、體檢、基因檢測、公共職能)和院外主觀數據(生活量表、隨訪等)等結構化之后,nova就可以做一個數據處理層了,也就是把所有的數據打上標簽,再用一系列的大數據技術,把浩如煙海的原始的臨床數據變成可搜索的數據。
在此基礎之上,還有一個數據應用平臺,這個平臺上搭載了科研系統分析平臺、項目管理平臺(多中心管理、患者管理、疾病管理、隨訪管理系統、eCRF管理系統)等,以這種方式給醫生提供科研工具。
Nova只花了1周左右的時間,就提取了心衰再入院及非再入院患者的特征變量,找到了研究所需的所有數據—— 一共納入1103例心衰患者,研究變量123個,共135669個變量。
通過“隨機森林算法”,技術人員找到年齡、糖尿病、高脂血癥、缺血性腦血管病、慢性阻塞性肺病、舒張壓、血清白蛋白、血清鈉、Ln血膽固醇和出院帶β受體阻滯劑等10個可能影響患者未來再入院率的指標,然后做了一個比例風險的模型,把各個因素加權后變成一個公式。
最后回到臨床,這個公式在新進病歷中得到了很好的驗證。
截至今年7月底, nova上有科研統計需求101個,涉及臨床科室35個(北大人民醫院臨床科室數44個,占比80%),已有用戶數256人(北大人民醫院醫生數945人,占比達27.1%),7月單月,醫生查詢次數達到2718次。
我們做科研數據平臺nova有4個基本邏輯:
· 無論結構化還是非結構化,必須要先有數據。
· 數據需要整合。
· 技術永遠不是最大的問題,技術只是一個支撐。
· 以應用為導向。
實踐發現,科研數據平臺能夠大大提高科研效率;不僅如此,平臺還革新了傳統的有假設驅動的研究方法,創造了無假設的研究方式;最后,好的研究想法都是臨床中發掘出來的,科研工具用完之后還得回到臨床,完成PDCA的循環反饋過程。