上周,《深圳經濟特區醫療條例》(俗稱“深圳醫療基本法”)全文披露。該條例要求醫院要向患者公開全部病歷。然而,就全國而言,關于醫療大數據的隱私保護、開發與應用的法律仍存在空白。
近日,松禾資本精品論壇之“醫療大數據&智慧醫療”在深圳舉行。松禾資本創始合伙人厲偉在為活動致歡迎辭中表示,現在各個單位、各個機構都在做大數據,但是如何讓大數據共享、串起這些數據孤島,是下一步推動精準醫療、智慧醫療的關鍵。
本文為上述論壇的演講實錄,較速記稿略有刪改。本文作者是論壇演講嘉賓、杭州數睿(MDQ)首席技術官黃泱博士。在美國凱撒醫療集團工作期間,黃泱博士主持開發了該集團首個全集團使用的臨床數據挖掘系統,并主導實現了該集團首個基于自然語言處理的實時臨床決策支持系統。美國凱撒醫療集團是全球“航母級”的醫療集團。融合保險和醫院于一體的凱撒醫療(Kaiser Permanente)凱撒醫療有950萬會員,旗下擁有38家醫院,主要集中在加州。2013年的年收入是531億美元。
實錄正文
今天,我們從中美差異來看我們如何做智慧醫療,以實現安全、優質和高效的醫療服務與支付。
美國為開放醫療健康數據做了哪些準備?
我會從以下這幾個方面來談一下美國智慧醫療的現狀。首先提到法律法規,美國有一個《健康保險攜帶和責任法案》(Health Insurance Portability and Accountability Act,簡稱HIPPA),它是一個專門針對醫療健康數據的法案,隱私保護是這個法案最有名的一部分。但是這只是它其中的一章。HIPPA更多背后的含義是保障病人有這個權益,他的電子病歷他自己能拿得到,能帶到其他的醫療機構和保險公司去。這就是為什么法案的名字有“保險攜帶”四個字。這個法案如今已是國際上關于醫療健康信息隱私保護的金標準,包括歐洲,這個法案的國際影響非常大。
隱私保護部分中最重要的概念就是受保護的健康信息。在美國,HIPPA允許把這18個敏感的健康隱私信息去掉以后,將健康數據既可以做研究用,也可以做商務用。這對美國的醫療健康的研發、數據市場培育的影響非常深遠。
還有一個法案叫HITECH(Health Information Technology for Economic and Clinical Health,致力于經濟和診療健康的健康信息技術),它是在2008年美國面臨經濟危機,作為一個美國經濟復興法案中的一個小的法案獲得通過。這個背景也很有意思。它一方面帶著美國政府的期待,能刺激經濟,為美國經濟復興起到杠桿作用,同時政府也希望能用信息技術幫助美國減低醫療費用,降低成本。法案給醫生和醫院有意義地使用電子病歷提供財務激勵。美國認為有效使用電子病歷意義深遠,值得在經濟不好的時候由政府投資的。
美國有很多數據交換和存儲標準。這些標準很多都已經變成國際標準,也有電子病歷系統的評級,就是大家熟悉的醫療衛生信息與管理協會的HIMSS(醫療衛生信息和管理系統協會,Healthcare Information and Management Systems Society)七級評級。還有它的受控術語集及醫學本體。數據整合有標準,不止涉及基于某個定義都有哪些數據源。實際上,這些受控術語集是每一個數據元下面有哪些值,它的語義是什么,顆粒度非常細致,可以做到語義上的統一。有了這種編碼并統一標準以后,對后面做數據分析、推動人工智能的影響是非常非常深遠的。比如UMLS(一體化醫學語言系統,Unified Medical Language System)這個項目整合醫學術語系統,是他們歷時十年、投資上千萬美元做的醫學本體庫。這是非常有遠見的一個投資。
從人才方面看,美國在智慧醫療上很早以前就有準備。從上個世紀90年代開始,他們就專門有重點學科,這個學科在全美一開始有8所大學開設,后來是16所大學。由美國政府提供所有的學費跟生活費,讓美國人特別是醫生還有搞科學、搞數據的人,只要有美國的綠卡或者是國籍的人都可以免費學習醫學信息化專業。因為那時候醫學信息化是冷門,知道的人很少,這是政府出資去培養的。本身美國也有比較好的跨專業人才培養的傳統和機制,醫學信息化是開放的跨領域學科。我自己的經歷就是這樣,在斯坦福大學很受益的一點是工學院、科學院、醫學院和商學院都在一起,選課交叉,各個學科的人都在一起,可以隨便聽一個課。政府除了提供專項獎學金,還有行業協會給在職人員提供函授服務,進一步加速人才培養。
美國的醫院有一個電子健康檔案(electronic health record,EHR),也和中國遇到同樣的問題,各個地方之間,特別是小診所跟大醫院之間,無論是從資源、人才上分配都是不均衡的。所以美國的EHR普及度相比歐洲國家來說普及率一直偏低,他們也花了很多力氣做了這些方面的工作。
還有一點,美國對電子病歷系統非常看重,跟中國不同的很重要一點是,它是以臨床為重點,所有的設計都是為提供更好的臨床服務,提高醫療質量。圍繞這個目標,EHR中的智能臨床決策系統的地位,就非常重要。這個臨床決策系統的使用非常普遍。
美國有比較完善和便捷的保險支付系統。受益于擁有很多醫療數據,無論是政府數據還是企業數據,同時有一個成熟的數據市場。在美國,無論是開發支付系統,還是做風險定價評估,都是有數據的。當然,美國現在也有控費壓力,從保險公司的角度講,需要更多的電子病歷數據,有這些數據之后,可以用系統智能地判定一個檢查是不是必要,一個治療是不是必要。
美國還有一個開放付款項目。美國社會是很注重隱私保護的。當時,這是美國政府的一個醫保項目,它抽取了5%的病人數據,做脫敏處理以后,把這個數據開放給社會,這個開放也要求企業或者研究機構有一定資質,有一個準入過程。在此之后,相關機構就可以分析這些數據——真實的數據。在這個數據庫里面,醫生、醫院的信息是不保密的。所以,大家通過數據挖掘,一方面教育廣大消費者,告訴他們每項付款大概多少成本;另一方面鼓勵一些公司在里面找到欺詐行為。這個數據公開以后不久,就找到好幾個比較惡劣、數額巨大的欺詐案子,確實給保險支付帶來很大程度的改善。
開放健康醫療數據還有一個作用,就是為藥物研發,有基因分析、藥物副作用檢測、藥物療效跟蹤,提供很多的幫助。
中國立法不全條件下,如何“玩轉”醫療大數據?
中國現行法規有對公司隱私權的保護條款,但是沒有特別詳細的規范,特別是沒有一個醫療數據保護的規范。所以在很多事情上,做還是不做,開放還是不開放,仍是模糊地帶。不像美國HIPPA規定,把18種敏感信息拿掉,電子病歷數據就肯定可以開放。這就在政策上留有解釋的余地。我們不能因為擔心安全,就什么事也不做。我們需要借助一些先進的經驗和技術,進行有益探索。
中國也有“非法獲取計算機信息系統數據罪”,還有關于“統方”(指的是醫院中個人或部門,為醫藥營銷人員提供醫生或部門一定時期內臨床用藥量信息,供其發放藥品回扣的行為。——作者注)的禁止性條款。在缺乏一部醫療數據保護法案的情況下,我國政府是根據性質的惡劣程度,對“統方”一個具體的數據案例做了規定。
我們開發數據交換和存儲標準方面,相對于美國要晚一些,可以借鑒的,不僅有國際先進標準,也有國內各地的不少標準。更大的難度可能還是標準執行、廠商實施環節。電子病歷評級這方面,幾年前我們國家也有了自己的電子病歷評級標準,這個標準對我們國家電子病歷系統發展的規范化起了很好的推動作用。受控術語集和醫學本體,這個是我們國家跟美國相比差距最大的一方面。我們有疾病分類、藥品分類,但很多其他類型的醫療信息,以及標準統一、系統普及率,我們還有很長的路要走。
大數據及智慧醫療在我國的應用,我會從安全、基本技術、臨床研究,以及提供安全優質的服務等角度來講。
首先,系統及數據的安全性,涉及系統的權限管理。這在技術上已經很成熟了。我們還有
首先,系統及數據的安全性,涉及系統的權限管理。這在技術上已經很成熟了。我們還有大數據文件系統,在我們使用新技術的時候,首先要考慮的是安全。這里面可以借助美國的開源技術,也有一些現成技術可以提供保證。
其次是數據脫敏,歐洲也比較多地借鑒了HIPPA的內容。結構化的數據,有數據替換。比如使用HIPPA列明的技術,或者數字化簽字技術,保證這個數據轉變但不會丟失唯一性,從而可以做關聯分析。我們很大一部分困難,是如何將非結構化數據(主要是文本)轉換成結構化數據。這個可以用醫學自然語言處理技術。
還有數據共享和加密。我們怎樣才能在保持原數據不泄露的情況下,又能支持多方的合作、參與和計算?數據商可以提供數據,但是它的數據是加了密的,在傳統加密的框架下,如果需要計算,就需要對加密數據進行解密。中間的計算平臺會看到我們的原數據。如果這第三個平臺是多方參與,源數據就有可能泄露給多方,但源數據泄露一次以后,使用價值就大打折扣。我們公司——杭州數睿科技的加密數據在參與計算的時候也是加密的,所以第三方開發程序是始終看不到解密的數據。這給我們原數據的安全性有很大的提高。
我們可以使用大數據技術構建統計模型、知識庫。比如咳嗽、發熱主要有哪些癥狀伴隨,跟時間、人的年齡段都有什么關系。傳統教科書上,我們可能只能拿到一個定性的列表,通過大數據技術就可以做定量分析,提供個體化診斷的支持。不僅輔助診斷,而且可以挑選出比較精準的治療方案。這個知識庫建立起來,就不再只是一個簡單的規則庫,而是有統計模型在背后、由機器學習構建的模型在背后支撐。
接下來是構建醫學知識圖譜。過去,通常情況下,是根據文獻、教科書構建圖譜,或者醫生根據自己的經驗來構建圖譜。而我們會根據海量的數據挖掘關聯性,經過驗證以后,構建醫學知識圖譜,特別是治療、療效的知識。這部分知識很多在教科書上是沒有的。圖譜如何構建,涉及到技術的融合,我們既要有自然語言處理技術,這些可以在閱讀文獻、病歷的時候,把大量非結構化、描述性的語言讓機器“看懂”,提供出關鍵詞,經過語義分析以后,跟已知的知識庫建立關聯。通過機器學習的方式,對源數據、知識庫的關系結構進行一定的訓練,訓練出模型。對后面的主體關系,對一些比較模糊或者我們缺乏數據的時候,可以提供比較好的結果。
我們有知識庫、擴充關系圖譜,同時還能挖掘病理。再就是我們有臨床自然語言處理、數據挖掘和建模、數據可視化等關鍵技術。
簡單講一下自然語言處理技術。它不僅能幫助我們理解教科書,它的重要任務是幫助醫生、生物學家處理從各個方向涌來的海量數據。當我沒時間、沒辦法讀文獻、病歷的時候,有一個方法,就是讓機器替我“讀懂”。我們在一個項目里,提取的信息包括:癥狀、醫學發現、患者醫療結果等。這還包括時間,癥狀發生的時間有先有后,前后關系對診治很有價值。除此之外,還包括一些檢查手段、生命體征、身體部位、治療操作、藥品、疾病,凡是這些在病程記錄里面提到的,我們都可以提取出來。在中國,我們的醫生已經非常忙了,如果他在輸入病歷的時候還被要求對數據進行結構化,這會很低效地占用醫生的寶貴時間,對醫生很不尊重。我們想做的,就是醫生可以按照他覺得最有效率、最方便、最準確的方式描述病情,描述治療方案。我們用計算機來把這些信息結構化,用來支持后面的分析和功能,這樣就不會給醫生制造不必要的負擔。
大數據應用:發現新病情,降低誤診率,病人決定治療方案
這個是我們在國內做的醫用中文自然語言處理系統。它包含多個模塊,可以構建知識圖譜中的概念的屬性和相互關系。這里面舉了一份病歷的例子:文本是通常的記錄,通過結構化提取,可以得出結論——病人是“神志清”的,這是一個有意義的病人的發現,還有“精神可”和睡眠欠佳。這種方式跟傳統方式不一樣。以前我們需要做研究,要先把數據定義好,然后結構化輸入;現在不需要了,計算機可以自動提取,就算在某個方面目前看來可能不是太重要,也可以提取出來,為以后的研究做準備。
結構化數據的優勢是,它可以做大量的統計分析,由于在結構化的過程中做了語義上的統計,可以節省醫生的病歷審閱時間,也能快速選出他們要找的符合特定條件的病人。
還有數據分析平臺,用來建模用的。建立數據結構、確立分析的疾病對照人群、數據處理、整合、變量選取,有一套方式方法。比如,有一些充血性心力衰竭沒有被診斷出來,我們在病歷上通過癥狀、檢測、檢查結果,開發出一個數學模型,幫助完成這方面的診斷。這是一個在線信息數據系統,整合了我們數據的可視化,能看到病人隨著時間變化,指標、檢查結果會有什么變化,可以很方便很高效的供醫生來看。
這種技術對臨床研究的幫助還有一個案例——藥物不良反應。我們在凱撒集團的時候,做過這么一個研究:有一家藥廠想做一個疫苗的安全性研究。它大概耗時3個月到半年時間做數據收集,數據分析花了一年時間,而且花了上百萬美元,大部分花在病歷審閱方面。他們使用我們大數據系統之后,只要花三個星期就能把這部分的病歷分析完成,經過多次迭代,把準確率提得很高,做人工對比的時候發現,計算機結果比人工結果的質量更高。這是因為,對疫苗安全性要求比較高,病歷閱讀量非常大,醫務人員會疲勞,而計算機不會疲勞。
另外,電子處方系統,背后也是關于用藥的知識庫。它能滿足規范性、安全性、快捷性。咱們國家現在也在倡導合理用藥,包括用藥的安全性、必要性。
大數據還能幫助提供安全優質的醫療服務,以及計算機輔助診斷。美國的平均誤診率和漏診率大概30%-40%,國內的數據比這個還高。隨著醫學知識的快速增長和已知疾病類型的豐富,給疾病診斷提出更高的要求。而計算機可以使用大量數據來快速提高診斷的準確率。如果我們很快就得到正確的診斷,不僅減少了檢查的成本,而且也減少了醫療治療成本,對病人來講是更好的臨床結果。計算機輔助診斷已經有一些比較成功的案例。我們根據敗血癥做了一個臨床輔助診斷系統。在急診科或者住院的時候,敗血癥是死亡率比較高的,在美國死亡數排第九。這個疾病發展變化很快,早期診斷和治療就非常重要。這個疾病的診斷確實很復雜,影響因子很多,對不同病人的情況又不同,所以做診斷是臨床上很難的問題。通過開發這個模型,建立這種早期診斷系統,可以降低差不多20%左右的死亡率。
其他的臨床決策支持,有一個臨床路徑系統。我們已經推臨床路徑挺長時間了,也花了很多資源。但是醫院的臨床路徑能使用比例可能不到10%。其中一個原因是病人的情況不同,他通常不會只得一個病。受制于各種各樣的因素,我們往往沒法做簡單的、基于規則的臨床路徑。大數據也可以做臨床路徑,根據統計模型,根據病人的實際情況來判斷檢查、治療的合理性,判斷什么時候應該出院。
關于保險服務跟支付,通過數據分析,我們可以做到欺詐監測,以及用藥合理檢查的監測。這里有一個簡單的控費例子。美國怎么做到以病人為中心。傳統模式是醫生讓你做什么就做什么,有醫囑就執行。其實病人的情況不同,家庭情況也不同,對他來說,可能最好的醫療決定是不同的。所以這個模式可以通過分析,提出不同的醫療決定對身體上有哪些不同的影響,包括費用也是病人做自己的醫療決定的一個很重要的因素。通過數據分析,我們可以把這個權利交給病人本身,讓他知道,如果得了這個病,大概會住多長時間院,大概費用是多少,他會選擇對他來說更合適的方案。保險公司也不希望所有的病人都選取比較昂貴的治療——這可以降低醫療成本。