對醫療數據數字化及數據共享的標準化和倡導,改進并降低數據存儲成本,并能夠在商業硬件上運行,這些都促成了大數據在醫療行業的應用,并以更低的成本獲得更好的醫療衛生服務為目標。
應用 大數據 的動力何在
醫療衛生成本拉動了對以 大數據 為驅動的醫療衛生方面的應用需求。在過去的幾十年里,美國的醫療衛生支出已經超過了GDP增量,并且超過了任何一個其他發達國家的醫療支出。據經濟合作與發展組織(OECD)稱,盡管支出很高,但如果以便利性、平等性、質量、效率以及健康人數為指標的話,美國的醫療衛生系統在了11個國家中排名最后(如下圖所示)。對醫療數據數字化及數據共享的標準化和倡導,改進并降低數據存儲成本,并能夠在商業硬件上運行,這些都促成了 大數據 在醫療行業的應用,并以更低的成本獲得更好的醫療衛生服務為目標。
以價值為準的醫療衛生
“平價醫療衛生法案”的一個目標是通過醫療信息技術的有效利用來改進醫療衛生,從而達到以下目的:
提高醫療衛生的質量和協調能力,使成果與現有的專業知識一致。
縮減醫療衛生支出,減少可避免的過度使用。
已改革的支付系統提供支持。
醫療保險公司、老年衛生醫療制度(美國政府向65歲以上的人提供醫療保險)、醫療補助制度(美國政府向貧困者提供醫療保險)正在從收取服務性費用轉向以價值為基礎、數據為驅動的激勵轉變。這種激勵模式鼓勵高質量、高性價比的醫療服務,并且還能展示對電子醫療記錄的有效利用。
醫療衛生數據
醫療衛生行業的數據80%都是非結構化數據,并且數據量還在呈指數式增長。對于這些非結構化數據的獲取,比如醫療設備檢測結果、醫生的記錄、實驗結果、影像學報告、醫用函件、臨床數據和財務數據等,是改善病患醫療服務及提高效率的無價資源。
以下是未來可以受益于大數據分析的醫療衛生數據源的例子:
索賠報告:是醫療衛生服務供應商向保險公司提交的文件以獲得保險賠償?!督】当kU隱私及責任法》(Health Insurance Portability and Accountability Act,縮寫為HIPAA)中最關鍵的一個要素就是通過鼓勵在醫療服務供應商和保險公司之間廣泛使用電子文檔交換(Electronic Document Interchange,縮寫為EDI),建立電子醫療記錄方面的國家級行業標準來提高效率。索賠報告交換包括國際疾病分類(International Classification of Diseases,縮寫為ICD)診斷碼, 治療方案、日期、供應商ID以及花費金額。
電子健康/醫療記錄數據(Electronic Health/Medical Record, 縮寫為 EHR或者EMR): 醫療電子記錄激勵體系在建立之時便是用來鼓勵職業人員以及醫院采用并展示對已認證的EHR技術的有效應用。EHR能夠促進服務供應商和醫療機構之間的數據全面分享。EHR包含醫療衛生服務中所產生的數據,例如診斷結果、治療方案、處方、實驗測試結果及放射診療結果。國際醫療衛生領域信息系統指標體系及交換協議(HL7)提供了電子醫療記錄數據的交換、整合、共享、撤回等方面的基本標準。
醫藥研發:臨床實驗數據、基因數據。
病人行為和情緒數據。
醫療設備數據:家庭或醫院的患者傳感器數據。
大數據 在醫療衛生領域的發展趨勢
現在有一種趨勢是向著循證醫學發展,即充分利用所有臨床數據并能在臨床和高級分析中對這些數據進行因子分解。抓取及收集關于某一個病人的所有信息能夠為我們分析醫療服務協調性、分析基于效果的補償體系、人口健康管理以及病人參與度和其他信息。
醫療衛生領域大數據應用案例分析
用 大數據分析 工具減少醫療詐騙、浪費和濫用
在美國醫療產業中,因欺詐、浪費和濫用而產生的成本是造成醫療費用節節上升的重要因素,但大數據分析能稱為這一現象的變革者。醫療照護和醫療救助中心使用預測分析一年能夠杜絕總額超過2.1億的醫療保險欺詐?;趆adoop大數據平臺的基礎上,聯合保健公司實現了向可預測的建模環境的轉變。這個大數據平臺能夠以系統的、可重復的方式去甄別不正當的索賠申請,并能獲得2200%的數據反饋。
辨別詐騙的關鍵是通過存儲和可追溯的記錄去分析歷史賠償記錄中大量的非結構數據集,并利用機器學習的算法來甄別反常事物及模式。
醫療組織機構可以通過分析病人的紀錄和賬單來查明異常,例如短期內過度使用醫療服務,病人在不同地方的不同醫院受到了醫療服務,或是同一個病人在多家機構得到了相同的處方。
醫療保護和醫療救助中心用預測分析來對某些特定的賠償或醫療服務供應者進行風險評分,甄別計費模式并發現用傳統方法難以查明的反常情況。以規則為基礎的模式基本上能自動標示部分賠償結果異常。而異常分析模式基本上是靠分析反常因素發現問題。預測分析模式是將某一賠償案例與另外一個已被確認為詐騙的案例進行比較來發現可疑之處。而圖表模式一般是依據關系網來分析,它認為一般存疑的醫療服務提供者總是與其他存在欺詐性的收費者保持緊密聯系。
通過預測分析提高效果
不少積極的嘗試,例如正在加速電子健康記錄(Electronic Health Records,EHRs)的有效利用、病人信息的數量和細節,能夠通過多種信息源組合、分析各種各樣的結構化和非結構化的數據有助于提高診斷病人病狀的準確性、根據病狀匹配治療方案以及預測病人患病或再患病的風險。
以電子健康記錄(EHR)中的數據為來源的預測模型被應用于早起疾病的檢測,并且還降低了一些疾病的死亡率,比如充血性心力衰竭(CHF)和敗血癥等疾病。降低充血性心力衰竭(Congestive Heart Failure ,CHF)和敗血癥等疾病的死亡率。CHF在醫療保健支出的占比最大,CHF越早治療越好,這樣能夠避免花更多的錢治療并發癥。但是醫生常常會忽略它的早期臨床表現。來自于佐治亞理工學院的一個機器學習示例表明機器學習算法能夠比醫生從病人的圖表中分析出更多的因素,同時通過增加額外的特征,機器學習算法能夠有效提高模型區分CHF患者和非CHF患者的能力。
通過分析包含更多病患數據的大樣本數據,預測模型和機器學習能發現之前未能發現的細微差別和模式。Optum實驗室從EHRs中搜集30萬病人的信息,為預測分析工具創建了一個龐大的數據庫。這些工具將會幫助醫生做出基于大數據信息的決策,從而改善病人的治療。
實時監控病情
醫療機構正在通過持續性監控病人生命特征來提供更加具有主動性的治療,各種監控數據能進行實時分析并及時發送警告給醫療服務提供者以便他們能及時了解病人病情的變化。通過機器學習算法進行實時分析能夠幫助醫生做出挽救性命的決策并且對一些病癥進行有效干預。
醫療 大數據架構 :我們應該怎么做?規?;笥衷撊绾巫?
我們需要收集數據、處理數據、存儲數據,并最終將數據用于分析,機器學習和數據表盤。
數據擷取:NFS
通過網絡文件系統(NFS)協議可遠程訪問網絡共享磁盤。啟用NFS服務器后,可與客戶共享目錄和文件,讓用戶和程序像訪問存儲在本地的文件一樣訪問遠程系統上的文件。
與只允許集群數據導入或批量導入的其它版本的Hadoop不同,MapR允許通過NFS直接掛載群集本身,讓您的應用程序直接讀取、寫入數據。通過POSIX語義,該MapR文件系統允許直接修改文件和多個并發讀取寫入操作。掛裝NFS的集群可實現對數據源的簡單數據擷取,比如說從其他應用標準Linux命令、實用程序、應用程序和腳本的設備上擷取文件、圖片等。
通過使用NFS可從MapR集群移出移入數據至更昂貴的存儲空間。例如,您可以將處理過的熱數據轉移到關系數據庫或數據倉庫,您也可以將冷數據轉移到成本更低的Hadoop存儲中。
流數據擷?。篕AFKA API
由于越來越多的醫療方案需要實時分析和動態數據,使用事件流擷取數據到系統中則將成為關鍵。 MapR流是一種新型的分布式通信系統,通過Apache Kafka 0.9 API可使得生產者和消費者之間實現實時交流事件動態。主題是信息的邏輯化集合,可依據其將事件分門別類。
主題分區域放置。主題將并行數據負載傳遍多個服務器,這保證了更高的吞吐量和可擴展性。
讀取后消息并不會從主題中刪除,而且主題可以有多個不同的消費者,這使得抱有不同目的不同消費者處理可以處理同一消息。
批量處理
當快速相應時間不是核心要素時,就可采用數據批量處理。批量處理用于處理一段時間積累的數據集。例如白天收集EDI聲明,晚上打包至文件夾中準備用于處理。
Apache Hive是一個用于數據倉儲的開源Hadoop應用程序。它提供了一個便捷的方式在大量的非結構化數據之上建立框架,然后對這些數據進行類似SQL查詢操作的批處理程序。
Apache的Spark是下一代分布式并行處理框架,可為機器學習、圖形處理、SQL等提供一套豐富的API。 對于迭代算法,Spark處理速度要比MapReduce更快,因為Apache盡量將相關信息儲存在儲存器中,而MapReduce則更多地直接從盤中讀取和寫入。
流式數據處理
Spark Streaming是基于Spark的實時計算框架,其將流式計算分解成一系列短小的批處理作業。因此,你可以像編寫批處理作業一樣編寫流作業。當然,處理大規模流式數據,除了Spark Streaming, Apache Flink 和 Apache Storm也是不錯的選擇。
NOSQL數據庫存儲
存儲海量數據,我們需要一個既能滿足快速寫入又能滿足大批量錄入的數據庫。MapR-DB應運而生,MapR-DB就是為了規模化寫入而設計,因為事實上同時讀取的數據也存儲在一起。
有了MapR-DB, 數據可以通過關鍵域在數據集群之間完成自動分配,每個服務器對應一個子數據集的源。如果按行分組數據,無疑會加快數據讀寫速度。
MapR-DB有兩個API:
JSON API——用于存儲文件模型
HBase API——用于列數據模型(尤其是時間序列數據)
提供數據
終端應用,例如數據表盤、商業智能工具以及其他的應用,需要使用已處理好的數據。同時,這些數據可以再存回數據庫,方便日后使用。
Apache Drill 支持無模式SQL查詢引擎,因此能夠實現海量數據的自助式數據探索。能夠實現海量數據自助服務SQL查詢。Drill有如下優點:
Drill支持多種數據讀取
Drill進行了交互式應用方面的優化,可以在秒級別的時間查詢PB級別數據及萬億條記錄
數據分析師在使用Drill的時候,可以搭配一些例如Tableau的工具,就能夠快速實現數據可視化。
以上我們討論的架構組建,都能與mapr 融合數據平臺在同一數據集群上運行。當然,整合Hadoop、Spark、實時數據庫、全球性事件流及大規模企業級存儲,還會帶來以下好處:
維護一個數據集群,意味著更少的系統架構部署和管理,對系統安全、穩定性和性能方面的監控也減少了。這樣極大程度上降低了硬件和運營成本。
生產者和消費者在同一集群,將會降低因在不同集群和應用程序間復制或移動數據而造成的延遲。
案例架構
Valence Health使用MapR融合數據平臺來創建作為該公司主要數據儲存地的數據湖。該公司產生3000條內部數據記錄,涵蓋45種不同類型,包括實驗室測試數據、病人生命體征、處方、藥品津貼、索賠和支出等,其中索賠來自醫生和醫院兩方面。在過去,如果我們要從2000萬條實驗室記錄中檢索一條記錄,將花費22個小時。而MapR只需要20分鐘,并且其所消耗的硬件資源還會大大減少。
國立衛生研究院為了整合各研究院的數據集,也創建了一個數據湖。這樣,所有的數據都集中在一個地方,更加方便數據共享和處理。
UnitedHealthcare IT部門采用Hadoop框架創建了一個平臺。該平臺上有各種工具,能夠
分析諸如索賠、處方、治療計劃參與者、合同服務提供者及相關的索賠審議結果等信息。
醫療衛生服務的記錄系統流
Liaison科技提出一個基于云的方案,幫助組織機構整合、管理、保護跨公司數據。針對醫療服務和生命科學產業,他們提供了一個縱向解決方案,該方案面臨兩個難題:符合HIPAA規定需要以及數據格式及呈現方式的推廣。針對第一個問題,MapR將該規定的數據譜系流式化,數據流成為了一個記錄系統——一個無窮盡而又不可隨意更改的數據交換記錄日志。
針對后一問題,我們通過一個例子來了解。一個病人的記錄有可能被不同的用戶,例如制藥公司、醫院、診所、醫生等以文件或圖表形式呈現或以檢索等方式使用。通過把即時數據變化通過數據流的形式處理成MapR-DB HBase、MapR-DB JSON文件、圖表,并錄入搜索數據庫中。此外,通過應用MapR數據整合平臺的服務,Liaison可以保護所有的數據,避免冗余數據和安全需求累積,而這是對備選方案的基本要求。
基因處理
Novartis團隊采用Hadoop 和Apache Spark打造了一個工作流系統。這個系統為NGS(Next Generation Sequencing)研究整合、處理、分析各種類型的數據。
隨著科技的發展,普通硬件無論是存儲性能還是快速處理大數據的能力都大幅提升。隨著通過捕獲、共享、存儲大量電子醫療服務數據和交易等技術的成熟,醫療服務行業正逐步變革,不斷提高產出并降低花銷。