對醫(yī)療數(shù)據(jù)數(shù)字化及數(shù)據(jù)共享的標(biāo)準(zhǔn)化和倡導(dǎo),改進并降低數(shù)據(jù)存儲成本,并能夠在商業(yè)硬件上運行,這些都促成了大數(shù)據(jù)在醫(yī)療行業(yè)的應(yīng)用,并以更低的成本獲得更好的醫(yī)療衛(wèi)生服務(wù)為目標(biāo)。
應(yīng)用 大數(shù)據(jù) 的動力何在
醫(yī)療衛(wèi)生成本拉動了對以 大數(shù)據(jù) 為驅(qū)動的醫(yī)療衛(wèi)生方面的應(yīng)用需求。在過去的幾十年里,美國的醫(yī)療衛(wèi)生支出已經(jīng)超過了GDP增量,并且超過了任何一個其他發(fā)達國家的醫(yī)療支出。據(jù)經(jīng)濟合作與發(fā)展組織(OECD)稱,盡管支出很高,但如果以便利性、平等性、質(zhì)量、效率以及健康人數(shù)為指標(biāo)的話,美國的醫(yī)療衛(wèi)生系統(tǒng)在了11個國家中排名最后(如下圖所示)。對醫(yī)療數(shù)據(jù)數(shù)字化及數(shù)據(jù)共享的標(biāo)準(zhǔn)化和倡導(dǎo),改進并降低數(shù)據(jù)存儲成本,并能夠在商業(yè)硬件上運行,這些都促成了 大數(shù)據(jù) 在醫(yī)療行業(yè)的應(yīng)用,并以更低的成本獲得更好的醫(yī)療衛(wèi)生服務(wù)為目標(biāo)。
以價值為準(zhǔn)的醫(yī)療衛(wèi)生
“平價醫(yī)療衛(wèi)生法案”的一個目標(biāo)是通過醫(yī)療信息技術(shù)的有效利用來改進醫(yī)療衛(wèi)生,從而達到以下目的:
提高醫(yī)療衛(wèi)生的質(zhì)量和協(xié)調(diào)能力,使成果與現(xiàn)有的專業(yè)知識一致。
縮減醫(yī)療衛(wèi)生支出,減少可避免的過度使用。
已改革的支付系統(tǒng)提供支持。
醫(yī)療保險公司、老年衛(wèi)生醫(yī)療制度(美國政府向65歲以上的人提供醫(yī)療保險)、醫(yī)療補助制度(美國政府向貧困者提供醫(yī)療保險)正在從收取服務(wù)性費用轉(zhuǎn)向以價值為基礎(chǔ)、數(shù)據(jù)為驅(qū)動的激勵轉(zhuǎn)變。這種激勵模式鼓勵高質(zhì)量、高性價比的醫(yī)療服務(wù),并且還能展示對電子醫(yī)療記錄的有效利用。
醫(yī)療衛(wèi)生數(shù)據(jù)
醫(yī)療衛(wèi)生行業(yè)的數(shù)據(jù)80%都是非結(jié)構(gòu)化數(shù)據(jù),并且數(shù)據(jù)量還在呈指數(shù)式增長。對于這些非結(jié)構(gòu)化數(shù)據(jù)的獲取,比如醫(yī)療設(shè)備檢測結(jié)果、醫(yī)生的記錄、實驗結(jié)果、影像學(xué)報告、醫(yī)用函件、臨床數(shù)據(jù)和財務(wù)數(shù)據(jù)等,是改善病患醫(yī)療服務(wù)及提高效率的無價資源。
以下是未來可以受益于大數(shù)據(jù)分析的醫(yī)療衛(wèi)生數(shù)據(jù)源的例子:
索賠報告:是醫(yī)療衛(wèi)生服務(wù)供應(yīng)商向保險公司提交的文件以獲得保險賠償。《健康保險隱私及責(zé)任法》(Health Insurance Portability and Accountability Act,縮寫為HIPAA)中最關(guān)鍵的一個要素就是通過鼓勵在醫(yī)療服務(wù)供應(yīng)商和保險公司之間廣泛使用電子文檔交換(Electronic Document Interchange,縮寫為EDI),建立電子醫(yī)療記錄方面的國家級行業(yè)標(biāo)準(zhǔn)來提高效率。索賠報告交換包括國際疾病分類(International Classification of Diseases,縮寫為ICD)診斷碼, 治療方案、日期、供應(yīng)商ID以及花費金額。
電子健康/醫(yī)療記錄數(shù)據(jù)(Electronic Health/Medical Record, 縮寫為 EHR或者EMR): 醫(yī)療電子記錄激勵體系在建立之時便是用來鼓勵職業(yè)人員以及醫(yī)院采用并展示對已認(rèn)證的EHR技術(shù)的有效應(yīng)用。EHR能夠促進服務(wù)供應(yīng)商和醫(yī)療機構(gòu)之間的數(shù)據(jù)全面分享。EHR包含醫(yī)療衛(wèi)生服務(wù)中所產(chǎn)生的數(shù)據(jù),例如診斷結(jié)果、治療方案、處方、實驗測試結(jié)果及放射診療結(jié)果。國際醫(yī)療衛(wèi)生領(lǐng)域信息系統(tǒng)指標(biāo)體系及交換協(xié)議(HL7)提供了電子醫(yī)療記錄數(shù)據(jù)的交換、整合、共享、撤回等方面的基本標(biāo)準(zhǔn)。
醫(yī)藥研發(fā):臨床實驗數(shù)據(jù)、基因數(shù)據(jù)。
病人行為和情緒數(shù)據(jù)。
醫(yī)療設(shè)備數(shù)據(jù):家庭或醫(yī)院的患者傳感器數(shù)據(jù)。
大數(shù)據(jù) 在醫(yī)療衛(wèi)生領(lǐng)域的發(fā)展趨勢
現(xiàn)在有一種趨勢是向著循證醫(yī)學(xué)發(fā)展,即充分利用所有臨床數(shù)據(jù)并能在臨床和高級分析中對這些數(shù)據(jù)進行因子分解。抓取及收集關(guān)于某一個病人的所有信息能夠為我們分析醫(yī)療服務(wù)協(xié)調(diào)性、分析基于效果的補償體系、人口健康管理以及病人參與度和其他信息。
醫(yī)療衛(wèi)生領(lǐng)域大數(shù)據(jù)應(yīng)用案例分析
用 大數(shù)據(jù)分析 工具減少醫(yī)療詐騙、浪費和濫用
在美國醫(yī)療產(chǎn)業(yè)中,因欺詐、浪費和濫用而產(chǎn)生的成本是造成醫(yī)療費用節(jié)節(jié)上升的重要因素,但大數(shù)據(jù)分析能稱為這一現(xiàn)象的變革者。醫(yī)療照護和醫(yī)療救助中心使用預(yù)測分析一年能夠杜絕總額超過2.1億的醫(yī)療保險欺詐。基于hadoop大數(shù)據(jù)平臺的基礎(chǔ)上,聯(lián)合保健公司實現(xiàn)了向可預(yù)測的建模環(huán)境的轉(zhuǎn)變。這個大數(shù)據(jù)平臺能夠以系統(tǒng)的、可重復(fù)的方式去甄別不正當(dāng)?shù)乃髻r申請,并能獲得2200%的數(shù)據(jù)反饋。
辨別詐騙的關(guān)鍵是通過存儲和可追溯的記錄去分析歷史賠償記錄中大量的非結(jié)構(gòu)數(shù)據(jù)集,并利用機器學(xué)習(xí)的算法來甄別反常事物及模式。
醫(yī)療組織機構(gòu)可以通過分析病人的紀(jì)錄和賬單來查明異常,例如短期內(nèi)過度使用醫(yī)療服務(wù),病人在不同地方的不同醫(yī)院受到了醫(yī)療服務(wù),或是同一個病人在多家機構(gòu)得到了相同的處方。
醫(yī)療保護和醫(yī)療救助中心用預(yù)測分析來對某些特定的賠償或醫(yī)療服務(wù)供應(yīng)者進行風(fēng)險評分,甄別計費模式并發(fā)現(xiàn)用傳統(tǒng)方法難以查明的反常情況。以規(guī)則為基礎(chǔ)的模式基本上能自動標(biāo)示部分賠償結(jié)果異常。而異常分析模式基本上是靠分析反常因素發(fā)現(xiàn)問題。預(yù)測分析模式是將某一賠償案例與另外一個已被確認(rèn)為詐騙的案例進行比較來發(fā)現(xiàn)可疑之處。而圖表模式一般是依據(jù)關(guān)系網(wǎng)來分析,它認(rèn)為一般存疑的醫(yī)療服務(wù)提供者總是與其他存在欺詐性的收費者保持緊密聯(lián)系。
通過預(yù)測分析提高效果
不少積極的嘗試,例如正在加速電子健康記錄(Electronic Health Records,EHRs)的有效利用、病人信息的數(shù)量和細節(jié),能夠通過多種信息源組合、分析各種各樣的結(jié)構(gòu)化和非結(jié)構(gòu)化的數(shù)據(jù)有助于提高診斷病人病狀的準(zhǔn)確性、根據(jù)病狀匹配治療方案以及預(yù)測病人患病或再患病的風(fēng)險。
以電子健康記錄(EHR)中的數(shù)據(jù)為來源的預(yù)測模型被應(yīng)用于早起疾病的檢測,并且還降低了一些疾病的死亡率,比如充血性心力衰竭(CHF)和敗血癥等疾病。降低充血性心力衰竭(Congestive Heart Failure ,CHF)和敗血癥等疾病的死亡率。CHF在醫(yī)療保健支出的占比最大,CHF越早治療越好,這樣能夠避免花更多的錢治療并發(fā)癥。但是醫(yī)生常常會忽略它的早期臨床表現(xiàn)。來自于佐治亞理工學(xué)院的一個機器學(xué)習(xí)示例表明機器學(xué)習(xí)算法能夠比醫(yī)生從病人的圖表中分析出更多的因素,同時通過增加額外的特征,機器學(xué)習(xí)算法能夠有效提高模型區(qū)分CHF患者和非CHF患者的能力。
通過分析包含更多病患數(shù)據(jù)的大樣本數(shù)據(jù),預(yù)測模型和機器學(xué)習(xí)能發(fā)現(xiàn)之前未能發(fā)現(xiàn)的細微差別和模式。Optum實驗室從EHRs中搜集30萬病人的信息,為預(yù)測分析工具創(chuàng)建了一個龐大的數(shù)據(jù)庫。這些工具將會幫助醫(yī)生做出基于大數(shù)據(jù)信息的決策,從而改善病人的治療。
實時監(jiān)控病情
醫(yī)療機構(gòu)正在通過持續(xù)性監(jiān)控病人生命特征來提供更加具有主動性的治療,各種監(jiān)控數(shù)據(jù)能進行實時分析并及時發(fā)送警告給醫(yī)療服務(wù)提供者以便他們能及時了解病人病情的變化。通過機器學(xué)習(xí)算法進行實時分析能夠幫助醫(yī)生做出挽救性命的決策并且對一些病癥進行有效干預(yù)。
醫(yī)療 大數(shù)據(jù)架構(gòu) :我們應(yīng)該怎么做?規(guī)模化后又該如何做?
我們需要收集數(shù)據(jù)、處理數(shù)據(jù)、存儲數(shù)據(jù),并最終將數(shù)據(jù)用于分析,機器學(xué)習(xí)和數(shù)據(jù)表盤。
數(shù)據(jù)擷取:NFS
通過網(wǎng)絡(luò)文件系統(tǒng)(NFS)協(xié)議可遠程訪問網(wǎng)絡(luò)共享磁盤。啟用NFS服務(wù)器后,可與客戶共享目錄和文件,讓用戶和程序像訪問存儲在本地的文件一樣訪問遠程系統(tǒng)上的文件。
與只允許集群數(shù)據(jù)導(dǎo)入或批量導(dǎo)入的其它版本的Hadoop不同,MapR允許通過NFS直接掛載群集本身,讓您的應(yīng)用程序直接讀取、寫入數(shù)據(jù)。通過POSIX語義,該MapR文件系統(tǒng)允許直接修改文件和多個并發(fā)讀取寫入操作。掛裝NFS的集群可實現(xiàn)對數(shù)據(jù)源的簡單數(shù)據(jù)擷取,比如說從其他應(yīng)用標(biāo)準(zhǔn)Linux命令、實用程序、應(yīng)用程序和腳本的設(shè)備上擷取文件、圖片等。
通過使用NFS可從MapR集群移出移入數(shù)據(jù)至更昂貴的存儲空間。例如,您可以將處理過的熱數(shù)據(jù)轉(zhuǎn)移到關(guān)系數(shù)據(jù)庫或數(shù)據(jù)倉庫,您也可以將冷數(shù)據(jù)轉(zhuǎn)移到成本更低的Hadoop存儲中。
流數(shù)據(jù)擷取:KAFKA API
由于越來越多的醫(yī)療方案需要實時分析和動態(tài)數(shù)據(jù),使用事件流擷取數(shù)據(jù)到系統(tǒng)中則將成為關(guān)鍵。 MapR流是一種新型的分布式通信系統(tǒng),通過Apache Kafka 0.9 API可使得生產(chǎn)者和消費者之間實現(xiàn)實時交流事件動態(tài)。主題是信息的邏輯化集合,可依據(jù)其將事件分門別類。
主題分區(qū)域放置。主題將并行數(shù)據(jù)負載傳遍多個服務(wù)器,這保證了更高的吞吐量和可擴展性。
讀取后消息并不會從主題中刪除,而且主題可以有多個不同的消費者,這使得抱有不同目的不同消費者處理可以處理同一消息。
批量處理
當(dāng)快速相應(yīng)時間不是核心要素時,就可采用數(shù)據(jù)批量處理。批量處理用于處理一段時間積累的數(shù)據(jù)集。例如白天收集EDI聲明,晚上打包至文件夾中準(zhǔn)備用于處理。
Apache Hive是一個用于數(shù)據(jù)倉儲的開源Hadoop應(yīng)用程序。它提供了一個便捷的方式在大量的非結(jié)構(gòu)化數(shù)據(jù)之上建立框架,然后對這些數(shù)據(jù)進行類似SQL查詢操作的批處理程序。
Apache的Spark是下一代分布式并行處理框架,可為機器學(xué)習(xí)、圖形處理、SQL等提供一套豐富的API。 對于迭代算法,Spark處理速度要比MapReduce更快,因為Apache盡量將相關(guān)信息儲存在儲存器中,而MapReduce則更多地直接從盤中讀取和寫入。
流式數(shù)據(jù)處理
Spark Streaming是基于Spark的實時計算框架,其將流式計算分解成一系列短小的批處理作業(yè)。因此,你可以像編寫批處理作業(yè)一樣編寫流作業(yè)。當(dāng)然,處理大規(guī)模流式數(shù)據(jù),除了Spark Streaming, Apache Flink 和 Apache Storm也是不錯的選擇。
NOSQL數(shù)據(jù)庫存儲
存儲海量數(shù)據(jù),我們需要一個既能滿足快速寫入又能滿足大批量錄入的數(shù)據(jù)庫。MapR-DB應(yīng)運而生,MapR-DB就是為了規(guī)模化寫入而設(shè)計,因為事實上同時讀取的數(shù)據(jù)也存儲在一起。
有了MapR-DB, 數(shù)據(jù)可以通過關(guān)鍵域在數(shù)據(jù)集群之間完成自動分配,每個服務(wù)器對應(yīng)一個子數(shù)據(jù)集的源。如果按行分組數(shù)據(jù),無疑會加快數(shù)據(jù)讀寫速度。
MapR-DB有兩個API:
JSON API——用于存儲文件模型
HBase API——用于列數(shù)據(jù)模型(尤其是時間序列數(shù)據(jù))
提供數(shù)據(jù)
終端應(yīng)用,例如數(shù)據(jù)表盤、商業(yè)智能工具以及其他的應(yīng)用,需要使用已處理好的數(shù)據(jù)。同時,這些數(shù)據(jù)可以再存回數(shù)據(jù)庫,方便日后使用。
Apache Drill 支持無模式SQL查詢引擎,因此能夠?qū)崿F(xiàn)海量數(shù)據(jù)的自助式數(shù)據(jù)探索。能夠?qū)崿F(xiàn)海量數(shù)據(jù)自助服務(wù)SQL查詢。Drill有如下優(yōu)點:
Drill支持多種數(shù)據(jù)讀取
Drill進行了交互式應(yīng)用方面的優(yōu)化,可以在秒級別的時間查詢PB級別數(shù)據(jù)及萬億條記錄
數(shù)據(jù)分析師在使用Drill的時候,可以搭配一些例如Tableau的工具,就能夠快速實現(xiàn)數(shù)據(jù)可視化。
以上我們討論的架構(gòu)組建,都能與mapr 融合數(shù)據(jù)平臺在同一數(shù)據(jù)集群上運行。當(dāng)然,整合Hadoop、Spark、實時數(shù)據(jù)庫、全球性事件流及大規(guī)模企業(yè)級存儲,還會帶來以下好處:
維護一個數(shù)據(jù)集群,意味著更少的系統(tǒng)架構(gòu)部署和管理,對系統(tǒng)安全、穩(wěn)定性和性能方面的監(jiān)控也減少了。這樣極大程度上降低了硬件和運營成本。
生產(chǎn)者和消費者在同一集群,將會降低因在不同集群和應(yīng)用程序間復(fù)制或移動數(shù)據(jù)而造成的延遲。
案例架構(gòu)
Valence Health使用MapR融合數(shù)據(jù)平臺來創(chuàng)建作為該公司主要數(shù)據(jù)儲存地的數(shù)據(jù)湖。該公司產(chǎn)生3000條內(nèi)部數(shù)據(jù)記錄,涵蓋45種不同類型,包括實驗室測試數(shù)據(jù)、病人生命體征、處方、藥品津貼、索賠和支出等,其中索賠來自醫(yī)生和醫(yī)院兩方面。在過去,如果我們要從2000萬條實驗室記錄中檢索一條記錄,將花費22個小時。而MapR只需要20分鐘,并且其所消耗的硬件資源還會大大減少。
國立衛(wèi)生研究院為了整合各研究院的數(shù)據(jù)集,也創(chuàng)建了一個數(shù)據(jù)湖。這樣,所有的數(shù)據(jù)都集中在一個地方,更加方便數(shù)據(jù)共享和處理。
UnitedHealthcare IT部門采用Hadoop框架創(chuàng)建了一個平臺。該平臺上有各種工具,能夠
分析諸如索賠、處方、治療計劃參與者、合同服務(wù)提供者及相關(guān)的索賠審議結(jié)果等信息。
醫(yī)療衛(wèi)生服務(wù)的記錄系統(tǒng)流
Liaison科技提出一個基于云的方案,幫助組織機構(gòu)整合、管理、保護跨公司數(shù)據(jù)。針對醫(yī)療服務(wù)和生命科學(xué)產(chǎn)業(yè),他們提供了一個縱向解決方案,該方案面臨兩個難題:符合HIPAA規(guī)定需要以及數(shù)據(jù)格式及呈現(xiàn)方式的推廣。針對第一個問題,MapR將該規(guī)定的數(shù)據(jù)譜系流式化,數(shù)據(jù)流成為了一個記錄系統(tǒng)——一個無窮盡而又不可隨意更改的數(shù)據(jù)交換記錄日志。
針對后一問題,我們通過一個例子來了解。一個病人的記錄有可能被不同的用戶,例如制藥公司、醫(yī)院、診所、醫(yī)生等以文件或圖表形式呈現(xiàn)或以檢索等方式使用。通過把即時數(shù)據(jù)變化通過數(shù)據(jù)流的形式處理成MapR-DB HBase、MapR-DB JSON文件、圖表,并錄入搜索數(shù)據(jù)庫中。此外,通過應(yīng)用MapR數(shù)據(jù)整合平臺的服務(wù),Liaison可以保護所有的數(shù)據(jù),避免冗余數(shù)據(jù)和安全需求累積,而這是對備選方案的基本要求。
基因處理
Novartis團隊采用Hadoop 和Apache Spark打造了一個工作流系統(tǒng)。這個系統(tǒng)為NGS(Next Generation Sequencing)研究整合、處理、分析各種類型的數(shù)據(jù)。
隨著科技的發(fā)展,普通硬件無論是存儲性能還是快速處理大數(shù)據(jù)的能力都大幅提升。隨著通過捕獲、共享、存儲大量電子醫(yī)療服務(wù)數(shù)據(jù)和交易等技術(shù)的成熟,醫(yī)療服務(wù)行業(yè)正逐步變革,不斷提高產(chǎn)出并降低花銷。