醫療大數據的基本概念
搭上“互聯網+”東風的醫療,要走上發展快車道,離不開“大數據”這把金鑰匙。如果我們把“互聯網+”醫療比作一幢高樓大廈,那么,“大數據”就是這幢大廈的地基,萬丈高樓平地起,沒有堅固的地基,空中樓閣難觸及;甚至,“大數據”還可以說是這幢大廈的磚瓦,沒有充足的磚瓦,海市蜃樓不長久。一個小小的比方,讓大數據的重要性不言而喻。這讓我們在探究“互聯網+”醫療之前,不得不先去認識一下如此風靡的“大數據”。
大數據的前世今生
回顧歷史,“大數據”這個時髦的詞匯,在物理學、生物學、環境生態學等領域,以及軍事、金融、通訊等行業存在已有時日。但是真正引起人們高度關注的,還是因為近年來互聯網和信息行業的迅速發展所致。
且讓我們來看看“大數據”在互聯網行業的表現。
首先,它源于互聯網公司在日常運營中生成、累積的用戶網絡行為數據。這些數據的規模是如此龐大,以至于人們將不能再用G或T來衡量,所以,大數據的起始計量單位至少是P(1000個T)、E(100萬個T)或Z(10億個T)。
那么,大數據到底有多大?一組名為“互聯網上一天”的數據告訴我們:一天之中,互聯網產生的全部內容可以刻滿1.68億張DVD;發出的郵件有2940億封之多(相當于美國兩年的紙質信件數量);發出的社區帖子達200萬個(相當于《時代》雜志770年的文字量);賣出的手機為37.8萬臺,高于全球每天出生的嬰兒數量37.1萬……
截止到2012年,數據量已經從TB(1024GB=1TB)級別躍升到PB(1024TB=1PB)、EB(1024PB=1EB)乃至ZB(1024EB=1ZB)級別。國際數據公司(IDC)的研究結果表明,2008年全球產生的數據量為0.49ZB,2009年的數據量為0.8ZB,2010年增長為1.2ZB,2011年的數量更是高達1.82ZB,相當于全球每人產生200GB以上的數據。而到2012年為止,人類生產的所有印刷材料的數據量是200PB,全人類歷史上說過的所有話的數據量大約是5EB。IBM的研究稱,整個人類文明所獲得的全部數據中,有90%是過去兩年內產生的。而到了2020年,全世界所產生的數據規模將達到今天的44倍。
一系列的數據無不向我們傳達著一個概念,那就是“大”,以幾何倍數增長的大,而且越來越大。但是,如果就此顧名思義,定義了“大數據”,那還是有失偏頗。
最早提出“大數據”時代到來的,是全球知名咨詢公司麥肯錫,麥肯錫稱:“數據,已經滲透到當今每一個行業和業務職能領域,成為重要的生產因素。人們對于海量數據的挖掘和運用,預示著新一波生產率增長和消費者盈余浪潮的到來。”
牛津大學互聯網研究所維克托·邁爾·舍恩伯格教授指出,“大數據”所代表的是當今社會所獨有的一種新型的能力——一種前所未有的方式,通過對海量數據進行分析,獲得有巨大價值的產品、服務和見解。
“大數據”會給整個社會帶來從生活到思維上革命性的變化:企業和政府的管理人員在進行決策的時候,會出現從“經驗即決策”到“數據輔助決策”再到“數據即決策”的變化;人們所接受的服務,將以數字化和個性化的方式呈現,借助3D打印技術和生物基金工程,零售業和醫療業亦將實現數字化和個性化的服務;以小規模實驗、定性或半定量分析為主要手段的科學分支,如社會學、心理學、管理學等,將以向大規模定量化數據分析轉型;將會出現數據運營商和數據市場,以數據和數據產品為對象,通過加工和交易數據獲取商業價值;人類將在哲學層面上重新思考諸如“物質和信息誰更基礎”、“生命的本質是什么”、“生命存在的最終形態是什么”等本體論問題。
綜上所訴,我們對“大數據”概念基本能有個全方面的認識。“大數據”不是數據量的簡單刻畫,也不是特定算法、技術或商業模式上的發展,而是從數據量、數據形態和數據分析處理方式,到理念和形態上重大變革的總和。所謂“大數據”,是基于多源異構、跨域關聯的海量數據分析所產生的決策流程、商業模式、科學范式、生活方式和觀念形態上的顛覆性變化的總和。
接軌“大數據”,傳統醫療遇挑戰
搭上“互聯網+”的列車,醫療機構便開始行進在醫療信息數字化的路上。
醫療數據是醫生對患者診療和治療過程總產生的數據,包括患者基本數據、電子病歷、診療數據、醫學影像數據、醫學管理、經濟數據、醫療設備和儀器數據等,以患者為中心,成為醫療信息的主要來源。而不斷數據化的信息,在使醫院數據庫信息容量不斷膨脹的同時,也對疾病及病人的管理、控制和醫療研究起到了積極的作用,價值不菲。
但是,發展了那么多年的傳統醫療行業,現在要跨入“互聯網+”的頻道,其固有的復雜性和特殊性致使轉型難度不容小覷。就拿一個初具規模的醫院來說,每天需要接待上萬的患者前來就診,患者的基本信息、影像信息與其他特殊診療信息匯集在一起,那將是一個非常龐大的數據。
據初步統計,上海市區域醫療信息平臺(上海市“醫聯工程”及區縣衛生數據中心)已經積累了覆蓋3900萬人群、1400+TB數據量的電子診療與健康檔案等醫療衛生數據(涵蓋了全市38家三級醫院3900萬就診人群的診療信息,包括患者基本信息、就診信息、健康檔案、檢驗及影像檢查報告、醫學影像圖像文件、住院相關病歷、醫保結算等醫療衛生數據,涉及就診記錄2.1億條,處方記錄9.1億條)。
日積月累,這個數據量將會持續快速增長,為醫院的數據存儲、集成、調用等應用帶來巨大壓力。除了數據規模巨大之外,醫療行業的數據類型和結構極其復雜,如PACS影像、B超、病理分析等業務產生的非結構化數據,這些數據存儲復雜,并且對傳統的處理方法和技術帶來巨大挑戰。
醫療大數據的主要來源
隨著醫療衛生信息化建設進程的不斷加快,醫療數據的類型和規模也在以前所未有的速度迅猛增長,甚至到了在很大程度上無法利用目前主流軟件工具,在合理的時間內達到擷取、管理并整合成為能夠幫助醫院進行更積極目的經營決策的有用信息的地步。而且,如此具有特殊性、復雜性的龐大的醫療大數據,其搜集如果僅靠個人甚至個別機構,那基本是不可能完成的任務。那么,這些數據到底是怎么產生的,又都來自于哪里呢?經過簡單的梳理,我們大致可以把他們歸檔在以下4個框架里:
(1)病人就醫過程中產生的信息。從患者進入醫院開始,掛號環節便將個人姓名、年齡、住址、電話等信息輸入完全了;隨后在醫生就醫環節,病患的身體狀況、醫療影像等信息也將被錄入數據庫;看病結束以后,患者買單結算的過程中,又將有費用信息、報銷信息、醫保使用情況等信息被添加到醫院的大數據庫里面。這將形成醫療大數據最基礎卻也是最龐大的原始資源。
(2)臨床醫療研究和實驗室數據。臨床和實驗室數據整合在一起,使得醫療機構面臨的數據增長非常快,一張普通CT圖像含有大約150+MB的數據,一個標準的病理圖則接近5+GB。如果將這些數據量乘以人口數量和平均壽命,僅一個社區醫院累積的數據量就可達數萬億字節甚至數千萬億字節(PB)之多。
(3)制藥企業和生命科學。藥物研發所產生的數據是相當密集的,對于中小型的企業也在百億字節(TB)以上的。在生命科學領域,隨著計算能力和基因測序能力逐步增加,美國哈佛醫學院個人基因組項目負責人詹森·鮑比就認為,到2015年,將會有5000萬人擁有個人基因圖譜,而一個基因組序列文件大小約為750MB。
(4)智能穿戴設備帶來的健康管理。隨著移動設備和移動互聯網的飛速發展,便攜式的可穿戴醫療設備正在普及,個體健康信息都將可以直接連入互聯網,由此將實現對個人健康數據隨時隨地的采集,而帶來的數據信息量將更是不可估量的。
醫療大數據的特性:大數據性+醫療性
如此規模巨大的臨床實驗數據、疾病診斷數據以及居民行為健康數據等匯聚在一起所形成的醫療大數據,已然呈現出其作為大數據的特性,即:
(1)數據規模大(volume)。例如一個CT圖像含有大約150MB的數據,而一個基因組序列文件大小約為750MB,一個標準的病理圖則大得多,接近5GB。
(2)數據結構多樣(variety)。醫療數據通常會包含各種結構化表、非(半)結構化文本文檔(XML和敘述文本)、醫療影像等多種多樣的數據存儲形式。
(3)數據增長快速(velocity)。一方面,醫療信息服務中包含大量在線或實時數據分析處理,例如,臨床決策支持中的診斷和用藥建議、流行病分析報表生成、健康指標預警等;另一方面,得益于信息技術的發展,越來越多的醫療信息被數字化,因此在很長一段時間里,醫療衛生領域數據的增長速度將依然會很快。
(4)數據價值巨大(value)。毋庸置疑,數據是石油,是資源,是資產,醫療大數據不僅與每個人的個人生活息息相關,對這些數據的有效利用更關系到國家乃至全球的疾病防控、新藥品研發和頑疾攻克的能力。
而除了大數據所具有的特征(即volume,variety,value,velocity)外,醫療大數據還具有多態性、不完整性、時間性及冗余性等醫療領域特有的一些特征。
(1)多態性醫療大數據包括純數據(如體檢、化驗結果)、信號(如腦電信號、心電信號等)、圖像(如B超、X線等)、文字(如主訴、現/往病史、過敏史、檢測報告等),以及用以科普、咨詢的動畫、語音盒視頻信息等多種形態的數據,是區別于其他領域數據的最顯著特征。
(2)不完整性醫療數據的搜集和處理過程經常相互脫節,這使得醫療數據庫不可能對任何疾病信息都能全面反映。大量數據來源于人工記錄,導致數據記錄的偏差和殘缺,許多數據的表達、記錄本身也具有不確定性,病例和病案尤為突出,這些都造成了醫療大數據的不完整性。
(3)時間性患者的就診、疾病的發病過程在時間上有一個進度,醫學檢測的波形、圖像都是時間函數,這些都具有一定的時序性。
(4)冗余性醫學數據量大,每天都會產生大量信息,其中可能會包含重復、無關緊要甚至是相互矛盾的記錄。
醫療大數據的應用及案例
經過數據的原始積累,并逐步走向成熟的醫療大數據,將給我們帶來怎樣的效用呢?根據全球管理咨詢公司麥肯錫的一份最新報告顯示,醫療保健領域如果能夠充分有效地利用大數據資源,醫療機構和消費者便可節省高達4500億美元的費用。
大數據在醫療行業的應用可在以下幾個方面發揮積極作用:
(1)服務居民。居民健康指導服務系統,提供精準醫療、個性化健康保健指導,使居民能在醫院、社區及線上的服務保持連續性。例如,提供心血管、癌癥、高血壓、糖尿病等慢性病干預、管理、健康預警及健康宣教(保健方案訂閱、推送);同時減少患者住院時間,減少急診量,提高家庭護理比例和門診醫生預約量。
(2)服務醫生。臨床決策支持,如用藥分析、藥品不良反應、疾病并發癥、治療效果相關性分析、抗生素應用分析;或是制定個性化治療方案。
(3)服務科研。包括疾病診斷與預測、提高臨床試驗設計的統計工具和算法、臨床實驗數據的分析與處理等方面,如針對重大疾病識別疾病易感基因、極端表現人群;提供最佳治療途徑。
(4)服務管理機構。規范性用藥評價、管理績效分析;流行病、急病等預防干預及措施評價;公眾健康監測,付款(或定價)、臨床路徑的優化等。
(5)公眾健康服務。包括危及健康因素的監控與預警、網絡平臺、社區服務等方面。