“我們醫院這幾年凈忙著添置存儲設備了。”某大型三甲醫院計算機室主任如是說,“大型醫院每年的數據增量在數十TB,僅醫學影像每年可達20TB。”
大數據時代的“大考”
醫療衛生信息的數據量正在急劇增長,這是一個不爭的事實,但大多數人對于這個事實,還只停留于簡單的“直覺”。那么,到底醫療衛生信息的增速究竟有多“急”?
中山大學第一附屬醫院(以下簡稱:中大一附院)信息網絡科主任石志杰稱:“我們醫院在5年之內,數據量有可能突破PB量級。”作為一家臨床、教學和科研并重的醫院,中大一附院的數據增長狀況很具代表性:1998年,全院數據存儲量為3.4TB;5年之后,全院數據存儲量增長到24TB;2008年,醫院將存儲容量擴到130TB,目前即將存滿。
驅動數據量急劇增長,主要是PACS影像、B超、病理分析等業務所產生的非結構化數據。這些非結構化數據的類型也很復雜,“單從數據文件的大小來看,有的細如沙粒,有的大如石塊,還有的巨如巖石。”石志杰如此比喻。人體不同部位、不同??朴跋竦臄祿募笮〔灰?,意味著在實際的PACS網絡存儲和傳輸管理上,要采取不同的應對策略,為不同的類型的數據提供不同的傳輸帶寬和存儲保障策略。
可以說,中國的醫療正在邁入“大數據(big data)”時代。所謂“大數據”,是指某個數據存取點的數據量非常之大,以至于利用常規的軟件工具已經難以對其進行搜集、管理和加工了,其數據規模往往達到了PB(1024TB)級。醫療行業具有典型的“大數據”特征:一是數據量大;二是數據類型復雜。
面對“大數據”的大考,醫院須考慮三大主要問題。
首先,安全可靠是第一位。
數據存儲是否安全可靠,已經關乎醫院業務的連續性。因為系統一旦出現故障,首先考驗的就是數據的存儲、災備和恢復能力。如果數據不能迅速恢復,而且恢復不能到斷點,則對醫院的業務、患者滿意度構成直接損害。
因此,安全性和可靠性是醫療行業用戶對存儲的首要需求。過去在數據規模比較小,備份和恢復比較容易,而且還可以做到實時的備份。現在,臨床信息系統越來越多、越來越細,可能有幾十個系統,服務器數量非常大。這么多的服務器還能不能做到把各種數據都備份到不同的地方去,這件事情非常難。
醫院當前面臨的挑戰、也是讓CIO們苦惱的問題是:怎么做備份?保證的級別還能不能做到像過去那樣,出了問題以后恢復到任何一個時間點?備份如何管理?幾十個服務器總不能一個一個去備份,能不能做集中備份?備份的介質是選擇磁盤,還是磁帶?又怎么管理?
其次,提高醫院運行和服務效率是根本。
中國醫學科學院腫瘤醫院計算機室主任李懷成曾表示:“我們最怕災備成災,備份的東西卻不能用。”
在中大一附院,放射科專家們每天要閱讀數以萬計的影像。以前,調取影像的速度是每秒兩三幅。一個病人的CT影像往往多達兩千幅,調取一個病人的數據就要等5分鐘,為等待大量圖像數據傳輸到本地,等待閱片的教授不得已只能喝茶以消磨時間;采用虛擬化云存儲架構之后,調閱2000幅影像僅需50秒。新的存儲架構上線之后,放射科室的教授、專家終于可以每天準時下班了。這讓中大一附院的IT人員感到揚眉吐氣。因此,提高效率就是節省醫生的時間,從而緩解醫療資源的緊張狀況,在一定程度上幫助解決“看病難”問題。
第三,還需考慮成本。
存儲架構是否合理,不僅影響到醫院IT系統的成本,而且關乎醫院的運營成本。中大一附院先后于2002年、2006年對存儲系統進行了升級擴容。醫院不斷地在買不同品牌的存儲系統,買盤的速度也越來越快。很多醫院的信息中心主任都感嘆,“我們花了很多錢購買存儲設備,但依然覺得不夠用。”醫療數據激增,造成醫院普遍存在著較大的存儲擴容壓力。
如今,醫院的存儲設備大多是由不同廠商構成的完全異構的存儲系統,這些不同的存儲設備利用各自不同的軟件工具來進行控制和管理,這樣就增加了整個系統的復雜性,而且管理成本非常高。
牢牢抓住存儲的“牛鼻子”
存儲是一切臨床業務應用系統的根基。大數據時代,尤其要牢牢抓住存儲的“牛鼻子”。
醫院的數據存儲介質,大致經歷幾個階段:較早以前是用光盤刻錄數據,這種方式費時費力。假設一所醫院每天新產生80GB數據量,而一張光盤只能刻4G,刻一張盤需要1小時,光驅還經常壞。后來,改用磁帶庫,成本低,存取也很快。如果磁帶在磁帶庫中,每分鐘可調取幾百M數據,如果不在磁帶庫中,就要先找到磁帶。但是今天,這些方案都不能滿足醫院臨床業務的即時性和連續性需求。
一般來講,醫院里諸如HIS、PACS等關鍵應用系統的數據都是獨立存儲的,也就是說,一套應用得準備一套存儲;結構化數據和非結構化數據也不是統一存儲的;而且,醫院信息系統大多是異構的,不僅需要足夠大的存儲容量,而且還需要數據整合。
迅速膨脹的非結構化數據(PACS、音視頻數據),是醫院存儲管理的“重頭戲”,PACS數據一般存儲5~10年,有的數據要保留很久。而一旦超過10年,不管何種存儲介質,不管哪家公司,產品一定會停產。PACS影像數據量很大,不能停機,如何將數據遷移到新的存儲設備?如何為PACS應用提供更強大的文件存儲與管理平臺,提高閱片效率,是醫院IT部門的關注點。要想滿足這些需求,醫院必須選擇合理的存儲架構,即新的存儲架構必須符合醫療數據的管理特性,具有前瞻性。
如今,存儲虛擬化技術提升了存儲系統的功能和管理能力,并將許多高級智能加入到存儲網絡中的各個地方。虛擬存儲技術,是將底層存儲設備進行抽象化統一管理,向服務器層屏蔽存儲設備硬件的特殊性,只保留其統一的邏輯特性,從而實現了存儲系統集中、統一而又方便的管理。對比一個計算機系統來說,整個存儲系統中的虛擬存儲部分就像計算機系統中的操作系統,對下層管理著各種特殊而具體的設備,而對上層則提供相對統一的運行環境和資源使用方式。
HDS(日立數據)采取的存儲虛擬化策略是把存儲的智能(即系統的“大腦”)放在一個獨立于磁盤的控制器中,通過這個“大腦”來控制外部所有的存儲產品。針對結構化數據和非結構化數據,HDS都有成熟的應對策略。
HDS的第一大“利器”是針對結構化數據的虛擬存儲平臺(Virtual Storage Platform,VSP)是業內唯一可進行三維擴展的存儲平臺:(1)縱向擴展,在單一單元中增加處理器、連接性和容量,從而優化開放系統與大型機環境的性能;(2)橫向擴展,滿足不斷升級的服務器需求和容量要求;(3)縱深擴展,優化多廠商存儲環境,從而保證所有存儲資產的投資回報。
針對大數據最于難應對的“重頭戲”——非結構化數據,HDS的應對“利器”是內容歸檔平臺HCP(Hitachi Content Platform),它能把結構化和非結構化數據集成到一個單一的動態歸檔架構中,同時有效消除各種應用的冗余數據。
據鄭州大學第一附屬醫院(以下簡稱“鄭大一附院”)信息中心主任吳亞杰介紹,原先醫院一般采用磁帶備份的方式,但是中原一帶多風沙,很毀磁帶。同時,臨床科研對離線數據的查詢需求日益增多,必須保持許多數據的在線狀態。HDS的HCP歸檔方案,可以對不常用的數據進行歸檔,但又可以隨時在線調用。”而且,HCP可以擴展至40PB,而且其容量還能夠進行線性擴展,能夠滿足用戶不斷增長的數字歸檔需求。
HDS的第三個“利器”——HDI(Hitachi Data Ingestor)則適用于區域衛生信息化,它能與HCP緊密結合,將HCP數據快速、安全地分發到用戶和現有應用程序,從而實現區域的數據分享,方便區域醫療協同服務的開展。2011年,區域衛生信息化建設在中國快速升溫,借助信息化網絡手段,共享信息,支撐區域醫療協同、區域檢驗中心,成為優化醫療資源的重要途徑。針對跨機構的區域數據共享,HDI將助力提高那些已經安裝了HCP的醫療機構開展區域醫療。
迎接“大價值”
只有妥善處理好存儲架構,“大數據”才能給醫院帶來大價值,才不會成為大問題。“大價值”具體將體現在以下幾個方面。
首先,確保IT投資的價值。由于醫院不同的業務系統可能采用的是不同廠家的存儲設備。HDS VSP可實現將其全部虛擬化,并將同一類型的硬盤(如SSD、SAS、SATA)重新“捆綁”在一起。HDS 還采用了動態分層技術。針對結構化數據的存取,一定要“快”。HDS VSP可以根據數據被調用的頻率,自動將常用的數據搬到最高層,提高效率。
“HDS VSP恰恰十分穩定,迄今為止,只有HDS VSP提供100%的可用性。”日立數據系統亞太區衛生與生命科學行業總經理馬明才說,“HCP、VSP組合在一起,就能夠比較系統地解決醫院數據的存儲歸檔問題。結構化的數據直接連入VSP,非結構化的數據先送到HCP,再送到VSP。”
有了HDS的存儲虛擬化平臺以后,用戶不必再為舊有系統“棄之可惜、食之無味”而煩惱,通過虛擬化整合了現有存儲資源,并可以只通過一個統一的管理界面和通用的管理軟件來對整個數據存儲系統進行管理,因此為用戶帶來很大的靈活性,使他們可以繼續使用原有的存儲設備,充分利用。
其次,充分發掘數據資產的價值。醫院雖然擁有龐大的數據,但是躺在那里睡覺的數據是沒有任何價值的,只有盤活這些數據,才能體現出數據資產的價值。
用戶利用HCP,就像使用Google搜索網絡內容一樣在其內部網絡上輕松快捷地搜索所需內容。為了不增加用戶的負擔,HCP不會給用戶造成新的存儲孤島,也不需要更多的軟件工具和管理界面,而是為用戶提供了一個單一管理界面,為用戶實現包括HCP在內的整個HDS的分層存儲環境的監測、報告與控制,從而降低了運營成本,最大化地實現投資回報率。
在中大一附院,以往,醫生如需查看歸檔到磁帶上的歷史資料,機房必須配備專門的工程師全天找數據,找到了還調不出來?,F在醫生自己就可以查詢數據,因為數據全部實現了在線存儲。“尤其在PACS領域,非結構化數據的管理是一個巨大挑戰。一般先把數據存起來問題不大,但是日后的檢索、查詢,尤其是模糊查詢的壓力很大。HDS在數據歸檔方面恰恰提供了方案。該方案的核心是一套軟件,設計了元數據建庫規則,通過給數據加標簽的方式,建立不同維度,從而具有模糊查詢功能。”石志杰說。
三是提高服務能力,最終惠及患者。電子化讓傳統的閱片流程得以優化,可以幫助降低平均住院日,緩解醫療資源緊張的局面。以前必須等片子送到專家桌面才能閱片;現在拍完片就可以實時傳送到專家的PC上,專家可以隨時在線調閱,一分鐘之內都可以調完。此外,放射科全部實現了網上審批流程。放射科主任在網上對閱片報告進行審核,同時可以共享閱片信息。對于中大一附院而言,每降低0.1個平均住院日,經濟和社會效益就非??捎^。
相關鏈接:
1.大數據(Big Data)
大數據是指某個數據存取點的數據量非常之大,以至于利用常規的軟件工具已經難以對其進行搜集、管理和加工了,其數據規模往往達到了PB(1024TB)級,譬如,AT&T公司每天傳送的數據量高達19PB。常規技術已經難以應對PB級的挑戰,要對如此大規模的數據量進行高效處理需要一些特殊的技術手段,諸如:MPP(大規模并行處理)數據庫、Hadoop平臺、云計算平臺、網絡存儲系統等。
2.結構化數據
主要是指有一定結構,可以劃分出固定的基本組成要素,能以表格的形式表達的數據,可用關系數據庫的表、視圖來表示。
3.非結構化數據
指被記錄信息的數據長度和格式等是不固定的,如產品圖形信息、工藝特征和加工特性等信息。