大數據行業中,最不允許吹牛的一定是醫療大數據。大數據行業在近兩年迎來了爆發,由于發展時間較短,因而可能出現靠吹牛發展客戶等衍生問題。考慮到醫療行業本身具有的嚴謹性和復雜性,醫療大數據內憂外患之下更不容吹。
醫療大數據很特殊
醫療大數據是大數據的一種。第三方機構預計到2020年醫療數據量將達到40萬億GB,是2010年的30倍,數據生成和增長速度還將不斷加快。相應的,市場競爭的激烈可能產生靠放衛星而競爭的現象,這是醫療大數據最忌諱的情況。
一般認為無法使用傳統工具統計、存儲或者處理的大量數據集被稱為大數據。大數據的價值并不在數據本身,而是通過處理分析后得出的新的理論。通常來講,大數據可視化之前的一系列采集、傳輸、分析和處理過程都不會被展示,單純以大數據成果的方式進行展現會引發用戶對數據理解的不夠徹底,從而產生誤讀。
醫療行業的大數據必須務實
這種誤讀在其他行業或許并不會產生太大的實質性影響,可是在醫療行業是絕對不允許存在的。由于生命的神圣性所在,醫療大數據必須務實。例如不久前所一滴血可以鑒定癌癥的傳言,消息一出多少人認為人類大敵有望攻克,可當謠言被揭穿能剩下的就只有信任的離去。
醫療數據方面,可獲取的健康醫療數據很多,數據規模也很大,部分數據存在描述不規范或者展現方式特殊等問題。一些數據交由計算機很難進行相應的預測分析,甚至連統計工作都難以完成,這種難以用于計算的數據價值低且不易處理。只有將文本數據轉換為數據庫表、關系圖以及數值型向量時才可以方便于大數據計算。
真假醫療大數據
醫療大數據經常會出現采集樣本重復、存儲數據過時以及個體偏差影響分析結果等問題,而這就會使得數據的準確性出現問題。除此之外,醫療大數據的采集一般來自于實際醫療案例之中。大數據想要發揮其優勢需要保障數據量的大,而醫療活動中一個部門的醫治手段往往趨于單一化,而從中獲取醫療突破的可能性大幅下降。而解決這一問題的最佳方案應當采用多源同類數據,尋求不同治療方案以及不同效果。
醫療數據去偽存真是個大工程
由于醫療行業的特殊性,醫療領域可劃分的范圍較廣,甚至對病人的看法也可以從多個角度不同方向進行剖析,就像中國本土的中西醫之爭對病情的解決手段就有著不同方式,而人體具有的特殊性進一步加深了這種差異化問題。不同人群對同一種方式的治療卻可能產生不同結果,使得醫療行業很難達成統一標準。
因此,醫療數據面臨執行標準不統一以及醫生對于病癥描述程度不同的問題,想要解決同一病癥需要先進行大量個性化語句的統一梳理以達到最終歸一化的目標,才可能完成醫療數據的去偽存真而獲得真正的醫療大數據。
IBM Watson的醫療應用初見成效
醫療大數據在后續的數據分析之中也會存在一些問題,比如部分數據盡管可以獲取治療方案、治療效果等來制造模型,可是當應用于機器學習后,醫療數據的標準不一可能會引發偏差。就算是目前已經進入商用階段的IBM Watson,在最初階段也是通過與醫院緊密合作,用了幾年時間來幫助Watson去除數據雜質,訓練分析能力。盡管目前Watson已開始在全球很多醫院中開始使用,但在收集、存儲、統計到分析處理還面臨諸多挑戰,醫療大數據的應用和研發依然渴望新的突破。
醫療大數據需穩中求進
云計算和大數據行業的技術革新速度十分驚人,在醫療大數據領域也是如此,盡管最近幾年有了諸多突破,但在火熱的背后依然需要強調的是安全至上。
眾所周知,大數據從采集到分析再到呈現結果這一過程需要需要解決一系列的問題,比如利用統計分析、知識推理、機器學習等建立模型,而醫療大數據時還需要應對知識圖譜的建立以及碎片化問題。只有將圖譜和深度學習完美結合才能形成靠譜的決策模型。
醫療大數據還面臨諸多挑戰
在這一復雜的過程之中,醫療大數據面臨的壓力與挑戰遠遠超過其他行業。因為醫療是關乎生命的話題,生命的重量注定讓醫療大數據不可能大躍進式的發展,而是只能一穩再穩。醫療大數據需要回歸其工具的本質,成為醫生的助手,而不是成為一種營銷的噱頭。
我國的醫療在不斷進步,可是近年來所暴露出的問題多少對醫患雙方造成了影響。醫療大數據作為我國醫療改革的重頭戲之一,一定要嚴謹而行。醫療大數據,容不得吹牛。