何在保證基因數據和醫療記錄安全的同時,運用云端強大的計算能力分析找出基因和疾病之間有意義的關聯?
未來醫學的夢想是理解DNA和疾病之間的聯系,并以此為基礎為患者制定個性化的治療方案。但是,科學家意識到這樣的「個性化」或「精準」醫學有一個難題:如何在保證基因數據和醫療記錄安全的同時,能夠運用云端強大的計算能力分析找出基因和疾病之間有意義的關聯。
目前,一項新興的數據加密技術也許可以解決這一難題。
加州大學圣地亞哥分校(以下簡稱UCSD)正在探討如何結合加密技術進行基因數據分析,他們在較小的數據集中應用一個被稱作「同態加密(homomorphic encryption)」的方法,10分鐘內就能找到與疾病相關的基因變異。盡管在實際工作中,計算機從由成百上千DNA片段組成的全基因組數據集里找出與疾病相關的基因變異要花費數小時時間,但是,密碼技術專家還是值得鼓勵。
同態加密是一種加密形式,它允許人們對密文進行特定的代數運算得到仍然是加密的結果,將其解密所得到的結果與對明文進行同樣的運算結果一樣。換言之,這項技術令人們可以在加密的數據中進行諸如檢索、比較等操作,得出正確的結果,而在整個處理過程中無需對數據進行解密。其意義在于,真正從根本上解決將數據及其操作委托給第三方時的保密問題,例如對于各種云計算的應用。
這一直是密碼學領域的一個重要課題,以往人們只找到一些部分實現這種操作的方法。而2009年9月克雷格·金特里(Craig Gentry)的論文從數學上提出了「全同態加密」的可行方法,即可以在不解密的條件下對加密數據進行任何可以在明文上進行的運算,使這項技術取得了決定性的突破。人們正在此基礎上研究更完善的實用技術,這對信息技術產業具有重大價值。
——摘自維基百科
UCSD的一名計算機科學家Xiaoqian Jiang說道,「這是一個可預見的結果,但挑戰依然存在」。
醫生和研究人員認為,理解基因和疾病之間的關系需要從數以百萬計人群中收集數據,包括基因方面和生理方面的數據。有些規劃項目已經啟動,比如,美國總統奧巴馬發起的精準醫學項目以及英國的十萬基因組項目。如此龐雜的任務可能需要利用互聯網云端主機的處理能力,但是,過去幾年里網絡安全漏洞暴露了在云端存儲大量敏感數據的巨大隱患。美國國家衛生研究院的基因型與表型數據庫(dbGaP)有一個有關醫療和基因數據的目錄,它的管理人員非常擔心安全問題,他們禁止數據庫的用戶在可聯網的電腦上儲存數據。
同態加密可以解決這種擔憂,從而讓研究者用數學加密的方式把資料儲存在云端。該技術會把本地電腦上的數據進行加密,然后再把加密后的數據上傳到云端。加密數據的計算也可以在云端進行,計算的結果加密后再傳會本地的計算機。即便有人在此過程中竊取了加密的數據,但這些加密數據里包含的隱藏內容仍然是安全的。
UCSD的計算機科學家Lucila Ohno-Machado認為:「如果能確保這項技術由作用,那么對于解決保護個人隱私的前提下進行海量數據的運算和存儲的難題至關重要,這簡直可以提升我們的信心。」
1978年,同態數據加密技術被首次提出,不同于其他方式,這一技術可以在云端處理加密的數據,從本質上說,云永遠不會真正「看到」數據處理。另一個不同點則是,該技術還能給出未加密狀態下的相同數據處理結果。
直到2009年,IBM沃森研究中心的密碼學家Craig Gentry論證了對同態加密數據可以進行任何形式的運算可能性。此時,這一理念還很大程度上停留在理論層面。該方法通過將每個數據點轉換為一塊加密的信息或密文,但加密后的數據量比原始數據更大也更復雜。每個未加密的字節被加密成幾兆字節的數據,相當于一張數碼照片的大小。
固然這是一個突破,但加密前后如此大的容量差異也讓這項技術無法真正應用起來,要知道數據存儲的硬件成本是很高的。
從那時起,密碼學家們開發出了各種系統來解決這些問題。比如同時加密許多數據片段,這樣就可以對數據進行并行處理;也有人提出把數據直接加密成單一的密文,而不是首先轉換成字節,這種創新比對每一個數據片段單獨運算要節約大量計算時間和計算內存。IBM研究中心的密碼學家Shai Halevi說道,與2009年相比現在同態加密數據的運算速度提高了150,000倍。一個更直接的數據對比則是:相同的運算量,2012年要花費一天半而現在只要5分鐘。
2015年3月中旬,致力于數據集成分析的iDASH協會組織舉辦了一個主題為隱私和安全的學術會議,五個團隊透露利用同態加密技術可以在10分鐘內檢測400人的數據,并且可以從染色體上已知的可能產生變異的311個位點中找出與疾病相關的變異基因。現在分析一個含有5000個DNA堿基對的典型基因片段需要花費30分鐘;但對于較大的序列數據,比如100000個堿基對(其含量大約相當于整個基因組數據的0.003%),卻要花費幾個小時,而且要比分析未加密數據多消耗100倍的內存。密碼學家表示這一結果仍顯示了技術的重大進展;Jiang評論道「三年前,人們認為這是不可能的,但我們對困難的挑戰表明解決這一難題并非不可能。」
但是某些數據管理員對此仍持懷疑態度。Steven Sherry負責管理dbGap,他同時也是美國國家生物技術信息中心的主管。他說,即使密碼系統能起到作用,也未必會保護研究人員的電腦,也不能增加數據分析的靈活性。他傾向于把數據訪問權限局限在一個由科學家組成的小圈子里,這些科學家要保證使用數據時遵守相應的制度。他接著說:「我們并沒有關注加密方法,因為它沒有證明同時具備安全和實用性。」
但是一些密碼學家已經開始在生物醫學領域部署使用有限的同態加密技術。一個HIV研究中心以及瑞士一家醫院的生物樣本庫采用了類似的方案。瑞士聯邦理工學院的Jean-Pierre Hubaux進一步指出:「人們現在很擔心不久以后,因為基因數據泄漏而產生的各種丑聞事件。」
而這也恰巧是未來技術發展的方向。