目前,利用 Illumina 等公司的新一代基因測序技術,要得到比較準確的信息,一般認為 30X 的基因測序深度是必須的,所以一個人的基因組檢測大約需要產生 90Gb 的數據。如此大的數據,在一般的電腦或小型服務器上運行起來非常困難。所以,像基云惠康這樣的生物信息分析創業公司開始開發基于云計算的技術平臺和工具,利用云計算的優勢降低成本,提高數據分析的速度。
人的基因有多少?在人的 30 億個堿基序列中包括了 21000 多個編碼蛋白質的基因,每個基因的功能都不太一樣,有控制發育的,有控制運動的,有幫我們抵抗傳染病的。當然,也有能導致腫瘤、白血病的。同時,很多基因不止一個功能,同一個基因在很多功能中起著不同的作用。我們人類這 21000 多個基因大部分每個人都有,但同一個基因的序列在不同的人身上會有差異,這個差異就導致了千人千面。比如 BRCA1 基因在每個人的基因組上都存在,但像安吉麗娜朱莉的 BRCA1 基因序列與其他人就不太一樣,她帶的這個基因更容易導致乳腺癌和卵巢癌。所以,她提前動手,切除了乳腺,摘掉了卵巢,以免自己的孩子將來遭受喪母之痛,大愛。
基因的研究在不斷的進行中,很多基因的功能還未知,已知功能的基因不斷發現有新功能,目前的研究基本上就是收集一定量樣本,把表型數據與基因型數據進行關聯分析,從而發現與表型有關的基因及其功能。但在大數據時代,科研的模式會逐漸發生變化。
回到 Illumina 收購 NextBio 公司。NextBio 的平臺讓客戶能夠利用獨特的關聯引擎來比較實驗數據和現有的數據集,從而發現新的關聯。它使用高度擴展的軟件即服務(SaaS)企業技術,能夠分析 PB 級的數據。Illumina 的 CEO Jay Flatley 表示:“NextBio 實現了單一環境下表型和臨床數據的分類和匯總,以前所未有的速度和規模進行數據分析。Illumina BaseSpace 云計算環境與 NextBio 平臺的融合,將讓我們能夠提供解決方案,無縫整合從樣品到結果的整個流程”。
這也解釋了我上次見到 Jay Flatley 時問他的那個問題:為什么 Illumina 收購了 NextBio,而沒有收購 DNAnexus?因為 Illumina 需要表型數據。
表型數據多種多樣,如發型顏色,頭發彎曲還是直的,眼皮單雙,身高、體重、血壓、心率、血糖、皮膚特點、眼球顏色、指紋、鼻梁、嘴型、呼吸、眉毛等等,這些是比較容易看見或容易測量的特征。人體并不是一個固定不變的生命體,每個細胞內是不同的,各種組織器官基因變化的數據是一個不斷變化的過程,形成了多種多樣的表達譜。
《失控》的作者 KK(凱文·凱利)是全球“量化自身”(Quantified Self – QS)運動的發起者。如今,全球已有 500 多個量化自身運動的 Group 在不定期交流。量化自身產生了各種各樣的數據,特別是可穿戴設備最近如火如荼。它對人體表型數據的獲取從原來去醫院、體檢中心的單點、間斷檢測模式變成了 24 小時的連續檢測模式,數據的完整性提高,更加客觀反映生命的體征,同時也意味著數據量更加龐大。
大數據是生命的基本特征,對于生命體征的量化,基因組是最基礎、最核心的數據。對于基因數據、眾多體征數據的整合、挖掘、利用將會是未來健康大數據的一個努力方向,從而讓預防和大數據在大健康領域發揮巨大作用。