當前位置：大數據 → 業界動態 → 正文

10EB量級的基因大數據處理技術

責任編輯：editor006 作者：崔康 |來源：企業網D1Net 2015-08-05 16:47:37 本文摘自：InfoQ

編者按

“大牛V課堂”是Geekbang核心欄目，通過邀約專業領域內的互聯網頂級大牛分享專業知識和見解，讓你了解專業領域內含金量最高的知識。關注geekbang01公眾號，遇見下一位大牛。

本文根據華大基因深圳研發部副院長方林在ArchSummit深圳2015大會的演講整理而成，略有修改，感興趣的讀者可以關注10月份QCon上海2015大會的精彩內容。

正文

很榮幸在這里跟大家分享大家以前很少接觸到的領域的大數據情況。其實生命科學的大數據還處在比較初始的階段，否則國家也不會現在才開始提出精準醫學這樣的概念。所謂精準醫學想通過大數據模型準確預測預防，個性化的給每個人提供健康解決方案的項目。

機能強大的人腦

作為生命科學來說首先是要認識自己，這是剛剛去世的納什，諾貝爾獎獲得者，這個圖片講的是他到五角大樓里面去幫五角大樓破解蘇聯密碼，結果他看著滿墻數字跳動的時候很自然的圈定幾個數字，把蘇聯計劃進入美國的經緯度所謂的密碼數字圈了出來，幫助五角大樓瓦解蘇聯的進攻。

從這個例子我們應該看到其實我們每個人的大腦都是非常強的大數據處理機器，接下去我大概講一下我們大腦為什么會這么強，大腦的處理能力有多強。我們大腦只有140億個腦細胞，從出生到死亡基本是不會變的。為什么從出生到死亡我們的知識是不一樣的，就是因為腦細胞會建立突出的連接，這個人越聰明突出的連接就越復雜。

二是大腦的能耗特別低，只有20瓦，大家在拼命思考的時候腦子會發熱，不會像CPU一樣熱的過高燒起來。

我們做一項對比，我們把大腦跟英特爾剛出的e7的CPU對比，這樣一個CPU大概有56億個，能耗要105瓦，我們大腦在能耗上面跟CPU對比處理能力和能耗比，比現在的機器強很多。

從一生過程來看，人的一生大概能存儲100PB的存儲量，是美國600個國家圖書館的量，加起來是140PB，正常人是能存儲140個PB。這是什么概念?比如說因特網上所有的音樂加起來就是10個P左右。大腦的集散能力也特別強，一天能處理86G的信息，如果把處理能力換算成超算的計算速度，大腦的計算速度在3.5EFlops，現在超級計算機遠遠沒有達到。

現在最快的天河2號連續五年拿到了世界超算排名第一的計算機研究，可見大腦的計算能力相當可以。另外一個例子，我們眼睛的分辨率大概是5.7千萬像素，人的眼睛到這么高的分辨率，但人的大腦還能實時處理這些圖片，以每秒25幀的數據處理，大腦的數據能力是非常強的。

我們先認識一下自己的大腦還是非常強大的，在某個專業領域跟計算機領域比還是有不足，但整體比較計算機是很難超越人的大腦的。

人體大數據

我們說到大數據有兩層含義，有的大數據是數量上面的，有的大數據是數據大小上面。我們再來認識一下我們自己身體其它部位的大數據的情況，人類的基因是30億個堿基，整個身體大概是100萬億個細胞，同時在我們的腸道里有一千萬億個細菌，腸道是我們的外環境，不要以為是我們的內環境，我們的生活是內外相互作用的結果。

如果把跟健康所有相關的數據匯總在一些，看看有哪些類型，要使遺傳信息有功能的話，把基因組信息翻譯成RA，再翻譯成蛋白，同時基因組還跟環境有一定的相互作用，這個相互作用是通過這里的表觀組學來實現的。我們體內還有很多小分子，我們這里說的叫Metabolome，Microbiome是我剛才提到的一千萬億數量的細菌，這些遺傳因素跟我們的環境有相互關系。

同時現在可穿戴的設備特別流行，日常生活中的心電、血糖、心率都可以通過可穿戴設備記錄下來，這也跟日常健康有很大的關系。跟神奇的是，大家不要以為社交網絡跟身體沒關系，其實社交網絡跟我們內在基因也是有一定的關系的，但隨著研究的發展這種關系可能會越來越強。

環境對人的影響

接下去把每個類型展開，首先講環境，每個人的健康一出生50%健康的情況就已經決定了，由你內在遺傳的物質決定，DNA決定了你接下去的生活是什么樣的情況，另外50%就是我們剛才說的外在的環境，會對我們的健康生活產生一定的影響，這個占50%的樣子。

這個是表觀組學，這個主要反應了環境跟內在DNA相互作用的情況。在我們三十億的堿基里面只有2%的堿基是表達基因的，另外98%在科學里面叫做垃圾基因，不管是2%的基因還是98%的垃圾基因里面都有一些“短創”，這個短創對基因組的功能起到調控作用。科學研究表明，在三十億堿基里面我們發現了 28890個，這個在有功能的2%的部分里大概有56%的基因功能是受它控制的。

要把基因組環境和人的關系建立起來的話，其實要在不同的環境里測表觀組的情況，一個人需要2個T的數據來存儲。

再就是宏基因組，我們有1TB細菌在我們體內，這些細菌大概有兩公斤，這些細菌對我們生活起到非常大的影響或者決定性作用。

這是兩只老鼠，這是中科院上海生命科學研究院趙力群教授的研究成果，他養的兩只老鼠，一只養的特別胖，一只特別瘦，他做了一個實驗，把特別胖的老鼠的糞便做成培養液喂給瘦的老鼠，結果瘦的老鼠變得非常胖，反過來也是。表明人的腸道里的細菌跟人的飲食習慣有特別大的關系。

一個人喜歡吃什么，其實不是你喜歡吃什么，是你腸道里面的細菌喜歡吃什么。這是一個很好的產業，能夠把這個問題真正解決清楚，這是一個非常大的產業。

前段時間華大基因剛發現了糖尿病跟宏基因組之間的關系，還跟人的血壓，甚至跟癌癥還有關系，能產生抗癌的基因，細菌能產生抗癌的因素幫助人類抵抗癌癥。

大家到醫院檢查的時候都會查血常規，但是大家很少接觸到比較專的一些，比如說氨基酸、維他命和激素，氨基酸、維他命和激素和人的情緒、健康狀況有很大關系，你還是要時不時看一下人體里的小分子，就是分子量在1000以下的這些分子在你體內分布的情況。

以前我們很樂觀的認為人的基因組里人有25000個基因組，后來隨著研究發現沒有那么多，只有19000個，這是很悲催的，水稻的基因有3000 個，其實高等的生物有另外一種基因的產生或者進入了另外一個形態。如果我們要測一個人的基因組一般會測上三十遍，才能大概把一個人的基因組的情況摸清楚，三十遍這就需要100GB的數據，如果要測一百萬人的話光數據就需要100TB。

這是轉錄組，在19000個基因里80%的基因可能有多種形態，一段基因組轉錄出來以后有很多的酶切成不同的片段再連接起來，基因組有不同的方式，把這個形式算上去的話人大概有60000個基因，對于一個高等生物來說還算可以。

從轉錄組到真正行使功能的時候要放大成蛋白，從6000個轉錄組RNA里提取多少蛋白，大概是二十到兩百萬之間，可見蛋白的形態比RNA更復雜，因為有很多不同的折疊形式，不同的折疊形式空間是不一樣的，蛋白的數量就會顯得特別多。

6788是中國人在蛋白基因組里承擔的肝臟蛋白的項目情況，發現人的肝臟里面大概有6788個蛋白種類，而且這里面大概有一千種是新的。

剛才說到了這么多小分子，他們是怎么相互作用的，我們有這樣一個小分子基因網絡的數據庫，記錄了三千個物種基因相互作用的情況。這三千個物種里面基因的數量大概是1.2千萬個基因，1.2千萬個基因形成了相互作用的這種大概是28萬。

這就記錄了我們日常生活所有的習慣，比如說你吃米飯，米飯在你身體里怎么消化、怎么吸收，怎么轉化成糖源，所有這個過程都是通過基因網絡來描述的，我們現在也只有28萬個網絡，要比我們想象的少很多，當然這個數據庫還是要不斷地積累才能說清楚身體是怎么樣的行使功能的。

基因造成的人群差異

我們再說一下人之間的差異，任何兩個人之間如果沒有基礎關系的話，它的差異只有0.5，也就是說兩個人之間大概有150兆左右的基因組序列是不一樣的，但是如果我們只看上下兩代之間的差異，這個差異就是60-100DNA序列多肽性的不一樣，這也能解釋說為什么相似度更高一點。

這些差異從日常相貌和行動行為就能看出來，日常生活中經常看到單眼皮、雙眼皮，有些人的舌頭是可以卷的，有些不能卷，還有禿頂，男士的禿頂很大程度上跟基因是有關系的，另外還有喝酒臉不臉紅，這跟基因有很大關系，有些人喝一點點就臉紅，有些人喝很多都不臉紅。

我們再看一下人和其它物種，我們跟植物只有17%左右的基因組相似，跟我們很近的猩猩只有96%相似。

現在研究表明最大的基因，一個細胞里面有670Gb組堿基對，就是人的兩百多倍了，這個基因組還是很大。為什么我們很關心基因組的大小?

大家對這個基因組稍微了解的話知道我們從做基因組測序來說，要把一個基因組測完整其實是很不容易的，像人的基因組是把人的基因組切成大概一個KB這樣的片段，一段段測完之后拼起來，我們現在看到人的基因組其實是1K左右的序列拼起來的。現在拼的人的基因組是3G，人的內存大概是500G，一臺機器要有500G的內存才能把3個G的基因組拼起來，那要拼600多G的基因組需要什么計算機器呢?

這是一個很大的挑戰，我們還是比較關心基因組的大小的。同時基因組里還有很多有趣的東西，AP+ALE 以后也很有趣，有時候測出來你不知道在哪里，沒有證據表明一定要放在一個地方。

舉個例子，如果要把世界上所有的DNA收集起來有多重，它大概有500億噸的重量，如果要把它裝在集裝箱里其實需要十億個集裝箱，把500億噸的 DNA處理一遍的話需要10的21次方超級計算機，這其實是一個天文數字，大家很難想象，如果我們要建這么大的模型應該怎么處理。

我們再來看看醫學方面，我們到醫院拍一張3D核磁共振體大概需要150兆的空間，如果是3D的CT，一個結果就是一個G，當然胸透的數據和X光透視的數據相對小一點。

我們做一個統計，如果把三甲院士抽選，在美國相對還行的醫院做一個統計一年大概有3600萬個病人到醫院看病，這些病人每年在醫院里產生的數據大概是600個TB，而且這些數據還特別復雜。

有照片的數據、有病例的數據，甚至有時間緯度的數據，這些數據還是挺復雜，80%的數據其實是非結構化的，每個醫院里面的數據在每年以20%- 40%的增長率增長，這個數據一點都不比基因組數據小，如果有剛才說的精準模型的話，它表明了你基因和外界環境相互作用的結果是什么，所以你一定要把這個參數考慮進去，這些數據也是整合到這個模型里做計算的。

我們大概能知道我們現在通過傳感器，記錄也好、監控也好身體上的這部分數據，比如身體的坐姿、消化情況、呼吸的情況，還有心臟監護，這些數據目前都有很好的監護，這些數據也是需要整合到精準醫學的系統里面。

最后一個是社交/婚姻基因，美國的一個測試，找了一堆很好的朋友測他們的基因，發現好朋友之間1%之間的基因相像，但是古代有酒肉朋友和異性相吸這樣的成語，有跟喝酒有關的基因，這個基因越強你可能越喜歡酗酒，酒肉朋友這個詞就可以通過這個基因來體現，還有跟荷爾蒙、情感有關的。甚至有科學家發現婚姻也與基因有關系，這個基因越向下這兩個人越傾向于在一起。

如果把所有數據整合起來，如果把一個人一生健康相關的數據整合一起需要多大，基因需要一個DB，轉錄組是0.7TB，表觀組是2TB，宏觀基因組是 3TB。如果要做一百萬人的數據大概需要10EB，像阿里，百度數據量級也差不多是這個級別了。但是做這樣一個項目需要這么大的存儲空間。

為什么要做精準醫學

就是希望自己活的更長，理論上講每個人如果生活的條件非常平穩、非常好的話，本身基因沒有什么缺陷，每個人大概能活150歲，這是在理想條件下面。但實際情況并不是這樣，有15%的家庭是有不孕不育的問題，在出生的嬰兒里大概5.6%有出生缺陷，有出生缺陷的嬰兒其實是活不了太長的，大概活到二十歲左右。

對于青年們來說還有很重要的疾病會影響他的健康狀況，比如說代謝病、癌癥、傳染病，對于二十歲到五十歲之間的青年人這些疾病是他們主要疾病的威脅。對于中年人，他們的代謝病大概有30%的患病率，心血管疾病和癌癥是中年人主要的生命殺手。老年人，心血管疾病的危害是特別大的，反而是癌癥和老年病還好。

從這個曲線上看，1就代表了你出生的時候如果有很大缺陷的話肯定活不了太久，但是2和3恩都代表了現在大部分人的生活情況，你剛開始的時候很健康，到中老年的時候會發生各種各樣的疾病的問題，有一些疾病可以治，有一些疾病治不了的立刻掛掉，如果能治一般也是茍延殘喘維持一段時間，維持不了太久，到一定程度以后也就不行了。

比較理想的情況，我們能做到的可能是4，你出生的時候還是很健康的，一旦發現你的健康到不健康轉移的過程的時候，如果我們有很好的預測的模型，我們其實是完全可以通過一系列的干預手段把自己的健康狀況從不健康和轉化的狀態拉回來重新再往下走，就有一個很好的監控預防的體系。

在5.6%的出生缺陷了跟遺傳有關的只占30%，但這30%也是很可觀的，這些數字是我們中國大概一年有缺陷的人口的情況。現在大家經常聽到猝死和癌癥的增長，增長率都是很可怕的，癌癥一年的增長率在30%到40%，在中國這個是特別嚴重的，五十幾萬猝死的人群里面大概有15%-25%跟你的DNA 是有關的。

如果這些人能夠提早的把自己的DNA或自己相關的基因檢查一遍的話其實完全可以避免，因為一旦發現這些人有相關的基因突變的話就可以警告你自己，所以你不要做太劇烈的運動、不要熬夜，有一些生活的狀況是可以調節完全避免，通過有效手段能夠避免猝死的發生。

還有癌癥，大部分的癌癥像現在的乳腺癌10%-15%跟基因有關，所以女性同胞們確實是可以通過檢測你相關的乳腺癌基因來提早預防乳腺癌或者卵巢癌的發生，還有直腸癌和肺癌，肺癌10%和你的基因有關。如果你真的把健康數據做一個記錄的話，其實是可以通過日常生活調節很容易避免這些嚴重的后果。

還有我們說的罕見病，霍金是得了漸凍癥，發病率千分之0.6到1。如果我們完全想建立這樣一個健康的模型，我們的樣板量要足夠均勻、足夠大，所以才能抽樣到所有類型的數據，我們覺得在一百萬的時候可能把常見的常見病或復雜的遺傳疾病覆蓋住，能很好的建立這樣一個模型來預測和預防。

接下去給大家介紹幾個商業化的大家可以體驗的產品，最著名的是23andMe，現在已經積累了大概80萬個DNA的序列，我自己也有23andMe 的結果。以前我特別不喜歡吃香菜，有一次23andMe給我發了一個郵件說發現你基因里有這個問題，這個問題的基因是不喜歡吃香菜的，我就想這個還是很準確的。

23andMe另外一個很重要的例子，它是作這個領域大數變現的第一個公司，它跟羅氏(音)合作，羅氏用它清洗完的數據，給它一千萬美金，如果合作的好羅氏好像還要給他們五千萬美金。這是一個例子。

第二個例子是華大內部用的小的軟件，希望把我們日常生活記錄下來，以后可以跟你的基因組數據對一下，請私人醫生也好、遺傳咨詢師也好，請他們幫你看一下這個東西，給你制定生活的規律性的方案。

在這個App上可以通過掃二維碼獲取，里面有可穿戴設備的整合，還有你的運動情況、日常隱私可以記錄。華大做了一些檢測，我們做了代謝組和基因的檢測數據都可以在這個App里看到。這個App我們沒有大的推廣，也是在做一個實驗性的東西，大家有興趣可以下載，如果大家對自己的健康足夠關心的話其實需要留心自己日常的生活的數據，這樣你好知道自己今后會有什么樣的狀況。

第三個例子是陳鋼他們公司做的，也是國內在這個領域里做的比較成功的商業化的例子。因為我本人比較喜歡運動，經常跑一個馬拉松，但我發現跑到10公里的時候經常抽筋，我覺得這個事情特別奇怪，把我的基因數據導到他們的系統里看我的運動相關的基因是什么情況，結果發現有些道理，在我的結果里我的爆發力還行，在短程的速度能跑到每小時十公里，但是我的耐力特別差，我沒法做到很長久的運動，可能大概能解釋我跑步的情況。

另外一個我很得意的是恢復能力，跑馬拉松的人要三四天才能恢復，我大概第二天就能跑、能跳，基因的結果相對來說還是有一定的輔助作用。還有飲食跟運動對減肥的影響，這也是比較有趣的。

我跟我老婆經常較勁，我發現我只要稍微一結實體重立刻減下來或者稍微加一點運動量就立刻減下來，我老婆就不行，基因還是反應了這樣一些例子，大家有興趣還是可以看一下，比如你喜歡運動可以去看一下你運動的情況什么樣子，對大家的生活還是有些幫助的。

第四個例子是喝酒，現在大家應酬特別多，但大家對酒精和乙醇對身體的傷害都是不知道的，這是我們近期測試的一個小的應用，測出你大概喝酒的能力怎么樣，還可以告訴你究竟對你的傷害是什么樣的。

如果酒精對你的傷害不大的話無所謂，如果對你的傷害很大的話就應該注意不能夠喝酒，特別是肝臟的損害，同時我覺得這個可以作為擋酒的理由，如果你喝酒能力差可以把這個拿出來，基因說明了這一點，可以作為擋酒的借口。

最后這個例子是在國外，它可以給你一個盒子，你把你擦皮膚的棉簽寄過去，它就可以把你的菌群測一下，只能測厚壁菌、擬桿菌、變形菌這幾種。

我們為什么要收集這些數據，是不是所有這些事情華大都可以做?不是的，我們其實還是要聯合社會上所有的公司和個人，來建立一個完整的生態系統，這樣我們才有可能收集到這么多的數據建一個健康的模型。大概把設想寫了一下，希望把數據、信息和知識通過API的形式整合到不同的四個層次，讓所有人在上面開發自己感興趣的健康應用來指導大家的健康生活。

關鍵字：基因功能轉錄組