午夜肉伦伦影院在线观看,国产在线拍揄自揄拍视频,亚洲欧美一区二区三区久久

大數據專家Bernard Marr：大數據是如何對抗癌癥的？

責任編輯：editor005

2015-07-14 13:49:41

摘自：Forbes

由于機構之間的商業利益紛爭，加之出于癌癥患者隱私的保護，醫療機構間的癌癥診療基因數據無法互訪，彼此為對方的信息“孤島”。前面我們說道，大數據對抗癌癥的戰爭中，已經吸引諸如IBM、谷歌和美國臨床腫瘤學協會的重度參與，前途看似一片光明。

為什么要編譯這篇文章，一方面是講述大數據在生活中的應用，另一方面，作者則寫了一些話：

通過編譯與癌癥有關的文獻得知，有近90%的癌癥患病風險與人們的生活方式密切相關，而程序員群體的生活方式，很多都處于不健康或亞健康狀態，如熬夜、加班、抽煙、缺乏運動，都是很多程序員的日常生活狀態。我們與其用寄希望于用最先進的技術(如大數據)來診斷和治療癌癥，遠遠不如用良好的生活方式將癌癥 “扼殺于搖籃當中”。

2015年7月初，李開復先生在癌癥醫治康復后，在其微博上解嘲自己：大家以后不要叫我李開復，叫我李康復就好了。如果生命可以后退30年，或許李先生會重新選擇自己的生活方式。有句話說得好：健康是前面的1、事業、財富、名利等都是其后的0，失去前面的1、一切皆為零!

知易行難，共勉之!

以下是正文：

目前，當人們在談及大數據時，大家更為津津樂道的是，如何利用大數據技術，挖掘出數據背后的商業新模式——然后利用這種“新”模式為公司謀取商業利益。這也難怪，無利不起早。當下，大數據之所以能發展壯大，熱火朝天，來自于諸如谷歌(Google)、亞馬遜(Amazon)及臉譜(Facebook)等互聯網巨頭的大力推動，功不可沒。

人類社會已經開啟了三次產業革命。第一次產業革命，是以蒸汽機為標志。第二次產業革命，是以內燃機和電力發明為標志，第三次產業革命，是以可再生能源(如核能)和互聯網為標志。有研究表明，大數據或作為動力引擎之一，引領人類的第四次產業革命。

如果大數據的用途，僅局限于幫商業大佬們掙點錢花，那它絕對不能擔當起“天將降大任于斯人也”的重責。目前，科學技術已極大地拓展了人類的視野，大到通過是通過天文望遠鏡，探索浩瀚無邊的宇宙空間，小到利用顯微鏡細，致觀察構成自然界的最小微生物，科學技術無不扮演著重要的角色。

然而，多年以來，在人類社會，一直存在著一個難以降服的惡疾——癌癥，嚴重威脅人類的生命健康。目前，癌癥已成為全球發病和死亡的最主要原因之一。據世界衛生組織(WTO)2015年最新的統計資料顯示，僅2012年一年就有約1400萬新發癌癥病例和820萬例癌癥相關病例死亡。在未來20年里，新發病例數將增加約70%，即死亡病例將從由2012年的1400萬上升到2200萬。

在過去的50多年里，經過人類社會不斷的努力，癌癥治愈率僅僅提升了不到8%。這是人類社會所有疑難雜病中，治愈率提升最為緩慢的一種疾病。如果某項技術能較大提升癌癥的治愈率，那可真是“善莫大焉”。事實上，大數據站在當前信息領域的最前沿，在對抗癌癥的斗爭中，可以走得更遠。

本文如下的篇幅主要分為下面6個小部分，分別用來回答如下6個小問題：(1)什么是大數據?(2)癌癥的成因是什么?(3)大數據用之于癌癥，都有哪些挑戰?(4)當前都有哪些機構在用大數據抗爭癌癥?(5)癌癥診療的大數據主要源與何方?(6)大數據對抗癌癥的前景如何?下面一一給予介紹。

1.什么是大數據?

在談及大數據之前，我們先說說什么是數據。

從一開始起，人類很多的生產及交換活動，都是以數據為基礎展開的。例如，度量衡和貨幣的背后都是數據。人類最早有關數據存儲和分析的例子，莫過于記賬(或記錄財產)用的符木(Tally stick)。例如，1960年，在烏干達發現的伊桑戈骨(Ishango bone)，就是史前數據存儲和計算的最早的物證(如圖1所示)。伊桑戈骨是一種由狒狒骨制作而成，距今已超過20,000年。

大數據

　　圖1 舊石器時代晚期的伊桑戈骨頭(Ishango Bone)

舊石器時代的部落成員(特別是首領)，通常會在樹棍或者動物骨頭上刻下凹槽，用以記錄日常的交易活動或物品供應。通過比較樹棍或骨頭上凹痕的多少與變化，來進行基本的數據運算，從而可使部落首領夠對一些事情進行預測，如山洞里食物還可維持幾天，何時再去打幾只野兔等。

在本質上，數據代表的是已發生的事實，其核心的作用則是對未來的預測。

數據的發明，對人類文明的進步，發揮了舉足輕重的作用。傳統意義上的“數據”，可視為“有依據的數字”。數字之所以誕生，就是因為人類在長期的實踐過程中體會到，難以僅僅用語言、文字和圖像，來精確描繪自己身邊的世界。例如，由于每個人對“很”、“非常”這類虛詞理解不一樣，當有人問“今天天氣有多熱”，如果回答說“很熱”、“非常熱”，別人聽到后，也只能獲取一個大致的抽象印象。但如果用數字描述“今天40攝氏度”，就會毫不含糊，一清二楚。

把視野拉回當下。當人類社會進入信息時代以后，“數據”的內涵大大地被延展了，數據不僅是指“有根據的數字”，還包括存儲在計算機中的信息，如表格、文本、圖片、音頻和視頻等。

大數據

　　圖2 1986年~2007年這30年的全球信息存儲容量變化

有研究資料顯示，自1980年以來，全球信息總量每24個月就可以翻一番。當時間邁過21世紀，自2002年數字時代開啟以來，數據呈現海量增長趨勢(如圖 2所示)。特別是在2004年社交媒體產生后，人人都是數據的生產者，數據更是呈現爆炸性增長趨勢，大數據開始邁入大眾的視野。

由于處于計算機科學的前沿，大數據并沒有公認的定義。世界著名咨詢機構麥肯錫(McKinsey)公司于2011年5月發布《大數據:下一個創新、競爭和生產力的前沿》的研究報告，報告認為：“大數據是指，大小超出了典型數據庫軟件的采集、儲存、管理和分析等能力的數據集。”

麥肯錫的這個定義有意地帶有主觀性，對于“究竟多大才算大數據”，其標準是可以調整的。臉譜(Facebook)的工程總監Parikh認為，“大數據”要有“大價值”。“大數據的意義在于，能從數據中挖掘出能對商業有價值的決策力和洞察力。如果不能好好利用自己收集到的數據，那么空有一堆數據，即使體量再大，也不能稱之為大數據。”

在大數據時代，由于我們創造的或采集的數據量呈現爆炸性增長，與此同時，隨著先進的高性能計算技術和便捷的云計算技術的發展，給我們分析這些海量大數據提供了巨大的契機。抓住這個契機，比以往任何時候都更加重要。

針對癌癥研究，2013年3月，世界頂級學術期刊《Cell》發表了一篇題為《從癌癥基因組中得到的教訓》(Lessons from the Cancer Genome)，研究表明，很多腫瘤的發病概率呈現出一種類似于長尾分布(“long tail” distributions)的特征(如圖3所示)，也就是說，癌癥作為一種基因突變疾病，雖然對部分癌癥類型，是由于某些特定基因高頻突變所致，但是更多的癌癥，是由很多的發生概率極小的基因突變所。

大數據

　　圖3 長尾模型

由于很多診療機構的癌癥基因組樣本擁有量非常有限，這樣就導致，在小樣本集合里，很多出于長尾部分的基因突變，由于發生概率極低，研究機構極有可能無法觀察到這種基因突變。

此外，由于機構之間的商業利益紛爭，加之出于癌癥患者隱私的保護，醫療機構間的癌癥診療基因數據無法互訪，彼此為對方的信息“孤島”。

信息壁壘是延緩這種嚴重威脅人類生命健康研究進展的重大原因之一。這在某種程度上解釋了為什么過去50年癌癥的治愈率僅僅提升了8%，這在所有的疑難雜癥中是提升最少的!(注：若想了解更多具體詳情，建議讀者可參閱南加州大學著名腫瘤學專家、喬布斯的主治醫生之一戴維阿古斯的推出著作《疾病的終結》(The end of illness))。

那有沒有什么辦法，來改善這種情況呢?

事實上，我們可從過往的歷史中，尋找一點點啟迪。

世界上，第一家歐洲咖啡館(Coffee House)是于1645年在威尼斯開辦的。咖啡館開辦的目的在于，提供一個交流的平臺，讓三教九流不同種類的人，能夠聚在一起，指點江山，侃侃大山，從而完成思想的碰撞，進而產生新的價值——比如，促成一場新的貿易等。在咖啡館里，有一個特征是值得特別注意的，大家聊完天，侃完大山，各回各家，各找各媽，誰也沒有損失!

試想一下，如果讓多家醫療研究機構的癌癥診療數據，也能在“數字咖啡館”走一遭，碰一碰，或許也能碰撞出“新的火花”，加速癌癥的研究。這里的“數據咖啡館”是由英特爾公司主導開發了一項數據共享技術。針對癌癥研究，數據咖啡館的核心理念就是，讓不同研究機構的癌癥診斷數據，“可用但不可見”——在不破壞數據歸屬的基礎上，完成對可用信息的提取，這真是個了不起的想法(注：案例介紹來自于英特爾中國研究院院長吳甘沙先生的講座)!

癌癥如此的難以克服，那么癌癥從何而來呢?有什么辦法可以預防?下一節，我們將討論這個議題。

2.癌癥從哪里來?

癌癥是什么?癌癥是一組與基因突變有關的疾病，其特征表現為，異常細胞生長不受控制，且肆意攻擊正常細胞組織。如果癌癥細胞一旦失控擴散，就會導致癌癥細胞的宿主(這里通常指的是人)死亡。

所謂基因，是指攜帶有遺傳信息的DNA序列片段，它是控制性狀的基本遺傳單位。由于DNA分子中發生堿基對的增添、缺失或改變，從而引起基因結構的改變，稱之為基因突變。導致基因突變，進而引發癌癥病發的因素有二，下面分別給予簡要介紹：

2.1外在因素

據美國最知名的癌癥研究中心——MD安德森研究表明，所謂的外部環境泛指所有非遺傳因素，包括但不限于，不良的生活方式(如濫用煙草，酗酒)、缺乏體力活動、工作壓力大、環境污染，主(被)動地接觸傳染性生物體、不良化學品和輻射等。這些外在因素占癌癥發病率比例的90%~95%!其中，最常見的外在因素導致癌癥死亡比例中，濫用煙草占25% ~ 30%，不良飲食和肥胖占30% ~ 35%，單純僅此二項之和就占據55%~65%，超過了癌癥死亡的“半壁江山”。

很遺憾地說，這類癌癥導致的“不可活”，多是源于病人自己的“自作孽”!

下面舉例說明之。圖4所示為煙草消費量與20年后肺癌發病率的滯后相關性。所謂“相關性”，是指兩個或兩個以上變量的取值之間存在某種規律性。這種相關性的滯后，是很容易理解的。因為今天抽支煙，并不會立馬就讓抽煙者的肺部有癌癥病癥。事實上，抽煙的危害作用是可以日積月累的，它的“功效”能潛伏20年之久!

大數據

　　圖4 煙草消費類于肺癌發病率高度相關

換句話說，20歲的你，年輕任性，“一枝梨花壓海棠”，瀟灑地抽了一口煙，就為人到中年、事業有成40歲左右的你，培養了一個可能突變的癌細胞。但正因為這個巨大的滯后時間間隔——20年，“麻痹”了很多人：抽支煙，解解乏，也沒有什么大不了的。殊不知，這種煙草消耗量和肺癌發病率的巨大的相關性，不得不讓人們側目、反省、深思。

當然，也會有人會站在學術層面表態：“相關性”不代表“因果性!”

的確，從嚴格意義上講，統計學無法檢驗邏輯上的因果關系。根據統計結果，可以說“抽煙人群的肺癌發病率，會比不抽煙人群的發病率，高好幾倍”，但統計結果無法得出“抽煙致癌”的邏輯結論。

中國概率統計領域的奠基人、國際著名數理統計學家陳希孺院士，生前常用這個例子來說明統計學的特點。

但話說回來，大數據布道師維克托邁爾-舍恩伯格在其著作《大數據時代》中提到的核心觀點：“要相關，不要因果”。也就是說，大數據關注事物間的相關性(correlation)，而非緊盯事物之間的因果關系(causal relation)。

也許正是因為統計方法并不致力于追尋事物間的因果關系，才促使數據挖掘和大數據技術在商業領域廣泛流行。利用大數據分析的企業，其目標就是多掙些錢，只要從大數據挖掘中發現某種措施與增加企業利潤有較強的相關性，然后采取這種措施就好了。

既然大數據的“相關性”可以正向指導商業獲利，為什么我們不能“反其道而用之”呢?

雖然，目前還不能充分證明抽煙人群與肺癌發病率的因果關系，但我們已然“鐵板釘釘”地證明了他們的相關性，為了活命，為何不能通過破壞他們的相關性——試一試不抽煙，結果會怎樣?

2008 年，大名鼎鼎的MD安德森癌癥研究中心，在《Pharmaceutical Research》發表文章表明：“癌癥是可預防的，但它要求改變你大部分的不良生活習慣(Cancer is a Preventable Disease that Requires Major Lifestyle Changes)”。

生命只有一次，且行且珍惜!

2.2內在因素

致癌的內在因素，主要來自于遺傳突變、免疫病癥、新陳代謝引發的突變等。研究表明，其實僅有5%~10%的癌癥患者是源于基因缺陷。對于這類多數為先天性的癌癥疾病治療方案，包括免疫治療、靶向治療，甚至是提前手術——切除病灶。

2013 年2月16日，時年37歲的好萊塢當紅女影星安吉麗娜朱莉(Angelina Jolie)在《紐約時報》撰文，自曝接受預防性雙乳切除術。之所以切乳，是因為通過檢查，她發現自己有基因缺陷，罹患乳癌的風險幾率高達87%，而罹患卵巢癌的風險幾率也達到50%。

安吉麗娜朱莉從母親那遺傳了突變的癌癥易感基因BRCA1。BRCA1是Breast Cancer Susceptibility Gene 1(乳腺癌易感基因類型1)的縮寫，這是一種抑癌基因。在抑癌基因的作用下，正常人體每天也會產生的少量癌細胞，但很快就會被抑制或被免疫系統識別而消滅掉，并不會形成腫瘤。如果BRCA1基因突變導致抑癌功能的丟失，乳腺癌、卵巢癌或一些其他腫瘤發病率就會明顯升高。

大數據

3.大數據用之于癌癥斗爭，挑戰何在?

取得對癌癥斗爭勝利的關鍵，就要尋找到藥物的圣杯(Holy Grail)。在生死關頭，幾乎沒有人不動容，要么怕自己死掉，要么怕自己心愛的人死掉。因此，毫無疑問，如果大數據能以某種方式來幫助提升醫療水平，識別癌癥潛在風險，并最終給出可靠的治療方案，這是件多么“夕陽無限好”的事啊。

大數據用之于癌癥斗爭，一開始并不會那么順風順水。其前途無量，但道路曲折。欲取得這場戰爭的勝利，還面臨很多挑戰，例如，癌癥診療數據獲取難，數據決策執行難等，下面一一簡要描述之。

3.1 癌癥診療的基礎大數據——獲取難

目前，在醫療領域，面臨的一個重大挑戰就是如何獲取有關癌癥病人的大量診療數據。

美國臨床腫瘤學協會(American Society of Clinical Oncology，ASCO)首席執行官Allen Lichter曾指出，在超過96%的病例中，病人的詳細治療信息“被鎖在醫療檔案和文件柜或者存儲于未聯網的電子系統中”。

“各自為政”的各個醫療機構，并非沒有意識到醫療數據流通的重要性。但由于涉及到病人的隱私問題、機構間的利益沖突以及純粹缺乏電子病歷，阻礙著醫療領域的信息共享，讓每一次癌癥治療，都像發生一個孤立事件。

令人惱火的是，很多醫療機構的診斷數據，要么從一開始就是一堆紙質文件，根本就沒有數字化，從而不能更大范圍的共享。要么利用電子病歷數字化后，然隨后就束之高閣，形成信息孤島。

各個醫療機構僅在可供自己訪問的小數據集合上施以分析，形成最終結論，這如同“盲人摸象”一樣，是片面的，甚至是錯誤的。如果醫療領域的信息共享能取得進展，人們很有可能發現更具普遍意義的治療方案。

我們知道，大象不是盲人根據大象局部位置的觸感，得出的 “大蘿卜”、“大蒲扇”、“大柱子”或“細草繩”，大象就是大象。但要得出這個結論，就要睜開眼，看到大象的全景。

在癌癥診療數據分析中，同樣也是如此。我們應看數據的全景，而不是僅僅根據事物的小樣本數據就下結論。只有這樣才能全面和真實的了解事物的情況。這或許就是舍恩伯格在《大數據時代》中說的“要全體，不要樣本”吧。

前文我們提到，癌癥是一類長尾病癥，每一個研究機構的基因組樣本都相對有限。“小樣本”得出的研究結論，得出有關“癌癥診斷”的結論，極有可能是“盲人摸象化”的。

英特爾公司提出的“數據咖啡館”，其核心理念把不同醫療機構的癌癥診療數據匯聚到一起，形成大數據集合，但不同機構間的數據，“相逢但不相識”，“可用但不可見”。一旦“數據咖啡館”項目能成功實施，勢必在某種程度上加速癌癥研究的技術突破。

3.2 數據化帶來的顛覆式醫療——執行難

在醫療領域，欲用大數據對抗癌癥，其面臨的另外一個重大挑戰就是，如何讓醫療領域的從業人員發生重大的思維轉變——重視數據文化。

數據文化的本質，就是尊重客觀世界的事實，實事求是。重視數據就是強調用事實說話、按理性思維的科學精神。

而在醫療領域，似乎更看重的是“經驗”!

《顛覆醫療——大數據時代的個人健康革命》(The Creative Destruction of Medicine: How the Digital Revolution Will Create Better Health Care)一書的作者、美國著名心臟病學家、基因組學家——埃里克托普(Eric Topol)認為，醫學領域是目前所有領域中最為保守的，在數字化革命以來，似乎被完全孤立起來一樣。但在未來的幾年里，醫學領域將不可避免的被“熊彼特化”——即被創造性破壞。

　　圖6 破壞似創新理論的提出者——約瑟夫熊彼特(Joseph Schumpeter)

目前，信息技術(特別是現在的大數據技術)就如同一個“鯰魚”，它游進哪個領域，都會帶來“創造性破壞”。“創造性破壞理論”是著名美籍奧地利經濟學家約瑟夫熊彼特(Joseph A. Schumpeter， 1883～1950年)最有名的觀點。在熊彼特看來，每一次大規模的創新，都淘汰舊的技術和生產體系，并建立起新的生產體系。

大數據給醫療領域帶來的“摧枯拉朽”、“吐故納新”，是醫療領域目前必須承受的“變革之痛”!

4.哪些機構在用大數據對抗癌癥?

倘若沒有商業大公司和醫療行業的大力推動，大數據對抗癌癥的戰爭，多半如同“水中撈月”、“霧里看花”一樣不靠譜。然而，令人欣慰的是，諸如IBM、美國臨床腫瘤學協會和谷歌等巨頭公司和行業協會的重度參與，給大數據對抗癌癥帶來了勝利的曙光。

4.1人工智能驅動的癌癥診斷大師——沃森

2011年，IBM超級機器人沃森(Watson)，在美國著名電視智力競賽節目“危險邊緣(Jeopardy)”中，戰勝了兩位人類智力冠軍——最高獎金得主布拉德魯特爾和連勝紀錄保持者肯詹寧斯，并贏得100萬美元的獎金。

　　圖7 電腦對壘人腦

如今，“功成名就”的沃森已開始轉戰醫療領域。自2012年起，沃森開始在美國一家名為“紀念斯隆-凱特琳癌癥中心(Memorial Sloan-Kettering Cancer Center)”開始實習。

沃森人工智能(AI)系統，就像一名在醫學院接受嚴格訓練的預備役醫生那樣，每天“學而時習之”——它每天學習數以百萬計的臨床資料數據、期刊文章以及臨床試驗報告，然后通過“人工智能”算法，學習如何正確診斷疾病、并拿出可行的治療方案。目前沃森能幫助醫療專家做癌癥等復雜診斷，以及指出醫療專家可能忽略的細微差別。

2015年5月，美國和加拿大的14癌癥研究機構宣布，將使用IBM公司的沃森智能數據分析引擎，其在海量癌癥病例數據庫中，尋找和當前病例最為相匹配的癌癥患者診療信息，從而協助醫生給出最為有效的診斷方案，以及給出最有可能治療特定患者的抗癌藥物。

沃森(Watson)智能系統，通過對自己體內龐大的診斷數據庫——病理和藥理分析，還可挖掘出新的關聯關系，智能“推薦”從未在癌癥治療使用過的藥物。

在沃森(Watson)智能系統中，通過編寫數據挖掘分析算法，沃森可以模擬人體和成千上萬種藥物做病理和藥理實驗。細胞突變是造成癌癥的主要因素，經過一番“深思熟慮”，根據自己的“博學”醫學經驗，沃森可以給出抑制突變細胞最有效的藥物。當然，在是否采納由人工智能(AI)驅動下的沃森的建議上，醫生肯定會綜合考量多種因素，但是可以肯定的是，由于沃森的參與，它無疑會大大會加快醫生決策的過程。

4.2 醫學大數據的解讀先鋒——CancerLinQ

用大數據技術來化解癌癥之痛，是一個很有前途的方向。朝這個方向努力的先行者是——非營利專業組織美國臨床腫瘤學協會(American Society of Clinical Oncology，ASCO)。2013年12月，ASCO開啟了一個利用大數據幫助癌癥治療的項目——CancerLinQTM，該項目設計的目的在于，力圖收集成千上萬癌癥患者的診療數據，用于指導對醫療系統內其他病人的治療。

癌癥患者的主治醫師將能像用谷歌一樣，搜索這個診療大數據庫——CancerLinQ。根據其他類似病例的治療情況，醫生可獲得診療策略方面的建議。

事實上，CancerLinQ本身還是一個“快速學習系統”，通過機器學習技術，可從海量醫療數據中發現有價值的模式，進而形成對癌癥深度洞察，并加快發現新藥的速度。

ASCO腫瘤信息委員會主席Gregory Masters教授說，我們已經進入精準醫學時代，隨著對腫瘤學深入了解，將會研制出新的靶向藥物，用來定向治療某種特定癌癥。CancerLinQ在這其中，將發揮及為重要的先鋒作用。

4.3“熨平”混雜數據的伙計——FlatIron Health

大數據所需面臨的挑戰還在于，從我們身邊的大千世界中獲取的數據，十之七八是凌亂無章的，非結構化數據(注：事實上，這正是大數據的4個V特征之一的Variety——多態性)。

盡管多年來，醫學管理機構一直在努力說服醫生和醫院采用電子病歷(Electronic Medical Record， EMR)，但面向癌癥的診療數據，依舊難于查找和使用。每位癌癥患者的數據可能會有幾十個來源：實習醫師、腫瘤科醫生、放射科醫生、外科醫生、化驗室和病理報告等等。

即使這些診療信息已經數字化，也存在著IT技術人員所說的“格式散亂”問題。這些數據的來源很多，有來自病歷資料的、醫生筆記的、與護理人員互動交談信息的，還有癌癥患者的治療付費信息。

不同診斷設備的后臺數據庫沒有經過規整，展示方式因化驗報告和病歷的不同，而存在巨大差異，結果造成各種數據庫系統無法兼容，再加上有關個人健康信息的嚴格隱私規定，令共享數萬種腫瘤療法變得難上加難——數據融合成為醫療大數據的利用的“頭等大事”

值得慶幸的是，大數據技術的過人之處就在于，能就從混雜的、非結構化數據便捷地抽取有價值的信息。

在2012年，納特特納(Nat Turner)和扎克溫伯格(Zach Weinberg)成立Flatiron Health，并構建了OncologyCloud(腫瘤學云平臺)，該項目旨在整合全世界的腫瘤數據。

以“不作惡不(Do not be evil)”為公司口號的谷歌，再次為Flatiron打開支票薄，通過其風險資本部門谷歌風投公司(Google Ventures)給Flatiron注資超過1億美元，成為Flatiron的幕后老板。

FlatIron Health公司認為，大多數的有臨床價值(癌癥)數據，停留在醫生和護士的筆記，病理報告，PDF文檔、CT掃描圖形和其他非結構化形式資料中。

此外，目前僅有一小部分癌癥患者的治療數據得到了有系統地采集。這種采集基本上是在臨床試驗中隨意為之的，只覆蓋了大約4%的癌癥患者，96%的癌癥患者其實是不愿意參與臨床試驗的。

傳統的人口健康分析報告，主要基于患者向保險公司提供的病情理賠數據，這的確可達到立竿見影地分析效果。但對于癌癥——這個高度復雜的病種，則難以獲得對該疾病的深度理解。僅僅通過腫瘤病情的理賠數據來加以分析，從而來獲知對癌癥的洞察，這無異于冰山一角，管中窺豹、“僅”見一斑!如果要想獲得“臨床真理”，你就必須深入腫瘤病情的細節。

FlatIron項目希望能從余下的96%患者中，采集更多的數據，然后加以整理，實現標準化，然后將數據提供給醫生。Flatiron的厲害之處就在于，它可抓取醫患之間各個階段的交互數據。不管這些數據的多模態的，還是非結構化的，Flatiron都可以很好的利用這些數據，從而使之可以與其它數以百萬計患者數據，進行比較分析。

目前，還有些其它研究特定類型的癌癥專家系統。例如，Dragon Master基金會就與五家美國兒科醫院合作，從罕見兒童腦腫瘤患者提取組織樣本，建立癌癥樣本數據庫。

Dragon Master基金會認為，癌癥完全是由細胞突變引起的，其主導的研究致力于，從我們的身體中復雜的遺傳數據——基因組(Genome)中探尋癌癥致病的機理。

5. 癌癥大數據的重要源頭——基因組數據

現在，很多知名癌癥研究中心都會提供全方位的基因分析服務，尤其是針對晚期癌癥患者。借助于所有這些基因數據，醫生們可以重新對患者進行分類。人們再也無需像以前那樣，用‘癌癥X期’描述一名癌癥患者，而是可以用癌癥分子的驅動水平，來精確地描述癌癥病情。從這個基因層面上診療癌癥，是2015年1月美國總統奧巴馬宣布的精準醫療計劃(precision-medicine plan)背后的驅動力之一。

基因組數據是典型的大數據。例如，位于馬里蘭州的、由美國國家生物技術信息中心(National Center for Biotechnology Information ，NCBI)維護的GenBank序列數據庫，收納了世界各地實驗室中測得的10多萬不同的生物序列。

值得注意的是，就在我們眼皮底下，存在著一項超越摩爾定律(Moore’s Law)的數字技術——DNA測序。DNA測序的應用越來越普遍，但是其成本的下降幅度已遠超出了摩爾定律的預計。

　　圖8 DNA結構

僅以GenBank來說明生物序列數據增長的趨勢。根據GenBank公布的文獻資料顯示，自1982年創庫以來，其容量以指數級的速度增長，平均每18個月翻一番，而測序成本也隨時間大幅下降，其趨勢完全趕超IT領域的“摩爾定律”，如圖9所示。

　　圖 9 GenBank的容量每18個月翻一番

目前，為了存儲由基因組測序儀輸出的原始代碼——基因組數據，計算機系統需要存儲200GB數據(譯者注：博文作者Bernard Marr可能對生物信息學了解不甚了解，或其語焉不詳。事實上，僅單條個人的全基因組數據大小就達到140GB，更何況要構建包含非常多的癌癥患者的基因組數據庫。對此，欲了解更多信息，讀者可參閱《Naure》上的一篇文章：生物學：大數據的大挑戰(Biology: The big challenges of big data，)

研究者們可利用這些基因組數據，實施全方位的比較分析，從不斷增長的基因組數據庫中，找出是哪些因素(如致癌基因)是觸發癌癥的關鍵要素。

在前文提到的美國奧巴馬政府推出的精準醫療計劃中，就包括“百萬基因組計劃(Million Genomes Project)”，在該計劃中，預備測量一個百萬個人類基因組樣本，也就是說，其容量是100萬個140G。大數據的“大”，在容量上，已被它結結實實地坐實了!

然而，“大”并不是大數據的最難以克服的挑戰，這僅是個規模問題。有些項目，諸如Folding@home就通過提出主動式方案，來解決規模的問題。該方案可充分利用全球性的、分布式網絡處理能力，大大加速了在該蛋白質數據的利用率和解碼效率。

注：Folding@home 是一個研究研究蛋白質折疊，誤折，聚合及由此引起的相關疾病的分布式計算工程。Folding@home的中文含義就是“在家折疊”， “折疊(Folding)”是蛋白質的最重要的性狀之一，如果蛋白質沒有正確地折疊，人類會遭受某些病癥的折磨。許多疾病，諸如阿茲海默癥 (Alzheimer's)，瘋牛病(Mad Cow/BSE)，還有帕金森氏癥(Parkinson's)等，特別是一些癌癥疾病等，正是由于一些細胞內的重要蛋白發生突變，導致蛋白質聚沉或錯誤折疊而造成的。

　　圖10 Folding@home客戶端，點擊可下載

Folding@home 項目參與的志愿者，可以通過下載一個客戶端，在家里(@home)就可以利用自己電腦(甚至是安卓、蘋果手機)的閑置計算資源，來幫忙處理部分蛋白質數據的計算。一旦當前的客戶端關閉，客戶端就會自動把計算得到的臨時結果發回計算中心，再由計算中心找到另外一個適用的志愿者客戶端，接力計算。2003 年，Folding@home項目完成了它的第一個分布式計算項目。

Folding@home項目之所以能夠成功，究其本質，是因為“眾人拾柴火焰高”，它充分整合世界各地的志愿者的閑置計算資源，來完成以往只能在大規模超級計算機上完成的項目。這是眾多大規模分布式計算項目之一，也是最出名、普及最廣的“網格計算”項目。而“網格計算”，在某種意義上，就是現在熱炒的“云計算”的媽媽)。

6.大數據對抗癌癥，前景如何?

前面我們說道，大數據對抗癌癥的戰爭中，已經吸引諸如IBM、谷歌和美國臨床腫瘤學協會的重度參與，前途看似一片光明。

然而，在癌癥研究領域，也有部分領軍人物，對大數據的長期抗癌前景表示質疑。例如， MIT(麻省理工學院)癌癥研究中心的著名學者羅伯特溫伯格(Robert Weinberg)，就在《細胞》雜志(Cell)撰文，指出大數據和癌癥之間存在不穩定的關系。他強調說，從腫瘤里的蛋白質間的相互作用到基因突變，各方面多形式的數據膨脹，已經遠遠超過研究人員的解讀能力。

我們常說，前途是光明的，但道路是曲折的。在征服癌癥的這條道路上，“路漫漫，其修遠兮”。在這條路上，有一份質疑，多一份冷靜，或許可以讓路走得更遠。

簡而言之，大數據領域的科學技術和癌癥之間的戰爭，剛剛打響。這場戰爭勝利的號角，遠未到該吹響的時候，但戰斗正在取得顯著地進展。就在今年，英國頂級學術咨詢機構UCL Consultant，就給出一項研究結論，到2050年，年齡在80歲以下人群，都不會死于癌癥。

就如同大數據在其它跨界領域研究大放異彩一樣，我們有理由相信，由大數據驅動技術的有關癌癥的研究，在獲取這場大數據對抗癌癥的戰爭中，無疑將扮演舉足輕重的角色。

譯者介紹：張玉宏，博士。2012年畢業于電子科技大學，現執教于河南工業大學。中國計算機協會(CCF)會員，ACM/IEEE會員。主要研究方向為高性能計算、生物信息學，主編有《Java從入門到精通》一書。

數據谷歌癌癥患者非遺傳因素