大概幾年前,Eric Schadt遇到一個患有癌癥的女人,當時她已經是結腸癌晚期,癌細胞也擴散到了肺部。這個女人來自密西西比州,是一個年輕的寡婦,還要獨自撫養兩個女兒,作為身處在醫療保障最底層的她,唯一能享受到的醫療保健服務,是得益于他她丈夫去世的撫恤福利——一家只有極少腫瘤醫生的部隊醫院。
這一切,似乎和如今先進的醫療行業狀況格格不入。但當你走進這樣一個治療腫瘤轉移性疾病的醫院,仿佛回到了那個無法了解人類基因的時代,那時候人類認為引起結腸癌的原因只有一個,而不是數百萬導致各種病變的病因,而且過去的治療方案簡直可以說是“以毒攻毒”,所有醫院使用的都是抑制類藥劑,別說是在密西西比州,在美國任何一個地方都是如此——因為那是一個沒有大數據、機器學習、以及希望的時代。
那時候,Schadt剛剛加入西奈山醫院伊坎基因和多層級生物研究所工作,當他聽說這位來自密西西比州的女人時,不禁表示“她就是我們想要的那種病人”。事實上,Schadt 嘴里的所說的“那種病人”,是指用目前的醫學標準無法治愈,而尚未等到新療法出現的那類患者。而未來醫療則會在超級計算機的幫助下篩選海量基因數據,最終找到治療和治愈疾病的全新模式。
Schadt 本人并不是治療癌癥疾病的專家,甚至都不是醫生,他的本職工作是一個數學家兼計算生物學專家,而且從沒有治療過任何一個病人。不過,在他西奈山醫院的新辦公室里,Schadt 從那位女患者身上獲取了數萬億字節的數據,模擬了數千次她在傳統醫療環境下會有什么樣的治療效果,并希望以此找到治愈她結腸癌的新方法。因為工作關系,讓Schadt 和這位密西西比州的女人成為了好友,但可悲的是,Schadt 的研究失敗了,Schadt 來到了她的病床邊,悲痛欲絕。去年,這個女人去世了。
坐在西奈山醫院的辦公桌前,Schadt 看上去簡單干練。51歲的他無論走到哪里都穿著一件短袖T 恤衫和短褲,不管是出席高端宴會,還是在冬季寒冷的紐約也是如此。對于任何一位醫療行業研究人員來說,當你成功發表論文、或是開發出了新藥物之后都會感到非常高興,因為你的工作可以幫助人們減少痛苦。但是,當看到自己的研究成果把一個人慢慢折磨死去,內心的煎熬程度可想而已。Schadt 說道:
這會讓人感到深深的愧疚,這種感覺是我從來沒有體驗過的。我們當時正處在研究工作的上升期,你會不由自主地把眼光放得更長遠,因此會認為自己有能力找到治愈癌癥的方法。我們覺得最后肯定能夠找到癌細胞病變的原因,但也是因為研究處在上升階段,導致出現的問題也越來越多、越來越復雜,這種狀況不斷打擊著我們。
事實上,在過去的十年里,人們一直在談論基因序列測定和個性化醫療服務的潛力。隨著計算機處理能力的提升、以及對人類個體基因的理解越來越深入,為我們打開了一扇神奇時代的大門。不僅如此,有理論研究認為,足夠的基因數據能夠讓人們不用服藥就能治愈疾病:但是,Schadt 已經了解到,個體 DNA 的數據深度還不足以應對、治愈各種疾病,它需要更加全面、更大數量級的數據來監測人群中的疾病類型,再使用機器學習,找到引發疾病的變異網絡,最后才能找到解決方案。這些數據集合的規模越大,疾病類型分析的就會越準確,預測疾病的功能也會變得越強大。
所以,現在的問題就集中在如何獲取海量基因數據上。顯然,你不能跑到某個人面前,或是數百萬人面前,跟他們說:“請給我你的數據”。首先,你必須要說服他們,收集到的數據只能用來做好事,而且你也會做好數據安全工作,不會把這些個人數據落入到壞人之手(我們都很看重自己的隱私)。不僅如此,你還必須要說服收集相關數據的醫療中心和基因公司,而不是讓他們“囤積居奇”獲利,更重要的是,這些數據應該被共享,研究社區也能從規模經濟中獲益——海量數據的重要程度不言而喻,最后這些數據也會被逐一編號,Schadt 和許多其他研究人員相信,了解疾病的病因非常有必要,這對工程人員研究新的癌癥治療方法也非常必要。
現在,研究人員所獲得的信息量并不能支持治愈癌癥。但是不管是科技巨頭如Google,還是生物醫療初創公司都在努力解決數據規模問題,Schadt 顯然也渴望能夠參與其中。
如果把人類生物復雜度比做成一部動漫電影,那么在過去一百年時間里我們所理解的所有知識,大概只相當于電影里的一個像素而已。的確,只通過這“一個像素”,沒有人能夠了解整個故事的全部。但隨著像素越來越多,幾百個像素、幾千個像素——或是這,全部像素的1%——模式和主題就會開始浮現,而人們也就能夠看清故事的開頭。
正是出于這種想法,讓 Schadt 在2011年選擇創建伊坎基因和多層級生物研究所,當時的他已經在著名制藥公司 Merck 從事了十年的藥物研發工作,這家制藥公司的一半藥物都是用來治療類似心臟病、糖尿病、以及肥胖癥這樣的病癥,也讓 Schadt 的研究變得更加多樣化。當時醫學界普遍認為,癌癥是由單一基因模型引起的,因此藥物研發也都是按照這一理解來實施,而 Schadt 相信,癌癥并不是由單一基因,而是由多種基因組成的基因網絡引發的,這些基因網絡會導致疾病滲入到人類的自然防御系統內部,也只有通過深入了解這些基因網絡的生物信息,才能夠為徹底治愈癌癥找到方向。為了探索這種復雜的模型,Schadt 從慈善投資家 Carl Icahn 那里募集到了1.5 億美元資金,并來到了著名的西奈山醫院,以 Carl Icahn 的名字命名了一家研究所。在該研究所的地下室,Schadt 構建了一臺名為“Minerva”的超級計算機,用來分析西奈山西苑每年收集到的數千組人類基因數據。他還招募了其他數量分析專家,包括為 Facebook 打造首支數據團隊的 Jeffery Hammerbacher。一名來自醫學院的知名腫瘤醫學家如是說道:
你身邊忽然出現了一大群數據科學家,這幫人不是應該去編寫電子游戲程序的嗎?
時間過得很快,Schadt 發現自己需要更大的支持。2014 年,伊坎基因和多層級生物研究所與 Sage Bioneworks 合作成立了一家公司,并啟動了“Resilience Project”項目,嘗試治療總計 170 種罕見兒童疾病,包括囊包性纖維癥、鐮狀細胞性貧血、以及家族黑蒙性癡呆。研究人員會在人群中努力尋找通過接種而攜帶抵抗這些疾病的 DNA 變種個體,Schadt 和他的團隊嘗試從 60 萬人的基因池(迄今規模最大的基因研究)內找到這些具備“恢復力”的個體,該基因池的數據來自很多數據源,包括DNA鑒定公司23andMe,北京華大基因、以及麻省理工學院和哈佛大學布羅德研究所。然而,在這 60萬人的基因池內尋找疾病抗體并不是件容易的事情,在上文提到的 170 種疾病中,研究人員最終只找到了能對抗 8 種疾病的抗體個人基因。60 萬人的基因池研究規模依然還是太小了,通過計算人類引起疾病的基因突變發生頻率,Schadt 和他的團隊認為研究所需的基因池規模遠遠不夠,至少需要達到 1000 萬人的基因池。對于“Resilience Project”項目背后的計算能力,以及所謂的“海量數據”,Schadt 依然覺得患者信息的數量和質量依然不夠,他說道:
像西奈山這樣規模的醫院,我們至少需要 100 個,也只有這樣的規模,才能實現在患者數據中找到治療和診斷的方法。在過去的五年時間里,我認為這一切不能在醫療中心里發生,因為這些機構彼此之間競爭非常激烈,因此不會共享數據,只會彼此孤立。相比于取得重大進步的其他行業,醫療行業內并沒有那種連貫性的架構,因此很難迅速發展。
那些大型醫療中心把患者數據牢牢抓在自己手里,而且,與其他同行合作,把自己的數據分享用于行業研究也不會給他們帶來較大的經濟利益,因此 Schadt 認為,醫療行業的創新顛覆只能從外部入手。
所以,這就是為什么 Schadt 希望自己創建基因數據公司 Sema4 的原因。Sema4 公司總部位于紐約市,專注于收購和拓展基因科學領域里的初創公司,這些公司通常會專注于基因測試——比如癌細胞攜帶者篩選和非侵入式產前測試——以收集、共享數百萬個體基因數據集合。在 Sema4 的可搜索平臺上,醫生可以輕松獲得與患者相關的基因數據,幫助他們進行醫療診斷。該平臺對制藥企業是收費的,他們主要利用 Seam4 平臺針對性地尋找患者,以進行藥物臨床試驗。而對于科學家們來說,在機器學習算法和強大的計算機支持下,他們目前所使用的分析工具已經非常強大了,現在有了 Seam4 共享的海量基因數據支持,將會幫助其研究更上一層樓。
盡管不少科技巨頭也正在涉足生命科學領域,而且美國國家衛生研究院也在招募 100 萬名志愿者幫助他們自主創建大型生物銀行,但 Schadt 相信,Seam4 和其他類似的初創公司(比如 Craig Venter 創立的 Human Longevity 公司和 Patrick Soon-Shion 創立的 Nant-Health 公司)更加專注于擴大基因數據規模。當然啦,這些公司彼此之間也會互相競爭,已獲得更多、更優質的數據資源,而 Sema4 公司與其他公司的不同之處在于,他們并不是以盈利為目的,而是將自己的基因數據庫向全世界所有學術醫療中心和研究人員開放。而如果 Seam4 公司的競爭對手也想訪問他們的數據,則需要向其搜索平臺支付費用,事實上,Sema4 公司和其他公司也在嘗試合作,創建更加龐大的基因數據集合來支持像“Resilience Project”這樣的項目。
但是,Schadt 特別表示說,簡單依靠企業獲取數據集合的做法,依然無法解決基因數據庫規模化的問題,關鍵是要讓患者那里獲取數據。基于他在西奈山醫院的工作經驗,Schadt 發現,最近幾年越來越多人希望通過遺傳基因來治愈自己身上的病患。他提到,在 2011 年剛來到西奈山醫院的時候,一年內能夠篩選的基因樣例只有幾千份,而在今年,他們已經篩選出了 15 萬份基因樣例,絕大多數都是來自紐約地區的患者。Schadt 說道:
Sema4 公司的目標,是把基因樣例篩選數量擴大五十萬份,再用一年時間擴大到一百萬份!
Sema4 公司希望能夠通過在全球范圍內收購其他基因測試公司來擴大業務規模,據悉,絕大多數被收購的公司雖然被 Sema4 公司收購,但依然還是獨立運營的。不過,這些公司都會以統一的安全標準和意愿來構建一個龐大的基因信息網絡。Schadt 承認,讓一個人把自己的基因生物數據交給一家匿名企業的確不是件容易的事情。即便企業砸下了數十億美元的巨額投資,依然無法保證數據不會被泄露。而在 Sema4 公司,每一位患者都會被詳細告知自己的數據是如何被加密,匿名化、以及刪除可鑒別個人信息。所以就算有患者的個人信息發生泄漏,其身份也難以被識別出來,更不會被過度曝光。
此外,這里還會涉及到一個知情權的問題——也就是對于自己被收集的數據是什么,如何收集,以及為什么收集,都必須要得到患者的理解和批準——這也會直接影響收集數據的質量和數量。Schadt 解釋說:
如今有不少公司都對外宣傳自己掌握了數百萬分患者數據,但是在絕大多數情況下,特別是站在利用的角度來看,這些數據其實毫無意義。一方面是因為這些數據通常不夠準確和不完整,另一方面則是它們無法在不同系統之間關聯使用。不僅如此,很多數據里面甚至連 DNA、或是由 DNA 產生的基因數據都沒有。就拿“Resilience Project”項目為例,除了基因數據量級規模較小之外,如何按照不同安排下使用這 60 萬份基因數據也是個很大的問題。如果有重要發現,大量患者其實是無法被追蹤、或是被重新聯系到的,所以從實際研究的觀點出發,這些數據就會變得毫無意義。
如今,絕大多數基因數據獲取形式都盡可能快速且簡練,而不是便于讓研究人員獲取高質量的數據。實際上,這也增加了獲取高質量基因數據的難度。研究發現,當患者在了解研究目的的情況下愿意參與合作,那么研究人員就能夠獲得更好、更高質量的信息,同時也能讓科學專家們長期追蹤患者的身體健康狀況。在 Sema4 公司,Schadt 采用了多階段信息獲取流程——其中包括了必要的強制測驗——因此,患者足以能夠了解自己所言語的科研項目。雖然這一系列舉措會讓患者花費較長時間,但 Schadt 相信,當醫患雙方彼此的了解更加深入,患者就越愿意分享自己的基因信息。
隨著數字基礎設施到位,Schadt 希望讓越來越多的患者參與到基因數據收集項目之中。不過,他希望患者不僅僅分享自己的基因,也能分享從其他監控設備所收集到的生物信息,比如血壓、血糖等等。最終,Schadt 希望收集到的數據更加全面,包括讓患者的微生物組合定期測序、經常檢測核糖核酸(RNA)、以及不斷監測血液細胞。
事實上,像西奈山醫院這樣的醫療中心在獲取患者數據領域里占有壟斷地位,但現在這種情況可能要發生改變了,最終,研究人員會獲得海量基因數據,為未來醫療行業發展尋求突破。Schadt 問道:
如果我們能夠訪問更多信息,那么人類會因此收益嗎?當你能夠利用全世界的力量,能夠開發出治愈疾病的治療模型嗎?答案是肯定的。
人們不能靠猜測來治病,而是要像數學那樣嚴謹,即便是到了癌癥晚期,也許有一天也能夠被治愈。