編者按:本文來自微信公眾號“動脈網”(ID:vcbeat),作者周夢亞;36氪經授權發布。
在動脈網發布的2016中國“未來醫療100強”榜單中,基因檢測領域異軍突起,上榜企業18家,是所涉及領域中上榜企業最多的領域,其中華大基因更是以200億人民幣的市場估值位居榜首。隨著成本的持續降低,基因概念的日益普及,基因檢測公司正以創新基因技術在醫療健康產業中的爆發。另一方面,精準醫療被寫進“十三五”,NIPT試點取消,政策環境的利好也為基因檢測企業成長提供了優渥的土壤。
一面是基因檢測的日益普及,一面是越來越大規模的數據產出。如此大規模的數據,如何這存儲、分析以及解讀成為行業必須要突破的瓶頸和壁壘。人類全基因組數據大約有30億字符,為了保證解讀準確性,慣例是要將每個字符閱讀30遍以上,相當于1000億字符。如此算下來,且不說分析和解讀,光是數據的閱讀都是極大的工程。
國內知名基因檢測公司全基因組檢測周期為3個月,其中從采樣到測序完成耗時一個月,而剩下的兩個月,都用在了數據的分析和解讀上。2017年,全球測序巨頭Illumina推出NovaSeq測序系類,再次刷新了測序成本新低。這就意味著,一大波數據正在接近。如何尋找更高效的數據處理方案,如何提升數據解讀速度,無疑將是行業下一個議題。
動脈網(微信號:vcbeat)梳理了42家基因數據分析和解讀細分領域相關企業,希望能從產業角度切入,對行業現狀做出解析。
以初創企業為主,暫無獨角獸出現
42家企業中,超過半數企業的成立時間在2010年以后。早期成立的企業,如華大、貝瑞和康以及華因康,其本身業務的綜合性就比較強,故嚴格意義上講,這個行業內還沒有獨角獸出現。像賽福基因、華點云以及聚道科技以數據服務為主營業務的企業,甚至是像人和未來這樣以生物技術和信息技術學科交叉為核心優勢的初創企業,成立時間都在2013年前后。2013年開始,基因數據服務相關企業開始活躍起來。當然,也不排除這一時期整個基因檢測領域創業潮帶來的整體基數的影響。但近年來,像是百邁克,安諾優達以測序服務為核心業務的企業都開始向數據領域擴展,似乎也預示了數據分析環節發展的大趨勢。
目前,這些企業融資輪次主要集中在天使輪和A輪,規模都還比較小。42家企業中有12家屬于業務拓展,其中有7家融資階段在A輪以后。市場內的B輪玩家多是通過業務拓展進入市場,這些企業更多代表的是一種市場趨勢,并不能代表市場內企業的成熟度。
產品服務:“云服務”是趨勢
從產品分布來看,傳統的生物信息手段依然占據主流,但基于云的PAAS、SAAS等云平臺正在崛起。無疑,云上的數據計算、傳輸和分析將為用戶省去大量的硬件包袱,同時還可將這些環節集中在一個場所,為用戶帶來更輕松,更高效的體驗,這樣的云體驗也正在成為數據處理的趨勢。
傳統分析應用最廣
分析軟件和系統是分析環節應用層面最廣的產品,是比較傳統的生物信息分析手段。分析軟件的廣度小,操作難度低。相比之下,數據分析系統比較多元化,不同復雜程度的數據分析系統應用廣度也不一樣。比較全面的分析系統從IT構架和分析算法流程考慮的比較多,而簡單的系統和軟件之間的差別并不太大。這一類產品的企業分布密度最大,一共有27家,代表性的企業有貝瑞和康、烈冰科技等等。
新老玩家齊入場,“云服務”是未來趨勢
傳統IT手段以外,基于云端的計算和分析平臺也在向基因數據靠攏。更輕量級的存儲方案,以及更高效性的運算性能,云平臺在數據處理中發揮著積極作用。
PAAS:為基因領域搭建云環境
與阿里云、百度云、華為云等IAAS(基礎設施即服務)平臺相比,PAAS平臺更具針對性,可針對某個領域的特點提供更加專業的服務。平臺會根據自身服務領域搭建一個云環境,方便細分領域的公司盡快使用。對于細分領域公司來講,基因領域PAAS平臺的出現,省去了自行搭建平臺的環節,節省了大量的時間和成本。
針對基因領域的PAAS平臺在國外起步比較早,代表性企業有Seven Bridge , DNAnexus, Tute Genomic等等。而近些年,國內的生物信息云服務商開始走向市場。其中一部分是進行業務拓展的早期企業,比如華大和百邁客生物。另一類則是像聚道科技,華點云這樣以云服務為核心的初創公司。基因組數據的產生規模與測序成本息息相關,這些企業成立時間與測序成本下降時間節點基本吻合。
2013年,原華大生物信息骨干陳晨從中國疾病預防控制中心傳染病所生物信息室主任的位置上辭職,創辦了專門面向臨床生物信息服務的華點云。華點云部署在華為云平臺上,積累了500多項生物信息應用,針對臨床實驗室缺乏生物信息解決方案的痛點,提供生物信息數據分析和報告。
不同與華點云,聚道科技則從數據的安全、高效和易用性入手,提高數據傳輸效率和軟件運行效率,為想用云計算但不知道如何使用的生物公司提供云計算資源調度服務。2014年,一批阿里出身的技術團隊成立了基因大數據計算服務平臺聚道科技。平臺可提供基因數據的傳輸、存儲、分析、計算和應用的一體化解決方案,將生物信息云服務化。同時提供開放的接口,讓用戶能夠方便的來管理和操作數據,最后根據用戶需求生產報告。
另外,通過運用數據壓縮技術來減少傳輸和存儲的時間及成本,使用分布式調度和執行引擎來加速數據分析速度和通量,GeneDock 提供的云服務不僅可以幫助用戶減免硬件的維護和更新費用,還可以降低數據分析的成本門檻。同時,基于這樣的云平臺,使得許多復雜的,本地不可承受的多樣本分析任務不再受制于有限的本地數據處理能力。
一方面是這些以云服務為核心的初創企業崛起,另一方面,產業鏈中游或者綜合業務的企業也在積極迎接這股云潮流。
2015年4月,憑借豐富的下一代測序數據分析經驗,華大基因開發了基于“云”的解決方案BGI Online,來應對海量下一代測序數據的分析、存儲和共享的傳統難題。BGI Online擁有強大可靠的基礎設施和一流的安全性,可為各種類型、大小的機構提供數據存儲、自動化分析、數據傳輸、生物信息方法開發和共享服務。該平臺使用了最先進的資源管理系統,以確保資源在運行計算任務時的精準分配和實時的任務監控,并對可能遇到的錯誤進行及時反饋。
在這樣一個平臺上,用戶可以基于華大基因的開源軟件,創建自己的分析工具。更重要的是,用戶的分析工具還可以與BGI Online平臺的公共分析工具、生物信息分析工具和其他資源相融合,從而建立一整套更符合用戶自身研究需求的分析流程。
2016年2月,BGI Online beta版本在阿里云上線,這也是首個完全部署在阿里云上的大規模生物信息分析平臺。依托阿里云的彈性存儲和計算優勢,BGI Online不但可以滿足基礎科研、農作物育種及臨床應用等不同應用場景和模式對數據處理、存儲和傳輸的需求,還通過使用一系列先進的數據技術,滿足HIPAA法案等行業安全條例的要求。
同時,使用內資服務器存儲和分析敏感的基因數據也更加符合我國《人類遺傳資源管理辦法》的規范。簡潔易用的界面和高度安全的特性,使醫生和研究者們可以把管理數據、硬件維護等繁雜的工作交給BGI Online和阿里云,從而更專注于他們要解決的科學和臨床問題。
這意味著,對于科研院所、醫療機構及中小型基因行業創業公司來說,只要擁有基因數據,不必自建和維護昂貴而復雜的計算、存儲平臺,通過BGI Online便可以解碼神秘基因背后的奧秘。這家全球最大的基因組學研發機構打開了基因行業這扇神秘大門,讓基因行業變得“觸手可及”。
當然,華大并非是唯一一家進行云業務拓展的企業。2015年7月,百邁客也推出了為科研人員量身定制的生物大數據信息分析平臺百邁客云,為用戶提供完整的生物信息分析以及整合利用公共數據的解決方案。
除了中游企業,一些傳統生物信息公司,比如烈冰科技、美吉生物旗下桑格信息也在積極的往云上轉移。
另外,像是加速芯片和數據壓縮工具等輔助性軟件也在數據處理環節發揮著輔助作用。這類產品的作用并不是解決什么問題,而是如何將這個問題更好的解決。比如更高效的計算、更快速高質量的壓縮等等。目前,涉及輔助性軟件的企業比較少,基于這類產品的自身屬性,形成專職企業的可能性不大。
SAAS:數據分析的云上APP
另一類則是SAAS(軟件即服務)平臺,如果說以上的PAAS平臺是為基因組學搭建了一個云端環境的話,那么SAAS則是在這個云環境中提供可應用的工具。這就類似于手機上的APP,服務商將應用軟件統一部署在自己的服務器上,客戶可根據自己的實際需求,通過互聯網向服務商訂購所需的應用軟件服務,按照定購服務多少和時間向服務商支付費用,并通過互聯網獲得服務。
2015年,基云惠康的云分析服務正式上線,專注于個人全基因組數據分析。基云惠康所搭建的就屬于SAAS服務,以阿里云為基礎,針對全基因組數據,提供更快,更低成本的優化服務。
同樣是在2015年,專注消費級基因的水母基因也在阿里云提供的云基礎上推出健康管理SAAS平臺。基于這樣一個精準健康管理的SAAS系統,水母基因打造了以基因數據為核心的疾病精準預防系統,為每一位客戶建立私人健康檔案,收集客戶自身健康相關的所有數據,如病史、生活飲食習慣、基因數據、血壓、血糖等。實現以基因數據為指導的疾病預防,為企業客戶提升服務品質。
奇云諾德則是把目光放在了基因測序企業的后臺計算服務上,為基因檢測企業提供數據存儲、云計算、分析、結果讀取和報告生成的一條龍服務。幫助檢測環節企業迅速拿出優質的產品報告。此外,奇云諾德還開展了訂制和研發外包服務,也可以聯合基因檢測企業開發所需產品。
2016年,基于阿里云在批量運算上的優勢,以及安諾優達自成立以來積累的大量生物樣本和基因數據,兩家公司聯合推出了生物大數據分析云平臺“安諾云”。希望實現對高通量基因測序數據的快速分析、安全存儲,提供生物大數據存儲與管理服務以及生物、臨床研究數據分析一體化服務,推動我國精準醫學的進程。
PAAS平臺帶來了輕量級的基因數據的傳輸和存儲,簡化了基因數據分析流程;而SAAS平臺又降低了基因數據分析門檻,為有生物信息分析需求,但又對技術了解不深的群體提供了便利。在以前,數據傳輸主要通過網絡和硬盤傳輸來實現,無論是從周期和成本來看,都不是最好的解決方案。而PAAS和SAAS云平臺的出現,再加持云計算這樣的高并行工具,這就相當于將數據的存儲、傳輸、分析以及計算都集中到了云端,掙脫了本地處理的枷鎖,使得整個數據處理過程都流暢輕快了許多。
有趣的是,無論是PAAS平臺還是SAAS平臺,絕大多數企業都選擇了與阿里云合作,作為自身平臺搭建的云基礎。比如華大、聚道,以及基云惠康、安諾云等等。目前,市場上的云玩家一共18位,其中PAAS平臺10家,SAAS平臺8家。
解讀環節是高原地帶
傳統生物信息占據半壁江山,云平臺也正在蔓延,相比之下,解讀環節則略顯冷清。解讀環節可以說是瓶頸中的瓶頸,由于大部分疾病都是多基因遺傳病,由多個基因共同控制,不同的基因突變,不同的突變位點,不同的突變類型,這些因素都會影響到疾病的最終表型。
另外,基因組包含的信息很多,而真正為人們真正所了解的大約只占總體的2%,很多基因的功能尚不明確。再加之基因與疾病的對應關系還沒有建立起來,解讀過程中有太多的不確定性,更多需要人工做判斷。即使有鹍遠基因這樣的夢之隊,也難以解決行業層面上的問題。無論是科研還是臨床上,數據的解讀環節都存在極大的局限性和挑戰性。
賽福基因、鹍遠基因、基云惠康幾家企業提出將服務產品化,提供從測序到解讀的一站式服務,希望利用自己在解讀環節的優勢,將基因數據解讀低門檻化。采取同樣策略的還有奇云諾德和安諾優達的安諾云項目,但兩家公司更多傾向于測序環節后的所有服務,通過將測序與數據分析解讀環節明確分工,降低基因檢測行業門檻,同時更深度的挖掘基因數據背后的價值。
目前,這個環節涉獵企業非常少,可以說是高原地帶。如果把解讀服務和半自動化解讀工具,甚至文本挖掘都算進來,一共不足10家。其中提供半自動換解讀工具的,僅有兩家。
解讀環節的人力解放,數據庫是基礎
接著上文講,由于疾病復雜性和人類對基因與疾病關系的認識還在一個較淺的層面,數據解讀環節受制于人力因素。其實半自動化數據解讀并不難實現,因為專家共識指南確實有一部分是可以讓機器看懂并自動判分的。這背后存在的矛盾點就是是否存在一個行業標準且真正有用的數據庫。目前的公共疾病數據庫錄入信息標準各異、所包含的數據大多都是基于歐美人種的研究,并不能完全適用于特定人種,而且缺乏基因組學數據與表型數據的深度整合。
目前,所有基因檢測環節企業都在做一件事情——數據收集。公司通過收集、整合公共或者私有信息,經過人工檢閱后匯總為數據庫或知識庫,很大程度上是希望通過形成足夠大規模的普通人數據庫,矯正目前數據解讀可能存在的一系列偏差。這是很有價值的基礎工作,但凡在基因組學領域發展迅速的國家,很早之前就開始了這樣的基礎建設工作,比如英國和美國。
2015年8月貝瑞和康正式啟動“神州基因組數據云”項目,該項目由貝瑞和康和阿里云共同參與建設,旨在打造以海量中國人群基因組數據為核心的數據云,實現對個人基因組數據的精準解讀。2016年9月,貝瑞和康對外公布了“神州基因數據云”項目階段性重要成果,完成世界首個中國人群基因組數據庫建設,填補了國際基因數據庫中缺少中國人群特有基因組數據信息的空白。
2016年9月,華大深圳國家基因庫正式開業,這是我國唯一一個獲批籌建的國家基因庫。基因庫的數據庫、樣本庫、活體庫,以及規劃數據能力均超越國際三大基因數據中心,綜合能力位居世界第一,填補了我國長期缺少國家級基因數據中心的空白。
此外,還有多家中游檢測企業正在籌備基因庫的相關籌建工作。2015年7月,海普洛斯聯合深圳市人民醫院發起并推出了一項 “萬人癌癥基因測序計劃”。據悉,已有 30 多家全國頂級的醫院或科室加盟 “萬人癌癥基因測序計劃”,并且已經完成了將近 5000 例腫瘤患者或高危人群的基因檢測。
2016年7月,由暨南大學主導,未來組參與完成的第一個亞洲人參考基因組“華夏一號”在線發表于Nature Communications雜志。該研究以暨南大學為主導,由南加州大學、華盛頓大學、俄亥俄州立大學、美國國立衛生研究院生物技術信息中心、武漢生物技術研究院、未來組、哥倫比亞大學、貝勒醫學院、冷泉港實驗室等多家科研單位共同合作完成。“華夏一號”的發布,表明國內科研團隊在第三代測序領域已經進入世界前沿,并填補了中國人群的疾病研究缺少精細參考基因組的不足。
隨著基因測序成為國家健康醫療大數據戰略的主要內容之一,“華夏一號”將成為推進臨床和科研大數據應用的重要基礎性工作,大力推動中國的遺傳疾病研究與診斷的發展。
其實目前幾乎所有的中游測序企業都在進行基因組學數據的收集工作,但對于公司來說,要形成規模足夠大的基因數據庫,則還需要時間的醞釀。另外,數據規模達到一定量級后,企業是否會共享,直接影響到數據庫是否廣泛使用,這也許還需要政府層面的布局。
結語:數據庫是基礎,云端分析成為趨勢
宏觀層面來講,大多數企業都還是A輪或者A輪以前的初創公司,可以說市場還屬于醞釀階段。而像其明生物、百邁客、安諾優達這些比較成熟的企業先后進入市場,似乎也代表著行業趨勢(尤其是云平臺)。
從產品分布來看,基于分析軟件和分析系統的傳統分析手段的企業比較多,但面對如今激增的數據規模,這些手段很難實現絕對意義上的突破性。而PAAS、SAAS等云技術手段,通過將數據分析流程轉移到云上,很大程度減輕數據處理環節的負重(無論是硬件上的實質負重,還是處理速度上的心理負重)。
但這些產品大部分都是聚焦在數據分析環節,由于人類大多數疾病是多個基因的共同作用結果,涉及到多個基因的變量表達。這些數據的解讀必須要考慮到多個基因多個變量因素,因此這個環節背后必須要有一個強大可用的數據庫支持。在此基礎上,再利用技術手段,尋求可自動化,可替代人工的渠道,以節省時間和成本,也許不失為一種可行方案。
在國家發展改革委正式印發《“十三五”生物產業發展規劃》中,基因檢測、細胞治療、免疫治療、基因編輯、產前篩查等多個熱門概念被“點名”。《規劃》在發展目標中提到,要實現基因檢測能力(含孕前、產前、新生兒)覆蓋出生人口 50% 以上。借著產前檢測的東風,基因檢測概念將被更廣泛為的人群認識和接受,再加之成本控制上的持續突破,未來或許還有望實現人人普及。而如論是無創產前還是腫瘤檢測,還是全基因組檢測,數據分析和解讀都將伴隨整個過程,測序的普及勢必將帶動數據處理環節的發展。面對步步逼近的數據洪流,一場數據大戰即將打響。
作者周夢亞,微信rencontre_my,添加時請注明:姓名-公司-職位。
編者按:本文來自微信公眾號“動脈網”(ID:vcbeat),作者周夢亞;36氪經授權發布。
在動脈網發布的2016中國“未來醫療100強”榜單中,基因檢測領域異軍突起,上榜企業18家,是所涉及領域中上榜企業最多的領域,其中華大基因更是以200億人民幣的市場估值位居榜首。隨著成本的持續降低,基因概念的日益普及,基因檢測公司正以創新基因技術在醫療健康產業中的爆發。另一方面,精準醫療被寫進“十三五”,NIPT試點取消,政策環境的利好也為基因檢測企業成長提供了優渥的土壤。
一面是基因檢測的日益普及,一面是越來越大規模的數據產出。如此大規模的數據,如何這存儲、分析以及解讀成為行業必須要突破的瓶頸和壁壘。人類全基因組數據大約有30億字符,為了保證解讀準確性,慣例是要將每個字符閱讀30遍以上,相當于1000億字符。如此算下來,且不說分析和解讀,光是數據的閱讀都是極大的工程。
國內知名基因檢測公司全基因組檢測周期為3個月,其中從采樣到測序完成耗時一個月,而剩下的兩個月,都用在了數據的分析和解讀上。2017年,全球測序巨頭Illumina推出NovaSeq測序系類,再次刷新了測序成本新低。這就意味著,一大波數據正在接近。如何尋找更高效的數據處理方案,如何提升數據解讀速度,無疑將是行業下一個議題。
動脈網(微信號:vcbeat)梳理了42家基因數據分析和解讀細分領域相關企業,希望能從產業角度切入,對行業現狀做出解析。
以初創企業為主,暫無獨角獸出現
42家企業中,超過半數企業的成立時間在2010年以后。早期成立的企業,如華大、貝瑞和康以及華因康,其本身業務的綜合性就比較強,故嚴格意義上講,這個行業內還沒有獨角獸出現。像賽福基因、華點云以及聚道科技以數據服務為主營業務的企業,甚至是像人和未來這樣以生物技術和信息技術學科交叉為核心優勢的初創企業,成立時間都在2013年前后。2013年開始,基因數據服務相關企業開始活躍起來。當然,也不排除這一時期整個基因檢測領域創業潮帶來的整體基數的影響。但近年來,像是百邁克,安諾優達以測序服務為核心業務的企業都開始向數據領域擴展,似乎也預示了數據分析環節發展的大趨勢。
目前,這些企業融資輪次主要集中在天使輪和A輪,規模都還比較小。42家企業中有12家屬于業務拓展,其中有7家融資階段在A輪以后。市場內的B輪玩家多是通過業務拓展進入市場,這些企業更多代表的是一種市場趨勢,并不能代表市場內企業的成熟度。
產品服務:“云服務”是趨勢
從產品分布來看,傳統的生物信息手段依然占據主流,但基于云的PAAS、SAAS等云平臺正在崛起。無疑,云上的數據計算、傳輸和分析將為用戶省去大量的硬件包袱,同時還可將這些環節集中在一個場所,為用戶帶來更輕松,更高效的體驗,這樣的云體驗也正在成為數據處理的趨勢。
傳統分析應用最廣
分析軟件和系統是分析環節應用層面最廣的產品,是比較傳統的生物信息分析手段。分析軟件的廣度小,操作難度低。相比之下,數據分析系統比較多元化,不同復雜程度的數據分析系統應用廣度也不一樣。比較全面的分析系統從IT構架和分析算法流程考慮的比較多,而簡單的系統和軟件之間的差別并不太大。這一類產品的企業分布密度最大,一共有27家,代表性的企業有貝瑞和康、烈冰科技等等。
新老玩家齊入場,“云服務”是未來趨勢
傳統IT手段以外,基于云端的計算和分析平臺也在向基因數據靠攏。更輕量級的存儲方案,以及更高效性的運算性能,云平臺在數據處理中發揮著積極作用。
PAAS:為基因領域搭建云環境
與阿里云、百度云、華為云等IAAS(基礎設施即服務)平臺相比,PAAS平臺更具針對性,可針對某個領域的特點提供更加專業的服務。平臺會根據自身服務領域搭建一個云環境,方便細分領域的公司盡快使用。對于細分領域公司來講,基因領域PAAS平臺的出現,省去了自行搭建平臺的環節,節省了大量的時間和成本。
針對基因領域的PAAS平臺在國外起步比較早,代表性企業有Seven Bridge , DNAnexus, Tute Genomic等等。而近些年,國內的生物信息云服務商開始走向市場。其中一部分是進行業務拓展的早期企業,比如華大和百邁客生物。另一類則是像聚道科技,華點云這樣以云服務為核心的初創公司。基因組數據的產生規模與測序成本息息相關,這些企業成立時間與測序成本下降時間節點基本吻合。
2013年,原華大生物信息骨干陳晨從中國疾病預防控制中心傳染病所生物信息室主任的位置上辭職,創辦了專門面向臨床生物信息服務的華點云。華點云部署在華為云平臺上,積累了500多項生物信息應用,針對臨床實驗室缺乏生物信息解決方案的痛點,提供生物信息數據分析和報告。
不同與華點云,聚道科技則從數據的安全、高效和易用性入手,提高數據傳輸效率和軟件運行效率,為想用云計算但不知道如何使用的生物公司提供云計算資源調度服務。2014年,一批阿里出身的技術團隊成立了基因大數據計算服務平臺聚道科技。平臺可提供基因數據的傳輸、存儲、分析、計算和應用的一體化解決方案,將生物信息云服務化。同時提供開放的接口,讓用戶能夠方便的來管理和操作數據,最后根據用戶需求生產報告。
另外,通過運用數據壓縮技術來減少傳輸和存儲的時間及成本,使用分布式調度和執行引擎來加速數據分析速度和通量,GeneDock 提供的云服務不僅可以幫助用戶減免硬件的維護和更新費用,還可以降低數據分析的成本門檻。同時,基于這樣的云平臺,使得許多復雜的,本地不可承受的多樣本分析任務不再受制于有限的本地數據處理能力。
一方面是這些以云服務為核心的初創企業崛起,另一方面,產業鏈中游或者綜合業務的企業也在積極迎接這股云潮流。
2015年4月,憑借豐富的下一代測序數據分析經驗,華大基因開發了基于“云”的解決方案BGI Online,來應對海量下一代測序數據的分析、存儲和共享的傳統難題。BGI Online擁有強大可靠的基礎設施和一流的安全性,可為各種類型、大小的機構提供數據存儲、自動化分析、數據傳輸、生物信息方法開發和共享服務。該平臺使用了最先進的資源管理系統,以確保資源在運行計算任務時的精準分配和實時的任務監控,并對可能遇到的錯誤進行及時反饋。
在這樣一個平臺上,用戶可以基于華大基因的開源軟件,創建自己的分析工具。更重要的是,用戶的分析工具還可以與BGI Online平臺的公共分析工具、生物信息分析工具和其他資源相融合,從而建立一整套更符合用戶自身研究需求的分析流程。
2016年2月,BGI Online beta版本在阿里云上線,這也是首個完全部署在阿里云上的大規模生物信息分析平臺。依托阿里云的彈性存儲和計算優勢,BGI Online不但可以滿足基礎科研、農作物育種及臨床應用等不同應用場景和模式對數據處理、存儲和傳輸的需求,還通過使用一系列先進的數據技術,滿足HIPAA法案等行業安全條例的要求。
同時,使用內資服務器存儲和分析敏感的基因數據也更加符合我國《人類遺傳資源管理辦法》的規范。簡潔易用的界面和高度安全的特性,使醫生和研究者們可以把管理數據、硬件維護等繁雜的工作交給BGI Online和阿里云,從而更專注于他們要解決的科學和臨床問題。
這意味著,對于科研院所、醫療機構及中小型基因行業創業公司來說,只要擁有基因數據,不必自建和維護昂貴而復雜的計算、存儲平臺,通過BGI Online便可以解碼神秘基因背后的奧秘。這家全球最大的基因組學研發機構打開了基因行業這扇神秘大門,讓基因行業變得“觸手可及”。
當然,華大并非是唯一一家進行云業務拓展的企業。2015年7月,百邁客也推出了為科研人員量身定制的生物大數據信息分析平臺百邁客云,為用戶提供完整的生物信息分析以及整合利用公共數據的解決方案。
除了中游企業,一些傳統生物信息公司,比如烈冰科技、美吉生物旗下桑格信息也在積極的往云上轉移。
另外,像是加速芯片和數據壓縮工具等輔助性軟件也在數據處理環節發揮著輔助作用。這類產品的作用并不是解決什么問題,而是如何將這個問題更好的解決。比如更高效的計算、更快速高質量的壓縮等等。目前,涉及輔助性軟件的企業比較少,基于這類產品的自身屬性,形成專職企業的可能性不大。
SAAS:數據分析的云上APP
另一類則是SAAS(軟件即服務)平臺,如果說以上的PAAS平臺是為基因組學搭建了一個云端環境的話,那么SAAS則是在這個云環境中提供可應用的工具。這就類似于手機上的APP,服務商將應用軟件統一部署在自己的服務器上,客戶可根據自己的實際需求,通過互聯網向服務商訂購所需的應用軟件服務,按照定購服務多少和時間向服務商支付費用,并通過互聯網獲得服務。
2015年,基云惠康的云分析服務正式上線,專注于個人全基因組數據分析。基云惠康所搭建的就屬于SAAS服務,以阿里云為基礎,針對全基因組數據,提供更快,更低成本的優化服務。
同樣是在2015年,專注消費級基因的水母基因也在阿里云提供的云基礎上推出健康管理SAAS平臺。基于這樣一個精準健康管理的SAAS系統,水母基因打造了以基因數據為核心的疾病精準預防系統,為每一位客戶建立私人健康檔案,收集客戶自身健康相關的所有數據,如病史、生活飲食習慣、基因數據、血壓、血糖等。實現以基因數據為指導的疾病預防,為企業客戶提升服務品質。
奇云諾德則是把目光放在了基因測序企業的后臺計算服務上,為基因檢測企業提供數據存儲、云計算、分析、結果讀取和報告生成的一條龍服務。幫助檢測環節企業迅速拿出優質的產品報告。此外,奇云諾德還開展了訂制和研發外包服務,也可以聯合基因檢測企業開發所需產品。
2016年,基于阿里云在批量運算上的優勢,以及安諾優達自成立以來積累的大量生物樣本和基因數據,兩家公司聯合推出了生物大數據分析云平臺“安諾云”。希望實現對高通量基因測序數據的快速分析、安全存儲,提供生物大數據存儲與管理服務以及生物、臨床研究數據分析一體化服務,推動我國精準醫學的進程。
PAAS平臺帶來了輕量級的基因數據的傳輸和存儲,簡化了基因數據分析流程;而SAAS平臺又降低了基因數據分析門檻,為有生物信息分析需求,但又對技術了解不深的群體提供了便利。在以前,數據傳輸主要通過網絡和硬盤傳輸來實現,無論是從周期和成本來看,都不是最好的解決方案。而PAAS和SAAS云平臺的出現,再加持云計算這樣的高并行工具,這就相當于將數據的存儲、傳輸、分析以及計算都集中到了云端,掙脫了本地處理的枷鎖,使得整個數據處理過程都流暢輕快了許多。
有趣的是,無論是PAAS平臺還是SAAS平臺,絕大多數企業都選擇了與阿里云合作,作為自身平臺搭建的云基礎。比如華大、聚道,以及基云惠康、安諾云等等。目前,市場上的云玩家一共18位,其中PAAS平臺10家,SAAS平臺8家。
解讀環節是高原地帶
傳統生物信息占據半壁江山,云平臺也正在蔓延,相比之下,解讀環節則略顯冷清。解讀環節可以說是瓶頸中的瓶頸,由于大部分疾病都是多基因遺傳病,由多個基因共同控制,不同的基因突變,不同的突變位點,不同的突變類型,這些因素都會影響到疾病的最終表型。
另外,基因組包含的信息很多,而真正為人們真正所了解的大約只占總體的2%,很多基因的功能尚不明確。再加之基因與疾病的對應關系還沒有建立起來,解讀過程中有太多的不確定性,更多需要人工做判斷。即使有鹍遠基因這樣的夢之隊,也難以解決行業層面上的問題。無論是科研還是臨床上,數據的解讀環節都存在極大的局限性和挑戰性。
賽福基因、鹍遠基因、基云惠康幾家企業提出將服務產品化,提供從測序到解讀的一站式服務,希望利用自己在解讀環節的優勢,將基因數據解讀低門檻化。采取同樣策略的還有奇云諾德和安諾優達的安諾云項目,但兩家公司更多傾向于測序環節后的所有服務,通過將測序與數據分析解讀環節明確分工,降低基因檢測行業門檻,同時更深度的挖掘基因數據背后的價值。
目前,這個環節涉獵企業非常少,可以說是高原地帶。如果把解讀服務和半自動化解讀工具,甚至文本挖掘都算進來,一共不足10家。其中提供半自動換解讀工具的,僅有兩家。
解讀環節的人力解放,數據庫是基礎
接著上文講,由于疾病復雜性和人類對基因與疾病關系的認識還在一個較淺的層面,數據解讀環節受制于人力因素。其實半自動化數據解讀并不難實現,因為專家共識指南確實有一部分是可以讓機器看懂并自動判分的。這背后存在的矛盾點就是是否存在一個行業標準且真正有用的數據庫。目前的公共疾病數據庫錄入信息標準各異、所包含的數據大多都是基于歐美人種的研究,并不能完全適用于特定人種,而且缺乏基因組學數據與表型數據的深度整合。
目前,所有基因檢測環節企業都在做一件事情——數據收集。公司通過收集、整合公共或者私有信息,經過人工檢閱后匯總為數據庫或知識庫,很大程度上是希望通過形成足夠大規模的普通人數據庫,矯正目前數據解讀可能存在的一系列偏差。這是很有價值的基礎工作,但凡在基因組學領域發展迅速的國家,很早之前就開始了這樣的基礎建設工作,比如英國和美國。
2015年8月貝瑞和康正式啟動“神州基因組數據云”項目,該項目由貝瑞和康和阿里云共同參與建設,旨在打造以海量中國人群基因組數據為核心的數據云,實現對個人基因組數據的精準解讀。2016年9月,貝瑞和康對外公布了“神州基因數據云”項目階段性重要成果,完成世界首個中國人群基因組數據庫建設,填補了國際基因數據庫中缺少中國人群特有基因組數據信息的空白。
2016年9月,華大深圳國家基因庫正式開業,這是我國唯一一個獲批籌建的國家基因庫。基因庫的數據庫、樣本庫、活體庫,以及規劃數據能力均超越國際三大基因數據中心,綜合能力位居世界第一,填補了我國長期缺少國家級基因數據中心的空白。
此外,還有多家中游檢測企業正在籌備基因庫的相關籌建工作。2015年7月,海普洛斯聯合深圳市人民醫院發起并推出了一項 “萬人癌癥基因測序計劃”。據悉,已有 30 多家全國頂級的醫院或科室加盟 “萬人癌癥基因測序計劃”,并且已經完成了將近 5000 例腫瘤患者或高危人群的基因檢測。
2016年7月,由暨南大學主導,未來組參與完成的第一個亞洲人參考基因組“華夏一號”在線發表于Nature Communications雜志。該研究以暨南大學為主導,由南加州大學、華盛頓大學、俄亥俄州立大學、美國國立衛生研究院生物技術信息中心、武漢生物技術研究院、未來組、哥倫比亞大學、貝勒醫學院、冷泉港實驗室等多家科研單位共同合作完成。“華夏一號”的發布,表明國內科研團隊在第三代測序領域已經進入世界前沿,并填補了中國人群的疾病研究缺少精細參考基因組的不足。
隨著基因測序成為國家健康醫療大數據戰略的主要內容之一,“華夏一號”將成為推進臨床和科研大數據應用的重要基礎性工作,大力推動中國的遺傳疾病研究與診斷的發展。
其實目前幾乎所有的中游測序企業都在進行基因組學數據的收集工作,但對于公司來說,要形成規模足夠大的基因數據庫,則還需要時間的醞釀。另外,數據規模達到一定量級后,企業是否會共享,直接影響到數據庫是否廣泛使用,這也許還需要政府層面的布局。
結語:數據庫是基礎,云端分析成為趨勢
宏觀層面來講,大多數企業都還是A輪或者A輪以前的初創公司,可以說市場還屬于醞釀階段。而像其明生物、百邁客、安諾優達這些比較成熟的企業先后進入市場,似乎也代表著行業趨勢(尤其是云平臺)。
從產品分布來看,基于分析軟件和分析系統的傳統分析手段的企業比較多,但面對如今激增的數據規模,這些手段很難實現絕對意義上的突破性。而PAAS、SAAS等云技術手段,通過將數據分析流程轉移到云上,很大程度減輕數據處理環節的負重(無論是硬件上的實質負重,還是處理速度上的心理負重)。
但這些產品大部分都是聚焦在數據分析環節,由于人類大多數疾病是多個基因的共同作用結果,涉及到多個基因的變量表達。這些數據的解讀必須要考慮到多個基因多個變量因素,因此這個環節背后必須要有一個強大可用的數據庫支持。在此基礎上,再利用技術手段,尋求可自動化,可替代人工的渠道,以節省時間和成本,也許不失為一種可行方案。
在國家發展改革委正式印發《“十三五”生物產業發展規劃》中,基因檢測、細胞治療、免疫治療、基因編輯、產前篩查等多個熱門概念被“點名”。《規劃》在發展目標中提到,要實現基因檢測能力(含孕前、產前、新生兒)覆蓋出生人口 50% 以上。借著產前檢測的東風,基因檢測概念將被更廣泛為的人群認識和接受,再加之成本控制上的持續突破,未來或許還有望實現人人普及。而如論是無創產前還是腫瘤檢測,還是全基因組檢測,數據分析和解讀都將伴隨整個過程,測序的普及勢必將帶動數據處理環節的發展。面對步步逼近的數據洪流,一場數據大戰即將打響。
作者周夢亞,微信rencontre_my,添加時請注明:姓名-公司-職位。