點擊進入“百邁客云”官方網站,你可以看到中國大豆數據中心、蕓薹屬植物基因組數據庫。此外,在其公共數據庫里,你還可以訪問8個主題的大數據庫,包含了11PB公共數據、373萬樣本。
打造基因大數據云平臺,是北京百邁客生物科技有限公司(以下簡稱百邁客)創始人鄭洪坤手頭正在做的一件大事。“我們的目標是將這一平臺建成全球性基因大數據管理平臺。”鄭洪坤8月20日在接受科技日報記者采訪時表示。
瞄準需求,簡化基因組測序技術
2002年,大學畢業的鄭洪坤進入深圳華大基因科技有限公司(以下簡稱華大基因),從事生物信息技術研發工作。在華大基因工作的數年間,他迅速從一名技術員成長為項目負責人、營銷總監、副總裁。
盡管做出了令旁人艷羨的工作業績,但鄭洪坤并沒有選擇安于現狀。2009年,他帶領十幾人的團隊,在北京市順義區成立了百邁客。
“一方面,我感覺在原公司往上發展的空間有限;另一方面,經過市場歷練,我逐漸意識到用大數據對基因測序結果進行挖掘分析有著廣闊的市場前景,而這也是當時我所在的公司不太重視的方向。”鄭洪坤在回憶創業初衷時說。
過去,科研人員需要通過標記檢測技術和全基因組測序技術來開展基因研究工作。由此導致的低效率和高成本,是客戶經常向鄭洪坤抱怨的內容。
有沒有可能,通過大數據分析,選取一些有代表性的基因片段進行檢測以達到全基因組測序的效果呢?帶著這樣的設想,鄭洪坤帶領團隊開始研發簡化基因組檢測技術。
如何準確篩選出基因組中的“關鍵少數”,無疑是整個研發過程中最重要的一環。“利用一些公開物種的基因組序列信息,通過軟件預測其中的‘關鍵少數’并在篩選后進行測序,我們研制出了SLAF簡化基因檢測技術。利用該技術我國科研人員獲得了大量的原創性成果,其準確性得到廣泛的認可。”鄭洪坤介紹。
簡化基因組檢測技術“療效”如何?鄭洪坤以人類的基因組為例說道,人類的全基因組很大,包含了30億個堿基,采用他們研發的技術,取其中1%的量就可以達到全基因組測序的效果,使成本大幅降低。
通過大幅減少測序工作量,提高研發效率、降低成本的SLAF簡化基因檢測技術很快就得到了市場認可。鄭洪坤介紹,目前百邁客已與中國科學院、中國農科院、國家海洋研究所等500多家科研院所建立了長期的合作關系。
面向未來,搭建基因云平臺
大數據、云計算……這些時下的熱門技術,一旦和基因研究相碰撞,會擦出怎樣的火花?對信息技術有著濃厚興趣的的鄭洪坤,一直有著將生物技術和信息技術深度結合的念頭。
“高考時,我的第一志愿就是信息類專業,后來被調劑到了生物信息工程專業。但無論是大學期間,還是工作后,我都沒有放下對計算機相關技術的鉆研。”鄭洪坤說。
正是基于對信息技術的敏感,鄭洪坤意識到在龐大的基因數據庫里,潛藏著亟待深入挖掘的“富礦”。而在基因檢測領域,對海量數據的分析挖掘長期以來都是一個薄弱環節。
高通量基因測序得到的結果是一堆龐大數據,而這些數據到底意味著什么,大家其實并不明白。“因此,我們希望能搭建一個供科研人員分析、學習、分享的基因大數據云計算平臺,把數據里的信息提煉成有用的‘知識’。”鄭洪坤指出,所謂“知識”,是指基因片段的作用機制,比如某個基因會導致某種疾病等。
說干就干。鄭洪坤帶領團隊,用3年的時間,完成了生物云平臺的搭建,為醫學健康、農業育種等領域的兩萬名用戶,提供了基因數據存儲、分析、共享等服務。
搭建生物云平臺,涉及大數據存儲、云計算、生物信息、軟件開發等多個交叉學科,研發難度之大可想而知。鄭洪坤介紹,在他們構建的生物云平臺的生態圈里,不僅科研人員能夠進行基因數據的分析存儲,從事生物信息技術的研發人員也可以把自己開發的應用軟件上傳到云端,而用戶數據的不斷累計,也讓云計算平臺具有了自我迭代的能力。
“未來,我們期待通過云平臺,發現更多基因數據背后的‘知識’,讓基因技術更好地造福人類。”鄭洪坤由衷地說道。