生命科學領域的大數據時代已然到來。據相關統計,全球每年生物數據總量已經達到EB量級,完整的人體基因組有約30億個堿基對,個體化基因組差異達6百萬堿基,基于個性化的遺傳背景產生了巨大數據。如果能高效、高速地利用這些大數據,無疑將為生命科學行業帶來無限機遇。
在不久前由生物谷和華為云服務聯合主辦的云服務與大數據知識分享沙龍活動中,演講嘉賓李亦學教授指出,生命科學正面臨從實驗驅動向數據驅動的轉型局面,海量的數據將成為生命科學的基礎,云服務、大數據等相關技術將成為轉型重要因素。
李亦學認為,急劇增加的生物數據和計算機能力間的巨大差距是大數據發展面臨的首要問題。”放眼國內生物科學院,其在運用現有IT技術處理大數據方面無不面臨著部署慢、存儲容量小、成本高等困境。
生物科學高性能計算需要海量的計算資源,且計算擴容速度很快,資源的部署周期長。傳統IT服務,從設備采購到安裝調試,需要數月的時間,難以及時響應業務的變化;同時,生科計算往往比較復雜,傳統生命科學計算依靠手工進行環境部署,耗時耗力,效率低下;除此之外,生科計算產生海量數據,對存儲有高要求,由于存儲能力不足,導致數據人工逐行刪除;對于生科企業來說,自建高性能計算平臺一次需耗費大量資金,且設備更新換代成本高,可能導致面臨資金不足風險等。面對這些問題傳統的IT技術已經顯露出它的弊端,亟需尋找傳統IT的替代。
針對高速有效地分析生物大數據所需要的技術, 李亦學認為云服務或可提供解決有力支撐。
云服務具備彈性、快速擴展、即租即用等特征,可向用戶提供彈性海量的計算、存儲資源,輕松應對大規模計算處理,幫助用戶快速部署和管理大規模可擴展的IT基礎設施資源。而在生物科學領域,國內領先的云服務商華為云已經有一整套成熟完整的解決方案。
華為云服務能夠為基因工程、蛋白質工程、生物制藥等需要高性能計算的業務提供海量并行計算資源,以及提供包括云主機、云硬盤、對象存儲服務、線下傳輸服務等在內的高性能云服務。華為生科云解決方案是一套基于行業特性、工作流程、業務分析流程的需求,整合強大的計算能力、存儲能力,為用戶提供超算、數據存儲等多種服務的云計算服務平臺,且操作簡單、靈活多樣。“華為云服務面向生物科學領域進行的定制開發,運營模式設計,支撐服務方面的能力令人印象深刻。”上海生命科學院相關負責人表示。
華為生科云解決方案由分布式計算引擎、彈性計算云、對象云存儲、線下大數據傳輸服務四部分組成,為客戶提供端到端的解決方案。其中分布式計算引擎所需的行業模版由客戶自定義或者使用合作伙伴提供的預定義行業模版,華為負責提供計算和存儲資源,以及調度能力。
華為云服務相關負責人介紹:分布式計算引擎能夠通過用戶定義的業務流程,把多步驟的復雜運算過程固化下來,簡化運算過程,提高計算效率,運算過程由分布式計算引擎進行判斷和驅動,不需要人工干預,實現計算的自動化和流程化。這正好與目前生物科學大數據所需要的復雜業務需求相匹配。
另外,由分布式計算引擎負責部署計算環境,提高環境部署效率,降低部署復雜度;整個業務過程以流程圖的形式進行直觀展示,讓業務過程一目了然;在計算完成或者出現異常情況,會自動提示操作用戶,進行人工干預或者修正。
最后,分布式計算引擎可以對資源池里的資源進行有效管理,自動投放任務到空閑節點;可根據業務需要對資源池里的節點資源進行增加或者刪除,實現按需使用,按需付費。
這些都是分布式計算引擎受到客戶青睞的重要因素。
除此之外,華為云服務具有中立、安全、高可靠、低成本的數據存儲能力,來滿足用戶的原始數據和計算結果的存儲需求;在商業模式上,可按需使用、按需付費、即租即用的方式,縮短IT建設周期,降低初始投資成本,減輕企業后期運維成本。
隨著基因測序成本等的急劇下降,數字與生物科學高度融合,大數據背景下的云服務將超越提升效率和降低成本的支撐地位,成為生物科學創新的核心競爭力并將重新定義市場的制高點。 對生科企業及研究院所來說,在華為公有云平臺上測試和構建自己的業務模式將是一種經濟高效的方式, 基于華為云服務平臺的生物行業服務范式將被全新構建。
正如李亦學教授所說,生命科學正面臨從實驗驅動向數據驅動轉型。誰先掌握了技術誰就掌握了生命科學的命脈。云服務無疑是生命科學從實驗驅動向數據驅動轉型的重要驅動因素。