說(shuō)到使用公有云,很少有市場(chǎng)領(lǐng)域比生命科學(xué)行業(yè)更有話(huà)要講。在這個(gè)領(lǐng)域,由于生成和采集相關(guān)數(shù)據(jù)集的成本一路下跌,數(shù)據(jù)量急劇增長(zhǎng);雖然這意味著所需的計(jì)算資源數(shù)量隨之增加,但是現(xiàn)在可供選擇的辦法比之前要多得多――無(wú)論從結(jié)合內(nèi)部處理器核心和云集群方面來(lái)講,還是從軟件編排和應(yīng)用程序方面來(lái)講,都是如此。
用于基因組研究、藥物發(fā)現(xiàn)及生命科學(xué)其他分支領(lǐng)域的許多廣泛使用的生物信息應(yīng)用程序可以并行處理,這讓它們更加適合在云環(huán)境下運(yùn)行。雖然所有的基本要素似乎已落實(shí)到位(至少乍一看是這樣),尤其是由于亞馬遜網(wǎng)絡(luò)服務(wù)及其他大規(guī)模云資源提供商在借助異常先進(jìn)的數(shù)據(jù)管理、應(yīng)用程序框架、存儲(chǔ)、計(jì)算和安全工具,加大對(duì)企業(yè)用戶(hù)的吸引力,但還是存在一些缺口。生命科學(xué)和基因組市場(chǎng)相應(yīng)地發(fā)現(xiàn)其云方案與提供特定領(lǐng)域云服務(wù)的供應(yīng)商緊密地聯(lián)系在一起,正如許多人預(yù)料公有云采用趨于成熟后會(huì)出現(xiàn)的一幕那樣。
DNAnexus公司的首席科學(xué)家Andrew Carroll表示,除了缺少一些定制的、具體的合規(guī)和安全特性外,生命科學(xué)公司還缺少一套管理體系來(lái)處理PB級(jí)的數(shù)據(jù)和數(shù)十億個(gè)對(duì)象。“此外,還面臨大規(guī)模操作帶來(lái)的挑戰(zhàn)――處理運(yùn)行1次或100次的任務(wù)并不難,但是讓同一個(gè)系統(tǒng)處理成千上萬(wàn)次或數(shù)百萬(wàn)次的任務(wù),就會(huì)出現(xiàn)大量隨機(jī)錯(cuò)誤或其他低級(jí)問(wèn)題,結(jié)果證明這些問(wèn)題很?chē)?yán)重。如果出現(xiàn)了位反轉(zhuǎn)或節(jié)點(diǎn)故障,當(dāng)你運(yùn)行數(shù)百萬(wàn)個(gè)任務(wù)時(shí),這是一大問(wèn)題。”
DNAnexus是為其用戶(hù)使用亞馬遜云的少數(shù)公司之一,既提供了能夠比較快地構(gòu)建,所有適當(dāng)?shù)暮弦?guī)和重要管理工具都已落實(shí)到位的環(huán)境,又為開(kāi)發(fā)人員提供了將代碼移植到其中的環(huán)境,并且讓代碼在亞馬遜EC2里面的最高效機(jī)器上運(yùn)行,以滿(mǎn)足工作負(fù)載的要求,這個(gè)要求既涉及交付解決方案的時(shí)間,又涉及成本效益。這方面值得關(guān)注的是,公司的最終用戶(hù)、尤其是基因組方面的用戶(hù)在如何做出決策:到底是自建還是購(gòu)買(mǎi)基因組和研發(fā)基礎(chǔ)設(shè)施。
Carroll表示,雖然許多大規(guī)模用戶(hù)已經(jīng)在內(nèi)部擁有集群,但是許多內(nèi)部工作負(fù)載往往具有突發(fā)式,這意味著它們需要整合將工作負(fù)載推送到云端來(lái)處理的方法。但是這些內(nèi)部集群用戶(hù)給他留下最深印象的是,云讓它們現(xiàn)有的硬件投入發(fā)揮了更大的價(jià)值。“如果你看一下本地集群的效率,假設(shè)你在110%下運(yùn)行。這不是好事,因?yàn)檫@意味著存在等待時(shí)間。對(duì)于害怕這種場(chǎng)景的公司來(lái)說(shuō),它們往往配置過(guò)多的資源;要是另一方面,在那些突發(fā)時(shí)期(可能有個(gè)問(wèn)題涉及10000個(gè)基因組)之外的時(shí)段,集群的使用率可能為90%。我們發(fā)現(xiàn),移到云端處理這種突發(fā)任務(wù)是結(jié)合使用本地資源和亞馬遜資源的最高效方式。”
值得關(guān)注的是,Carroll還看到一些從未投資自建集群的小規(guī)模生命科學(xué)公司當(dāng)中出現(xiàn)了幾個(gè)顯著的趨勢(shì)。“對(duì)這些用戶(hù)而言,他們的好處就是可以借助外力。這意味著,他們有多得多的閑置資源,要不然這些帶寬會(huì)用于管理其IT和基礎(chǔ)設(shè)施;如今,他們的精力花在了如何使用云服務(wù)上。”這意味著,公司里面的IT人員可以將注意力從單純管理裸機(jī)系統(tǒng),變成在應(yīng)用程序、測(cè)試或開(kāi)發(fā)方面從事創(chuàng)新的新工作。
內(nèi)部沒(méi)有集群資源的另一個(gè)優(yōu)點(diǎn)是,工作負(fù)載發(fā)生變化后,計(jì)算需求也隨之變化。對(duì)需要處理內(nèi)部基礎(chǔ)設(shè)施的用戶(hù)而言,基礎(chǔ)設(shè)施確實(shí)很擅長(zhǎng)處理一組主要的應(yīng)用程序,但是該基礎(chǔ)設(shè)施(計(jì)算、內(nèi)存和存儲(chǔ))都是固定不變的。Carroll解釋?zhuān)?ldquo;我們其實(shí)是機(jī)會(huì)主義者,因?yàn)槲覀冊(cè)诳梢允褂媚男┨幚砥鞣矫鎻膩嗰R遜處獲得了一整批選擇,比如說(shuō)如果我們需要偏重內(nèi)存的方法,或者需要固態(tài)硬盤(pán)或更多磁盤(pán)。”他在DNAnexus的團(tuán)隊(duì)在少數(shù)類(lèi)型的抽樣節(jié)點(diǎn)上運(yùn)行用戶(hù)處理的每種應(yīng)用程序,以確定最佳操作環(huán)境,并且充分考慮到了用戶(hù)的需求:準(zhǔn)時(shí)交付解決方案,并且不超支。如果用戶(hù)需要某一種類(lèi)型的處理器或配置,他們可以在系統(tǒng)里面加以改動(dòng),但是Carroll表示大多數(shù)用戶(hù)使用屢試不爽的默認(rèn)設(shè)置。
雖然后端云硬件情況和圍繞自建還是購(gòu)買(mǎi)的問(wèn)題值得關(guān)注,但到頭來(lái),這些用戶(hù)關(guān)注的卻是合規(guī)、安全和應(yīng)用程序移植這部分,這部分其實(shí)也讓他們做出了考慮DNAnexus的最終決定。Carroll告訴我們,他們?cè)谶^(guò)去幾年投入了大量精力來(lái)建立這樣一套系統(tǒng):可以通過(guò)容器隔離(使用LXC,而Docker的安全問(wèn)題是限制因素)并移植自定義環(huán)境,從而確保符合《健康保險(xiǎn)可攜性及責(zé)任性法案》(HIPAA)及其他監(jiān)管法規(guī),那樣每個(gè)機(jī)器隔離起來(lái),而且有可靠的數(shù)據(jù)治理結(jié)構(gòu),那樣所有操作都可以受到跟蹤和報(bào)告。雖然任何公司確實(shí)可以讓自己的工程師構(gòu)建EC2集群,但處理個(gè)人健康數(shù)據(jù)時(shí),問(wèn)題就不是那么簡(jiǎn)單了,盡管亞馬遜已在這方面落實(shí)了諸多措施來(lái)吸引生命科學(xué)公司。
“這不是它們亞馬遜是不是符合HIPAA的問(wèn)題,因?yàn)槟莾H僅涉及合規(guī)和機(jī)器安全。一定要在數(shù)據(jù)管理層面確保合規(guī);當(dāng)我們談?wù)摂?shù)PB的數(shù)據(jù)時(shí),這在大規(guī)模下顯得尤為重要。”Carroll解釋?zhuān)绻患夜鞠胧褂脕嗰R遜或另一家提供商的資源構(gòu)建自己的云集群,就需要一批技能嫻熟的工程師花好幾年來(lái)構(gòu)建DNAnexus構(gòu)建的那套系統(tǒng)。他表示,就算他們能做到這樣,其團(tuán)隊(duì)還要管理該系統(tǒng)。選擇這樣一家基因組即服務(wù)提供商讓DNAnexus的團(tuán)隊(duì)得以專(zhuān)注于原本可能忽視的其他方面,包括滲透測(cè)試和構(gòu)建新的開(kāi)發(fā)工具,讓?xiě)?yīng)用程序的開(kāi)發(fā)和移植來(lái)得更容易。
雖然考慮到硬件、應(yīng)用程序和數(shù)據(jù)傳輸?shù)确矫娲嬖谧償?shù),價(jià)格是個(gè)棘手問(wèn)題,但這正是對(duì)用戶(hù)來(lái)說(shuō)真正有吸引力的地方,不過(guò)眼下可以妥妥地說(shuō),針對(duì)特定領(lǐng)域的高性能計(jì)算云正迎面而來(lái)。