圣裘德兒童研究醫院將基因組數據庫移至云端,為世界各地的科學家提供了一個合作平臺。
當你處理大量的科學數據時,將其全部放入云中可能需要一些時間。但是一旦這些數據存在于云端,在世界上任何地方對你的數據進行實驗都很簡單——你只要下載結果就可以了。然而,讓研究人員接受這種范式轉變就可以得到組織內或組織外的合作伙伴的支持,正如田納西州孟菲斯市圣裘德兒童研究醫院的高級副總裁兼首席信息官Keith Perry所了解的那樣。
圣裘德正致力于繪制兒童期癌癥的基因圖譜,以此作為尋求治療方法的一部分。圣裘德使用基因測序(大體上所有的DNA)來確定患者的健康細胞和腫瘤的全基因組序列。對兩者進行比較(以及對其他患有類似癌癥的患者的基因組進行比較)可以為治療方法帶來重要線索。
這是一個很重要的數據問題。圣裘德記錄了5,000多名患者的全基因組序列,每個序列大約占100千兆字節。研究人員可能只在其中的幾個字節內尋找突變或其它遺傳標記。
由于這些兒童期癌癥十分罕見,世界各地的研究人員希望能比較數據——但由于數據太多,很難比較。Perry舉了一位研究人員的例子,他花了六個月的時間下載了一個龐大的數據集并檢查了它的質量,然后又花了幾天的時間來進行分析。
Perry說:“醫療行業仍在奮力下載數據。但還沒有達到必須到云端做計算的臨界點,‘我必須下載數據’的心態還是存在的,盡管我們正在慢慢消除這種看法。”
這就是圣裘德創建St. Jude Cloud的一個原因,在這個平臺里,研究人員和其他人可對數據進行托管并進行實驗。
創建St. Jude Cloud的另一個原因是圣裘德的集資模式。Perry說:“我們是一個慈善機構,我們的工作重點是找到治療方法并救助這些兒童,我們非常重視這一點。......我們無法將自己正在生產的這一數據或正在塑造的概念視作是自己的東西。我們只是對正在生成的知識進行管理。”
跨部門合作
圣裘德選擇與專門從事基因領域的DNAnexus合作,而不是從零開始創建數據共享平臺。然后,它開始尋找云提供商,最終選擇了微軟的Azure平臺。
Perry說:“就云技術的使用而言,我們的任務就是創建一個共享的生態系統,該系統不僅僅是以文件共享機制為基礎,我們已經發現,研究行業就使用這樣的機制。在現有數據的基礎上創建工具和計算能力,這才更接近該系統的本質。”
Perry說,如果圣裘德的計算微生物學系主任Jinghui Zhang和她的團隊沒有參與的話,圣裘德的這個云項目本來是不可能贏得2019年的Digital Edge 50數字創新獎的。
Zhang的部門編寫的軟件從基因組測序儀中獲取數據并對其進行處理,以幫助研究人員了解基因組的特征及其所包含的所有突變。他說:“她所開發的工具以及她的研究團隊所開發的工具確實在全球范圍內得到了應用。”
IT和計算微生物學部門合作創建了St. Jude Cloud。
Perry說:“他們本可以離開并開發一個沒有IT的云框架,我們本該對此感到沮喪”,但是,IT部門能夠證明合作的價值。“我們能幫他們將所有數據移植到Azure的云端中;這將花費他們相當長的時間。“盡管如此,Perry的網絡團隊花了幾個月的時間來上傳數據并對其進行質量檢測。
接下來就是代碼優化:一旦計算生物學團隊開發出一個工具,IT人員就可以加快速度。對于這些崗位,Perry通常會尋找有計算科學博士學位并專注于高性能計算的候選人。
Perry說:“他們是這樣一群人——真正致力于了解高性能計算機的工作原理并致力于理解在其中一臺計算機中優化代碼的最佳方法,這樣的人也很難找到。”
程序員最初將目標鎖定在圣裘德的內部研究集群中,該集群擁有6400個計算核心。一旦該集群準備好投入生產,或即將與其他人共享,那么它就會被移植到云端。
鑒于一開始從事高性能計算(HPC)的博士非常稀缺,內部培訓一直是向云端遷移的關鍵組成部分。Perry說:“當我們設置職位時,我們從外部引進了一批人,但我們主要還是希望用首先參與我們的使命的人,然后我們可以教他們如何在云計算行業做出轉變。這是一種不同的思維。”
圣裘德所做的其他IT貢獻包括在早期階段將信息安全工作納入項目,從而保護患者的數據,并讓互聯網設計團隊幫忙設計St. Jude Cloud門戶。
Perry說:“我們已將云計算范式(如果你不介意這么稱呼的話)整合到正常的信息安全計劃中。我們讓一家外面的公司為我們做滲透測試,我們已經放寬對他們的限制,他們可以隨心所欲地測試云基礎設施。”
你如何處理這些測試的結果,這一點很重要,Perry說:“這不是一種懲罰性演練。而是,“無論這是我們需要加強的流程還是技術,問題在于我們能否有所發現,發現信息范圍的缺口?”所以這對我們來說是一個非常有用的演練。
傳播愿景
在設計方面,圣裘德所做的最有趣的事情就是其與自身的營銷和溝通團隊所展開的合作。
Perry說:“我在職業生涯中已經了解到,IS或IT確實不太擅長對他們所做的事情進行推廣”,但是,為了讓St. Jude Cloud取得成功,該團隊不僅要說服內部用戶,還要讓其它研究機構的用戶相信他們所提供的數據。
Perry試圖確保營銷團隊一早就參與該項目。他說:“營銷團隊幫我們提供簡明有力的信息,并使人們在團隊參加的各種會議中更加積極主動。他們還有機會就一些設計特點和流程發表高見。我們的營銷傳播小組非常棒,因為他們也了解研發團體。”
Perry說,St. Jude Cloud贏得外部用戶的一種方式是專注于實現價值,而不僅僅是傳遞信息。“我們在去年開放該平臺時,它已經有非常豐富的數據,這是一個與兒科相關的非常龐大的測序數據集,我們計劃增加它的規模。我們沒有做這樣的事情——站出來說‘我們要創建這個平臺’。相反,我們站出來說,‘嘿,我們已經創建了該平臺,它已經就緒。’”
雖然Perry想認可IT團隊所創造的價值,但他也看到了不利的一面:“我們必須承認,作為一個行業,并非所有的價值都由IT內部創造,IT以外的部門也在創造價值,這就是合作關系。”