一文全解華為云全新基因組自動AI建模工具AutoGenome黑科技

責(zé)任編輯：zhaoxiaoqin |來源：企業(yè)網(wǎng)D1Net 2020-03-31 13:30:56 原創(chuàng)文章企業(yè)網(wǎng)D1Net

目前,AI技術(shù)已經(jīng)廣泛應(yīng)用在圖像、語音等領(lǐng)域,然而在生物醫(yī)學(xué)領(lǐng)域,尤其是基因組學(xué)數(shù)據(jù)領(lǐng)域,AI的應(yīng)用仍處于初期階段。主要原因是,由于基因組數(shù)據(jù)的復(fù)雜性,導(dǎo)致主流的基于圖像和文本的模型不能很好地對基因組數(shù)據(jù)進行建模;同時,由于AI模型的搭建開發(fā)門檻較高,需要開發(fā)者有比較多的經(jīng)驗。

2020年3月28日,在華為開發(fā)者大會2020(Cloud)期間,華為云發(fā)布全新AutoML工具AutoGenome用于基因組數(shù)據(jù)的建模。AutoGenome采用了超參數(shù)自動搜索、神經(jīng)網(wǎng)絡(luò)架構(gòu)自動搜索和模型自動解釋器等最新的AutoML技術(shù),并且提出了全新的更加適用于基因組數(shù)據(jù)建模的殘差全連接網(wǎng)絡(luò),在多項不同的基因組數(shù)據(jù)建模任務(wù)中,AutoGenome的準確性都超出傳統(tǒng)模型5個百分點以上。

下文主要從技術(shù)角度講述AutoGenome中涉及到的黑科技,讓我們先睹為快。

1 自動機器學(xué)習(xí)技術(shù)

1.1 自動機器學(xué)習(xí)背景

盡管AI已經(jīng)應(yīng)用于各行各業(yè),并且在圖像和語音等領(lǐng)域已經(jīng)取得了讓人矚目的成績。但是構(gòu)建一個性能優(yōu)異的深度學(xué)習(xí)模型仍然需要研究者投入大量的時間和資源,并且模型的性能在很大程度上也依賴于研究者的調(diào)參經(jīng)驗。這種現(xiàn)象已經(jīng)嚴重的阻礙了AI在科研和產(chǎn)業(yè)界的廣泛應(yīng)用。

為了解決這個問題,研究人員提出了自動機器學(xué)習(xí)(AutoML)方法。AutoML目前是深度學(xué)習(xí)領(lǐng)域最為熱門的一個話題。針對特定的機器學(xué)習(xí)任務(wù),AutoML能夠端到端的完成數(shù)據(jù)處理,特征提取,模型選擇以及模型評估,節(jié)省人力和資源的消耗。在本節(jié),我們將重點介紹超參自動搜索和神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)搜索(Neural Architecture Search,NAS),其中NAS已經(jīng)成為了AutoML領(lǐng)域最為流行的一種方法,并且取得了非常好的性能。

1.2 超參自動搜索

模型的參數(shù)主要分為參數(shù)和超參數(shù),其中參數(shù)是通過模型的自身訓(xùn)練得到的,而超參數(shù)需要通過開發(fā)者自身的經(jīng)驗進行設(shè)置,以提高模型的訓(xùn)練效果。在實際的開發(fā)過程中,訓(xùn)練的數(shù)據(jù)量通常會比較大,模型結(jié)構(gòu)復(fù)雜,計算成本也會比較高,同時每種類型的超參數(shù)都有比較多的選擇,這都會導(dǎo)致超參搜索的計算成本高昂。目前業(yè)界比較常用的超參搜索方法主要是網(wǎng)格搜索,隨機搜索和貝葉斯優(yōu)化等。

AutoGenome在構(gòu)建AI模型的時候,通過超參自動搜索的算法,能夠自動的針對給定的超參數(shù)空間,無需用戶的干涉,即可給出最優(yōu)的參數(shù)組合。

1.3 神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)搜索

網(wǎng)絡(luò)結(jié)構(gòu)搜索(NAS)是AutoML搜索中關(guān)鍵的一環(huán)。NAS的核心是RNN控制器,控制器針對給定的搜索空間的候選神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)集合,從中產(chǎn)生“子網(wǎng)絡(luò)”;接下來訓(xùn)練該“子網(wǎng)絡(luò)”并評估其性能;最后逐步優(yōu)化“子網(wǎng)絡(luò)”結(jié)構(gòu),通過不斷的重復(fù)上述過程,并讓控制器進行學(xué)習(xí)生成更好的模型結(jié)構(gòu),最終找到一個最優(yōu)的網(wǎng)絡(luò)結(jié)構(gòu)。

網(wǎng)絡(luò)結(jié)構(gòu)作為一種特殊的超參數(shù),在機器學(xué)習(xí)整個環(huán)節(jié)中扮演著舉足輕重的作用。但是傳統(tǒng)的NAS搜索可能會需要消耗比較長的時間,一種非常有效的提高搜索效率的解決方式是ENAS搜索。ENAS是一種通過子網(wǎng)絡(luò)之間參數(shù)共享的方式,實現(xiàn)高效的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)搜索的方法,ENAS相比于其他的NAS搜索算法,能夠?qū)崿F(xiàn)提速10倍以上的效果,同時達到和傳統(tǒng)NAS搜索相似的結(jié)果準確度。AutoGenome采用了改進的ENAS算法,方便用戶能夠快速的得到最優(yōu)的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)。

圖1 ENAS搜索過程

2 適用于基因組數(shù)據(jù)的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)模型-RFCN

2.1 基因組數(shù)據(jù)的特點

目前最流行的CNN網(wǎng)絡(luò)中的卷積操作能夠抽提底層次特征(例如邊緣特征),并進而組合低層次特征形成高層次的特征,對數(shù)據(jù)進行建模。RNN雖然在結(jié)構(gòu)上和CNN有比較大的區(qū)別,但其本質(zhì)也是通過整合序列上前后特征,來實現(xiàn)提取信息的功能。CNN和RNN非常適合從圖片數(shù)據(jù),文本數(shù)據(jù)和語音數(shù)據(jù)中提取特征。這些數(shù)據(jù)之間存在有局部相關(guān)性,即輸入的特征值和周圍的特征值存在有相關(guān)性,如果特征輸入順序打亂,則圖片或文本的意義會完全改變。

然而通過高通量測序技術(shù)對不同分子系統(tǒng)水平的組學(xué)定量,得到的數(shù)據(jù)都是非序列數(shù)據(jù),如基因突變、全基因組的基因拷貝數(shù)變異、RNA表達值、蛋白質(zhì)表達量,這些數(shù)據(jù)具有以下特征:

1.原始數(shù)據(jù)的為幾千或者幾萬個特征(如人類兩萬個基因的表達量),特征之間相互獨立;

2.特征點的數(shù)目比較多,一般和樣本的數(shù)目處在同一個數(shù)量級;

3.原始數(shù)據(jù)的特征之間沒有明顯的時間維度和空間維度相關(guān)性(例如基因之間沒有嚴格的先后關(guān)系和前后左右關(guān)系);

4.原始數(shù)據(jù)的特征之間存在層次性的相互作用網(wǎng)絡(luò)(基因調(diào)控通路/網(wǎng)絡(luò));

圖2 基因組數(shù)據(jù)結(jié)構(gòu)

同時基因組數(shù)據(jù)中存在更加復(fù)雜的,非時空關(guān)聯(lián)的,層次性的連接關(guān)系。并且存在有跨層或者跳躍的連接。針對這種非歐式空間數(shù)據(jù)的建模,前饋神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)中的每一層都只會接收上一層的信息,無法反映跨層次的調(diào)控。

2.2 殘差全連接神經(jīng)網(wǎng)絡(luò)的提出(RFCN)

由于定量組學(xué)數(shù)據(jù)的特殊性,我們提出了殘差結(jié)構(gòu)的變體-殘差全連接神經(jīng)網(wǎng)絡(luò)(residual fully-connected neural network, RFCN)。與使用卷積作為基礎(chǔ)算子的常規(guī)殘差網(wǎng)絡(luò)不同,殘差全連接神經(jīng)網(wǎng)絡(luò)使用全連接層作為連接方式,每一層既可通過全連接層與后一層進行連接(Path 1),也可以通過跳躍連接與其他層進行相連 (Path 2),還可以連接分支網(wǎng)絡(luò)(Path 3)。

圖3 殘差全連接神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)

基于RFCN,并且參考ResNet/DenseNet的結(jié)構(gòu),我們提出RFCN的變體:RFCN-ResNet和RFCN-DenseNet。在RFCN-ResNet中, 在中間的每層,以前一層的輸出和輸入之和作為當(dāng)前層的輸入。在RFCN-DenseNet中, 在中間的每層,把前面所有層的輸出串聯(lián)起來作為當(dāng)前層的輸入。

圖4 RFCN-ResNet和RFCN-DenseNet神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)

2.3 隨機連接殘差全連接網(wǎng)絡(luò)的提出

根據(jù)ResNet 和DenseNet的定義,跳躍連接的方式都是相對固定的。對于一個新數(shù)據(jù)而言,依然需要大量人工設(shè)定網(wǎng)絡(luò)結(jié)構(gòu),對算法研究者的算法能力和經(jīng)驗要求更高;并且依靠人工設(shè)定的結(jié)構(gòu)往往并不是最適合新數(shù)據(jù)的結(jié)構(gòu),解決實際問題的能力和效率是值得懷疑的。因為我們提出另一種RFCN的變體——隨機連接殘差全連接網(wǎng)絡(luò)(randomly-wired residual fully-connected neural network (RRFCN))。這種網(wǎng)絡(luò)架構(gòu)是采用了神經(jīng)網(wǎng)絡(luò)搜索技術(shù)(Neural Architecture Search, NAS),針對不同的基因組學(xué)數(shù)據(jù)任務(wù),搜索和生成最優(yōu)的殘差全連接層網(wǎng)絡(luò)結(jié)構(gòu)。通過與神經(jīng)網(wǎng)絡(luò)搜索技術(shù)的結(jié)合,生信研究者可以非常方便地搜索到適合當(dāng)前研究問題的殘差全連接網(wǎng)絡(luò)結(jié)構(gòu)。

圖5 隨機連接殘差全連接網(wǎng)絡(luò)結(jié)構(gòu)

3 AutoGenome-專為基因組數(shù)據(jù)打造的AI建模框架

為了使生物醫(yī)療的研究工作者方便地使用上RFCN神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),我們集成了超參自動搜索,神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)搜索和自動模型解釋器的功能,開發(fā)出了AutoGenome。

3.1 AutoGenome框架設(shè)計

AutoGenome能夠幫助科研工作者在基因組學(xué)數(shù)據(jù)上實現(xiàn)端到端的深度學(xué)習(xí)網(wǎng)絡(luò)搜索,訓(xùn)練,評估,預(yù)測和解釋的工具包,其架構(gòu)如下圖所示。對于監(jiān)督學(xué)習(xí)任務(wù),用戶提供基因矩陣數(shù)據(jù)作為輸入,并且設(shè)置好參數(shù)配置Json文件,AutoGenome根據(jù)設(shè)置的搜索空間,自動搜索出最佳的RFCN-MLP、RFCN-ResNet, RFCN-DenseNet和RRFCN網(wǎng)絡(luò),并且根據(jù)最優(yōu)網(wǎng)絡(luò)可以評估模型的效果獲得混淆矩陣,并且可以通過計算SHAP值對特征重要性進行可視化。

對于非監(jiān)督學(xué)習(xí)任務(wù), AutoGenome可以根據(jù)所輸入的數(shù)據(jù)和搜索空間的設(shè)定,選出最優(yōu)的Res-VAE網(wǎng)絡(luò),并能方便地得到潛變量矩陣和重構(gòu)矩陣。

圖6 AutoGenome建模流程圖

3.2 AutoGenome的調(diào)用方式

在使用過程中,我們對AutoGenome進行了很好的封裝。如下圖所示。使用者確定自己的輸入數(shù)據(jù),并通過JSON文件配置自己的搜索空間等參數(shù),只需要執(zhí)行5條命令,用戶即能完成整個端到端分析。返回給用戶最優(yōu)的AI模型,以及模型分類的混淆矩陣和模型可解釋性的圖譜。

圖7 AutoGenome命令行調(diào)用方式

3.3 AutoGenome的應(yīng)用案例

在該案例中, 采用了小鼠的10000個單細胞測序數(shù)據(jù),共包含10個不同時期。AutoGenome自動將數(shù)據(jù)分為訓(xùn)練集,驗證集和測試集。自動進行訓(xùn)練并得到最優(yōu)模型。我們測試了不同工具在獨立測試集上的準確度如下圖所示。

圖8 AutoGenome在針對單細胞測序數(shù)據(jù)的AI建模性能

結(jié)果顯示AutoGenome得到的模型的性能均大幅度由于傳統(tǒng)的XGBoost和AutoKeras。說明AutoGenome用于基因組數(shù)據(jù)訓(xùn)練的模型的性能普遍優(yōu)于傳統(tǒng)的機器學(xué)習(xí)框架。

另外,AutoGenome內(nèi)置了模型可解釋性的接口,能夠自動的針對最優(yōu)AI模型進行分析,找出關(guān)鍵的特征來對模型進行解釋。結(jié)果顯示,針對單細胞的分類中,很多核糖體相關(guān)基因排在特征重要性的前列。同時這個結(jié)果是合理的,因為先前的很多研究均表明核糖體基因在胚胎發(fā)育和干細胞分化中發(fā)揮著重要作用。比如說Rpl35基因據(jù)報道在發(fā)育早期階段具有很重要,在逐漸發(fā)育過程中,Rpl35基因表達也隨之增加,因此在晚期E7.5階段,Rpl35基因的表達值很高,傾向于預(yù)測為該階段。

圖9 AutoGenome針對單細胞數(shù)據(jù)輸出的模型可解釋性圖譜

3.4 AutoGenome的使用

在開發(fā)過程上,AutoGenome對于AI的初學(xué)者非常友好,只需要五行代碼即可快速完成端到端的基因組數(shù)據(jù)建模、準確性評估和模型解釋。同時AutoGenome已經(jīng)證明在多項任務(wù)上性能都達到了業(yè)內(nèi)最優(yōu),自動生成的模型可解釋性譜圖可以直接用于生物標(biāo)志物的發(fā)現(xiàn)或者論文初版。我們預(yù)計AutoGenome將能夠廣泛的支撐基因組領(lǐng)域的科研,藥物研發(fā),個性化診斷等領(lǐng)域。

圖10 AutoGenome特性

目前,AutoGenome已經(jīng)正式上線,用戶可在華為云ModelArts一站式AI開發(fā)管理平臺上免費使用(https://www.huaweicloud.com/product/modelarts.html)。具體方法和步驟如下:

1.創(chuàng)建GPU Notebook開發(fā)環(huán)境

用戶可以登錄華為云ModelArts平臺,并創(chuàng)建GPU的Notebook開發(fā)環(huán)境。

圖11 ModelArts平臺創(chuàng)建Notebook開發(fā)環(huán)境

2.選擇AutoGenome案例

在打開的環(huán)境中,選擇ModelArts Examples – EIHealth Labs,在該條目下,我們已經(jīng)提供了多個AutoGenome的案例,用戶可以根據(jù)自己的項目目標(biāo)打開對應(yīng)的的案例,并點擊”use”。

圖12 在EIHealth Labs選擇對應(yīng)的參考案例

3.運行AutoGenome

在新打開的Notebook開發(fā)環(huán)境中,用戶可以直接使用AutoGenome,復(fù)現(xiàn)測試數(shù)據(jù)的結(jié)果,或者配置自己的數(shù)據(jù)進行AI模型訓(xùn)練。

圖13 在Notebook環(huán)境中進行AutoGenome代碼訓(xùn)練

4 華為云醫(yī)療智能體平臺介紹

華為云EI醫(yī)療智能體(EIHealth)是華為云面向醫(yī)療行業(yè)提供的端到端的AI賦能平臺,在基因組,藥物研發(fā)和醫(yī)療影像領(lǐng)域可以極大的加速AI產(chǎn)品和服務(wù)的研發(fā)和應(yīng)用。平臺提供大量相關(guān)流程,工具鏡像等資源,科研單位和企業(yè)可以基于EIHealth平臺快速的搭建數(shù)據(jù)分析流程。

面對當(dāng)前疫情,醫(yī)療智能體聯(lián)合多家科研機構(gòu)開發(fā)一系列抗疫平臺服務(wù),包括新冠病毒自動化鑒定云平臺、大規(guī)模抗病毒藥物篩選平臺、新冠肺炎AI影像輔助診斷(https://www.huaweicloud.com/product/eihealth.html)。