細(xì)胞表型的高內(nèi)涵篩選是支持早期藥品研發(fā)的關(guān)鍵工具,“高內(nèi)涵”一詞是指利用傳統(tǒng)圖像處理技術(shù)從圖像中提取的豐富數(shù)據(jù)集,這些數(shù)據(jù)集由數(shù)千個(gè)預(yù)定義特性(如大小、形狀、肌理等)構(gòu)成。通過高內(nèi)涵篩選可以分析顯微鏡圖像,進(jìn)而研究數(shù)千種基因或化學(xué)治療方法對(duì)不同細(xì)胞的培養(yǎng)效果。
深度學(xué)習(xí)有望做到的是從數(shù)據(jù)中“自動(dòng)”學(xué)習(xí)如何通過相關(guān)圖像特征將一種治療方法與另一種治療方法區(qū)分開。英特爾與諾華的生物學(xué)家和數(shù)據(jù)科學(xué)家希望通過利用深度神經(jīng)網(wǎng)絡(luò)加速技術(shù),提高高內(nèi)涵圖像篩選的速度。在雙方的合作中,團(tuán)隊(duì)并非通過獨(dú)立的步驟鑒別出圖像中的各個(gè)細(xì)胞,而是聚焦于完整的顯微鏡圖像,但完整的顯微鏡圖像遠(yuǎn)遠(yuǎn)大于深度學(xué)習(xí)數(shù)據(jù)集里的圖像,例如英特爾與諾華合作評(píng)估中使用的圖片就比典型的動(dòng)物、物體和場景數(shù)據(jù)集ImageNet*中的圖像大26倍以上。
深度卷積神經(jīng)網(wǎng)絡(luò)模型在分析顯微鏡圖像時(shí)可同時(shí)分析一張圖像中的幾百萬個(gè)像素或者一個(gè)模型中的幾百萬個(gè)參數(shù),甚至還能同時(shí)分析數(shù)千個(gè)訓(xùn)練圖像,這些構(gòu)成了很高的計(jì)算工作量,即使采用最先進(jìn)的計(jì)算性能也無法有足夠時(shí)間對(duì)DNN模型展開深入研究。為了解決這一挑戰(zhàn),英特爾聯(lián)手諾華利用深度神經(jīng)網(wǎng)絡(luò)加速技術(shù)處理多個(gè)圖像,大大縮減了時(shí)間并提高工作效率,同時(shí)讓模型從圖像特性中獲得更加豐富的洞察。具體講就是通過使用Broad Bioimage Benchmark Collection* 021 (BBBC-021) 數(shù)據(jù)集,英特爾與諾華合作團(tuán)隊(duì)將總處理時(shí)間縮短至31分鐘,準(zhǔn)確率超過99%;利用深度學(xué)習(xí)訓(xùn)練中的數(shù)據(jù)并行性原則,并充分依靠服務(wù)器平臺(tái)上的大存儲(chǔ)支持,通過了32個(gè)TensorFlow* workers,實(shí)現(xiàn)了每秒處理120個(gè)3.9兆像素圖像的成果。
與諾華的合作,是英特爾通過企業(yè)級(jí)的解決方案為人工智能的應(yīng)用與企業(yè)部署提供最廣泛的計(jì)算力合作案例之一。在未來,雖然監(jiān)督學(xué)習(xí)對(duì)于加快圖像分類、縮短獲得洞察的時(shí)間至關(guān)重要,但卻仍需要依賴大量專家標(biāo)記的數(shù)據(jù)集來訓(xùn)練模型,建立此類數(shù)據(jù)集所需的時(shí)間和工作量往往超出現(xiàn)實(shí)條件。無監(jiān)督學(xué)習(xí)或許可以應(yīng)用于無標(biāo)記的顯微鏡圖像,有望在細(xì)胞生物學(xué)領(lǐng)域發(fā)現(xiàn)新洞察,有助于人類藥物研發(fā)的進(jìn)一步發(fā)展。