新冠疫情不僅凸顯了速度對醫學發現的重要性,而且還凸顯了數據科學和人工智能為這種加速提供幫助的重要性。例如,機器學習在醫學領域的應用近年來取得了重大進展,通過人工智能發現的藥物分子已經用于人體試驗。盡管如此,英國艾倫圖靈研究所最近發布的一份調查報告表明,數據收集、使用、存儲、處理和與不同系統集成的困難(即缺乏強大的數據架構),阻礙了采用人工智能工具以應對新冠疫情的努力。
為了充分挖掘人工智能的潛力,企業需要整理好他們的數據,尤其是醫療機構和制藥廠商。
數據日益重要
盡管很多醫療機構和制藥廠商在藥物和醫學發現等方面付出了巨大努力,特別是針對新冠病毒進行開發,但它是一個漫長、復雜且成本高昂的過程。更不用說其成功率很低——根據調查,藥物開發的整體失敗率高達96%。這就是數據可以發揮重要作用的地方,需要更新方法,提高藥物開發的潛力,以降低失敗率。
如果沒有人類基因組數據,就無法全面捕捉導致疾病的所有元素,從而無法獲得更廣泛、更深入的了解。這就需要進行大規模基因組測序,以便能夠發現和驗證關鍵的遺傳變異。收集到的更多信息和見解可以讓企業可以采取更明智的措施,降低藥物開發失敗率。利用這些數據創建機器學習算法也可以實現藥物開發管道的自動化,加速藥物發現。
另一個例子是,QSAR(定量結構-活性關系)模型能夠通過減少合成的藥物化合物數量來提高對新化學結構的預測準確性,并降低成本和時間。通過轉移知識和結合從豐富的歷史數據中學習,預測分析也可以用于藥物開發和生產。然后可以使用這些數據來發現新藥物,并加快開展實驗。
人工智能已經在藥物開發、發現和臨床試驗過程中發揮重要作用,使研究機構有機會通過現代數據和分析方法加速臨床研究。
數據的挑戰
盡管取得了這些進步,但分析這些數據都帶來了自身的挑戰。現在有如此多的生物和醫學數據可用,要快速獲取所需的見解比以往任何時候都要困難。如果不能正確利用這些數據,就毫無意義。此外,基因組數據尤其需要大量存儲、專門的軟件來分析它并引發許多數據管理、數據共享以及隱私和安全問題——重要的是要記住這些通常是高度敏感的私人信息。
研究機構和廠商面臨的問題是,這些數據通常是高度分散的,使用傳統架構難以支持對這么多不同數據的分析。僅是找到用于分析所需的正確數據就可能需要花費數周的時間。
生物技術開發商Regeneron公司當時就面臨著這些問題,因此致力于解決處理性能和可擴展性問題。該公司面臨的問題是,其數據團隊沒有分析可用的PB級基因組和臨床數據所需的資源;不能充分利用自己收集的數據。雖然現在能夠收集比以往更多的數據,但還要努力處理這些海量數據集。
數據架構的作用
這就是Data lakehouses可以發揮重要作用的地方。醫療機構簡化其基礎設施和運營以提高生產力和成功概率至關重要。只有將數據全部集中在一個統一且易于訪問的數據分析平臺中(例如Lakehouse),數據才能充分發揮其潛力。簡化的Lakehouse基礎設施可實現更大的可擴展性、自動化和大規模機器學習,以加速藥物開發。統一平臺還可以創建交互式工作空間,以提高藥物生命周期各階段的透明度和協作。數據和見解可以在團隊之間輕松共享,同時確保可靠性和維護安全性以保護敏感數據。因此,為了更快地發現藥物和治療方法,需要加快整體藥物靶點識別速度,開發團隊可以同時在多個疾病領域開展工作。
另一方面,處理傳統架構和復雜的基礎設施很費時間,尤其是設置正確的基礎設施并進行維護以支持必要的分析。這使開發團隊難以專注于分析。通過提高自動化程度,例如在出現任何系統故障時自動切換集群管理之類的操作,團隊可以在DevOps上花費更少的時間,并專注于更高價值的任務,即藥物開發和發現新的治療方法。當Regeneron公司采用提供更強大數據架構的新平臺之后,找到用于分析的正確數據從三周縮短到兩天,可以幫助支持更廣泛的研究。因此,數據架構是使數據可用并能夠回答改進藥物發現的問題的關鍵。
除了實現臨床可預測性和對數據沿襲的訪問之外,Lakehouse平臺還允許研究人員利用可重復的、基于機器學習的系統來生成和驗證假設,從而使他們能夠對自己的時間和研究做出更有針對性的決定。
真正發揮數據的潛力
數據在醫療保健行業中具有至關重要的作用,特別是在藥物和醫學發現方面,但企業現在必須進一步推動這一點,以充分利用數據的潛力。如果沒有強大的數據架構,藥物發現之類的高失敗率不會很快降低,通過集中的、可擴展的平臺來簡化操作,企業可以獲得他們需要的見解,并加速藥物發現。整理數據只是第一步,下一步是建立必要的數據架構。
版權聲明:本文為企業網D1Net編譯,轉載需注明出處為:企業網D1Net,如果不注明出處,企業網D1Net將保留追究其法律責任的權利。