以下是一些趨勢,目前可能尚未引起注意,但長期來看會產生重大影響:
1、專用硬件和云服務提供商正在改變格局
對于企業而言,熱議內部部署和云計算的日子已經一去不復返了。今天,即使是保守的公司也正在談論云和開源。這也難怪云平臺正在改進其產品以包括AI / ML服務。
隨著ML解決方案的要求越來越高,CPU和RAM的數量不再是加速或擴展的唯一方法。針對算法優化的專用硬件比以往任何時候都要多,無論是GPU、TPU還是“晶圓級引擎”。行業也向著使用定制化程度更高的硬件解決AI / ML問題的轉變將加速。企業的CPU將主要用于解決最基本的問題。使用ML / AI的通用計算基礎架構面臨被淘汰的風險,對于企業而言這個原因就足以促使其切換到云平臺。
專用芯片和硬件的增加也將促使基于這些硬件算法的改進。盡管新的硬件/芯片可能允許使用以前被認為是慢或者不可能的AI / ML解決方案,但仍需要重寫許多當前為通用硬件提供動力的開源工具,以便從新的芯片中受益。最近的算法改進示例包括Sideways,通過并行化訓練步驟來加快DL訓練;以及Reformer,用于優化內存使用和計算能力。
2、針對隱私及其周圍出現的創新解決方案
我還預見到,對數據隱私的關注將逐漸轉向對ML模型隱私的關注。如今AI隱私的關注重點放在了如何收集數據以及如何使用數據上。但是ML模型并不是真正的黑匣子。可以根據一段時間內的輸出推斷模型輸入,這將導致隱私泄露。數據和模型隱私方面的挑戰將迫使企業采用聯邦學習解決方案。
去年,Google發布了TensorFlow Privacy,該框架在差異化的隱私原理下工作,并且添加噪聲以使輸入模糊不清。通過聯邦學習,用戶的數據永遠不會離開其設備/機器。這些機器學習模型足夠智能,并且只需要占用很小的內存,可以在智能手機上運行并從本地數據中學習。
通常,使用用戶提供的數據是為了提供更加個性化的體驗。例如,Google Mail基于用戶的鍵入行為來提供自動建議。數據及模型如何才能不僅有助于改善個人體驗,還可以幫助更廣泛的人群呢?人們愿意分享他們訓練好的模型(而非數據)以造福他人嗎?
這里有一個有趣的商機:向用戶支付模型參數費用,這些參數來自對本地設備上數據的訓練,并使用本地計算能力來訓練模型(例如,在手機相對空閑時)。
3、穩健的模型部署變得至關重要
當前,企業正在努力生產可擴展性和可靠性兼具的模型。編寫模型的人員不一定考慮到模型安全性以及性能,并且也不一定是模型部署的專家。一旦機器學習模型成為主流和關鍵應用程序不可或缺的一部分,這將不可避免地導致對于主流應用程序服務攻擊的模型。
我們已經看到了一些技術不高的例子,例如:使特斯拉加速而不是減速、切換車道、突然停車或在沒有合適觸發的情況下打開雨刮器。想像一下此類攻擊可能對高度依賴AI / ML的金融系統,醫療設備等產生的影響會如何?
當前,對抗性攻擊僅限于學術界,以更好地了解模型的含義。但是在不久的將來,對模型的攻擊將是“牟取暴利”,這將由想要展示其性能有所提高的競爭對手或可能會勒索您的惡意黑客驅使。例如,當今新的網絡安全工具依靠AI/ML來識別諸如網絡入侵和病毒之類的威脅。如果能夠觸發虛假威脅警報要怎么辦?識別真實與虛假警報的相關成本是多少?
為了應對此類威脅,企業需要更加重視模型驗證以確保其穩健性。一些企業已經在使用對抗性網絡來測試深度神經網絡。如今,我們會聘請外部專家來審核網絡安全性,以及物理安全性等。與此相似,我們將看到模型測試和模型安全專家的新市場的出現,他們將進行測試、認證,并可能承擔模型故障的某些責任。
接下來怎么樣?
渴望通過AI投資來實現增長的企業需要重新審視對其數據的影響。我在上面概述的趨勢強調了企業在生產中圍繞其AI / ML解決方案實施強大治理的必要性。但也要注意,假設您的AI / ML模型是穩健的,也可能是冒險的,尤其是當它們給平臺提供商留有擺布可能的時候。因此,小時的需求是讓內部專家了解模型為何起作用或不起作用。這將是需要保持的趨勢。