如果你正在構(gòu)建一個(gè)云架構(gòu),同時(shí)也在設(shè)計(jì)高性能的AI系統(tǒng),你需要做些什么不同的事情?你需要什么才能做到這一點(diǎn)呢?新興的最佳實(shí)踐是什么?以下是我的建議:
了解你的用例
明確定義你的云架構(gòu)中AIGC的目標(biāo)。如果我反復(fù)看到任何錯(cuò)誤,那就是沒(méi)有理解商業(yè)系統(tǒng)中AIGC的含義。了解你的目標(biāo)是什么,無(wú)論是內(nèi)容生成、推薦系統(tǒng)還是其他應(yīng)用程序。
這意味著寫(xiě)下東西,在目標(biāo)上找到共識(shí),如何實(shí)現(xiàn)目標(biāo),最重要的是,如何定義成功。這并不是只有AIGC才有的;這是每一次遷移和構(gòu)建在云中的全新系統(tǒng)成功的一步。
我看到云中的整個(gè)AIGC項(xiàng)目都失敗了,因?yàn)樗鼈儧](méi)有很好地理解業(yè)務(wù)用例。公司創(chuàng)造的東西很酷,但不會(huì)給企業(yè)帶來(lái)任何價(jià)值,這是行不通的。
數(shù)據(jù)來(lái)源和質(zhì)量是關(guān)鍵
通過(guò)AIGC模型識(shí)別訓(xùn)練和推理所需的數(shù)據(jù)源。數(shù)據(jù)必須是可訪問(wèn)的,良好的質(zhì)量,并仔細(xì)管理。你還必須確保云存儲(chǔ)解決方案的可用性和兼容性。
AIGC系統(tǒng)高度以數(shù)據(jù)為中心。我會(huì)稱(chēng)它們?yōu)槊嫦驍?shù)據(jù)的系統(tǒng),數(shù)據(jù)是推動(dòng)AIGC系統(tǒng)成果的燃料。垃圾進(jìn),垃圾出。
因此,它有助于將數(shù)據(jù)可訪問(wèn)性作為云架構(gòu)的主要驅(qū)動(dòng)因素。你需要訪問(wèn)大多數(shù)相關(guān)數(shù)據(jù)作為訓(xùn)練數(shù)據(jù),通常將其保留在其存在的位置,而不是將其遷移到單個(gè)物理實(shí)體。否則,你最終會(huì)得到冗余的數(shù)據(jù),沒(méi)有單一的真理來(lái)源。在將數(shù)據(jù)送入AI模型之前,考慮使用高效的數(shù)據(jù)管道對(duì)數(shù)據(jù)進(jìn)行預(yù)處理和清理,這確保了數(shù)據(jù)質(zhì)量和模型性能。
這大約是使用AIGC的云架構(gòu)成功的80%。然而,它最被忽視,因?yàn)樵萍軜?gòu)師更多地關(guān)注AIGC系統(tǒng)處理,而不是向這些系統(tǒng)提供數(shù)據(jù)。數(shù)據(jù)就是一切。
數(shù)據(jù)安全和隱私
正如數(shù)據(jù)很重要一樣,應(yīng)用于該數(shù)據(jù)的安全和隱私也很重要。AIGC處理可能會(huì)將看似毫無(wú)意義的數(shù)據(jù)變成可能會(huì)暴露敏感信息的數(shù)據(jù)。
實(shí)施強(qiáng)大的數(shù)據(jù)安全措施、加密和訪問(wèn)控制,以保護(hù)AIGC使用的敏感數(shù)據(jù)和AIGC可能生成的新數(shù)據(jù),至少要遵守相關(guān)的數(shù)據(jù)隱私法規(guī),這并不意味著將某些安全系統(tǒng)固定在你的體系結(jié)構(gòu)上作為最后一步,必須在每一步都將安全性融入到系統(tǒng)中。
可伸縮性和推理資源\
規(guī)劃可擴(kuò)展的云資源以適應(yīng)不同的工作負(fù)載和數(shù)據(jù)處理需求。大多數(shù)公司都在考慮自動(dòng)伸縮和負(fù)載平衡解決方案。我看到的一個(gè)嚴(yán)重的錯(cuò)誤是,建立了規(guī)模很大、但成本高昂的體系。最好在可伸縮性和成本效益之間取得平衡,這是可以做到的,但需要良好的體系結(jié)構(gòu)和FinOps實(shí)踐。
此外,還應(yīng)檢查培訓(xùn)和推理資源。我想你已經(jīng)注意到,云會(huì)議上的許多新聞都是圍繞這個(gè)主題的,而且有很好的理由。選擇合適的具有GPU或TPU的云實(shí)例進(jìn)行模型訓(xùn)練和推理。再次,優(yōu)化資源配置以實(shí)現(xiàn)成本效益。
考慮型號(hào)選擇
選擇示范性的AIGC架構(gòu)(一般對(duì)抗性網(wǎng)絡(luò)、轉(zhuǎn)換器等)。基于你的特定用例和需求??紤]使用云服務(wù)進(jìn)行模型培訓(xùn),如AWS SageMaker等,并找到優(yōu)化的解決方案。這也意味著你要明白,你可能有很多相互連接的模型,這將是常態(tài)。
實(shí)施強(qiáng)大的模型部署策略,包括版本化和容器化,以使你的云架構(gòu)中的應(yīng)用程序和服務(wù)可以訪問(wèn)AI模型。
監(jiān)控和日志記錄
設(shè)置監(jiān)控和日志記錄系統(tǒng)以跟蹤AI模型的性能、資源利用率和潛在問(wèn)題不是可選的。建立異常警報(bào)機(jī)制以及為處理云中的AIGC而構(gòu)建的可觀察性系統(tǒng)。
此外,持續(xù)監(jiān)控和優(yōu)化云資源成本,因?yàn)锳IGC可能是資源密集型的。使用云成本管理工具和實(shí)踐。這意味著讓FinOps監(jiān)控你的部署的所有方面——最低限度地提高運(yùn)營(yíng)成本效益和架構(gòu)效率,以評(píng)估你的架構(gòu)是否最優(yōu)。大多數(shù)架構(gòu)都需要調(diào)整和持續(xù)改進(jìn)。
其他考慮事項(xiàng)
需要故障轉(zhuǎn)移和冗余來(lái)確保高可用性,災(zāi)難恢復(fù)計(jì)劃可以最大限度地減少系統(tǒng)故障時(shí)的停機(jī)時(shí)間和數(shù)據(jù)丟失,在必要時(shí)實(shí)施冗余。此外,定期審計(jì)和評(píng)估你的AIGC系統(tǒng)在云基礎(chǔ)設(shè)施中的安全性,彌補(bǔ)漏洞并維護(hù)合規(guī)性。
為AI的道德使用建立指導(dǎo)方針是一個(gè)好主意,特別是在生成影響用戶的內(nèi)容或做出影響用戶的決策時(shí)。解決偏見(jiàn)和公平問(wèn)題,目前有關(guān)于AI和公平的訴訟,你需要確保你做的是正確的事情。持續(xù)評(píng)估用戶體驗(yàn),以確保AI生成的內(nèi)容符合用戶預(yù)期并增強(qiáng)參與度。
無(wú)論你是否使用AIGC,云計(jì)算架構(gòu)的其他方面都大同小異。關(guān)鍵是要意識(shí)到,有些事情要重要得多,需要有更嚴(yán)格的要求,總有改進(jìn)的空間。
關(guān)于企業(yè)網(wǎng)D1net(hfnxjk.com):
國(guó)內(nèi)主流的to B IT門(mén)戶,同時(shí)在運(yùn)營(yíng)國(guó)內(nèi)最大的甲方CIO專(zhuān)家?guī)旌椭橇敵黾吧缃黄脚_(tái)-信眾智(www.cioall.com)。同時(shí)運(yùn)營(yíng)19個(gè)IT行業(yè)公眾號(hào)(微信搜索D1net即可關(guān)注)。
版權(quán)聲明:本文為企業(yè)網(wǎng)D1Net編譯,轉(zhuǎn)載需在文章開(kāi)頭注明出處為:企業(yè)網(wǎng)D1Net,如果不注明出處,企業(yè)網(wǎng)D1Net將保留追究其法律責(zé)任的權(quán)利。