根據斯坦福大學在4月發布的AI指數報告,2023年發布了149個基礎模型,其中三分之二是開源的,而且有大量的變體。Hugging Face目前僅跟蹤用于文本生成的LLM就超過80000個,并且幸運的是,它有一個排行榜,可以讓你快速根據各種基準對模型進行排序。盡管這些模型落后于大型商業模型,但它們正在迅速改進。
在查看開源GenAI時,排行榜是一個好的起點,EY Americas的GenAI負責人David Guarrera說,特別是Hugging Face在基準測試方面做得很好,他說。
“但是不要低估親自嘗試這些模型的價值,”他說,“因為它們是開源的,很容易做到這一點并進行切換。”他補充道,開源模型和它們的閉源商業替代品之間的性能差距正在縮小。
“開源很棒,”Uber Freight的工程主管Val Marchevsky補充道,“我覺得開源非常有價值。”它們不僅在性能上趕上了專有模型,而且有些提供了閉源模型無法匹敵的透明度,他說。“一些開源模型允許你查看用于推理的內容和不用于推理的內容,”他補充道,“可審核性對于防止幻覺非常重要。”
當然,還有價格優勢。“如果你有一個恰好有容量的數據中心,為什么要付錢給別人?”他說。
公司已經非常熟悉使用開源代碼。根據Synopsys在2月發布的開源安全和風險分析,96%的所有商業代碼庫包含開源組件。
由于所有這些經驗,公司應該知道如何確保它們使用的是適當許可的代碼,如何檢查漏洞以及如何保持所有內容的最新狀態。然而,一些規則和最佳實踐有一些特別的細微差別,公司可能會忽略。以下是最重要的幾點。
1. 奇怪的新許可條款
不同開源許可證類型的情況已經足夠復雜了。項目是否可以安全用于商業用途,還是只能用于非商業用途?可以修改和分發嗎?可以安全地并入專有代碼庫嗎?現在,隨著GenAI的出現,有一些新的皺褶。首先,有一些新的許可證類型,只在一個非常寬松的定義下才算開源。
例如,Llama許可證。Llama家族的模型是一些最好的開源LLM之一,但Meta正式將其描述為“一個定制的商業許可證,平衡了對模型的開放訪問以及為幫助解決潛在的濫用而制定的責任和保護措施”。
企業被允許商業使用這些模型,開發人員可以在Llama基礎模型的基礎上創建和分發額外的工作,但它們不能使用Llama輸出來改進其他LLM,除非它們本身是Llama的衍生品。而且,如果企業或其附屬公司每月有超過700個用戶,他們必須申請許可證,Meta可能會也可能不會授予。如果他們使用Llama 3,他們必須在顯著位置包含“使用Llama 3構建”的標志。
類似地,Apple剛剛發布了OpenELM,根據“Apple示例代碼許可證”,這也是為了這個場合而發明的,僅涵蓋版權許可,不包括專利權。
Apple和Meta都沒有使用公認的開源許可證,但代碼實際上是開放的。Apple實際上不僅發布了代碼,還發布了模型權重、訓練數據集、訓練日志和預訓練配置。這就引出了開源許可的另一個方面。傳統的開源軟件就是代碼。它是開源的,意味著你可以看到它的作用以及是否存在潛在的問題或漏洞。
然而,GenAI不僅僅是代碼。它還包括訓練數據、模型權重和微調。所有這些都是了解模型工作原理并識別潛在偏見的關鍵。一個模型如果訓練在地平說陰謀論的存檔上,它將無法回答科學問題,或者由朝鮮黑客進行微調的模型可能無法正確識別惡意軟件。那么,開源LLM是否發布所有這些信息?這取決于模型,甚至取決于模型的特定版本,因為沒有標準。
“有時它們會提供代碼,但如果你沒有微調,你可能會花費很多錢才能達到相當的性能,”卡內基梅隆大學AI教授、前普華永道全球AI負責人Anand Rao說。
2. 技能短缺
開源通常是一種自助式的努力。公司可以下載代碼,但然后它們需要內部專家或雇傭的顧問來使一切正常工作。這在GenAI領域是一個大問題。沒有人有多年的經驗,因為這項技術太新了。如果一家公司剛剛開始使用GenAI,或者它想快速推進,Rao說,最好從專有平臺開始。
“下載開源版本需要專業知識,”他說。但是,一旦公司完成了概念驗證,將模型部署到生產中,并開始產生費用,那么就可能是時候考慮開源替代品了,他補充道。
行業經驗的缺乏也給開源GenAI領域帶來了另一個問題。開源的一個關鍵優勢是,許多人查看代碼,可以發現編程錯誤、安全漏洞和其他弱點。但是,這種“千眼”方法只有在確實有千眼能夠理解他們看到的東西時才起作用。
3. 越獄
LLM特別容易越獄,即用戶給它一個巧妙的提示,使其違反其指南,例如生成惡意軟件。在商業項目中,有高度動機的供應商在背后支持他們,可以識別這些漏洞并在它們出現時關閉它們。此外,供應商可以訪問用戶發送給公共版本模型的提示,因此他們可以監控是否有可疑活動的跡象。
惡意行為者不太可能購買在私人環境中運行的企業版本的產品,這些提示不會共享給供應商以改進模型。對于開源項目,團隊中可能沒有任何人負責尋找越獄的跡象。壞人可以免費下載這些模型,并在他們自己的環境中運行,以測試潛在的漏洞。壞人還可以看到模型使用的系統提示以及模型開發人員可能構建的任何其他防護措施,從而在越獄時占得先機。
“這不僅僅是試驗和錯誤,”Rao說。攻擊者可以分析訓練數據,例如,找出使模型誤識別圖像的方法,或者當它遇到看似無害的提示時出錯。
如果一個AI模型在其輸出上添加水印,惡意行為者可能會分析代碼以逆向工程過程,以去除水印。攻擊者還可以分析模型或其他支持代碼和工具,找出漏洞區域。
“你可以用請求淹沒基礎設施,這樣模型就不會工作了,”全球數字化轉型咨詢公司Nortal的高級數據科學家和能力主管Elena Sügis說。“當模型是更大系統的一部分時,它的輸出被系統的另一個部分使用,如果我們可以攻擊模型產生輸出的方式,它將擾亂整個系統,這對企業來說可能是危險的。”
4. 訓練數據的風險
藝術家、作家和其他版權持有者正左和右地起訴大型AI公司。但是,如果他們認為他們的知識產權被一個開源模型侵犯了,而唯一有深口袋的是那些將該模型納入其產品或服務的企業用戶呢?企業用戶會被起訴嗎?
“這是一個潛在的問題,沒有人真正知道一些待決訴訟將如何解決,”EY的Guarrera說。我們可能正走向一個必須對數據集進行某種補償的世界,他說。“大科技公司更有能力花錢來應對可能圍繞版權的風暴。”
大型商業供應商不僅有錢購買訓練數據和打官司,他們也有錢購買策劃的數據集,Sügis說。免費的公共數據集不僅包含未經許可使用的版權內容。它們還充滿了不準確和有偏見的信息、惡意軟件和其他可能降低輸出質量的材料。
“許多模型開發者正在談論使用策劃的數據,”她說。“這比你將整個互聯網扔給它進行訓練要貴得多。”
5. 新的數據泄露渠道
由于GenAI項目不僅僅是代碼,還有更多潛在的數據暴露風險。LLM(大型語言模型)可能在多個方面受到惡意行為者的攻擊。他們可能會滲透到管理不善的項目開發團隊中,在軟件中添加惡意代碼。但他們也可能會毒害訓練數據、微調或權重,Sügis說。
“黑客可能會用惡意代碼示例重新訓練模型,這樣它就會侵入用戶的基礎設施,”她說。“或者他們可以用假新聞和錯誤信息訓練它。”
另一個攻擊向量是模型的系統提示。
“這通常對用戶是隱藏的,”她補充道。“系統提示可能包含讓模型識別不受歡迎或不道德行為的防護措施或安全規則。”
專有模型不會公開其系統提示,她說,訪問這些提示可能會讓黑客找到攻擊模型的方法。
6. 缺少防護措施
一些開源團體可能在哲學上反對在其模型上設置防護措施,或者他們認為模型在沒有任何限制的情況下表現會更好。而有些模型則專門為惡意用途而創建。企業在選擇LLM時可能不一定知道他們的模型屬于哪一類。Nortal的Sügis說,目前沒有獨立機構評估開源GenAI模型的安全性。歐洲的《人工智能法案》將要求提供一些此類文件,但大部分規定要到2026年才會生效,她說。
“我會盡可能多地獲取文檔,測試和評估模型,并在公司內部實施一些防護措施,”她說。
7. 缺乏標準
用戶驅動的開源項目通常基于標準,因為企業用戶喜歡它們,并且希望實現互操作性。事實上,根據Linux基金會去年發布的一項對近500名技術專業人員的調查,71%的人更喜歡開源標準,相比之下只有10%的人更喜歡封閉標準。而生產專有軟件的公司可能更希望將其客戶困在其生態系統中。但如果你認為所有的開源GenAI都是基于標準的,那你就錯了。
事實上,當大多數人談論AI標準時,他們談論的是倫理、隱私和可解釋性等內容。而在這一領域確實有一些工作正在進行,例如去年12月發布的ISO/IEC 42001人工智能管理系統標準。4月29日,NIST發布了一個AI標準草案,涵蓋了很多內容,從創建一個關于AI的通用語言開始,也主要關注風險和治理問題。但在技術標準方面,進展不大。
“這是一個非常初期的領域,”云原生計算基金會的CIO兼生態系統負責人Taylor Dolezal說。“我看到一些關于數據分類的好對話,討論為訓練數據、API和提示設置標準格式。”但到目前為止,這些只是對話。
他說,目前已經有一個向量數據庫的通用數據標準,但沒有標準查詢語言。關于自主代理的標準呢?
“我還沒有看到,但我希望看到,”他說。“找出不僅讓代理執行特定任務的方法,還要把這些任務聯系在一起。”
用于創建代理的最常見工具LangChain更像是一個框架而不是標準,他說。而用戶公司,即那些對標準有需求的公司,還沒有準備好,“大多數最終用戶在實際操作之前并不知道他們想要什么。”
相反,他說,人們更有可能將大供應商的API和接口視為潛在的事實標準。“這就是我看到人們在做的事,”他說。
8. 缺乏透明度
你可能認為開源模型本質上更透明,但情況可能并非總是如此。大型商業項目可能有更多資源來創建文檔,BI軟件供應商Vero AI的CEO Eric Sydell說。該公司最近發布了一份報告,基于可見性、完整性、立法準備情況和透明度等方面對主要的GenAI模型進行了評分。Google的Gemini和OpenAI的GPT-4排名最高。
“僅僅因為它們是開源的,并不意味著它們提供相同的信息,關于模型的背景和開發方式,”Sydell說。“目前,大型商業模型在這方面做得更好。”
以偏見為例。
“我們發現我們的排名中前兩名的閉源模型在這方面有相當多的文檔,并投入時間探討這個問題,”他說。
9. 源代碼問題
開源項目經常被分叉,但當這種情況發生在GenAI時,你會面臨傳統軟件中不存在的風險。比如,一個基礎模型使用了有問題的訓練數據集,有人從中創建了一個新模型,那么它將繼承這些問題,Sonatype的產品高級副總裁Tyler Warden說。
“在權重和調優方面有很多黑箱操作,”他說。
事實上,這些問題可能追溯到好幾級代碼,最終模型的代碼中不會顯示出來。當公司下載一個模型供自己使用時,這個模型與原始來源的距離越來越遠。原始基礎模型可能已經修復了這些問題,但根據上下鏈的透明度和溝通量,最后一個模型的開發人員可能甚至不知道這些修復。
10. 新的影子IT
使用開源組件作為軟件開發過程一部分的公司,通常會有相應的流程來審核庫并確保組件是最新的。他們會確保項目有良好的支持,安全問題得到處理,并且軟件具有適當的許可證條款。
然而,對于GenAI,負責審核的人可能不知道要查找什么。此外,GenAI項目有時會脫離標準的軟件開發流程。它們可能來自數據科學團隊或秘密項目。開發人員可能會下載模型來試驗,最終被更廣泛地使用。或者業務用戶自己可能會按照在線教程設置他們自己的GenAI,完全繞過IT部門。
GenAI的最新發展,自治代理,有可能將巨大的力量交到這些系統手中,從而將這種類型的影子IT的風險提升到新的高度。
“如果你要進行實驗,創建一個容器,以一種對組織安全的方式進行,”Corelight開源高級總監Kelley Misata說。她表示,這應該由公司的風險管理團隊負責,并且確保開發人員以及整個業務理解有一個流程的是CIO的責任。
“他們是最適合設定文化的人,”她說。“讓我們利用開源提供的創新和所有偉大之處,但要睜大眼睛進入。”
兩全其美的方式
一些公司在尋找開源的低成本、透明度、隱私和控制,但希望有一個供應商來提供治理、長期可持續性和支持。在傳統的開源世界中,有很多供應商可以做到這一點,比如Red Hat、MariaDB、Docker、Automattic等。
“它們為大型企業提供了一定程度的安全性和保障,”AArete數據科學和分析副總裁Priya Iragavarapu說。“這幾乎是一種降低風險的方式。”
她說,在GenAI領域,這樣的供應商還不多,但情況正在開始改變。
企業網D1net(hfnxjk.com):
國內主流的to B IT門戶,同時在運營國內最大的甲方CIO專家庫和智力輸出及社交平臺-信眾智(www.cioall.com)。同時運營19個IT行業公眾號(微信搜索D1net即可關注)。
版權聲明:本文為企業網D1Net編譯,轉載需在文章開頭注明出處為:企業網D1Net,如果不注明出處,企業網D1Net將保留追究其法律責任的權利。