谷歌剛剛發布了Gemma 2 2B,這是一款緊湊但功能強大的AI模型,盡管其規模顯著較小,但在性能上卻可與行業領先者媲美甚至超越,這個新語言模型僅包含26億參數,但其表現與規模更大的對手(包括OpenAI的GPT-3.5和Mistral AI的Mixtral 8x7B)相當或更優。
在谷歌開發者博客上宣布的Gemma 2 2B代表了在創建更易于訪問和部署的AI系統方面的重大進步,其小巧的體積使其特別適合于設備上的應用,可能對移動AI和邊緣計算產生重大影響。
小而強大的AI:超越其重量級別
AI研究組織LMSYS的獨立測試顯示,Gemma 2 2B在他們的評估中獲得了1130分,這一結果略高于GPT-3.5-Turbo-0613(1117分)和Mixtral-8x7B(1114分),這兩個模型的參數數量是Gemma 2 2B的十倍。
該模型的能力不僅僅在于其效率。谷歌報告稱,Gemma 2 2B在MMLU(大規模多任務語言理解)基準測試中得分為56.1,在MBPP(主要是基礎Python編程)中得分為36.6,比其前代產品有顯著提升。
這一成就挑戰了AI開發中更大模型固有表現更好的傳統智慧。Gemma 2 2B的成功表明,復雜的訓練技術、高效的架構和高質量的數據集可以彌補參數數量的不足,這一突破可能對該領域產生深遠影響,可能會將焦點從追求越來越大的模型轉向精煉更小、更高效的模型。
壓縮巨人:AI壓縮的藝術
Gemma 2 2B的開發還強調了模型壓縮和蒸餾技術的重要性。通過有效地將大模型中的知識蒸餾到小模型中,研究人員可以創建更易于訪問的AI工具,而不犧牲性能,這種方法不僅減少了計算需求,還解決了訓練和運行大型AI模型對環境的影響。
谷歌使用其先進的TPU v5e硬件在一個包含2萬億標記的大規模數據集上訓練了Gemma 2 2B,這個多語言模型增強了其在全球應用中的潛力。
這一發布符合行業對更高效AI模型的日益關注。隨著對大語言模型環境影響和可訪問性的關注增加,科技公司正專注于創建可以在消費級硬件上運行的更小、更高效的系統。
開源革命:讓AI普及大眾
通過將Gemma 2 2B開源,谷歌重申了其在AI領域透明和協作開發的承諾。研究人員和開發人員可以通過Gradio在Hugging Face上訪問該模型,并且可以在包括PyTorch和TensorFlow在內的各種框架中實現。
企業網D1net(hfnxjk.com):
國內主流的to B IT門戶,旗下運營國內最大的甲方CIO專家庫和智力輸出及社交平臺-信眾智(www.cioall.com)。旗下運營19個IT行業公眾號(微信搜索D1net即可關注)。
版權聲明:本文為企業網D1Net編譯,轉載需在文章開頭注明出處為:企業網D1Net,如果不注明出處,企業網D1Net將保留追究其法律責任的權利。