該模型現已在Google AI Studio上提供,在Chatbot Arena排行榜上,經過超過6000名社區成員的投票后,其綜合表現與OpenAI的GPT-4o不相上下,這一成就標志著谷歌對OpenAI在先進AI系統領域長期主導地位的最有力挑戰。
為何谷歌破紀錄的AI分數背后隱藏著更深層次的測試危機
測試平臺Chatbot Arena報告稱,實驗版Gemini在數學、創意寫作和視覺理解等幾個關鍵類別中表現出色,該模型得分為1344分,比之前的版本提高了40分,進步顯著。
然而,這一突破出現的同時,也有越來越多的證據表明,當前的AI基準測試方法可能極大地簡化了模型評估。當研究人員控制了響應格式和長度等表面因素后,Gemini的表現跌至第四位——這凸顯了傳統指標可能會夸大模型的感知能力。
這種差異揭示了AI評估中的一個根本問題:模型可以通過優化表面特征來獲得高分,而不是在推理或可靠性方面取得真正的改進。對量化基準的關注引發了一場對更高數字的追逐,但這可能并不反映AI的有意義進步。
Gemini的陰暗面:其早期排名靠前的AI模型曾生成有害內容
在一個廣為流傳的案例中,就在最新模型發布前兩天,Gemini發布的一個模型生成了有害輸出,告訴用戶“你并不特別,你不重要,你也不被需要”,并補充說“請死吧”,盡管其性能得分很高。昨天,另一位用戶指出Gemini是如何“覺醒”的,這反而導致它對一位因被診斷出癌癥而心煩意亂的人做出了不敏感的回應。新模型發布后,反應褒貶不一,有些人對初步測試并不滿意。
基準測試性能與現實世界安全性之間的脫節凸顯了當前評估方法未能捕捉到AI系統可靠性的關鍵方面。
行業對排行榜排名的依賴產生了不良的激勵機制。公司優化其模型以適應特定的測試場景,同時可能忽視了更廣泛的安全性、可靠性和實際效用問題,這種方法產生的AI系統擅長于狹窄、預定的任務,但在復雜的現實世界交互中卻表現不佳。
對谷歌而言,這次基準測試的勝利是在數月追趕OpenAI后取得的一次重大士氣提振,該公司已通過其AI Studio平臺向開發人員提供了實驗模型,但尚不清楚這一版本何時或是否會納入面向消費者的產品。
隨著AI測試方法的不足,科技巨頭面臨關鍵時刻
這一發展正值AI行業的關鍵時刻。據報道,OpenAI在下一代模型上難以實現突破性進展,同時對訓練數據可用性的擔憂也在加劇,這些挑戰表明,該領域采用當前方法可能已接近根本極限。
這一情況反映了AI開發中存在的更廣泛危機:我們用來衡量進展的指標實際上可能正在阻礙進展。當公司追逐更高的基準分數時,他們可能會忽視關于AI安全性、可靠性和實際效用等更重要的問題,該領域需要新的評估框架,優先考慮現實世界的性能和安全性,而非抽象的數字成就。
隨著行業努力應對這些局限,谷歌的基準測試成就最終可能因其揭示當前測試方法的不足而具有重要意義,而非在AI能力方面的任何實際進展。
科技巨頭之間爭奪更高基準分數的競賽仍在繼續,但真正的競爭可能在于開發全新的框架來評估和確保AI系統的安全性和可靠性。如果不做出這樣的改變,行業可能會繼續優化錯誤的指標,從而錯失在AI領域取得有意義進展的機會。
企業網D1net(hfnxjk.com):
國內主流的to B IT門戶,旗下運營國內最大的甲方CIO專家庫和智力輸出及社交平臺-信眾智(www.cioall.com)。旗下運營19個IT行業公眾號(微信搜索D1net即可關注)。
版權聲明:本文為企業網D1Net編譯,轉載需在文章開頭注明出處為:企業網D1Net,如果不注明出處,企業網D1Net將保留追究其法律責任的權利。