SuperCLUE是國內權威的通用大模型綜合性測評基準,其前身是知名的第三方中文語言理解測評基準CLUE(The Chinese Language Understanding Evaluation)。SuperCLUE基于通用大模型在學術、產業與用戶側的廣泛應用,構建了多層次、多維度的綜合性測評基準,由十大基礎任務組成,包括邏輯推理、代碼、語言理解、長文本、角色扮演等。
本次報告選取了國內外具有代表性的32個大模型4月份的版本,通過多維度綜合性測評,真實準確地反映了國內外大模型在中文領域的綜合能力和發展現狀。測評報告的總分排名上,騰訊混元大模型位列前三,體現了領先的模型實力。
在十大能力得分中,騰訊混元大模型的各項能力較為均衡,在語義理解能力上,以75.4的高分排名國內第一;在角色扮演、安全能力、計算、邏輯推理、工具使用、長文本能力上,也均處于位于國內一流水平。
整體來看,國內大模型的第一梯隊已達到或接近國際一流的水平,其中既有騰訊混元、文心一言、通義千問等來自大廠的大模型,也有GLM-4、Baichuan3、Moonshot和Minimax等大模型創業公司的代表。
據了解,混元大模型作為騰訊基于全鏈路自主可控技術打造的實用級大模型,自2023年9月首次亮相以來,通過持續迭代和實踐,積累了從底層算力到機器學習平臺再到上層應用的完整自主技術。
算力上,騰訊擁有自研的星脈高性能計算網絡,可為AI大模型帶來10倍通信性能提升;訓練和推理框架上,騰訊自研的機器學習平臺訓練速度是主流框架的2.6倍,大模型推理成本相比業界主流框架下降70%;算法上,騰訊混元大模型率先采用混合專家模型 (MoE) 結構,模型總體效果相比上代模型提升50%。
最近,騰訊聯合北京大學、北京科技大學共同完成的研究《面向大規模數據的Angel機器學習平臺關鍵技術及應用》,也斬獲2023中國電子學會科學技術獎一等獎,體現了騰訊深厚的自研技術積累。
在應用上,騰訊混元大模型已經支持了騰訊內部超過400個業務和場景接入,騰訊旗下協作SaaS產品全面接入混元,并實現了智能化升級。騰訊混元也已經通過騰訊云面向企業和個人開發者全面開放。
目前,騰訊混元大模型參數量超過萬億,tokens數超過7萬億。此前國際權威調研機構沙利文發布的《2024年中國大模型能力評測》顯示,騰訊混元在通用基礎能力和專業應用能力已居國內第一梯隊。