這三款新的Phi 3.5模型包括:擁有38.2億參數的Phi-3.5-mini-instruct,擁有419億參數的Phi-3.5-MoE-instruct,以及擁有41.5億參數的Phi-3.5-vision-instruct,分別針對基礎/快速推理、更強大的推理以及視覺(圖像和視頻分析)任務設計。
所有這三款模型都可供開發者在Hugging Face上下載、使用,并根據需要進行微調和自定義,使用的是微軟品牌的MIT許可協議,允許商業使用和修改,無任何限制。
令人驚訝的是,這三款模型在許多第三方基準測試中表現出接近最先進的性能,甚至在某些情況下超越了其他AI供應商的產品,包括Google的Gemini 1.5 Flash、Meta的Llama 3.1,甚至OpenAI的GPT-4o。
Phi-3.5 Mini Instruct:為計算資源受限的環境優化
Phi-3.5 Mini Instruct模型是一款輕量級AI模型,擁有38億參數,專為遵循指令設計,并支持128k token的上下文長度。
該模型非常適合在內存或計算資源受限的環境中需要強大推理能力的場景,包括代碼生成、數學問題求解和基于邏輯的推理任務。
盡管體積小巧,Phi-3.5 Mini Instruct模型在多語言和多輪對話任務中表現出競爭力,相較于其前代產品有顯著的改進。
它在多個基準測試中展現了接近最先進的性能,并在“長上下文代碼理解”的RepoQA基準測試中超越了其他類似大小的模型(Llama-3.1-8B-instruct和Mistral-7B-instruct)。
Phi-3.5 MoE:微軟的‘專家混合’
Phi-3.5 MoE(專家混合)模型似乎是微軟首次推出的此類模型,它將多種不同類型的模型結合在一起,每種模型專門針對不同的任務。
該模型采用了具有420億活躍參數的架構,支持128k token的上下文長度,為需求苛刻的應用提供可擴展的AI性能,然而,根據Hugging Face的文檔,該模型實際上只使用了66億的活躍參數。
Phi-3.5 MoE模型專為在各種推理任務中表現出色而設計,在代碼、數學和多語言理解方面表現出強勁的性能,常常在特定基準測試中超越更大規模的模型。
它在STEM(科學、技術、工程和數學)、人文學科和社會科學等多個學科的5-shot MMLU(Massive Multitask Language Understanding)測試中,表現優異,甚至超越了GPT-4o mini。
MoE模型的獨特架構使其在處理多語言復雜AI任務時保持高效。
Phi-3.5 Vision Instruct:高級多模態推理
作為Phi系列的最后一款模型,Phi-3.5 Vision Instruct模型整合了文本和圖像處理功能。
這一多模態模型特別適合于一般圖像理解、光學字符識別、圖表和表格理解以及視頻摘要等任務。
與Phi-3.5系列中的其他模型一樣,Vision Instruct支持128k token的上下文長度,使其能夠處理復雜的多幀視覺任務。
微軟強調,該模型是通過合成數據和經過篩選的公開數據集訓練的,重點在于高質量和富含推理的數據。
新Phi三款模型的訓練
Phi-3.5 Mini Instruct模型在使用512個H100-80G GPU的情況下,經過10天的訓練,處理了3.4萬億個tokens,而Vision Instruct模型則使用256個A100-80G GPU,經過6天的訓練,處理了5000億個tokens。
采用專家混合架構的Phi-3.5 MoE模型,使用512個H100-80G GPU,在23天內處理了4.9萬億個tokens。
MIT許可下的開源
所有三款Phi-3.5模型均在MIT許可協議下發布,體現了微軟對支持開源社區的承諾。
此許可允許開發者自由使用、修改、合并、發布、分發、再許可或出售軟件的副本。
該許可還包括免責聲明,即軟件是“按原樣”提供的,不附帶任何形式的保證。微軟及其他版權持有人不對因使用該軟件而引發的任何索賠、損害或其他責任承擔責任。
微軟發布的Phi-3.5系列代表了多語言和多模態AI開發的一個重要進展。
通過以開源許可的形式提供這些模型,微軟使開發者能夠將最先進的AI能力集成到他們的應用中,從而推動商業和研究領域的創新。
企業網D1net(hfnxjk.com):
國內主流的to B IT門戶,旗下運營國內最大的甲方CIO專家庫和智力輸出及社交平臺-信眾智(www.cioall.com)。旗下運營19個IT行業公眾號(微信搜索D1net即可關注)。
版權聲明:本文為企業網D1Net編譯,轉載需在文章開頭注明出處為:企業網D1Net,如果不注明出處,企業網D1Net將保留追究其法律責任的權利。