欧美久久综合性欧美,黄色免费网站在线观看,亚洲综合在线最大成人

小型語言模型借TTS反超大模型

責任編輯：cres

作者：Ben Dickson

2025-02-24 15:08:58

來源：企業網D1Net

原創

上海AI實驗室研究發現，借助測試時擴展（TTS）技術，小型語言模型在復雜推理任務中可超越大型模型，且計算量更少。研究驗證了計算最優TTS策略的有效性，并計劃擴展至其他推理任務。

上海AI實驗室的一項新研究表明，超小型語言模型(SLM)在推理任務中的表現可以超越領先的大型語言模型(LLM)。作者們表明，借助合適的工具和測試時擴展技術，一個擁有10億參數的SLM在復雜的數學基準測試中的表現可以超越一個4050億參數的LLM。

在企業正在尋找在不同環境和應用中使用這些新模型的新方法時，將SLM部署在復雜推理任務中的能力將非常有用。

測試時擴展解釋

測試時擴展(TTS)是指在推理過程中為LLM提供額外的計算周期，以提高其在各種任務上的性能。領先的推理模型，如OpenAI的o1和DeepSeek-R1，使用“內部TTS”，這意味著它們被訓練為通過生成一長串思維鏈(CoT)標記來“緩慢思考”。

另一種方法是“外部TTS”，即借助(顧名思義)外部幫助來增強模型性能。外部TTS適用于將現有模型重新用于推理任務，而無需進一步微調。外部TTS設置通常由“策略模型”(即生成答案的主要LLM)和過程獎勵模型(PRM，用于評估策略模型的答案)組成。這兩個組件通過采樣或搜索方法耦合在一起。

最簡單的設置是“N中最佳”，其中策略模型生成多個答案，PRM選擇一個或多個最佳答案來組成最終響應。更先進的外部TTS方法使用搜索。在“束搜索”中，模型將答案分解為多個步驟。對于每個步驟，它采樣多個答案并通過PRM運行它們。然后，它選擇一個或多個合適的候選答案，并生成答案的下一步。而在“多樣驗證樹搜索”(DVTS)中，模型生成多個答案分支，以創建更多樣化的候選響應集，然后再將它們合成為最終答案。

什么是正確的擴展策略?

選擇正確的TTS策略取決于多個因素。研究作者對不同策略模型和PRM如何影響TTS方法效率進行了系統調查。

他們的研究結果表明，效率在很大程度上取決于策略模型和PRM。例如，對于小型策略模型，基于搜索的方法優于N中最佳。然而，對于大型策略模型，N中最佳更為有效，因為這些模型具有更好的推理能力，并且不需要獎勵模型來驗證其推理的每一步。

他們的研究結果還表明，正確的TTS策略取決于問題的難度。例如，對于參數少于70億的小型策略模型，N中最佳在簡單問題上效果更好，而束搜索在更難的問題上效果更好。對于參數在70億至320億之間的策略模型，多樣樹搜索在簡單和中等難度問題上表現良好，而束搜索在難題上表現最佳。但對于大型策略模型(720億參數及以上)，N中最佳是所有難度級別的最優方法。

為什么小型模型能擊敗大型模型

基于這些發現，開發人員可以創建計算最優的TTS策略，這些策略考慮了策略模型、PRM和問題難度，以充分利用計算預算來解決推理問題。

例如，研究人員發現，采用計算最優TTS策略的Llama-3.2-3B模型在MATH-500和AIME24這兩個復雜的數學基準測試中的表現優于Llama-3.1-405B。這表明，在使用計算最優TTS策略時，一個SLM可以擊敗一個比其大135倍的模型。

在其他實驗中，他們發現，采用正確的計算最優TTS策略的5億參數Qwen2.5模型可以擊敗GPT-4o。使用相同的策略，DeepSeek-R1的15億參數蒸餾版本在MATH-500和AIME24上的表現優于o1-preview和o1-mini。

在考慮訓練和推理的計算預算時，研究結果表明，采用計算最優擴展策略時，SLM可以用少100至1000倍的計算量(FLOPS)擊敗更大的模型。

研究人員的結果表明，計算最優TTS顯著增強了語言模型的推理能力。然而，隨著策略模型的增大，TTS的改進逐漸減小。

“這表明TTS的有效性直接與策略模型的推理能力相關，”研究人員寫道，“具體而言，對于推理能力較弱的模型，擴展測試時計算量會導致顯著改善，而對于推理能力較強的模型，增益則有限。”

該研究證實，在應用計算最優測試時擴展方法時，SLM的表現可以優于更大的模型。雖然本研究側重于數學基準測試，但研究人員計劃將其研究擴展到其他推理任務，如編碼和化學。

企業網D1net(hfnxjk.com)：

國內主流的to B IT門戶，旗下運營國內最大的甲方CIO專家庫和智力輸出及社交平臺-信眾智(www.cioall.com)。旗下運營19個IT行業公眾號(微信搜索D1net即可關注)。