大模型可以完成更多樣化的任務,但小模型能在特定領域以更低成本、同樣行之有效的方式滿足需求。
大語言模型之所以性能卓越,正是得益于其龐大的規模,openai" "mcta和deepseek最新模型都使用了數千億個參數,這些參數如同可調節的旋鈕,決定了數據之間的關聯,可以在訓練過程中進行調整。當有了更多的參數,模型就能更好地識別數據的模式和它們之間的關聯,從而變得更強大、更精準。
但這種能力的獲得是有代價的。訓練一個擁有數千億個參數的模型需要大量的計算資源。例如,據報道,谷歌為了訓練Gemini1.0Ultra模型花費了1.91億美元(約合13.79億元人民幣)。此外,LLMs每次響應請求時也需要相當強大的計算能力,這使它們成為臭名昭著的能耗大戶。根據美國電力研究所的數據,ChatGPT單次查詢消耗的能量大約為谷歌搜索的10倍。
因此,一些研究人員正考慮使用小模型。IBM谷歌、微軟和OpenAI最近都發布了小語言模型(SLMs),這些模型都只使用了幾十億個參數。(關于“小”的確切定義,學界目前還沒有達成共識,但新模型的最大參數都在100億個左右。)
小模型雖然不像大模型那般通用,但它們可以在特定的任務場景中表現出色,比如總結對話、作為醫療聊天機器人回答病人的問題以及在智能設備上收集數據等??▋然仿〈髮W的計算機科學家濟科·科爾特(ZicoKolter)說:“對于很多任務來說,一個80億參數的模型實際上已經相當不錯了。”這些模型在筆記本電腦或手機上就可以運行,無需依賴龐大的數據中心。
為了優化這些小模型的訓練過程,研究人員使用了一些技巧。大模型經常從互聯網上抓取原始訓練數據,這些數據可能是雜亂無章的,難以處理。但是,這些大模型生成的高質量數據集可用于訓練小模型。這種方法被稱為“知識蒸餾”,也就是讓更大的模型有效地傳遞它的訓練成果,就像老師給學生傳遞知識一樣??茽柼卣f:“SLMs能實現高性能,原因就在于其使用的數據質量高?!?/p>
研究人員還探索了通過壓縮大模型來構建小模型的方法,這種方法被稱為“剪枝”,需要刪除神經網絡(一個龐大的節點網絡,是構建大模型的基礎)中不必要或低效的部分。剪枝技術可以幫助研究人員針對特定的任務或環境調整小模型。如今所說的剪枝技術可以追溯到1989年的一篇論文。在這篇論文中,現就職于Meta公司的計算機科學家楊立昆(YannLeCun)認為,在不犧牲效率的情況下,訓練有素的神經網絡中高達 90% 的參數都可以被刪除。
對于那些有興趣研究語言模型如何運作的研究人員來說,較小的模型為他們提供了測試新想法的低成本方式。而且,由于參數比大模型少,較小的模型在推理方面可能更加透明。麻省理工學院-IBM沃森人工智能實驗室的科學家萊謝姆·喬申(LeshemChoshen)說:“如果你想創建一個新模型,那就需要不斷嘗試,而小模型可以讓研究人員在較低風險下進行實驗?!?/p>
隨著參數的不斷增加,巨大而昂貴的模型將繼續在通用的聊天機器人、圖像生成器和藥物研發等領域大顯身手。但對于許多用戶來說,一個有針對性的小模型在某些領域同樣行之有效,研究人員也更容易訓練和構建。喬申說:“這些高效的模型可以節省資金、時間和算力。”