羅云鵬

如何在算力緊缺的背景下提升大模型訓練和推理的效率,并降低成本?這已成為一眾大模型企業不得不面對的難題之一。
日前,騰訊披露,騰訊混元大模型背后的自研機器學習框架Angel再次升級。“自研機器學習框架升級后,騰訊大模型訓練效率可提升至主流開源框架的2.6倍,用該框架訓練千億級大模型可節省50%算力成本,大模型推理速度提高了1.3倍。”11月30日,騰訊機器學習平臺部總監陶陽宇向科技日報記者表示。
不只是騰訊,在提升大模型訓練效率、加速大模型落地應用方面,一批中國企業交出了自己的“答卷”。
在大型模型訓練和推理過程中,需要消耗大量算力資源。因此,提高硬件資源利用率,對國產大模型技術的發展至關重要。
陶陽宇介紹,面向大模型訓練,騰訊自研了機器學習框架Angel。該框架針對預訓練、模型精調和強化學習等全流程進行了加速和優化。據悉,它采用FP8混合精度訓練技術,并深度優化了4D混合并行訓練策略,還在ZeROCache技術基礎上減少了冗余模型存儲和內存碎片,提升了內存的利用率。同時,該框架還可兼容適配多款國產化硬件。
而據媒體披露,除了提高硬件資源利用率,針對通信策略、AI框架、模型編譯等進行系統級優化,亦可大幅節約訓練調優和算力成本。
此外,隨著模型參數的增大,大模型推理的成本也隨之攀升。陶陽宇介紹,騰訊自研的大模型機器學習框架Angel通過擴展并行、向量數據庫、批處理等多種優化手段,提高了吞吐能力,達到了更快的推理性能,降低了成本。
不只是騰訊,在第二十屆中國計算機大會上,百度首席技術官王海峰就公開透露,文心大模型4.0從今年3月發布至今,其訓練算法效率已提升3.6倍;通過百度飛槳與文心大模型的協同優化,文心大模型周均訓練有效率超過98%,推理性能提升50倍。
此外,據公開資料顯示,阿里云通義大模型則聚焦于規模定理,基于小模型數據分布、規則和配比,研究大規模參數規模下如何提升模型能力,并通過對底層集群的優化,將模型訓練效率提升了30%,訓練穩定性提升了15%。
不難看出,調整和優化模型的訓練和推理方式,其最終目的都指向使模型更好地適應實際應用場景、降低在終端應用中的額外成本?!按竽P偷膽煤脱邪l同樣重要?!彬v訊機器學習平臺專家工程師姚軍說,只有提供方便、強大的接入平臺,才能讓大模型真正走向應用。
百度創始人、董事長兼首席執行官李彥宏也曾表示,大模型本身是不直接產生價值的,基于大模型開發出來的應用才是大模型存在的意義。然而,很多大模型落地的難度很大,因為一個大模型往往會對應著很多不同種類的應用,這需要大量的接口和流量支持。
如何破解這道難題?據悉,基于自研機器學習框架Angel,騰訊打造了大模型接入和應用開發的一站式平臺,讓針對業務場景的數據處理、模型微調、評測部署和應用構建等多個環節,從以往“散裝”的多團隊協作方式,轉化成流水線平臺上自動化生產方式,讓大模型的“開箱即用”成為可能?!伴_箱即用”的關鍵在于預訓練基礎模型的泛化能力,高性能框架提供的微調或擴展工程能力,以及應用平臺的靈活構建能力等支撐。據媒體披露,目前騰訊會議、騰訊新聞、騰訊視頻等超過300個騰訊產品及場景均已接入騰訊混元大模型進行內測,數量相比10月份翻了一倍,覆蓋文本總結、摘要、創作、翻譯、代碼等多個場景。比如,騰訊混元大模型就可支持智能化的廣告素材創作,滿足“千人千面”的需求。
《北京市人工智能行業大模型創新應用白皮書(2023年)》數據顯示,截至2023年10月,我國10億參數規模以上的大模型廠商及高校院所共計254家,分布于20余個省市/地區。
“未來大模型產品的發展趨勢可能是通用大模型與垂直領域細分模型的結合?!敝袊嗣翊髮W數字經濟研究中心主任李三希此前表示,這不僅需要具備堅實的技術基礎,如大規模、高質量、多樣化的語料庫,創新的大模型算法,自研的機器學習框架和強大的算力基礎設施等,也需要大模型產品具有堅實的基于場景的應用。未來,從實踐中來,到實踐中去的“實用級”大模型將成為趨勢。