突圍戰(zhàn)，中國(guó)AI又迭代了

2025-06-26 00:00:00榮智慧

看世界 2025年13期

關(guān)鍵詞：深度模型

近期，DeepSeek-R1模型完成一次版本迭代。這次“小更新”引發(fā)了大量關(guān)注，測(cè)評(píng)顯示，其整體性能逼近目前頂級(jí)模型OpenAIo3和谷歌Gemini2.5-Pro。

同一時(shí)間，華為推出參數(shù)規(guī)模7180億的盤古UltraMoE大模型，全流程在昇騰AI計(jì)算平臺(tái)訓(xùn)練。

可以說(shuō)，中國(guó)人工智能大模型的新賽季從此開啟，一邊是深度求索的開源低成本模式，一邊是華為全棧自研的“可控閉源”模式。

當(dāng)OpenAI和谷歌強(qiáng)化“更大參數(shù)”和“更強(qiáng)通用性”時(shí)，中國(guó)AI大模型逐漸進(jìn)入“拼軟件”或者“拼硬件”的“極致性價(jià)比”時(shí)代。按照歷史經(jīng)驗(yàn)，無(wú)論技術(shù)由誰(shuí)開創(chuàng)，只要進(jìn)入“性價(jià)比”競(jìng)爭(zhēng)階段，中國(guó)企業(yè)的優(yōu)勢(shì)總是一騎絕塵。

話又說(shuō)回來(lái)，到底是“軟件定義AI”還是“硬件定義AI”，可能正決定著大模型的未來(lái)形態(tài)。

R2還沒(méi)來(lái)，R1先迭代

千呼萬(wàn)喚的R2模型沒(méi)出現(xiàn)，只有R1的迭代版本給大家“望梅止渴”。

5月29日，深度求索宣布其R1模型成功完成版本迭代，新版本為DeepSeek-R1-0528。這個(gè)版本依然基于2024年12月推出的DeepSeekV3Base模型，在后期訓(xùn)練階段增加了算力投入，增強(qiáng)了模型的思維深度和推理能力。

此次升級(jí)后，模型的響應(yīng)質(zhì)量提升，在復(fù)雜推理、多步驟計(jì)算方面更準(zhǔn)確，長(zhǎng)文理解和生成更連貫，數(shù)學(xué)和編程等專業(yè)性輸出更可靠；響應(yīng)速度也有相應(yīng)提升，在網(wǎng)頁(yè)端、App和API接口中反應(yīng)更快，處理超長(zhǎng)文本輸入時(shí)，延遲有所降低；對(duì)話的穩(wěn)定性增強(qiáng)，減少了“遺忘設(shè)定”或“離題”的情況；API和接口兼容性保持穩(wěn)定，升級(jí)后，用戶無(wú)需調(diào)整現(xiàn)有集成就可以無(wú)縫使用新版本。

最明顯的變化是“思維鏈”—像谷歌的Gemini一樣進(jìn)行深度推理，寫作的效果更加自然。

在性能方面，首先是模型的智能水平提升，在AIME2024（數(shù)學(xué)競(jìng)賽，+21分）、LiveCodeBench（代碼生成，+15分）、GPQADiamond（科學(xué)推理，+10分）和《人類最后考卷》（推理與知識(shí)，+6分）等多個(gè)方面實(shí)現(xiàn)進(jìn)步；其次是編程能力提升，在ArtificialAnalysis編程能力指數(shù)中，R1已追平Gemini2.5Pro，僅次于o4-mini（高水準(zhǔn)版）和o3模型。

不過(guò)，Token的消耗量也大幅度增加。R1-0528在完成ArtificialAnalysis智能指數(shù)評(píng)估時(shí)消耗了9900萬(wàn)Token，比初代R1的7100萬(wàn)Token多出40%—也就是說(shuō)，新版R1的“思考”時(shí)間更長(zhǎng)。

當(dāng)然，消耗量也看跟誰(shuí)比。同一個(gè)測(cè)試，Gemini2.5Pro的Token消耗量比R1-0528還要多30%。

雖然R1升級(jí)效果已經(jīng)“很強(qiáng)”，但對(duì)于被R2吊足了胃口的人們來(lái)說(shuō)，還不夠。

根據(jù)之前各方透露的消息，DeepSeekR2模型基于華為昇騰芯片訓(xùn)練，1.2萬(wàn)億參數(shù)規(guī)模，97%的成本降幅，以及實(shí)現(xiàn)多模態(tài)融合—文本、圖像和代碼聯(lián)合推理。

特別是成本斷崖式下降，有希望讓中小開發(fā)者首次觸達(dá)頂級(jí)AI能力，達(dá)成“AI普惠”的中國(guó)方案。

網(wǎng)友的普遍想法是，R1的小版本更新已經(jīng)很驚艷，R2到底強(qiáng)大成什么樣子？是不是得等到國(guó)慶節(jié)才能看到？

硬核自研，國(guó)產(chǎn)“定心丸”

華為習(xí)慣走那條最難走的路—全棧自研。在算力封鎖下，硬是用自己的芯片訓(xùn)練出7180億參數(shù)的MoE模型。

2021年盤古大模型正式立項(xiàng)，隸屬于華為云部門。盤古包含E、P、U、S四大系列，E系列用于平板電腦、手機(jī)和PC設(shè)備，參數(shù)規(guī)模十億級(jí)；P系列參數(shù)規(guī)模百億級(jí)，適合低延遲、低成本推理；U系列的Ultra，參數(shù)規(guī)模千億級(jí)，能夠處理復(fù)雜任務(wù)；S系列也叫“超級(jí)盤古”，參數(shù)規(guī)模萬(wàn)億級(jí)，管理跨域或多任務(wù)應(yīng)用等高級(jí)AI技術(shù)場(chǎng)景。

5月29日，盤古大模型UltraMoE正式發(fā)布，該模型在模型架構(gòu)和訓(xùn)練方法進(jìn)行了創(chuàng)新設(shè)計(jì)，在昇騰NPU上實(shí)現(xiàn)MoE模型的全流程訓(xùn)練。

換個(gè)說(shuō)法，就是華為“打個(gè)樣兒”，提供一套不用GPU訓(xùn)練千億級(jí)大模型的方法。

在模型架構(gòu)上，其采用了Depth-ScaledSandwich-Norm（DSSN）穩(wěn)定架構(gòu)和TinyInit小初始化的方法，在昇騰平臺(tái)進(jìn)行了超過(guò)18TB數(shù)據(jù)的長(zhǎng)期穩(wěn)定訓(xùn)練。

此外，團(tuán)隊(duì)也提出EPgrouploss負(fù)載優(yōu)化方法，不僅保證了各個(gè)專家之間負(fù)載均衡，也提升了專家的領(lǐng)域特化能力。

同時(shí)，盤古UltraMoE使用了業(yè)界先進(jìn)的MLA和MTP架構(gòu)，在預(yù)訓(xùn)練和后訓(xùn)練階段都使用了Dropless訓(xùn)練策略，實(shí)現(xiàn)了超大規(guī)模MoE架構(gòu)在模型效果與效率之間的平衡。

在訓(xùn)練方法上，華為團(tuán)隊(duì)首次披露在昇騰CloudMatrix384超節(jié)點(diǎn)上，打通大稀疏比MoE強(qiáng)化學(xué)習(xí)后訓(xùn)練框架的關(guān)鍵技術(shù)。

華為在當(dāng)天發(fā)布的論文中指出，該系統(tǒng)設(shè)計(jì)的關(guān)鍵在于兩個(gè)部分：一是迭代難例挖掘。模型階段性更新后，從初始的數(shù)據(jù)池中進(jìn)行多回復(fù)推理，選取回復(fù)通過(guò)率在（0，1）的數(shù)據(jù)組成強(qiáng)化訓(xùn)練數(shù)據(jù)池，以保持推理效率最大化。

二是多能力項(xiàng)獎(jiǎng)勵(lì)系統(tǒng)。為了確保模型多能力項(xiàng)協(xié)同提升，數(shù)學(xué)和代碼均采用了基于規(guī)則的獎(jiǎng)勵(lì)，通用獎(jiǎng)勵(lì)模型則使用LLM-as-a-judge的方法對(duì)生成的回復(fù)質(zhì)量進(jìn)行評(píng)分，并對(duì)最終的獎(jiǎng)勵(lì)進(jìn)行歸一化處理，保證了模型在多個(gè)能力項(xiàng)的綜合表現(xiàn)。

極致突圍，軟硬大戰(zhàn)？

華為盤古和深度求索常常“捆綁”出售。比如馬來(lái)西亞購(gòu)買中國(guó)的AI基礎(chǔ)設(shè)施，核心裝備就是3000臺(tái)華為昇騰AI計(jì)算平臺(tái)，搭載深度求索的開源模型。

但是以大模型產(chǎn)品作為分析對(duì)象時(shí)，二者是競(jìng)爭(zhēng)關(guān)系，免不了有技術(shù)性的比較。

從底層架構(gòu)看，深度求索主打“動(dòng)態(tài)優(yōu)化”，華為盤古主打“全棧自研”。

深度求索的核心競(jìng)爭(zhēng)力就在于極致的工程優(yōu)化，其模型架構(gòu)不追求最大參數(shù)量，而是通過(guò)動(dòng)態(tài)推理優(yōu)化，讓同一套模型在不同任務(wù)中自動(dòng)調(diào)整計(jì)算資源分配。比如，在代碼生成案例中，R1可以自動(dòng)識(shí)別代碼片段的關(guān)鍵部分（循環(huán)、條件判斷），動(dòng)態(tài)分配計(jì)算資源，錯(cuò)誤率也更低。

華為盤古大模型走的是全棧自研的路徑，從芯片到模型都是“自己的”。其訓(xùn)練完全基于昇騰910系列芯片，采用DSSN架構(gòu)。比如，在礦山設(shè)備故障檢測(cè)任務(wù)中，盤古大模型能在低光照、高噪聲環(huán)境下穩(wěn)定運(yùn)行，穩(wěn)定性和可靠性更強(qiáng)。

從計(jì)算效率看，深度求索的撒手锏是超低成本推理，華為盤古更看重訓(xùn)練效率。

深度求索采用稀疏化計(jì)算和動(dòng)態(tài)計(jì)算圖優(yōu)化方法，模型僅在運(yùn)行時(shí)激活必要的神經(jīng)元，推理速度提升3倍，而成本僅為GPT-4的五分之一。華為盤古更關(guān)注讓模型在有限資源下達(dá)到最佳性能，像TinyInit小初始化技術(shù)，據(jù)悉可以讓700億參數(shù)的模型性能媲美千億模型。

從應(yīng)用場(chǎng)景看，深度求索更適合極客，做的是“開發(fā)者工具”；華為盤古做的是“行業(yè)AI”，適配很多工業(yè)場(chǎng)景，比如礦山、電力、制造、氣象、流體力學(xué)、核能、衛(wèi)星圖像優(yōu)化等等。

深度求索的瓶頸在于，長(zhǎng)文本和多模態(tài)能力依然有待加強(qiáng)，也許R2可以解決這一問(wèn)題，另外從“工具”升級(jí)到“平臺(tái)”，生態(tài)的搭建面臨很大的挑戰(zhàn)。

而華為盤古還要繼續(xù)打磨硬件，單個(gè)昇騰910芯片性能無(wú)法匹敵英偉達(dá)H200的情況下，集成的性能總有達(dá)到天花板的時(shí)候，那之后又該如何提升？

可能深度求索和華為正好代表了中國(guó)人工智能大模型的兩個(gè)方向，前者是軟件定義AI，用算法彌補(bǔ)算力的不足；后者是硬件定義AI，用自研芯片及優(yōu)化集成拉高算力。

它們雖然是兩種方向，實(shí)質(zhì)是同一場(chǎng)突圍：中國(guó)人工智能在性價(jià)比戰(zhàn)爭(zhēng)中依然有不可小覷的優(yōu)勢(shì)。