
近期,DeepSeek-R1模型完成一次版本迭代。這次“小更新”引發(fā)了大量關(guān)注,測(cè)評(píng)顯示,其整體性能逼近目前頂級(jí)模型OpenAIo3和谷歌Gemini2.5-Pro。
同一時(shí)間,華為推出參數(shù)規(guī)模7180億的盤古UltraMoE大模型,全流程在昇騰AI計(jì)算平臺(tái)訓(xùn)練。
可以說(shuō),中國(guó)人工智能大模型的新賽季從此開啟,一邊是深度求索的開源低成本模式,一邊是華為全棧自研的“可控閉源”模式。
當(dāng)OpenAI和谷歌強(qiáng)化“更大參數(shù)”和“更強(qiáng)通用性”時(shí),中國(guó)AI大模型逐漸進(jìn)入“拼軟件”或者“拼硬件”的“極致性價(jià)比”時(shí)代。按照歷史經(jīng)驗(yàn),無(wú)論技術(shù)由誰(shuí)開創(chuàng),只要進(jìn)入“性價(jià)比”競(jìng)爭(zhēng)階段,中國(guó)企業(yè)的優(yōu)勢(shì)總是一騎絕塵。
話又說(shuō)回來(lái),到底是“軟件定義AI”還是“硬件定義AI”,可能正決定著大模型的未來(lái)形態(tài)。
千呼萬(wàn)喚的R2模型沒(méi)出現(xiàn),只有R1的迭代版本給大家“望梅止渴”。
5月29日,深度求索宣布其R1模型成功完成版本迭代,新版本為DeepSeek-R1-0528。這個(gè)版本依然基于2024年12月推出的DeepSeekV3Base模型,在后期訓(xùn)練階段增加了算力投入,增強(qiáng)了模型的思維深度和推理能力。
此次升級(jí)后,模型的響應(yīng)質(zhì)量提升,在復(fù)雜推理、多步驟計(jì)算方面更準(zhǔn)確,長(zhǎng)文理解和生成更連貫,數(shù)學(xué)和編程等專業(yè)性輸出更可靠;響應(yīng)速度也有相應(yīng)提升,在網(wǎng)頁(yè)端、App和API接口中反應(yīng)更快,處理超長(zhǎng)文本輸入時(shí),延遲有所降低;對(duì)話的穩(wěn)定性增強(qiáng),減少了“遺忘設(shè)定”或“離題”的情況;API和接口兼容性保持穩(wěn)定,升級(jí)后,用戶無(wú)需調(diào)整現(xiàn)有集成就可以無(wú)縫使用新版本。
最明顯的變化是“思維鏈”—像谷歌的Gemini一樣進(jìn)行深度推理,寫作的效果更加自然。

在性能方面,首先是模型的智能水平提升,在AIME2024(數(shù)學(xué)競(jìng)賽,+21分)、LiveCodeBench(代碼生成,+15分)、GPQADiamond(科學(xué)推理,+10分)和《人類最后考卷》(推理與知識(shí),+6分)等多個(gè)方面實(shí)現(xiàn)進(jìn)步;其次是編程能力提升,在ArtificialAnalysis編程能力指數(shù)中,R1已追平Gemini2.5Pro,僅次于o4-mini(高水準(zhǔn)版)和o3模型。
不過(guò),Token的消耗量也大幅度增加。R1-0528在完成ArtificialAnalysis智能指數(shù)評(píng)估時(shí)消耗了9900萬(wàn)Token,比初代R1的7100萬(wàn)Token多出40%—也就是說(shuō),新版R1的“思考”時(shí)間更長(zhǎng)。
當(dāng)然,消耗量也看跟誰(shuí)比。同一個(gè)測(cè)試,Gemini2.5Pro的Token消耗量比R1-0528還要多30%。
雖然R1升級(jí)效果已經(jīng)“很強(qiáng)”,但對(duì)于被R2吊足了胃口的人們來(lái)說(shuō),還不夠。
根據(jù)之前各方透露的消息,DeepSeekR2模型基于華為昇騰芯片訓(xùn)練,1.2萬(wàn)億參數(shù)規(guī)模,97%的成本降幅,以及實(shí)現(xiàn)多模態(tài)融合—文本、圖像和代碼聯(lián)合推理。
特別是成本斷崖式下降,有希望讓中小開發(fā)者首次觸達(dá)頂級(jí)AI能力,達(dá)成“AI普惠”的中國(guó)方案。
網(wǎng)友的普遍想法是,R1的小版本更新已經(jīng)很驚艷,R2到底強(qiáng)大成什么樣子?是不是得等到國(guó)慶節(jié)才能看到?
華為習(xí)慣走那條最難走的路—全棧自研。在算力封鎖下,硬是用自己的芯片訓(xùn)練出7180億參數(shù)的MoE模型。
2021年盤古大模型正式立項(xiàng),隸屬于華為云部門。盤古包含E、P、U、S四大系列,E系列用于平板電腦、手機(jī)和PC設(shè)備,參數(shù)規(guī)模十億級(jí);P系列參數(shù)規(guī)模百億級(jí),適合低延遲、低成本推理;U系列的Ultra,參數(shù)規(guī)模千億級(jí),能夠處理復(fù)雜任務(wù);S系列也叫“超級(jí)盤古”,參數(shù)規(guī)模萬(wàn)億級(jí),管理跨域或多任務(wù)應(yīng)用等高級(jí)AI技術(shù)場(chǎng)景。
5月29日,盤古大模型UltraMoE正式發(fā)布,該模型在模型架構(gòu)和訓(xùn)練方法進(jìn)行了創(chuàng)新設(shè)計(jì),在昇騰NPU上實(shí)現(xiàn)MoE模型的全流程訓(xùn)練。
換個(gè)說(shuō)法,就是華為“打個(gè)樣兒”,提供一套不用GPU訓(xùn)練千億級(jí)大模型的方法。
在模型架構(gòu)上,其采用了Depth-ScaledSandwich-Norm(DSSN)穩(wěn)定架構(gòu)和TinyInit小初始化的方法,在昇騰平臺(tái)進(jìn)行了超過(guò)18TB數(shù)據(jù)的長(zhǎng)期穩(wěn)定訓(xùn)練。
此外,團(tuán)隊(duì)也提出EPgrouploss負(fù)載優(yōu)化方法,不僅保證了各個(gè)專家之間負(fù)載均衡,也提升了專家的領(lǐng)域特化能力。
同時(shí),盤古UltraMoE使用了業(yè)界先進(jìn)的MLA和MTP架構(gòu),在預(yù)訓(xùn)練和后訓(xùn)練階段都使用了Dropless訓(xùn)練策略,實(shí)現(xiàn)了超大規(guī)模MoE架構(gòu)在模型效果與效率之間的平衡。
在訓(xùn)練方法上,華為團(tuán)隊(duì)首次披露在昇騰CloudMatrix384超節(jié)點(diǎn)上,打通大稀疏比MoE強(qiáng)化學(xué)習(xí)后訓(xùn)練框架的關(guān)鍵技術(shù)。
華為在當(dāng)天發(fā)布的論文中指出,該系統(tǒng)設(shè)計(jì)的關(guān)鍵在于兩個(gè)部分:一是迭代難例挖掘。模型階段性更新后,從初始的數(shù)據(jù)池中進(jìn)行多回復(fù)推理,選取回復(fù)通過(guò)率在(0,1)的數(shù)據(jù)組成強(qiáng)化訓(xùn)練數(shù)據(jù)池,以保持推理效率最大化。
二是多能力項(xiàng)獎(jiǎng)勵(lì)系統(tǒng)。為了確保模型多能力項(xiàng)協(xié)同提升,數(shù)學(xué)和代碼均采用了基于規(guī)則的獎(jiǎng)勵(lì),通用獎(jiǎng)勵(lì)模型則使用LLM-as-a-judge的方法對(duì)生成的回復(fù)質(zhì)量進(jìn)行評(píng)分,并對(duì)最終的獎(jiǎng)勵(lì)進(jìn)行歸一化處理,保證了模型在多個(gè)能力項(xiàng)的綜合表現(xiàn)。
華為盤古和深度求索常常“捆綁”出售。比如馬來(lái)西亞購(gòu)買中國(guó)的AI基礎(chǔ)設(shè)施,核心裝備就是3000臺(tái)華為昇騰AI計(jì)算平臺(tái),搭載深度求索的開源模型。
但是以大模型產(chǎn)品作為分析對(duì)象時(shí),二者是競(jìng)爭(zhēng)關(guān)系,免不了有技術(shù)性的比較。
從底層架構(gòu)看,深度求索主打“動(dòng)態(tài)優(yōu)化”,華為盤古主打“全棧自研”。
深度求索的核心競(jìng)爭(zhēng)力就在于極致的工程優(yōu)化,其模型架構(gòu)不追求最大參數(shù)量,而是通過(guò)動(dòng)態(tài)推理優(yōu)化,讓同一套模型在不同任務(wù)中自動(dòng)調(diào)整計(jì)算資源分配。比如,在代碼生成案例中,R1可以自動(dòng)識(shí)別代碼片段的關(guān)鍵部分(循環(huán)、條件判斷),動(dòng)態(tài)分配計(jì)算資源,錯(cuò)誤率也更低。
華為盤古大模型走的是全棧自研的路徑,從芯片到模型都是“自己的”。其訓(xùn)練完全基于昇騰910系列芯片,采用DSSN架構(gòu)。比如,在礦山設(shè)備故障檢測(cè)任務(wù)中,盤古大模型能在低光照、高噪聲環(huán)境下穩(wěn)定運(yùn)行,穩(wěn)定性和可靠性更強(qiáng)。
從計(jì)算效率看,深度求索的撒手锏是超低成本推理,華為盤古更看重訓(xùn)練效率。
深度求索采用稀疏化計(jì)算和動(dòng)態(tài)計(jì)算圖優(yōu)化方法,模型僅在運(yùn)行時(shí)激活必要的神經(jīng)元,推理速度提升3倍,而成本僅為GPT-4的五分之一。華為盤古更關(guān)注讓模型在有限資源下達(dá)到最佳性能,像TinyInit小初始化技術(shù),據(jù)悉可以讓700億參數(shù)的模型性能媲美千億模型。
從應(yīng)用場(chǎng)景看,深度求索更適合極客,做的是“開發(fā)者工具”;華為盤古做的是“行業(yè)AI”,適配很多工業(yè)場(chǎng)景,比如礦山、電力、制造、氣象、流體力學(xué)、核能、衛(wèi)星圖像優(yōu)化等等。
深度求索的瓶頸在于,長(zhǎng)文本和多模態(tài)能力依然有待加強(qiáng),也許R2可以解決這一問(wèn)題,另外從“工具”升級(jí)到“平臺(tái)”,生態(tài)的搭建面臨很大的挑戰(zhàn)。
而華為盤古還要繼續(xù)打磨硬件,單個(gè)昇騰910芯片性能無(wú)法匹敵英偉達(dá)H200的情況下,集成的性能總有達(dá)到天花板的時(shí)候,那之后又該如何提升?
可能深度求索和華為正好代表了中國(guó)人工智能大模型的兩個(gè)方向,前者是軟件定義AI,用算法彌補(bǔ)算力的不足;后者是硬件定義AI,用自研芯片及優(yōu)化集成拉高算力。
它們雖然是兩種方向,實(shí)質(zhì)是同一場(chǎng)突圍:中國(guó)人工智能在性價(jià)比戰(zhàn)爭(zhēng)中依然有不可小覷的優(yōu)勢(shì)。