
李秀紅:無問芯穹副總裁,致力于研發(fā)高性能的大模型推理基礎(chǔ)設(shè)施,提供多種主流模型和多種國產(chǎn)芯片之間的M*N中間層支持。加入無問芯穹之前,在北京大學(xué)擔任助理研究員,研究領(lǐng)域為計算機體系結(jié)構(gòu)、異構(gòu)計算和深度學(xué)習系統(tǒng),在ISCA、MICRO、HPCA、TC、PPoPP等相關(guān)領(lǐng)域國際頂級期刊會議發(fā)表論文20余篇,相關(guān)研究成果以第一作者或通信作者獲得CCF A類會議ASPLOS 2024最佳論文、CCF A類會議PPoPP 2019最佳論文提名。
2025年春節(jié)期間,中國人工智能領(lǐng)域迎來標志性突破—DeepSee公司推出的DeepSeek-R1大模型,憑借“更高智能、更低成本、更開放生態(tài)”三大核心優(yōu)勢,迅速成為全球AI領(lǐng)域焦點。
人類智能包括兩大系統(tǒng),第一類系統(tǒng)是“大腦快速、自動、直觀的方法”,第二類系統(tǒng)是“思維的慢速,理性占據(jù)主導(dǎo)地位的分析模式”。
更高智能,從直覺到推理的跨越。DeepSeek在多個基準測試中表現(xiàn)優(yōu)異,展現(xiàn)出強大的數(shù)學(xué)推理和代碼生成能力。其關(guān)鍵在于從 “快系統(tǒng)”直覺感知向“慢系統(tǒng)”邏輯推理的升級,通過思維鏈(Chain of Thought)技術(shù),將復(fù)雜問題拆解為多個子步驟,依賴規(guī)則逐步生成Action,顯著提升復(fù)雜任務(wù)的解決能力。
更低成本,性價比的革命性突破。據(jù)相關(guān)數(shù)據(jù)顯示,在訓(xùn)練成本上,DeepSeek-V3僅為557.6萬美元,遠低于GPT-4的6300萬美元和Llama 3.1 405B的5800萬美元。推理成本方面,其每百萬Token的API定價僅為0.27美元(輸入)和1.10美元(輸出),較GPT-4o的2.5美元(輸入)和10美元(輸出)降低約90%。這種成本優(yōu)勢源于軟硬件協(xié)同優(yōu)化。
更開放生態(tài),技術(shù)平權(quán)的推動者。DeepSeek通過開源技術(shù)報告和模型,降低行業(yè)準入門檻,吸引全球開發(fā)者參與生態(tài)建設(shè)。其技術(shù)文檔詳細披露了Multi-Head Latent Attention(MLA)、DeepSeekMoE 架構(gòu)等核心技術(shù),以及 FP8訓(xùn)練、多Token預(yù)測等優(yōu)化策略。開源生態(tài)的構(gòu)建不僅加速了技術(shù)迭代,還推動了人工智能在中小企業(yè)和垂直領(lǐng)域的普及,成為行業(yè)發(fā)展的重要基礎(chǔ)設(shè)施。
從稠密到稀疏的范式轉(zhuǎn)變。面對稠密模型在72B參數(shù)規(guī)模后性能飽和的問題,DeepSeek采用混合專家模型(MoE),通過動態(tài)選擇部分專家參數(shù)參與計算,實現(xiàn)2~3倍算力撬動10倍模型規(guī)模的效果。
稀疏注意力技術(shù)進一步優(yōu)化計算效率,如Native Sparse Attention(NSA)通過層次化Token壓縮和塊狀Token選擇,在長文本處理中實現(xiàn)10倍加速,推理速度從原始注意力的近千秒縮短至一百秒左右,顯著提升長上下文場景的處理能力。
從訓(xùn)練到推理的全流程優(yōu)化。訓(xùn)練框架方面,DeepSeek優(yōu)化了分布式訓(xùn)練中的通信和計算重疊,如通過DualPipe 技術(shù)實現(xiàn)數(shù)據(jù)并行、模型并行、流水線并行的混合策略,512卡擴展效率達到76%。推理框架則采用分頁式內(nèi)存管理(如vLLM的PagedAttention),減少顯存碎片,提升服務(wù)吞吐量,Llama3-8B模型請求服務(wù)率達35req/s。
應(yīng)對后摩爾時代的挑戰(zhàn)。AI芯片從指令驅(qū)動的CPU/GPU,發(fā)展到數(shù)據(jù)流驅(qū)動的存算一體芯片(如Cerebras WSE-2)和神經(jīng)形態(tài)芯片(如Intel Loihi),能效比提升5個數(shù)量級。然而,摩爾定律放緩和美國禁令導(dǎo)致先進制程(14nm以下)受限,芯片制造公司推動晶圓級芯片和先進封裝技術(shù)(如3D堆疊、芯?;ミB),突破單芯片面積和良率瓶頸,實現(xiàn)P級算力集成。
應(yīng)對工藝墻的系統(tǒng)方案。針對制程工藝瓶頸,芯片制造公司聯(lián)合國內(nèi)產(chǎn)業(yè)鏈探索12/7nm節(jié)點的優(yōu)化方案,通過設(shè)計創(chuàng)新彌補制程差距。在封裝層面,采用芯粒(Chiplet)技術(shù)實現(xiàn)異構(gòu)集成,將計算芯粒與存儲芯粒高速互連,提升帶寬和能效,為國產(chǎn)芯片突破封鎖提供新路徑。
2C場景,重塑生活與生產(chǎn)力工具。在文化領(lǐng)域,中電信文宣科技接入 DeepSeek后,游客復(fù)購率提升27%,文化體驗滿意度提高35%;教育領(lǐng)域,某智慧校園學(xué)情診斷系統(tǒng)使教師備課效率提升40%,高風險學(xué)生干預(yù)成功率提升65%;娛樂領(lǐng)域,短視頻平臺日均產(chǎn)出創(chuàng)意內(nèi)容超10萬條,互動率提升22%;效率工具方面,代碼生成速度比GPT-4快3.7倍,會議紀要生成準確率達98%。
2B場景,驅(qū)動行業(yè)智能化轉(zhuǎn)型。能源行業(yè),DeepSeek融合氣象、地理數(shù)據(jù)構(gòu)建動態(tài)安全域模型,優(yōu)化分布式能源管理;制造業(yè),通過工業(yè)知識圖譜和多模態(tài)處理提升故障診斷準確率30%,良品率提升10%~20%;金融業(yè),某銀行信貸審核誤判率降低58%,基金公司策略收益提升23%;醫(yī)療行業(yè),加速藥物研發(fā)周期70%,提升臨床決策效率。
AI Agent,打通垂直場景的智能橋梁。以Manus為例,其在GAIA基準測試中工具調(diào)用成功率達94.7%,顯著高于OpenAI Agent的72.3%。在生活場景中,5步以上復(fù)雜任務(wù)成功率比OpenAI方案高23%;金融分析中,用戶干預(yù)后任務(wù)成功率提升至83%;政務(wù)場景中,深圳 “AI公務(wù)員”日均處理1.2萬個咨詢,座席減少60%。
開源生態(tài),AI領(lǐng)域的“Android時刻”。DeepSeek的開源模式打破技術(shù)壟斷,推動行業(yè)從閉源走向開放,類似Android對移動應(yīng)用的賦能,其基準測試表現(xiàn)比肩閉源模型,GitHub星標數(shù)超越OpenAI,日均API調(diào)用量突破2000萬次,成為全球開發(fā)者的重要選擇。
算力需求激增,端云協(xié)同的新基建。云側(cè)推理需求爆發(fā),短期全國活躍用戶數(shù)預(yù)計達1.5億,日均Token用量達11.25萬億,推動新一代推理集群向資源池化、動態(tài)調(diào)度發(fā)展;端側(cè)通過定制芯片實現(xiàn)高能效推理,7B模型推理性能gt;150tokens/s,能效gt;20tokens/J,助力智能終端普及。
技術(shù)挑戰(zhàn),效率與成本的持續(xù)優(yōu)化。盡管DeepSeek在成本和效率上取得突破,仍需應(yīng)對算力異構(gòu)、數(shù)據(jù)出域、電價差異等問題。未來需進一步優(yōu)化稀疏化、低比特量化技術(shù),提升端云協(xié)同效率,降低推理成本,推動人工智能從“奢侈品”變?yōu)椤氨匦杵贰薄?/p>
DeepSeek大模型的崛起,標志著人工智能從理論探索走向產(chǎn)業(yè)落地的關(guān)鍵階段。其技術(shù)創(chuàng)新不僅突破了算力和成本瓶頸,更通過開放生態(tài)和端云協(xié)同,推動AI與各行業(yè)深度融合。面對中美技術(shù)競爭和全球產(chǎn)業(yè)變革,DeepSeek的實踐為國產(chǎn)化閉環(huán)構(gòu)建提供了路徑參考,預(yù)示著人工智能將進入效率提升、成本下降、應(yīng)用爆發(fā)的黃金時代。未來,隨著軟硬件協(xié)同的持續(xù)深化,AI有望成為驅(qū)動社會進步的核心基礎(chǔ)設(shè)施,開啟智能時代的新篇章。
科學(xué)導(dǎo)報記者馬駿根據(jù)錄音整理