DeepSeek大模型：技術(shù)突破與產(chǎn)業(yè)變革的核心驅(qū)動力

2025-06-02 00:00:00李秀紅

科學(xué)導(dǎo)報 2025年29期

李秀紅：無問芯穹副總裁，致力于研發(fā)高性能的大模型推理基礎(chǔ)設(shè)施，提供多種主流模型和多種國產(chǎn)芯片之間的M*N中間層支持。加入無問芯穹之前，在北京大學(xué)擔任助理研究員，研究領(lǐng)域為計算機體系結(jié)構(gòu)、異構(gòu)計算和深度學(xué)習系統(tǒng)，在ISCA、MICRO、HPCA、TC、PPoPP等相關(guān)領(lǐng)域國際頂級期刊會議發(fā)表論文20余篇，相關(guān)研究成果以第一作者或通信作者獲得CCF A類會議ASPLOS 2024最佳論文、CCF A類會議PPoPP 2019最佳論文提名。

2025年春節(jié)期間，中國人工智能領(lǐng)域迎來標志性突破—DeepSee公司推出的DeepSeek-R1大模型，憑借“更高智能、更低成本、更開放生態(tài)”三大核心優(yōu)勢，迅速成為全球AI領(lǐng)域焦點。

DeepSee火出圈的核心優(yōu)勢

人類智能包括兩大系統(tǒng)，第一類系統(tǒng)是“大腦快速、自動、直觀的方法”，第二類系統(tǒng)是“思維的慢速，理性占據(jù)主導(dǎo)地位的分析模式”。

更高智能，從直覺到推理的跨越。DeepSeek在多個基準測試中表現(xiàn)優(yōu)異，展現(xiàn)出強大的數(shù)學(xué)推理和代碼生成能力。其關(guān)鍵在于從 “快系統(tǒng)”直覺感知向“慢系統(tǒng)”邏輯推理的升級，通過思維鏈（Chain of Thought）技術(shù)，將復(fù)雜問題拆解為多個子步驟，依賴規(guī)則逐步生成Action，顯著提升復(fù)雜任務(wù)的解決能力。

更低成本，性價比的革命性突破。據(jù)相關(guān)數(shù)據(jù)顯示，在訓(xùn)練成本上，DeepSeek-V3僅為557.6萬美元，遠低于GPT-4的6300萬美元和Llama 3.1 405B的5800萬美元。推理成本方面，其每百萬Token的API定價僅為0.27美元（輸入）和1.10美元（輸出），較GPT-4o的2.5美元（輸入）和10美元（輸出）降低約90%。這種成本優(yōu)勢源于軟硬件協(xié)同優(yōu)化。

更開放生態(tài)，技術(shù)平權(quán)的推動者。DeepSeek通過開源技術(shù)報告和模型，降低行業(yè)準入門檻，吸引全球開發(fā)者參與生態(tài)建設(shè)。其技術(shù)文檔詳細披露了Multi-Head Latent Attention（MLA）、DeepSeekMoE 架構(gòu)等核心技術(shù)，以及 FP8訓(xùn)練、多Token預(yù)測等優(yōu)化策略。開源生態(tài)的構(gòu)建不僅加速了技術(shù)迭代，還推動了人工智能在中小企業(yè)和垂直領(lǐng)域的普及，成為行業(yè)發(fā)展的重要基礎(chǔ)設(shè)施。

突破算力瓶頸的關(guān)鍵路徑

從稠密到稀疏的范式轉(zhuǎn)變。面對稠密模型在72B參數(shù)規(guī)模后性能飽和的問題，DeepSeek采用混合專家模型（MoE），通過動態(tài)選擇部分專家參數(shù)參與計算，實現(xiàn)2～3倍算力撬動10倍模型規(guī)模的效果。

稀疏注意力技術(shù)進一步優(yōu)化計算效率，如Native Sparse Attention（NSA）通過層次化Token壓縮和塊狀Token選擇，在長文本處理中實現(xiàn)10倍加速，推理速度從原始注意力的近千秒縮短至一百秒左右，顯著提升長上下文場景的處理能力。

從訓(xùn)練到推理的全流程優(yōu)化。訓(xùn)練框架方面，DeepSeek優(yōu)化了分布式訓(xùn)練中的通信和計算重疊，如通過DualPipe 技術(shù)實現(xiàn)數(shù)據(jù)并行、模型并行、流水線并行的混合策略，512卡擴展效率達到76%。推理框架則采用分頁式內(nèi)存管理（如vLLM的PagedAttention），減少顯存碎片，提升服務(wù)吞吐量，Llama3-8B模型請求服務(wù)率達35req/s。

應(yīng)對后摩爾時代的挑戰(zhàn)。AI芯片從指令驅(qū)動的CPU/GPU，發(fā)展到數(shù)據(jù)流驅(qū)動的存算一體芯片（如Cerebras WSE-2）和神經(jīng)形態(tài)芯片（如Intel Loihi），能效比提升5個數(shù)量級。然而，摩爾定律放緩和美國禁令導(dǎo)致先進制程（14nm以下）受限，芯片制造公司推動晶圓級芯片和先進封裝技術(shù)（如3D堆疊、芯?；ミB），突破單芯片面積和良率瓶頸，實現(xiàn)P級算力集成。

應(yīng)對工藝墻的系統(tǒng)方案。針對制程工藝瓶頸，芯片制造公司聯(lián)合國內(nèi)產(chǎn)業(yè)鏈探索12/7nm節(jié)點的優(yōu)化方案，通過設(shè)計創(chuàng)新彌補制程差距。在封裝層面，采用芯粒（Chiplet）技術(shù)實現(xiàn)異構(gòu)集成，將計算芯粒與存儲芯粒高速互連，提升帶寬和能效，為國產(chǎn)芯片突破封鎖提供新路徑。

從消費級到戰(zhàn)略行業(yè)的全面滲透

2C場景，重塑生活與生產(chǎn)力工具。在文化領(lǐng)域，中電信文宣科技接入 DeepSeek后，游客復(fù)購率提升27%，文化體驗滿意度提高35%；教育領(lǐng)域，某智慧校園學(xué)情診斷系統(tǒng)使教師備課效率提升40%，高風險學(xué)生干預(yù)成功率提升65%；娛樂領(lǐng)域，短視頻平臺日均產(chǎn)出創(chuàng)意內(nèi)容超10萬條，互動率提升22%；效率工具方面，代碼生成速度比GPT-4快3.7倍，會議紀要生成準確率達98%。

2B場景，驅(qū)動行業(yè)智能化轉(zhuǎn)型。能源行業(yè)，DeepSeek融合氣象、地理數(shù)據(jù)構(gòu)建動態(tài)安全域模型，優(yōu)化分布式能源管理；制造業(yè)，通過工業(yè)知識圖譜和多模態(tài)處理提升故障診斷準確率30%，良品率提升10%～20%；金融業(yè)，某銀行信貸審核誤判率降低58%，基金公司策略收益提升23%；醫(yī)療行業(yè)，加速藥物研發(fā)周期70%，提升臨床決策效率。

AI Agent，打通垂直場景的智能橋梁。以Manus為例，其在GAIA基準測試中工具調(diào)用成功率達94.7%，顯著高于OpenAI Agent的72.3%。在生活場景中，5步以上復(fù)雜任務(wù)成功率比OpenAI方案高23%；金融分析中，用戶干預(yù)后任務(wù)成功率提升至83%；政務(wù)場景中，深圳 “AI公務(wù)員”日均處理1.2萬個咨詢，座席減少60%。

未來趨勢：算力競爭與國產(chǎn)化閉環(huán)構(gòu)建

開源生態(tài)，AI領(lǐng)域的“Android時刻”。DeepSeek的開源模式打破技術(shù)壟斷，推動行業(yè)從閉源走向開放，類似Android對移動應(yīng)用的賦能，其基準測試表現(xiàn)比肩閉源模型，GitHub星標數(shù)超越OpenAI，日均API調(diào)用量突破2000萬次，成為全球開發(fā)者的重要選擇。

算力需求激增，端云協(xié)同的新基建。云側(cè)推理需求爆發(fā)，短期全國活躍用戶數(shù)預(yù)計達1.5億，日均Token用量達11.25萬億，推動新一代推理集群向資源池化、動態(tài)調(diào)度發(fā)展；端側(cè)通過定制芯片實現(xiàn)高能效推理，7B模型推理性能gt;150tokens/s，能效gt;20tokens/J，助力智能終端普及。

技術(shù)挑戰(zhàn)，效率與成本的持續(xù)優(yōu)化。盡管DeepSeek在成本和效率上取得突破，仍需應(yīng)對算力異構(gòu)、數(shù)據(jù)出域、電價差異等問題。未來需進一步優(yōu)化稀疏化、低比特量化技術(shù)，提升端云協(xié)同效率，降低推理成本，推動人工智能從“奢侈品”變?yōu)椤氨匦杵贰薄?/p>

DeepSeek大模型的崛起，標志著人工智能從理論探索走向產(chǎn)業(yè)落地的關(guān)鍵階段。其技術(shù)創(chuàng)新不僅突破了算力和成本瓶頸，更通過開放生態(tài)和端云協(xié)同，推動AI與各行業(yè)深度融合。面對中美技術(shù)競爭和全球產(chǎn)業(yè)變革，DeepSeek的實踐為國產(chǎn)化閉環(huán)構(gòu)建提供了路徑參考，預(yù)示著人工智能將進入效率提升、成本下降、應(yīng)用爆發(fā)的黃金時代。未來，隨著軟硬件協(xié)同的持續(xù)深化，AI有望成為驅(qū)動社會進步的核心基礎(chǔ)設(shè)施，開啟智能時代的新篇章。

科學(xué)導(dǎo)報記者馬駿根據(jù)錄音整理