平價開源DeepSeek驚艷全球

2025-04-01 00:00:00俞曉晴/編譯

世界科學 2025年3期

DeepSeek-R1在推理任務中的表現媲美OpenAI的o1，并向研究人員開放審查。

中國開發的名為DeepSeek-R1的大語言模型作為一種平價開源模型，成了OpenAI的o1這類“推理”模型的競爭對手，令整個科學圈興奮不已。

這類模型通過逐步生成響應的方式運作，類似于人類的推理過程。這使得它們比之前的語言模型更擅長解決科學問題，并有望在科研中發揮作用。2025年1月20日發布的對R1的初步測試顯示，其在特定化學、數學和編程任務上的表現與o1不相上下。OpenAI在2024年9月發布的o1曾令研究人員贊嘆不已。

“這太瘋狂了，完全出乎意料。”英國人工智能（AI）咨詢公司DAIR.AI的聯合創始人、AI研究員埃爾維斯 · 薩拉維亞（Elvis Saravia）在社交媒體平臺上寫道。

R1之所以引人注目，還有另一個原因。構建該模型的DeepSeek是杭州的一家初創公司，該公司以“開放權重”的形式發布了該模型，允許研究人員研究并改進算法。該模型基于麻省理工學院（MIT）許可證發布，能免費重復使用，但不被視為完全開源，因為其訓練數據并未公開。

德國馬克斯 · 普朗克光學研究所的人工智能科學家實驗室負責人馬里奧 · 科瑞恩（Mario Krenn）稱贊說：“DeepSeek的開放性相當顯著。”他表示，相比之下，位于舊金山的OpenAI構建的o1等模型（包括其最新成果o3）“本質上都是黑箱”。

DeepSeek還沒有公布訓練R1的總成本，但它向使用其界面的用戶收取的費用約為o1運行費用的1/30。該公司還創建了R1的迷你“蒸餾”版本，讓計算能力有限的研究人員也能上手。“在o1上要花約370美元的一個實驗，用R1只要不到10美元，”科瑞恩說，“這種巨大差異肯定會影響該模型未來的應用。”

挑戰模型

R1是中國大語言模型崛起的一個縮影。DeepSeek脫胎于一家對沖基金公司，2024年12月發布了名為V3的聊天機器人。盡管預算不高，V3的表現卻優于主要競爭對手。專家估計，DeepSeek大概花了600萬美元用于租借訓練該模型的硬件，而Meta的Llama 3.1 405B則花了至少6000萬美元，后者使用的計算資源約為前者的11倍。

DeepSeek備受關注的部分原因在于，盡管美國出口管制限制了中國企業獲取專為AI處理設計的最佳計算芯片，它仍成功開發出了R1。西雅圖的AI研究員弗朗索瓦 · 肖萊（Fran?ois Chollet）表示：“R1來自中國的事實表明，有效利用現有資源比只關注計算規模更重要。”

“DeepSeek的進展說明，美國曾經擁有的領先優勢已經大大縮小，”在臺灣沉浸式科技公司宏達電（HTC）工作的技術專家阿爾文 · 王 · 格雷林（Alvin Wang Graylin）在社交平臺寫道，“中美兩國應該聯手打造先進AI，而不是繼續目前這種兩敗俱傷的軍備競賽。”

思維鏈

大語言模型一般在數十億個文本樣本上進行訓練，將它們拆分成字詞單元（被稱為“記號”），并學習數據中的模式。這些關聯使得大語言模型能預測句子中的后續“記號”。但是，大語言模型容易虛構事實，這種現象被稱為“幻覺”，往往難以通過推理解決問題。

和o1一樣，R1也使用“思維鏈”的方法來提升大語言模型解決更復雜任務的能力，包括動態回溯與策略評估。DeepSeek利用強化學習（RL）對V3進行“微調”以開發R1，這種方法會在模型獲得正確答案時或在模型以展示其“思維”的方式解決問題時進行獎勵。

英國愛丁堡大學的AI研究員李文達（Wenda Li，音譯）表示，算力有限迫使該公司“在算法上進行創新”。在強化學習的過程中，DeepSeek團隊會在每個階段評估該模型的進展，而不是用另外的網絡進行評估。英國劍橋大學的計算機科學家瑪特亞 · 亞姆尼克（Mateja Jamnik）認為，這有助于降低訓練和運行成本。研究人員還使用了“混合專家模型”架構，該架構允許模型只激活與每項任務有關的部分。

在與該模型同時發布的一篇技術論文報告的基準測試中，DeepSeek-R1在加州大學伯克利分校的研究人員創建的MATH-500數學問題集上獲得了97.3%的分數，并在算法競賽平臺Codeforces的編程競賽中打敗了96.3%的人類對手。這些表現與o1的能力不相上下（o3未被納入此次比較）。

目前很難斷言基準測試是否捕捉到了模型真正的推理或泛化能力，還是僅僅反映了其通過測試的熟練度。“不過，由于R1是開源的，研究人員能夠解析它的思維鏈，”劍橋大學的計算機科學家馬爾科 · 桑托斯（Marco Dos Santos）說，“這有助于更好地解釋該模型的推理過程。”

眼下，已經有科學家在測試R1的能力了。科瑞恩讓o1和R1這兩個對手模型根據有趣程度來對3000個科研創意進行排序，并將結果與人工排序進行比較。在這一標準下，R1的表現略遜于o1。但科瑞恩表示，R1在量子光學的特定計算中擊敗了o1。“這真的很厲害。”

資料來源 Nature