DeepSeek-R1在推理任務中的表現媲美OpenAI的o1,并向研究人員開放審查。
中國開發的名為DeepSeek-R1的大語言模型作為一種平價開源模型,成了OpenAI的o1這類“推理”模型的競爭對手,令整個科學圈興奮不已。
這類模型通過逐步生成響應的方式運作,類似于人類的推理過程。這使得它們比之前的語言模型更擅長解決科學問題,并有望在科研中發揮作用。2025年1月20日發布的對R1的初步測試顯示,其在特定化學、數學和編程任務上的表現與o1不相上下。OpenAI在2024年9月發布的o1曾令研究人員贊嘆不已。
“這太瘋狂了,完全出乎意料。”英國人工智能(AI)咨詢公司DAIR.AI的聯合創始人、AI研究員埃爾維斯 · 薩拉維亞(Elvis Saravia)在社交媒體平臺上寫道。
R1之所以引人注目,還有另一個原因。構建該模型的DeepSeek是杭州的一家初創公司,該公司以“開放權重”的形式發布了該模型,允許研究人員研究并改進算法。該模型基于麻省理工學院(MIT)許可證發布,能免費重復使用,但不被視為完全開源,因為其訓練數據并未公開。
德國馬克斯 · 普朗克光學研究所的人工智能科學家實驗室負責人馬里奧 · 科瑞恩(Mario Krenn)稱贊說:“DeepSeek的開放性相當顯著。”他表示,相比之下,位于舊金山的OpenAI構建的o1等模型(包括其最新成果o3)“本質上都是黑箱”。
DeepSeek還沒有公布訓練R1的總成本,但它向使用其界面的用戶收取的費用約為o1運行費用的1/30。該公司還創建了R1的迷你“蒸餾”版本,讓計算能力有限的研究人員也能上手。“在o1上要花約370美元的一個實驗,用R1只要不到10美元,”科瑞恩說,“這種巨大差異肯定會影響該模型未來的應用。”
挑戰模型
R1是中國大語言模型崛起的一個縮影。DeepSeek脫胎于一家對沖基金公司,2024年12月發布了名為V3的聊天機器人。盡管預算不高,V3的表現卻優于主要競爭對手。專家估計,DeepSeek大概花了600萬美元用于租借訓練該模型的硬件,而Meta的Llama 3.1 405B則花了至少6000萬美元,后者使用的計算資源約為前者的11倍。
DeepSeek備受關注的部分原因在于,盡管美國出口管制限制了中國企業獲取專為AI處理設計的最佳計算芯片,它仍成功開發出了R1。西雅圖的AI研究員弗朗索瓦 · 肖萊(Fran?ois Chollet)表示:“R1來自中國的事實表明,有效利用現有資源比只關注計算規模更重要。”
“DeepSeek的進展說明,美國曾經擁有的領先優勢已經大大縮小,”在臺灣沉浸式科技公司宏達電(HTC)工作的技術專家阿爾文 · 王 · 格雷林(Alvin Wang Graylin)在社交平臺寫道,“中美兩國應該聯手打造先進AI,而不是繼續目前這種兩敗俱傷的軍備競賽。”
思維鏈
大語言模型一般在數十億個文本樣本上進行訓練,將它們拆分成字詞單元(被稱為“記號”),并學習數據中的模式。這些關聯使得大語言模型能預測句子中的后續“記號”。但是,大語言模型容易虛構事實,這種現象被稱為“幻覺”,往往難以通過推理解決問題。
和o1一樣,R1也使用“思維鏈”的方法來提升大語言模型解決更復雜任務的能力,包括動態回溯與策略評估。DeepSeek利用強化學習(RL)對V3進行“微調”以開發R1,這種方法會在模型獲得正確答案時或在模型以展示其“思維”的方式解決問題時進行獎勵。
英國愛丁堡大學的AI研究員李文達(Wenda Li,音譯)表示,算力有限迫使該公司“在算法上進行創新”。在強化學習的過程中,DeepSeek團隊會在每個階段評估該模型的進展,而不是用另外的網絡進行評估。英國劍橋大學的計算機科學家瑪特亞 · 亞姆尼克(Mateja Jamnik)認為,這有助于降低訓練和運行成本。研究人員還使用了“混合專家模型”架構,該架構允許模型只激活與每項任務有關的部分。
在與該模型同時發布的一篇技術論文報告的基準測試中,DeepSeek-R1在加州大學伯克利分校的研究人員創建的MATH-500數學問題集上獲得了97.3%的分數,并在算法競賽平臺Codeforces的編程競賽中打敗了96.3%的人類對手。這些表現與o1的能力不相上下(o3未被納入此次比較)。
目前很難斷言基準測試是否捕捉到了模型真正的推理或泛化能力,還是僅僅反映了其通過測試的熟練度。“不過,由于R1是開源的,研究人員能夠解析它的思維鏈,”劍橋大學的計算機科學家馬爾科 · 桑托斯(Marco Dos Santos)說,“這有助于更好地解釋該模型的推理過程。”
眼下,已經有科學家在測試R1的能力了。科瑞恩讓o1和R1這兩個對手模型根據有趣程度來對3000個科研創意進行排序,并將結果與人工排序進行比較。在這一標準下,R1的表現略遜于o1。但科瑞恩表示,R1在量子光學的特定計算中擊敗了o1。“這真的很厲害。”
資料來源 Nature