
自中國人工智能大語言模型深度求索(DeepSeek)“橫空出世”以來,關于中國人工智能技術的發展引發了國際社會的關注。美國《科學》雜志最近以《中國公司推出更快、更便宜的人工智能語言模型引發轟動》報道了中國人工智能發展情況,現編譯該文如下。
對一家中國初創企業而言,美國禁止向中國實體出售最先進的人工智能(AI)芯片反而成為了創新的催化劑。由前AI學者轉型對沖基金經理于2023年5月創立的深度求索(DeepSeek)公司表示,他們找到了用二線圖形處理器(GPU)以極低成本實現與美國競爭對手相當AI性能的方法。
此前,深度求索已憑借一系列高效的大型語言模型(LLM)引發關注——這些模型雖性能不及OpenAI的ChatGPT,但同樣雄心勃勃。與ChatGPT及多數西方競品不同,深度求索的LLM為開源模型,用戶可查看并修改源代碼以優化或定制功能。2024年12月27日的技術報告中,該公司宣布其最新模型V3實現重大突破,“性能超越其他開源模型,達到與主流閉源模型相當的水平”。

AI領域觀察者對此予以重視。研究新興技術的喬治·華盛頓大學政治學者杰弗里·丁(音)指出,深度求索“縮小了與世界頂尖LLM的差距”,部分基準測試甚至超越OpenAI的最新模型GPT-4o。OpenAI聯合創始人、前研究員安德烈·卡帕西在社交平臺發文稱,若V3通過后續獨立驗證,“這將是資源受限條件下科研與工程能力的非凡展示”。
華盛頓特區中美經濟競爭分析師王雷(音)表示,中國難以獲取先進AI芯片的現狀“正迫使中國AI科學家在現有硬件條件下創新”。深度求索稱其采用改進版“混合專家”架構,既降低模型訓練算力需求,又提升查詢響應效率。該架構僅針對特定任務訓練模型內的部分專家網絡,再由門控網絡將查詢分配至最適配的專家網絡。
悉尼科技大學中國創新研究專家瑪麗娜·張(音)評價道:“深度求索證明,巧思能有效緩解先進硬件獲取受限的制約。”深度求索公司表示,效率提升顯著降低成本——估算顯示V3訓練僅耗資560萬美元,遠低于OpenAI訓練ChatGPT-4o的預估7800萬美元。杰弗里·丁指出,用戶運行該模型的成本“遠低于同等性能的其他模型”。據稱V3的數據分析、模式識別與預測建模能力可應用于氣候影響預測、疾病生物標志物識別、宇宙學理論驗證等科研領域。
與多數主要競爭對手不同,深度求索未獲中國科技巨頭注資。王雷強調“深度求索公司核心聚焦創新與中國高性能LLM研發”。

深度求索未回應《科學》雜志的郵件問詢。但創始人兼CEO梁文峰去年向新媒體“暗涌Waves”表示,公司優先事項是“研究技術創新”而非商業機會。他透露終極目標是實現人工通用智能(AGI)——這一AI目標要求模型具備人類認知能力,該崇高愿景幫助公司吸引了志存高遠的研究者。“頂尖人才最看重的無疑是解決世界級難題的機會。”
梁文峰曾就讀浙江大學,2015年參與創立依賴AI策略的對沖基金幻方量化,據傳其現管理80億美元資產。幻方孵化深度求索并專注LLM研發,據悉梁文峰親力親為參與多篇公司科研論文撰寫。
盡管取得重大進展,觀察人士指出深度求索仍面臨挑戰。杰弗里·丁認為開源模式意味著“競爭對手可改良其方法”。戰略與國際研究中心AI政策專家格雷戈里·艾倫斷言“若無法持續獲取更多AI芯片,未來必將舉步維艱”;瑪麗娜·張則指出中國企業必須“持續突破軟件與系統創新邊界以保持競爭力”。