一、DeepSeek的一般情況
(一)DeepSeek是誰
DeepSeek成立于2023年,公司位于中國杭州,由前對沖基金幻方(High-Flyer Quant)的領導者梁文峰創立。DeepSeek的主要特點是基于開源模型和提供低推理成本的技術。
DeepSeek聚集了一支年輕、技術技能出色的團隊,其核心目標是推動通用人工智能(AGI),并以透明和開源的方式進行研究,同時強調通過低成本的技術使先進的人工智能(AI)更容易獲取。
(二)DeepSeek的成就
DeepSeek在模型開發上采用了混合專家架構(MoE)等先進算法,這有助于節省顯存資源,并提高底層算力的使用效率。這種技術思路在DeepSeek-V2中已經得到驗證。
公司通過開源其模型和相關技術,允許更多的AI團隊基于這些最先進且成本最低的技術開發新的應用。
DeepSeek-R1是公司推出的一款模型,在短時間內登頂蘋果美國區應用商店免費App下載排行榜,并在中國區也取得了領先的位置。
該模型在多個領域(如文本創作、代碼生成等)達到了與OpenAI相當的水平,但成本僅為OpenAI模型費用的一小部分。
DeepSeek的突出功能之一是其令人難以置信的非常低的API調用價格,使高級AI更容易訪問。例如,DeepSeek-R1的起價每百萬輸入Token為0.55美元、每百萬輸出Token為2.19美元,這一價格遠低于OpenAI或其他美國AI實驗室的產品。
(三)DeepSeek引起的市場轟動
DeepSeek的成功可能會促使OpenAI和其他美國供應商降價以保持現有的領先地位。如果更高效的模型能夠以少得多的支出參與競爭,那么人們就會質疑Meta和微軟等公司的巨額支出,他們分別承諾在2025年將至少650億美元主要投入在AI基礎設施上這一資本支出。
DeepSeek在全球市場掀起風浪,阿斯麥、英偉達等之前受益于AI服務需求欣欣向榮的股票大跌,而科大訊飛等與DeepSeek相關的中國股票則出現上漲。
1月27日,納斯達克100指數期貨跌幅擴大至5%,標普500指數期貨下跌3%。歐洲方面,科技股領跌,芯片設備制造商阿斯麥控股下跌11%,Cboe波動率指數(VIX)走高。如果此番跌勢維持,納斯達克100和歐洲斯托克600科技股指數所蒸發的市值總額將達大約1.2萬億美元。
“DeepSeek的成功顯示出開發成本較低的強大AI模型是可能的,”瑞士聯合私立銀行(Union Bancaire Privee)董事總經理Vey-Sern Ling表示,“這可能會沖擊目前由少數科技巨頭高額支出來驅動整個AI供應鏈的投資邏輯。”
(四)DeepSeek的創新
DeepSeek-V3和DeepSeek-R1都利用了混合專家架構(MoE),該架構僅激活其6710億個參數中的一個子集。可以把它想象成部署數百名專業的微觀專家,在需要他們的技能時介入。這種設計確保了計算效率,同時保持了高模型質量。
DeepSeek采用純強化學習(RL)方法,進一步使其與眾不同。這些模型通過連續的反饋回路自主學習和改進,實現自我校正和適應性,這種機制顯著提高了其解決問題的能力,特別是對于需要深入推理和邏輯分析的任務。
除了MoE,多頭潛在注意力機制(MLA)提高了模型同時處理多個數據流的能力。通過將焦點分布在幾個“注意力”頭上,可以更好地識別上下文關系并處理細微的輸入,即使在處理單個請求中的數萬個Token時也是如此。
(五)用戶評價
用戶對DeepSeek-R1的高度評價主要集中在其思考過程的細膩性、自洽性和全面性上,它能夠提供深度和細節豐富的輸出。
一些用戶也指出了DeepSeek在某些方面的“用力過猛”,如生成過于復雜的語言或不適當的用詞,特別是針對特定受眾(如兒童)的內容。
DeepSeek面臨的技術挑戰包括如何進一步優化模型的性能、降低成本的同時保持高效率,以及克服可能存在的幻覺和偏差問題。
DeepSeek公司正在專注于增強其“DeepThink+Web”搜索的功能,以實現實時在線查找能力。此外,還考慮開發針對特定行業的定制化模型,以及建立全球合作伙伴關系。
二、關于DeepSeek影響的分析
與DeepSeek基本信息相對的,是其所產生的巨大影響。這些影響中有哪些是短期性的,哪些可能是長期性的?
(一)對中美戰略競爭的影響:“星際之門”計劃
DeepSeek對中美戰略競爭的影響,首先表現在對美國“星際之門”計劃(the Stargate project)的影響。2025年1月22日,美國總統特朗普在白宮新聞發布會上宣布啟動“星際之門”計劃。這一計劃被稱為“21世紀AI時代的‘星球大戰’計劃”。
“星際之門”計劃由軟銀、OpenAI、甲骨文等科技巨頭聯合推動,注資高達5000億美元。該計劃旨在建設先進的數據中心和配套基礎設施,以支持人工智能技術的快速發展,預計在未來四年內完成。
DeepSeek出現后,一個顯而易見的疑問是美國耗費5000億美元的計劃所完成的工作。中國人難道不能用500億美元甚至更低的成本完成,乃至做得更好嗎?這樣一來,“星際之門”計劃還有意義嗎?因此特朗普評價道,DeepSeek的問世是一記“警鐘”。
DeepSeek對“星際之門”計劃的影響主要體現在技術競爭、市場情緒、政策與戰略調整等方面。
首先,技術競爭方面,DeepSeek憑借其低成本、高性能的技術優勢,給AI行業帶來了新的競爭格局。“星際之門”計劃的參與者可能會重新評估投資策略和技術方向,思考是否有更高效低成本的方式實現目標。例如,原本計劃大量投入算力資源的企業可能會因DeepSeek的出現而調整策略,這增加了美國在人工智能領域的技術競爭壓力。
其次,市場情緒方面,DeepSeek的發展吸引了市場的關注,使得投資者對高成本AI相關項目產生了懷疑。DeepSeek的市場預期和成本估值,會吸引更多投資者關注。
最后,政策與戰略調整方面,DeepSeek的成功表明中國科研團隊在有限條件下通過創新實現了彎道超車,這可能會促使美國政府重新評估“星際之門”計劃的可行性和成本效益,進行政策與戰略上的調整。
此外,拋開成本不說,馬斯克質疑“星際之門”計劃的融資情況。這一計劃似乎沒有與馬斯克很好溝通。馬斯克在社交平臺發文說,“他們實際上沒有錢”“軟銀能確保的資金遠低于100億美元”。這是暗指軟銀去年負債3.8萬億日元。馬斯克還曾表示他“不信任”OpenAI的奧特曼。
美國《外交政策》(Foreign Policy)上的文章《DeepSeek揭示了美中競爭的未來》(What DeepSeek revealed about the future of U.S.-China competition)指出,DeepSeek的非凡成功引發了美國國家安全界的擔憂,他們擔心美國最先進的AI產品可能再也無法與中國更廉價的替代品競爭。文章分析,美國一直在利用其對半導體供應鏈的控制,限制中國獲取高端芯片。然而,DeepSeek取得的成功讓一些人開始質疑,美國的芯片出口管制是否毫無作用,甚至適得其反。文章最后指出,如果美國和中國的AI模型都存在雙方不確定如何控制的危險能力的風險,那么美國與中國領導層就此進行溝通則是國家安全的當務之急[1]。
(二)對中美科技競爭的影響
DeepSeek的問世,在科技界眼中,縮短了中美在AI上的差距。
Meta創始人兼CEO扎克伯格表示,DeepSeek非常先進,并認為中美之間的AI差距非常小。
1. 不僅是中美之爭本身,還是開源、閉源之爭
圖靈獎得主、Meta AI首席科學家YannLeCun在社交媒體上表示:“DeepSeek的成功凸顯了保持AI模型開源的價值,這樣任何人都可以從中受益。這表明開源模式正在超越專有模式。”他認為:“當人們看到DeepSeek的表現,驚呼中國AI正在趕超美國,但這種解讀有誤。更準確的結論是,開源模型正在超越閉源系統。[2]”
《福布斯》雜志則指出,DeepSeek的開源策略可能重塑全球AI標準,推動中國成為開源模型的主導者之一。《自然》雜志評價稱,R1的開放性遠超閉源模型的“黑匣子”特性。
由于美國公司出于商業利益,更傾向閉源系統,這給利用開源系統的中國公司更多機會,特別是在打造科技生態系統方面的機會,而這是以往中國相對于美國的薄弱環節。支持這一看法的事實是,DeepSeek因開放吸引了開發界的熱烈響應,很短時間內就衍生出600多個應用。當然,國內科技界也有人對此持懷疑態度,主要是基于以往的開源往往在應用中被當作自主技術保守(偽開源)的歷史。
DeepSeek目前還沒有完全商業化,一旦商業化,將面臨如何處理技術開放與商業模式開放的關系的問題。如果處理得好,如將基礎業務與增值業務充分分開,形成互補,那么中國在這方面將形成對美國的優勢。當然,中國如果在打造包容技術與商業開放的制度環境(如反壟斷政策環境)方面落后于美國,也會使技術與商業上的優勢化為烏有。
2. DeepSeek對巨頭的挑戰
DeepSeek現在儼然具有了當年U盤替代軟驅那種“同等功能、巨大價差”的以小博大的勢頭。DeepSeek的崛起對現有的AI巨頭如OpenAI、Meta等構成了挑戰,促使他們重新評估成本、戰略和研究方法。
一是通過開源策略和低成本技術,DeepSeek為小型企業、研究人員和開發者提供了新的機遇。一旦形成良好開發生態,有可能重現當年谷歌取代雅虎的歷史。DeepSeek目前已進入搜索技術領域,這要求百度打起十二分的精神來應對,懈怠就意味著出局。
二是隨著用戶采用率的增加和市場對AI能力需求的增長,DeepSeek有望繼續在AI領域發揮顛覆性作用。公司可能會進一步優化模型性能、加強與硬件供應商的合作,并開發針對特定行業領域的定制化解決方案。
DeepSeek是通過開源技術、低成本策略和創新算法推動人工智能發展的中國初創企業,其成功不僅體現在市場表現上,還在于對AI社區的影響力,以及為小型企業和開發者提供的新機遇。隨著未來的發展,DeepSeek有望在AI領域持續產生重大影響,并可能引領下一波變革性突破。同時,也要看到,DeepSeek的出現在中國不是偶然的。中國還有一批潛在的同類技術和公司即將浮出水面,包括阿里團隊、李飛飛(華人)團隊都已提出了初步的成果,共同推動AI的改朝換代。
3. DeepSeek對投資的影響
DeepSeek的初步成功,引發了人們對OpenAI、微軟和其他公司所追求的投資計劃的重大質疑。
首先對OpenAI來說,DeepSeek以極低的成本實現極高性能,讓人們對OpenAI投資回報能力產生懷疑。
企業家兼評論員Arnaud Bertrand將DeepSeek節儉、分散的創新,與OpenAI等其他開發商對集中、資源密集型基礎設施的依賴,進行了對比。
結果發現,打造一個世界水平AI模型,只需要投入巨頭一個高管的年薪就可以做到,巨頭動輒養著十幾個、幾十個這種價位的高管的合理性,就會遭到投資人普遍質疑,甚至會產生受騙的感覺。
可以想見,巨頭內部現在慌作一團,即使為了保住工資,也有動機趕緊向投資人證明DeepSeek的種種不是。但問題是,如果與DeepSeek類似的小公司成批涌現時,想通過栽贓和甩鍋來擺脫困境,將不會有效。
當然,有一點現在還看不清楚,這就是DeepSeek本身的資本模式。這家公司出身對沖基金。在DeepSeek這個案例中,對沖基金對AI的投入(包括包裝與炒作)是可以看清的;但AI的產出和商業化現在還沒有發生,將會怎樣,還有待觀察。一旦演化成一個金融的故事,就會存在各種變數。從投資上,人們期待DeepSeek做實,而不要變成一個殼。
三、誰將取代DeepSeek:從一滴水看AI大海
作為專門研究人工智能的業內人士,還要跳出媒體與資本的喧囂,用平常心冷靜觀察DeepSeek,這樣看出的門道自然有所不同。
(一)冷思考之一:DeepSeek是彎道超車還是換道超車?
人工智能的權威專家鐘義信教授認為,DeepSeek還在傳統軌道的同一個賽道上,可以評價為“在同一個賽道上,DeepSeek以更優秀的技術超越了GPT o1”。
要看到在同一賽道彎道超車的局限。鐘義信指出,DeepSeek的技術(主要是算法效率)比GPT更優秀,但是,兩者的范式(科學觀和方法論)是一樣的。具體來說,兩者的科學觀都是把人工智能看作“人工腦”,兩者的方法論都遵循“唯形式化”和“分而治之”。然而,研究人工智能所需要的真正科學觀,是應該把人工智能看作“主體主導下的主體客體相互作用的信息生態過程”(即整體論)。
這是DeepSeek熱中的一種冷思考。鐘義信的觀點無異于認為,DeepSeek與其追趕的OpenAI是同類,都是美國計算主義同一賽道上的賽手,區別只是一個跑了50步,一個跑了100步。
這與一般業內人士的見解(包括馬斯克的見解)非常不一樣,業內都是看到了開放與封閉路線的區別,看到微軟收購OpenAI,使得OpenAI變成了一個忘記“初衷”的商業化工具。馬斯克的不滿很大程度也來自這里,而不是如特朗普認為的與“星際之門”計劃中的某人“有仇”。不過在這里,鐘義信進了一步,直指“初衷”本身存在的局限。
這涉及對人工智能本質的理解,屬于一個更深的問題。現有AI主流堅持物質學科范式(強調客體計算,缺主體價值判斷),這是其時代局限。這種局限在DeepSeek骨子里也有。未來取代它的,將是信息學科的范式,即強調客體與主體統一。從這個意義上說,下一步替代DeepSeek們的,將是克服主客二元論的AI新范式,由此開啟換道超車。在前沿上,這一趨勢的苗頭在生成式AI中(如新生成主義,neo-enactivism)隱約可見。本周作出DeepSeek同類成果的李飛飛,其實就在這條路上,她的野心肯定不止于DeepSeek。
(二)冷思考之二:知還是行?
著名人工智能專家蔡恒進對DeepSeek的成就有一個獨特的看法,認為DeepSeek對巨頭的沖擊的意義不只在于成本,而在于模式。
蔡恒進說:“OpenAI現在走的路,就是把算力集中起來,把參數推上去來實現AGI,這實際上是世界的前景就變成很中心化的AI系統,然后這個系統會需要大量的資源、能量,還有芯片算力的集中。”而DeepSeek的發展是分布式計算的方向,這比業界一般的“開放-封閉”視野多了一個“集中-分布”角度。
蔡恒進同樣主張主客一體的AI新范式,不滿意計算主義的AI路線,認為“我們有人類或者生命的參與、有主觀能動性”,要把這種主體性加入計算的客體性中。他具體提出了“認知坎陷說”,即一種加入布倫塔諾意向性的認知論。對于AI來說,“認知坎陷說”相當于一個“知難行易”模型。目前計算主義把重點放在前者(知難),體現為“AI的進步都是通過規模來實現的”“只有堆算力才是成功的”(李德毅院士稱為“暴力計算”)。他從理查德·薩頓(Richard S. Sutton)的The bitter lesson(可譯為“苦澀的教訓”)一文中,引出對通用算力的質疑。夸獎DeepSeek“實際上打破了這個結論”“已經偏離了那條路線了”,這是指DeepSeek不靠堆GPU而提高性能。蔡恒進主張的新方向,把重點放在后者(行易),相當于認為實踐是簡、認識是繁。計算主義重認知、輕實踐,形成對通用算力和暴力計算的迷信。如果把AI的重點從認識轉向實踐,知行合一,就可以化繁為簡。用他的話說,“并不是說規模越大越好,只是說在它那個場景里才能生成”。在走偏到客體方向的AI中加入主體因素的方法是,將算法從認識角度調整為實踐角度,變為場景的認知、具身的認知,“只是根據場景或需要進行一定程度的數字化”。這與李飛飛的具身AI思路有相通之處。為此,“追求用更小的數據庫、更少的語料、更小的系統來實現更高的智能,在我看來才是正確的方向”。人們在能行的時候,從不長篇大論,是因為有主體目標、意向在指引,將世界化繁為簡到自己的目的上。
蔡恒進看好DeepSeek深度學習的方向,尤其是“不用人干預地強化學習”,但是認為DeepSeek還可以進一步在可持續的自學習這個方向上改進。
(三)冷思考之三:向上與向下兩條曲線
胡延平作為業內資深專家,這輪也沒有跟著媒體跑,而是得出了獨立的判斷。他比較冷靜地分析了當前形勢,看出大模型的“兩條路線”是向上曲線與向下曲線不同取向的分別,認為DeepSeek走在向下曲線的道路上。他說:“大模型現在是兩條曲線交織的雙螺旋進化。向上走的曲線,追求整體感知理解行為能力的通用智能,拼的是整體理解意義上的腦能力、思考和監督思考、視覺在內的整體理解,空間智能等現實模型、物理等科學模型、多模態更不在話下。思維鏈、皮層計算、不同模型原理是當下前沿探索的核心。向下走的曲線提升數據質量、訓練意義上的量效比、算力能效比,大幅降低推理成本。DeepSeek在這個雙螺旋里向下有余向上不足。[3]”
胡延平說:“向下曲線對成本效率有改變,但對捧得AGI圣杯的貢獻可以忽略[4]。”他認為,DeepSeek沒有展現分毫對未來的思考和探索,實質上依然處在追趕階段。DeepSeek不僅屬于古典LLM(大語言模型,Large Language Model)范疇,呈現的其實還是“性價比”。
在胡延平看來,DeepSeek主要是對于合成數據、知識蒸餾、FP8低精度(FT8為一種8位浮點數格式)、稀疏模型、MoE,甚至包括多頭注意力機制等“已有已知技術”進行組合,“在資源和性能之間調優,取得最佳平衡,這是DeepSeek-V3的成功之處”。當然,對于什么才是值得追求的“AGI圣杯”,仁者見仁,智者見智。
(四)不冷不熱地思考:高性能計算路線上的兩種走法
我認為把DeepSeek當作一個事件看,代表的是高性能計算思潮的崛起,從中既反映出DeepSeek的成就所在,也自然顯示出其不足。
高性能計算是與美國相反的計算路線,在中國形成已有近20年歷史。早在上個世紀,國家863計劃就開始實施“國家高性能計算環境”項目。美國計算主義的路線無以為名,可稱為高速度計算。高速度與高性能的不同,反映技術與技術經濟的區別。技術不受資源(如GPU)制約時,越快就越好,主要靠上規模、堆硬件實現;技術經濟在資源約束(從擔心系統、芯片“卡脖子”到強調應用)下,強調性價比,一個突出特征是強調成本。打個形象的比方,同為轎車,美國車設計不太考慮省油,是因為石油資源不受限制;而日本車設計主要考慮省油,是因為擔心石油哪天被斷供。AI也是如此。
高性能計算路線在中國有兩種走法,一種是彎道超車,另一種是換道超車。DeepSeek代表的是彎道超車的一支,如專家判斷的,是在美式路線的既定賽道內,通過強化成本控制,提供高性價比的算力。走這條路,時間在前。DeepSeek只是第一個冒頭的,最近五年會是不斷開花結果之時。
DeepSeek的出現不是偶然的。梁文鋒說取得成就是“站在巨人肩膀上”,國內外都誤以為巨人是指巨頭、大廠,其實不盡然。這個巨人應該說主要是中國科研院校,特別是北大、北郵和清華三校。DeepSeek的140人團隊,大多是這三校的應屆畢業生。如果沒有導師這個群體,以及國家高性能計算環境的近20年打造,梁文鋒到哪兒去找那么多博士論文成果,連人帶論文都拿來,而且拿來就可以用,用了就可以超過美國巨頭。舉例來說,DeepSeek的一個竅門是重視模型算法和硬件工程的配合,其中的技術就由這些學生以DeepSeek-AI的名義發表在論文Fire-Flyer AI-HPC: A cost-effective software-hardware co-design for deep learning中。其中的HPC,就是高性能計算high performance computing的縮寫。美國巨頭現在總覺得自己才是“巨人”,從DeepSeek這個雞蛋里挑有沒有自己的骨頭(研究成果)。這些應屆生是站在HPC這個巨人肩膀上成長起來的。其實巨頭們找一下DeepSeek中全部應屆畢業生的畢業論文,就知道技術是哪里來的了。
舉例來說,要想了解DeepSeek中不常見的3D生成技術是從哪兒來的,到清華大學檢索一下,可得知是清華博士生孫景翔在DeepSeek實習期間,與導師劉燁斌等共同完成的。諸如此類,不勝枚舉。
高性能計算路線的第二種走法,目前還潛伏在冰山下的大海中,這種走法的特征是換道超車。所謂換道,就是指與美國主流計算主義分道揚鑣的路線。最大的不同,在于范式。追的時候是同范式的,超的時候用的是不同范式。范式的不同,涉及的主要是對“科學是什么”的理解有了根本性的分歧。其中的思路,從國家數據空間發展戰略中可以看到,目前國家數據空間發展戰略正處在二期工程階段。開花結果,還需要多年以后。應該說,DeepSeek作為中國應屆畢業生群體的代表作,還沒有進入這個主力賽道。
DeepSeek包括馬上涌現的大批同行者,作為高性質計算這個大的中國思潮的一部分,只看到LLM成本問題的表層,即與AI物質科學范式有關的那一方面。當然解決了這方面的問題,成就也堪稱偉大。但是,再過幾年,美國人就會領教中國主力軍團的出擊,看到冰山一角下龐大的水下部分。那將是一場范式革命,是從目前的客體范式向未來的主客體統一范式轉變的偉大長征。我們可以從上面介紹的鐘義信、蔡恒進的思想中,從外圍體會到其中的潮流上的思路。美國最前衛的科學家也有類似想法,但不成氣候。而在中國,這不是一個人兩個人的思想,而是代表整個群體走向共識的技術覺醒。
參考文獻:
[1]Sheehan M,Singer S.What DeepSeek Revealed About the Future of U.S.-China Competition[EB/OL].(2025-02-03)[2025-02-06].https://foreignpolicy.com/2025/02/03/deepseek-china-ai-artificial-intelligence-united-states-tech-competition/?tpcc=recirc_latest062921.
[2]AI范兒.Yann LeCun:DeepSeek的成功得益于Llama[EB/OL].(2025-01-25)[2025-02-06].https://www.163.com/dy/article/JMO6QTVT0556703U.html.
[3]胡延平.為什么DeepSeek-V3的火爆不宜過高評價?[EB/OL].(2025-01-02)[2025-02-06].https://baijiahao.baidu.com/s?id=1820130380860453806amp;wfr=spideramp;for=pc.
[4]胡延平.2025智能世界50震撼預測!AI海嘯來襲,5維度看清AGI與潛在可能[EB/OL].(2025-01-03)[2025-02-06].https://baijiahao.baidu.com/s?id=1820237939915883742amp;wfr=spideramp;for=pc.