從OpenAI到DeepSeek，全世界都來賽

2025-02-25 00:00:00陳冰

新民周刊 2025年6期

當(dāng)人們回憶起2025年春節(jié)的時候，一定不會忘記兩件事：橫空出世的DeepSeek與不斷刷新全球影史票房紀(jì)錄的動畫電影《哪吒之魔童鬧海》。這本來是風(fēng)馬牛不相及的兩件事，但卻罕見地引發(fā)全球關(guān)注，至今熱度不減。

這是中國制造再一次帶給全球的震撼。從1月20日，國內(nèi)的AI初創(chuàng)公司深度求索推出了大模型DeepSeek R1，以“低成本、高性能”震撼了整個AI界。在之后相當(dāng)長的一段時間內(nèi)，全世界“滿城盡帶DeepSeek”，DeepSeek登頂全球140個國家應(yīng)用商店下載榜，引發(fā)全球AI生態(tài)的巨大改變。全球科技公司包括英偉達(dá)、微軟、亞馬遜、華為、騰訊等迅速推出基于DeepSeek的相關(guān)產(chǎn)品服務(wù)，OpenAI、百度紛紛改弦易轍，宣布免費(fèi)、開源。

自1月29日正式上映以來，動畫電影《哪吒之魔童鬧海》已創(chuàng)造多項紀(jì)錄：2月6日登頂我國影史票房榜，2月7日登頂全球影史單一市場票房榜……如今，影片票房勢如破竹突破百億元，并在全球展開熱映，意味著它在全球影史票房榜上挺進(jìn)前十，且排名將進(jìn)一步提升。

DeepSeek以挑戰(zhàn)者的姿態(tài)，一舉打破了以O(shè)penAI為代表的閉源大模型壟斷局面，讓AI技術(shù)普惠大眾。

DeepSeek的創(chuàng)始人梁文鋒和《哪吒之魔童鬧海》的導(dǎo)演餃子帶領(lǐng)團(tuán)隊，以“我命由我不由天”的反叛精神和純粹極致的本土原創(chuàng)，形成了足以載入史冊的重大突破。特別是DeepSeek，以開源模型和長上下文窗口技術(shù)，突破傳統(tǒng)AI研發(fā)范式，使得推理成本僅為同類產(chǎn)品的幾十分之一，卻實現(xiàn)了與OpenAI最新模型相近的性能，大幅降低AI應(yīng)用門檻，加速技術(shù)普惠化，使得更多開源模型能夠“站在巨人的肩膀上”加速迭代。

一款A(yù)I產(chǎn)品和一部動畫電影，皆以“叛逆者”的姿態(tài)，挑戰(zhàn)既有規(guī)則，彰顯了“不妥協(xié)”的韌性。看似分屬不同領(lǐng)域，卻在精神內(nèi)核、時代意義與產(chǎn)業(yè)影響上形成共振，成為解碼中國創(chuàng)新力量的密鑰。它們的爆火，本質(zhì)上正是科技與文藝興盛的“一體兩面”，它們以反叛精神突破桎梏，以本土智慧定義標(biāo)準(zhǔn)，以協(xié)同創(chuàng)新開辟新路徑，讓中國從“文化被解釋者”向“規(guī)則定義者”轉(zhuǎn)型，最終在全球化浪潮中刻畫出嶄新的“中國臉譜”，書寫出新時代的中國故事！

DeepSeek的三大殺手锏

由于DeepSeek的出圈太過驚艷，大家形容它是“橫空出世”。其實，DeepSeek的崛起并非突如其來。在此之前的一年多時間里，DeepSeek已經(jīng)陸續(xù)推出了數(shù)個大模型。

2024年1月5日，DeepSeek發(fā)布了首個大模型DeepSeek LLM，邁出了在大模型領(lǐng)域的重要一步。同年5月，其宣布開源第二代模型 DeepSeek-V2，憑借出色的性能和極具優(yōu)勢的價格，被眾人稱為 “AI界拼多多”。不過在當(dāng)時，中國的大模型行業(yè)正處于“百模大戰(zhàn)”的混戰(zhàn)之中，大廠們呼風(fēng)喚雨，出盡風(fēng)頭，并沒有太多人注意到這家從量化基金行業(yè)“跨界”而來的“小公司”。

2024年9月5日，DeepSeek升級推出新模型DeepSeek V2.5。同年12月13日，發(fā)布用于高級多模態(tài)理解的專家混合視覺語言模型——DeepSeek-VL2。12月26日晚，正式上線全新模型DeepSeek-V3首個版本，并同步開源。DeepSeek在技術(shù)報告中透露其訓(xùn)練成本（不包括前期研發(fā)成本）僅為 558萬美元，遠(yuǎn)遠(yuǎn)低于 OpenAI 用于訓(xùn)練 GPT-4o 所用的1億多美元，只用了 2048 張 H100 的 GPU 集群，再疊加其出色的性能，開始引起全球同行的熱議，影響力開始逐步擴(kuò)大、發(fā)酵。

但是，這次DeepSeek的正式大規(guī)模“出圈”，則是源自于在2025年1月20日發(fā)布的 DeekSeek-R1 推理大模型。該模型以更加出色的邏輯推理能力，達(dá)到了接近甚至超過 OpenAI 最新產(chǎn)品 o1 的能力。這一消息瞬間在全球范圍內(nèi)激起千層浪，硅谷的科技媒體開始將其稱為新時代的 “斯普特尼克時刻”（1957年10月4日，蘇聯(lián)成功發(fā)射世界上第一顆人造衛(wèi)星“斯普特尼克1號”后，引發(fā)美國及西方世界在科技和軍事領(lǐng)域感受到的巨大危機(jī)感與緊迫感的時刻）。

那么，DeepSeek到底厲害在哪？主要得益于三大突出優(yōu)勢：開源、性能、成本。

清華大學(xué)博士、浙江大學(xué)金融學(xué)系校外導(dǎo)師崔偉指出，跟作為業(yè)界性能標(biāo)桿的OpenAI、ChatGPT 和 Antroupic Claude 相比，DeepSeek-R1 的最大區(qū)別在于開源。

所謂“開源”，是一種相對于閉源的軟件產(chǎn)品發(fā)布方式，即把自己的產(chǎn)品代碼通過 Github 等平臺全部公開。過去的開源模型總體性能欠佳，而DeepSeek改變了這一點(diǎn)，讓全世界的用戶、開發(fā)者和科研機(jī)構(gòu)，以極低的技術(shù)門檻，享受到以接近甚至超過閉源的效果。這一舉措徹底打破了以往大型語言模型被少數(shù)公司壟斷的局面，真正將AI技術(shù)的力量交到了廣大開發(fā)者和研究人員的手中，極大地推動了AI技術(shù)的創(chuàng)新。AI界的領(lǐng)軍人物之一、Meta 公司首席 AI 科學(xué)家、圖靈獎得主楊立昆在社交媒體上評論說：不是中國超越了美國，而是開源模式正在超越閉源。

上海市人工智能行業(yè)協(xié)會秘書長鐘俊浩指出，DeepSeek 的團(tuán)隊來自量化交易領(lǐng)域，擅長通過算法優(yōu)化實現(xiàn)“低資源高回報”。他們從一開始就目標(biāo)明確地將這種量化基因巧妙地運(yùn)用到了AI開發(fā)中，使 DeepSeek 在模型訓(xùn)練和優(yōu)化方面獨(dú)具特色，實際性能對標(biāo)GPT-o1，有些能力甚至超過o1。

崔偉進(jìn)一步指出，DeepSeek 在技術(shù)上有許多創(chuàng)新。比如說全球首個全開源的混合專家模型（MoE）。這種模型在遇到用戶提出的問題時，先拆解、分類，再由相應(yīng)領(lǐng)域的專家來解答，各司其職，而不需要所有專家集體會診，從而極大降低計算量。

通過知識蒸餾的方式，將大模型的高級能力有效地轉(zhuǎn)移到更小的模型中，不用堆參數(shù)、卷算力，小公司也有了入局參與 AI 競爭的可能。

DeepSeek 采用的是純強(qiáng)化學(xué)習(xí)，而不是 GPT 所采用的“人類反饋強(qiáng)化學(xué)習(xí)”。它純粹讓模型在獎勵指引下自我演化，也就是說，完全不需要人類參與。簡單來說，你可以把它想象成老師出題，每道題讓模型同時回答多次，然后用上面的獎懲規(guī)則給每個答案打分，根據(jù)追求高分、避免低分的邏輯更新模型。在完全沒有人工標(biāo)注數(shù)據(jù)的情況下，模型展現(xiàn)出了持續(xù)的自我進(jìn)化能力，出現(xiàn)了所謂的“頓悟時刻”（Aha moment）。

“這一點(diǎn)其實是非常重要的突破。過去限制大模型發(fā)展、升級的一個重要瓶頸，就是需要人類的參與，包括數(shù)據(jù)標(biāo)注和獎勵，現(xiàn)在 DeepSeek 擺脫了這個‘鐐銬’，讓大模型可以通過自我推理持續(xù)進(jìn)化，那么剩下的就完全是機(jī)器效率問題了。這就仿佛是，從過去彎彎曲曲的羊腸小道，走上了一馬平川的高速公路。”崔偉說。

DeepSeek 在 R1 技術(shù)報告中，專門介紹了自己在蒸餾方面的成果，標(biāo)題為《小模型也可以干大事》，即用 R1 模型生成的數(shù)據(jù)，對業(yè)界一些主流的開源模型進(jìn)行調(diào)優(yōu)，獲得體積較小的模型。通過知識蒸餾的方式，將大模型的高級能力有效地轉(zhuǎn)移到更小的模型中，不用堆參數(shù)、卷算力，小公司也有了入局參與 AI 競爭的可能。

DeepSeek 還有一個大殺器——成本低廉。從參數(shù)上看，R1是一個比較小的大模型，總共有6710億個參數(shù)，而且一次推理調(diào)用的參數(shù)只有370億個。與之相對應(yīng)的是，GPT-4的參數(shù)有1.76萬億個。調(diào)用數(shù)據(jù)量變小，計算變少，一個最直接的結(jié)果就是成本下降。

鐘俊浩說，外界盛傳DeepSeek的成本只有不到幾百萬美元，這是不準(zhǔn)確的。確切地說這只是模型的預(yù)訓(xùn)練成本。早在2021年，梁文鋒所在的幻方量化就意識到AI在金融之外的潛力，所以花費(fèi)巨資購買了GPU計算卡，再加上搭配服務(wù)器等各類系統(tǒng)以及運(yùn)營成本等，研究機(jī)構(gòu)SemiAnalysis出具的報告估算大約在26億美元。當(dāng)然，這些硬件還將繼續(xù)使用，不能全算在R1這個模型身上。“這是一家公司持續(xù)幾年的大規(guī)模投入，一群富有極客精神的頂尖人才持續(xù)研發(fā)的結(jié)果。”

但即便是這樣，R1模型600萬美元的訓(xùn)練成本，也已經(jīng)比市面上的同類模型低了一個數(shù)量級。比如，Meta去年7月發(fā)布的Llama 3.1大模型，訓(xùn)練費(fèi)用是6000萬美元，這在當(dāng)年已經(jīng)算是很便宜的大模型了，但它的訓(xùn)練成本依然是R1的10倍。

拋開商業(yè)化應(yīng)用，對于普通人來說，DeepSeek-R1 在對話中可以方便地啟動“深度思考”功能，用戶既可以看到它的思考過程，又能夠獲得更加全面、深入的對話結(jié)果，畢竟之前沒有任何一款大語言模型，讓你看到 AI 是如何思考的。就是這一點(diǎn)，讓 DeepSeek R1 看起來像真正的 AI。再對比記者自己使用豆包和kimi等其他大模型時，感覺它們的大多數(shù)回答就像整理搜索引擎的結(jié)果一樣無趣，撰寫的文章也大多是非常程式化的車轱轆話，完全沒有體現(xiàn)出智能性，甚至還一本正經(jīng)地造了很多子虛烏有的人物和事件出來，讓記者不得不花費(fèi)大量時間去核實真?zhèn)巍．?dāng)然，DeepSeek 也被爆出造假，但它仍然是目前市面上我們能夠用到的最好使的免費(fèi)AI。

AI 將帶來新一代的技術(shù)革命，科技將以指數(shù)級增長，從算力到算法，AI 不再是線性的累加，而是幾何級的爆發(fā)。現(xiàn)在的AI已經(jīng)越過了1.0聊天機(jī)器人時代、2.0推理時代，來到了3.0智能體時代。

三重沖擊波

在AI這場全球科技競爭中，中美兩國無疑處于最為聚光的舞臺中心。隨著 ChatGPT、Sora 等AI產(chǎn)品的火爆，美國一度在全球人工智能的發(fā)展方面遙遙領(lǐng)先。但隨著DeepSeek的橫空出世，一場關(guān)乎全球技術(shù)、市場、政治領(lǐng)域的三重沖擊波被引爆。

在全球AI競賽陷入算力軍備競賽的背景下，DeepSeek 通過“技術(shù)瘦身+開源共享”的創(chuàng)新，開辟出高性價比的突圍路徑。這是一條區(qū)別于OpenAI等封閉式AI公司的發(fā)展路徑。與依賴私有數(shù)據(jù)和算力壟斷的傳統(tǒng)路線不同，DeepSeek選擇將大模型技術(shù)開源，允許全球開發(fā)者自由使用、改進(jìn)和部署其模型。這一策略不僅繼承了Transformer架構(gòu)的技術(shù)紅利，更充分激活了開源社區(qū)的力量——正如GitHub上超2萬次代碼提交所展現(xiàn)的，全球開發(fā)者的集體智慧正在取代傳統(tǒng)實驗室，成為算法優(yōu)化和系統(tǒng)迭代的新引擎。

正如Scale AI創(chuàng)始人亞歷山大·王（Alexander Wang）在社交平臺所言：這標(biāo)志著全球AI競賽進(jìn)入效率革命新紀(jì)元。這種低成本替代高投入的創(chuàng)新范式，使得美國精心構(gòu)筑的技術(shù)壁壘遭遇雙重瓦解：既無法徹底阻斷硬件流通，更難以遏制算法層面的效率躍升。

實際上，自2022年起拜登政府對我國實施史上最嚴(yán)芯片禁令以來，美國不僅禁止英偉達(dá)A100/H100等高端GPU對華出口，更將中國AI公司列入實體清單，試圖通過精準(zhǔn)打擊遏制中國人工智能發(fā)展。然而這場科技圍堵卻意外觸發(fā)反向創(chuàng)新——中國企業(yè)被迫從堆算力轉(zhuǎn)向摳效率。DeepSeek以低成本復(fù)現(xiàn)最先進(jìn)模型，以開源對抗閉源，以算法優(yōu)化對抗算力限制的“三板斧”，僅需中端GPU集群即可運(yùn)行頂級模型的新范式，引發(fā)美國科技界對行業(yè)戰(zhàn)略方向的重新審視。

中美兩國在大模型的發(fā)展上，從一開始就采取了不同的策略。在“政策護(hù)航+資源整合”的模式下，使得中國在短期內(nèi)實現(xiàn)了大模型數(shù)量的爆發(fā)式增長。截至2025年，國內(nèi)10億級以上參數(shù)大模型超過80個，并在醫(yī)療、教育等垂直領(lǐng)域形成比較優(yōu)勢。相比之下，美國更多依賴市場機(jī)制與資本活力來驅(qū)動創(chuàng)新，并且因為在算法創(chuàng)新與算力基礎(chǔ)設(shè)施上占據(jù)優(yōu)勢，而在技術(shù)生態(tài)中占據(jù)主導(dǎo)權(quán)。中國大模型則聚焦“技術(shù)實用主義”，注重場景適配，在應(yīng)用研究和技術(shù)落地方面表現(xiàn)突出。

短期內(nèi)，美國仍將主導(dǎo)基礎(chǔ)技術(shù)創(chuàng)新，而中國憑借應(yīng)用場景與數(shù)據(jù)資源，有望在垂直領(lǐng)域?qū)崿F(xiàn)“彎道超車”。雙方在數(shù)據(jù)、算力和算法上的博弈，將更加激烈。長期看，中美兩國的競爭將推動全球AI生態(tài)向“雙極化”演進(jìn)：美國聚焦通用智能與基礎(chǔ)研究，中國深耕行業(yè)賦能與本土化創(chuàng)新。

全球創(chuàng)新加速

沒有國家愿意在這場新的競賽中被拋棄。2月11日歐盟委員會主席馮德萊恩在巴黎人工智能行動峰會上發(fā)言聲稱，不認(rèn)為歐洲在AI競賽中失敗，并宣布將籌資2000億歐元，放松對AI技術(shù)開發(fā)的監(jiān)管，助力歐洲AI行業(yè)發(fā)展，追趕全球AI發(fā)展的步伐。法國總統(tǒng)馬克龍則表示，法國將在人工智能領(lǐng)域投入超過千億歐元，以避免在競爭中處于劣勢。

2025年2月1日，奧爾特曼首次承認(rèn)在開源上 OpenAI站在了歷史錯誤的一方。3日，他與軟銀集團(tuán)首席執(zhí)行官孫正義一起參加了一場有500多家日本公司參與的聚會。

事實上，隨著DeepSeek的快速崛起，全球不少先進(jìn)的科技公司紛紛開始改變公司策略。 OpenAI和百度作為閉源模型最堅定的踐行者，相繼宣布開源。2月13日，薩姆·奧爾特曼宣布GPT-5將向免費(fèi)用戶開放基礎(chǔ)功能，同時將o3模型融入GPT-5體系。同一天，百度宣布文心一言4月1日起全面免費(fèi)，6月30日起開源4.5系列模型。

2025年2月11日，法國總統(tǒng)馬克龍在巴黎人工智能峰會上發(fā)表講話，表示法國將在人工智能領(lǐng)域投入超過千億歐元。

一天之后，騰訊微信搜一搜被曝正灰度測試接入DeepSeek。被灰度到的用戶，可免費(fèi)使用DeepSeek-R1滿血版模型。緊接著，百度搜索和文心智能體宣布全面接入DeepSeek。日新月異的AI正在以迅雷不及掩耳之勢全面進(jìn)入各行各業(yè)。全國多地宣布已將DeepSeek應(yīng)用于政務(wù)系統(tǒng)。深圳迅速上線了70名“AI公務(wù)員”，覆蓋公文處理、民生服務(wù)、應(yīng)急管理、招商引資等多元場景。個性化定制生成時間從5天壓縮至分鐘級。公文格式修正準(zhǔn)確率超95%，審核時間縮短90%，錯誤率控制在5%以內(nèi)……

站在馬斯克背后的女人、方舟基金創(chuàng)始人木頭姐（Cathy Wood）近日發(fā)布了一份信息含量巨大的科技報告，她說，AI 將帶來新一代的技術(shù)革命，科技將以指數(shù)級增長，從算力到算法，AI 不再是線性的累加，而是幾何級的爆發(fā)。一個由AI 驅(qū)動的超級加速器時代正在撲面而來。人工智能體（AI Agent）是能夠理解人類意圖、自主推理、迭代學(xué)習(xí)和完成復(fù)雜任務(wù)的AI系統(tǒng)。現(xiàn)在的AI已經(jīng)越過了1.0聊天機(jī)器人時代、2.0推理時代，來到了3.0智能體時代。

正如網(wǎng)友所說：“技術(shù)不該是少數(shù)人的水晶塔，而是普羅大眾的風(fēng)火輪。”DeepSeek 為世界各地的小型人工智能公司帶來了新的希望，這些公司曾將自己排除在競爭之外。如今，DeepSeek 證明，你可能只需要幾千萬美元（而不是幾千億美元）即可跟上AI前沿的步伐，所有國家都可以成為人工智能的一部分。現(xiàn)在，全世界都開始追趕。