當(dāng)人們回憶起2025年春節(jié)的時候,一定不會忘記兩件事:橫空出世的DeepSeek與不斷刷新全球影史票房紀(jì)錄的動畫電影《哪吒之魔童鬧海》。這本來是風(fēng)馬牛不相及的兩件事,但卻罕見地引發(fā)全球關(guān)注,至今熱度不減。
這是中國制造再一次帶給全球的震撼。從1月20日,國內(nèi)的AI初創(chuàng)公司深度求索推出了大模型DeepSeek R1,以“低成本、高性能”震撼了整個AI界。在之后相當(dāng)長的一段時間內(nèi),全世界“滿城盡帶DeepSeek”,DeepSeek登頂全球140個國家應(yīng)用商店下載榜,引發(fā)全球AI生態(tài)的巨大改變。全球科技公司包括英偉達(dá)、微軟、亞馬遜、華為、騰訊等迅速推出基于DeepSeek的相關(guān)產(chǎn)品服務(wù),OpenAI、百度紛紛改弦易轍,宣布免費(fèi)、開源。
自1月29日正式上映以來,動畫電影《哪吒之魔童鬧海》已創(chuàng)造多項紀(jì)錄:2月6日登頂我國影史票房榜,2月7日登頂全球影史單一市場票房榜……如今,影片票房勢如破竹突破百億元,并在全球展開熱映,意味著它在全球影史票房榜上挺進(jìn)前十,且排名將進(jìn)一步提升。

DeepSeek的創(chuàng)始人梁文鋒和《哪吒之魔童鬧海》的導(dǎo)演餃子帶領(lǐng)團(tuán)隊,以“我命由我不由天”的反叛精神和純粹極致的本土原創(chuàng),形成了足以載入史冊的重大突破。特別是DeepSeek,以開源模型和長上下文窗口技術(shù),突破傳統(tǒng)AI研發(fā)范式,使得推理成本僅為同類產(chǎn)品的幾十分之一,卻實現(xiàn)了與OpenAI最新模型相近的性能,大幅降低AI應(yīng)用門檻,加速技術(shù)普惠化,使得更多開源模型能夠“站在巨人的肩膀上”加速迭代。
一款A(yù)I產(chǎn)品和一部動畫電影,皆以“叛逆者”的姿態(tài),挑戰(zhàn)既有規(guī)則,彰顯了“不妥協(xié)”的韌性。看似分屬不同領(lǐng)域,卻在精神內(nèi)核、時代意義與產(chǎn)業(yè)影響上形成共振,成為解碼中國創(chuàng)新力量的密鑰。它們的爆火,本質(zhì)上正是科技與文藝興盛的“一體兩面”,它們以反叛精神突破桎梏,以本土智慧定義標(biāo)準(zhǔn),以協(xié)同創(chuàng)新開辟新路徑,讓中國從“文化被解釋者”向“規(guī)則定義者”轉(zhuǎn)型,最終在全球化浪潮中刻畫出嶄新的“中國臉譜”,書寫出新時代的中國故事!
由于DeepSeek的出圈太過驚艷,大家形容它是“橫空出世”。其實,DeepSeek的崛起并非突如其來。在此之前的一年多時間里,DeepSeek已經(jīng)陸續(xù)推出了數(shù)個大模型。
2024年1月5日,DeepSeek發(fā)布了首個大模型DeepSeek LLM,邁出了在大模型領(lǐng)域的重要一步。同年5月,其宣布開源第二代模型 DeepSeek-V2,憑借出色的性能和極具優(yōu)勢的價格,被眾人稱為 “AI界拼多多”。不過在當(dāng)時,中國的大模型行業(yè)正處于“百模大戰(zhàn)”的混戰(zhàn)之中,大廠們呼風(fēng)喚雨,出盡風(fēng)頭,并沒有太多人注意到這家從量化基金行業(yè)“跨界”而來的“小公司”。
2024年9月5日,DeepSeek升級推出新模型DeepSeek V2.5。同年12月13日,發(fā)布用于高級多模態(tài)理解的專家混合視覺語言模型——DeepSeek-VL2。12月26日晚,正式上線全新模型DeepSeek-V3首個版本,并同步開源。DeepSeek在技術(shù)報告中透露其訓(xùn)練成本(不包括前期研發(fā)成本)僅為 558萬美元,遠(yuǎn)遠(yuǎn)低于 OpenAI 用于訓(xùn)練 GPT-4o 所用的1億多美元,只用了 2048 張 H100 的 GPU 集群,再疊加其出色的性能,開始引起全球同行的熱議,影響力開始逐步擴(kuò)大、發(fā)酵。
但是,這次DeepSeek的正式大規(guī)模“出圈”,則是源自于在2025年1月20日發(fā)布的 DeekSeek-R1 推理大模型。該模型以更加出色的邏輯推理能力,達(dá)到了接近甚至超過 OpenAI 最新產(chǎn)品 o1 的能力。這一消息瞬間在全球范圍內(nèi)激起千層浪,硅谷的科技媒體開始將其稱為新時代的 “斯普特尼克時刻”(1957年10月4日,蘇聯(lián)成功發(fā)射世界上第一顆人造衛(wèi)星“斯普特尼克1號”后,引發(fā)美國及西方世界在科技和軍事領(lǐng)域感受到的巨大危機(jī)感與緊迫感的時刻)。
那么,DeepSeek到底厲害在哪?主要得益于三大突出優(yōu)勢:開源、性能、成本。
清華大學(xué)博士、浙江大學(xué)金融學(xué)系校外導(dǎo)師崔偉指出,跟作為業(yè)界性能標(biāo)桿的OpenAI、ChatGPT 和 Antroupic Claude 相比,DeepSeek-R1 的最大區(qū)別在于開源。
所謂“開源”,是一種相對于閉源的軟件產(chǎn)品發(fā)布方式,即把自己的產(chǎn)品代碼通過 Github 等平臺全部公開。過去的開源模型總體性能欠佳,而DeepSeek改變了這一點(diǎn),讓全世界的用戶、開發(fā)者和科研機(jī)構(gòu),以極低的技術(shù)門檻,享受到以接近甚至超過閉源的效果。這一舉措徹底打破了以往大型語言模型被少數(shù)公司壟斷的局面,真正將AI技術(shù)的力量交到了廣大開發(fā)者和研究人員的手中,極大地推動了AI技術(shù)的創(chuàng)新。AI界的領(lǐng)軍人物之一、Meta 公司首席 AI 科學(xué)家、圖靈獎得主楊立昆在社交媒體上評論說:不是中國超越了美國,而是開源模式正在超越閉源。
上海市人工智能行業(yè)協(xié)會秘書長鐘俊浩指出,DeepSeek 的團(tuán)隊來自量化交易領(lǐng)域,擅長通過算法優(yōu)化實現(xiàn)“低資源高回報”。他們從一開始就目標(biāo)明確地將這種量化基因巧妙地運(yùn)用到了AI開發(fā)中,使 DeepSeek 在模型訓(xùn)練和優(yōu)化方面獨(dú)具特色,實際性能對標(biāo)GPT-o1,有些能力甚至超過o1。
崔偉進(jìn)一步指出,DeepSeek 在技術(shù)上有許多創(chuàng)新。比如說全球首個全開源的混合專家模型(MoE)。這種模型在遇到用戶提出的問題時,先拆解、分類,再由相應(yīng)領(lǐng)域的專家來解答,各司其職,而不需要所有專家集體會診,從而極大降低計算量。

通過知識蒸餾的方式,將大模型的高級能力有效地轉(zhuǎn)移到更小的模型中,不用堆參數(shù)、卷算力,小公司也有了入局參與 AI 競爭的可能。
DeepSeek 采用的是純強(qiáng)化學(xué)習(xí),而不是 GPT 所采用的“人類反饋強(qiáng)化學(xué)習(xí)”。它純粹讓模型在獎勵指引下自我演化,也就是說,完全不需要人類參與。簡單來說,你可以把它想象成老師出題,每道題讓模型同時回答多次,然后用上面的獎懲規(guī)則給每個答案打分,根據(jù)追求高分、避免低分的邏輯更新模型。在完全沒有人工標(biāo)注數(shù)據(jù)的情況下,模型展現(xiàn)出了持續(xù)的自我進(jìn)化能力,出現(xiàn)了所謂的“頓悟時刻”(Aha moment)。
“這一點(diǎn)其實是非常重要的突破。過去限制大模型發(fā)展、升級的一個重要瓶頸,就是需要人類的參與,包括數(shù)據(jù)標(biāo)注和獎勵,現(xiàn)在 DeepSeek 擺脫了這個‘鐐銬’,讓大模型可以通過自我推理持續(xù)進(jìn)化,那么剩下的就完全是機(jī)器效率問題了。這就仿佛是,從過去彎彎曲曲的羊腸小道,走上了一馬平川的高速公路。”崔偉說。
DeepSeek 在 R1 技術(shù)報告中,專門介紹了自己在蒸餾方面的成果,標(biāo)題為《小模型也可以干大事》,即用 R1 模型生成的數(shù)據(jù),對業(yè)界一些主流的開源模型進(jìn)行調(diào)優(yōu),獲得體積較小的模型。通過知識蒸餾的方式,將大模型的高級能力有效地轉(zhuǎn)移到更小的模型中,不用堆參數(shù)、卷算力,小公司也有了入局參與 AI 競爭的可能。
DeepSeek 還有一個大殺器——成本低廉。從參數(shù)上看,R1是一個比較小的大模型,總共有6710億個參數(shù),而且一次推理調(diào)用的參數(shù)只有370億個。與之相對應(yīng)的是,GPT-4的參數(shù)有1.76萬億個。調(diào)用數(shù)據(jù)量變小,計算變少,一個最直接的結(jié)果就是成本下降。
鐘俊浩說,外界盛傳DeepSeek的成本只有不到幾百萬美元,這是不準(zhǔn)確的。確切地說這只是模型的預(yù)訓(xùn)練成本。早在2021年,梁文鋒所在的幻方量化就意識到AI在金融之外的潛力,所以花費(fèi)巨資購買了GPU計算卡,再加上搭配服務(wù)器等各類系統(tǒng)以及運(yùn)營成本等,研究機(jī)構(gòu)SemiAnalysis出具的報告估算大約在26億美元。當(dāng)然,這些硬件還將繼續(xù)使用,不能全算在R1這個模型身上。“這是一家公司持續(xù)幾年的大規(guī)模投入,一群富有極客精神的頂尖人才持續(xù)研發(fā)的結(jié)果。”
但即便是這樣,R1模型600萬美元的訓(xùn)練成本,也已經(jīng)比市面上的同類模型低了一個數(shù)量級。比如,Meta去年7月發(fā)布的Llama 3.1大模型,訓(xùn)練費(fèi)用是6000萬美元,這在當(dāng)年已經(jīng)算是很便宜的大模型了,但它的訓(xùn)練成本依然是R1的10倍。
拋開商業(yè)化應(yīng)用,對于普通人來說,DeepSeek-R1 在對話中可以方便地啟動“深度思考”功能,用戶既可以看到它的思考過程,又能夠獲得更加全面、深入的對話結(jié)果,畢竟之前沒有任何一款大語言模型,讓你看到 AI 是如何思考的。就是這一點(diǎn),讓 DeepSeek R1 看起來像真正的 AI。再對比記者自己使用豆包和kimi等其他大模型時,感覺它們的大多數(shù)回答就像整理搜索引擎的結(jié)果一樣無趣,撰寫的文章也大多是非常程式化的車轱轆話,完全沒有體現(xiàn)出智能性,甚至還一本正經(jīng)地造了很多子虛烏有的人物和事件出來,讓記者不得不花費(fèi)大量時間去核實真?zhèn)巍.?dāng)然,DeepSeek 也被爆出造假,但它仍然是目前市面上我們能夠用到的最好使的免費(fèi)AI。
AI 將帶來新一代的技術(shù)革命,科技將以指數(shù)級增長,從算力到算法,AI 不再是線性的累加,而是幾何級的爆發(fā)。現(xiàn)在的AI已經(jīng)越過了1.0聊天機(jī)器人時代、2.0推理時代,來到了3.0智能體時代。
在AI這場全球科技競爭中,中美兩國無疑處于最為聚光的舞臺中心。隨著 ChatGPT、Sora 等AI產(chǎn)品的火爆,美國一度在全球人工智能的發(fā)展方面遙遙領(lǐng)先。但隨著DeepSeek的橫空出世,一場關(guān)乎全球技術(shù)、市場、政治領(lǐng)域的三重沖擊波被引爆。
在全球AI競賽陷入算力軍備競賽的背景下,DeepSeek 通過“技術(shù)瘦身+開源共享”的創(chuàng)新,開辟出高性價比的突圍路徑。這是一條區(qū)別于OpenAI等封閉式AI公司的發(fā)展路徑。與依賴私有數(shù)據(jù)和算力壟斷的傳統(tǒng)路線不同,DeepSeek選擇將大模型技術(shù)開源,允許全球開發(fā)者自由使用、改進(jìn)和部署其模型。這一策略不僅繼承了Transformer架構(gòu)的技術(shù)紅利,更充分激活了開源社區(qū)的力量——正如GitHub上超2萬次代碼提交所展現(xiàn)的,全球開發(fā)者的集體智慧正在取代傳統(tǒng)實驗室,成為算法優(yōu)化和系統(tǒng)迭代的新引擎。
正如Scale AI創(chuàng)始人亞歷山大·王(Alexander Wang)在社交平臺所言:這標(biāo)志著全球AI競賽進(jìn)入效率革命新紀(jì)元。這種低成本替代高投入的創(chuàng)新范式,使得美國精心構(gòu)筑的技術(shù)壁壘遭遇雙重瓦解:既無法徹底阻斷硬件流通,更難以遏制算法層面的效率躍升。
實際上,自2022年起拜登政府對我國實施史上最嚴(yán)芯片禁令以來,美國不僅禁止英偉達(dá)A100/H100等高端GPU對華出口,更將中國AI公司列入實體清單,試圖通過精準(zhǔn)打擊遏制中國人工智能發(fā)展。然而這場科技圍堵卻意外觸發(fā)反向創(chuàng)新——中國企業(yè)被迫從堆算力轉(zhuǎn)向摳效率。DeepSeek以低成本復(fù)現(xiàn)最先進(jìn)模型,以開源對抗閉源,以算法優(yōu)化對抗算力限制的“三板斧”,僅需中端GPU集群即可運(yùn)行頂級模型的新范式,引發(fā)美國科技界對行業(yè)戰(zhàn)略方向的重新審視。
中美兩國在大模型的發(fā)展上,從一開始就采取了不同的策略。在“政策護(hù)航+資源整合”的模式下,使得中國在短期內(nèi)實現(xiàn)了大模型數(shù)量的爆發(fā)式增長。截至2025年,國內(nèi)10億級以上參數(shù)大模型超過80個,并在醫(yī)療、教育等垂直領(lǐng)域形成比較優(yōu)勢。相比之下,美國更多依賴市場機(jī)制與資本活力來驅(qū)動創(chuàng)新,并且因為在算法創(chuàng)新與算力基礎(chǔ)設(shè)施上占據(jù)優(yōu)勢,而在技術(shù)生態(tài)中占據(jù)主導(dǎo)權(quán)。中國大模型則聚焦“技術(shù)實用主義”,注重場景適配,在應(yīng)用研究和技術(shù)落地方面表現(xiàn)突出。
短期內(nèi),美國仍將主導(dǎo)基礎(chǔ)技術(shù)創(chuàng)新,而中國憑借應(yīng)用場景與數(shù)據(jù)資源,有望在垂直領(lǐng)域?qū)崿F(xiàn)“彎道超車”。雙方在數(shù)據(jù)、算力和算法上的博弈,將更加激烈。長期看,中美兩國的競爭將推動全球AI生態(tài)向“雙極化”演進(jìn):美國聚焦通用智能與基礎(chǔ)研究,中國深耕行業(yè)賦能與本土化創(chuàng)新。
沒有國家愿意在這場新的競賽中被拋棄。2月11日歐盟委員會主席馮德萊恩在巴黎人工智能行動峰會上發(fā)言聲稱,不認(rèn)為歐洲在AI競賽中失敗,并宣布將籌資2000億歐元,放松對AI技術(shù)開發(fā)的監(jiān)管,助力歐洲AI行業(yè)發(fā)展,追趕全球AI發(fā)展的步伐。法國總統(tǒng)馬克龍則表示,法國將在人工智能領(lǐng)域投入超過千億歐元,以避免在競爭中處于劣勢。

事實上,隨著DeepSeek的快速崛起,全球不少先進(jìn)的科技公司紛紛開始改變公司策略。 OpenAI和百度作為閉源模型最堅定的踐行者,相繼宣布開源。2月13日,薩姆·奧爾特曼宣布GPT-5將向免費(fèi)用戶開放基礎(chǔ)功能,同時將o3模型融入GPT-5體系。同一天,百度宣布文心一言4月1日起全面免費(fèi),6月30日起開源4.5系列模型。

一天之后,騰訊微信搜一搜被曝正灰度測試接入DeepSeek。被灰度到的用戶,可免費(fèi)使用DeepSeek-R1滿血版模型。緊接著,百度搜索和文心智能體宣布全面接入DeepSeek。日新月異的AI正在以迅雷不及掩耳之勢全面進(jìn)入各行各業(yè)。全國多地宣布已將DeepSeek應(yīng)用于政務(wù)系統(tǒng)。深圳迅速上線了70名“AI公務(wù)員”,覆蓋公文處理、民生服務(wù)、應(yīng)急管理、招商引資等多元場景。個性化定制生成時間從5天壓縮至分鐘級。公文格式修正準(zhǔn)確率超95%,審核時間縮短90%,錯誤率控制在5%以內(nèi)……
站在馬斯克背后的女人、方舟基金創(chuàng)始人木頭姐(Cathy Wood)近日發(fā)布了一份信息含量巨大的科技報告,她說,AI 將帶來新一代的技術(shù)革命,科技將以指數(shù)級增長,從算力到算法,AI 不再是線性的累加,而是幾何級的爆發(fā)。一個由AI 驅(qū)動的超級加速器時代正在撲面而來。人工智能體(AI Agent)是能夠理解人類意圖、自主推理、迭代學(xué)習(xí)和完成復(fù)雜任務(wù)的AI系統(tǒng)。現(xiàn)在的AI已經(jīng)越過了1.0聊天機(jī)器人時代、2.0推理時代,來到了3.0智能體時代。
正如網(wǎng)友所說:“技術(shù)不該是少數(shù)人的水晶塔,而是普羅大眾的風(fēng)火輪。”DeepSeek 為世界各地的小型人工智能公司帶來了新的希望,這些公司曾將自己排除在競爭之外。如今,DeepSeek 證明,你可能只需要幾千萬美元(而不是幾千億美元)即可跟上AI前沿的步伐,所有國家都可以成為人工智能的一部分。現(xiàn)在,全世界都開始追趕。