人工智能時代的DeepSeek時刻

2025-03-29 00:00:00魏蔚

中關村 2025年2期

關鍵詞：模型

從云巨頭紛紛接入，到攪動AI產業鏈，DeepSeek"沖擊波仍在釋放。擁抱DeepSeek，與之組合在一起的“全面接入”“深度融合”，成為跨越整個春節刷屏刷到爆炸的關鍵詞。當DeepSeek以“開源免費”的顛覆性姿態入場，一場關于技術創新、應用落地的深層思辨在科技圈掀起。不出意外的話，從業者自DeepSeek獲得的熱情、信心和加持，很快就能從產品端體現。

01"云巨頭集中接入背后

2月2日-4日，騰訊云、百度智能云、阿里云前后接入DeepSeek相關大模型，而大廠在春節假期為深度求索公司加班，只是DeepSeek爆火的一個證據。英偉達市值蒸發創紀錄、OpenAI上新o3-mini推理模型、DeepSeek卡頓、榜單第一……與深度求索直接間接相關的新聞，在春節期間不斷刷新。

單論擁抱DeepSeek，海外同行的動作更快，微軟、英偉達、亞馬遜科技等在1月底就已接入。據稱DeepSeek以3%的成本超越了OpenAI，且開源，這意味著以低成本已可訓練出足夠好的AI模型。不管是為了客戶的多樣化需求，還是為了構建AI生態，云廠商快速接入最火的大模型，都是筆劃算的買賣。

春節彩蛋

不是深度求索2025年1月20日發布的DeepSeek-R1，就是2024年12月26日上線的全新系列模型DeepSeek-V3，海內外大廠接入的，正是春節前就在各大主流媒體和社交網站刷屏的大模型“黑馬”。

“突然間，美國在人工智能領域相對于中國的領先地位，似乎比自ChatGPT走紅以來的任何時候都要小”，英國《經濟學人》雜志評論，理由是“一家中國公司（即深度求索）發布了最新的令人印象深刻的大語言模型”。

從數據到體感，印象深刻的例子不難找。

七麥數據顯示，1月27日至今，DeepSeek在中國內地免費蘋果總榜、應用榜、效率榜均排在第一名，放大到全球榜單，截至記者發稿，DeepSeek在72個地區的免費蘋果總榜、應用榜、效率榜位居榜首。

根據AI產品榜1月31日的數據，DeepSeek上線18天日活用戶數1500萬，ChatGPT達到同樣的數據用了244天，增速是ChatGPT的13倍之多，DeepSeek被公認為是全球增速最快的AI應用。

除了大模型的真本事，春節或許也是DeepSeek加速擴散的原因之一。

2025年1月28日除夕夜，在互聯網大廠工作的林悅（化名）把DeepSeek生成的拜年祝福分享在家族群。就這樣，DeepSeek被“分發”到天南海北，那晚他給自己及親朋好友生成了不低于10個新春祝福。第二天，林悅在西北四線城市生活的阿姨告訴他，自己在社交平臺刷到了談論DeepSeek的短視頻。

再比如登上熱搜第一的話題：“DeepSeek回答如何過好這一生”，它的回復是：“沒有完美的人生劇本，所有選擇都有代價，關鍵是要有承擔選擇的勇氣?！?/p>

記者也向DeepSeek提出了同樣的問題，嘗試多次后DeepSeek均顯示“服務器繁忙，請稍后再試”，火爆程度可見一斑。

七巨頭集結

“讓更多開發者便捷調用DeepSeek，騰訊云再出一把力”，2月4日，騰訊云又一次拉近與DeepSeek的距離，在騰訊云TI平臺推出“開發者大禮包”：DeepSeek全系模型一鍵部署，部分模型限免體驗。

在此之前，騰訊云已在2月2日宣布將DeepSeek-R1大模型一鍵部署至騰訊云“HAI”上，開發者僅需3分鐘就能接入調用，一改以往慢吞吞的風格。

更早打出低價牌的是百度智能云，2月3日，百度智能云千帆平臺正式上架DeepSeek-R1和"DeepSeek-V3模型，并推出超低價格方案，用戶還可享受限時免費服務。

記者了解到，目前騰訊云TI平臺采用按量計費和包年包月計費模式，百度智能云千帆平臺限時免費2周至2月18日24：00。

阿里云也在春節期間就開了工，“大年初六，我們進入正題”，阿里云以此開場，在2月3日宣布阿里云PAI"ModelGallery支持云上一鍵部署DeepSeek-V3、DeepSeek-R1。

對于費用，阿里云相關人士以全部部署好所需資源為例向記者介紹，“部署DeepSeek-R1-Distill-Qwen-7B模型的價格約為11.1元/小時（以A10機型為例）；部署DeepSeek-R1模型的價格約為316元/小時。模型部署成功后按實例運行時長計費，不滿1小時按具體分鐘數折算計費”。

目前阿里云百煉平臺也已上線DeepSeek-R1和DeepSeek-V3模型API，且面向用戶限時免費中。

華為云則在2月1日即宣布，硅基流動與華為云團隊聯合首發并上線基于華為云昇騰云服務的DeepSeek-R1/V3推理服務。

這波比拼中，不在春節假期的海外公司占了先機。

1月31日，英偉達宣布，NVIDIA"NIM（一種云原生微服務技術）已經可以使用DeepSeek-R1。微軟同日稱已將DeepSeek-R1正式納入Azure"AI"Foundry，成為該企業級AI服務平臺的一部分。

亞馬遜云科技（AWS）也宣布：企業和開發者可以在Amazon"Bedrock和Amazon"SageMaker"AI中部署DeepSeek-R1模型，還可以使用AWS"Trainium等以經濟高效的方式部署"DeepSeek-R1-Distill模型。

“拼多多”路徑

需要強調的是，“中國的大語言模型并非最頂尖的，但它們的制造成本要低得多”，《經濟學人》舉例，阿里旗下的通義千問QwQ-32B-Preview于2024年11月推出，與美國的頂尖模型相比，差距不到三個月，DeepSeek在一項標準評估中排名第七。

報道稱，DeepSeek是由2000多塊二流芯片訓練而來，Meta的模型則用了1.6萬塊頂尖芯片。在某些排名中，DeepSeek的表現甚至超過了Meta的模型。訓練一個美國的大語言模型成本高達數千萬美元，而且還在上升，而DeepSeek方面表示，其訓練成本不到600萬美元。

提到DeepSeek火爆的原因，工信部信息通信經濟專家委員會委員盤和林表示，“DeepSeek采取低價和開源兩條路并行的策略，尤其是開源，之前全球AI開發者都要看Meta的臉色，因為最有名的開源模型是Llama，有了DeepSeek，Llama立馬不香了，而那些收費較高的，如ChatGPT則受到較大打擊，免費和收費哪個香？很容易作出決斷，DeepSeek也算中國第一個打通國內國外應用生態的產品”。

“模型成本的下降對產業鏈上的云服務廠商存在利好”，在比達分析師李錦清看來，這正是云廠商火速接入DeepSeek的原因，站在市場競爭力與商業價值看，“接入DeepSeek模型有助于云廠商提升自身在AI領域的競爭力，吸引更多開發者和企業客戶。通過提供DeepSeek模型的部署和應用服務，云廠商可以拓展業務范圍，增加收入來源”。

02"眾說紛紜DeepSeek

“免費用！免費用！這回是真的把提示詞工程干死了”，不過LangGPT社區創始人云中江樹向記者直言，“我的心態比較開放，社區建立之初就認為這是階段性事物”?！皢渭兊刈窡岫扔肋h追不上”，楓清科技（Fabarta）聯合創始人兼CTO楊成虎更關注DeepSeek背后的創新土壤……

從“提示詞工程”到“零門檻革命”

“GPT-o1出來時，我就感覺不怎么要寫提示詞了，但是一個月1000多元的訂閱費是真貴，DeepSeek直接免費用，這回是真的把提示詞工程干死了！”春節前，云中江樹就下了定義。

他用韋恩圖來說明，人已知而模型未知的區域正在萎縮，人未知而模型已知的區域正在快速擴大，也就是說AI正在變得比專家還要聰明，提示工程要從面向過程的提示方法向面向目標的提示方法轉變。云中江樹給出一個公式：必要信息+清晰目標=高質量輸出。

更大的變化在于，OpenAI通過API接口構建技術壁壘，DeepSeek選擇將模型架構與權重參數完全開源，這種“技術裸奔”策略直接打破了行業慣例?！癉eepSeek的背后是一支非常具有極客精神的團隊，對技術充滿理想主義，開源做得也很徹底”，楊成虎從DeepSeek第一個版本開始，就已經在關注深度求索（DeepSeek運營公司），不管從自我學習還是個人興趣角度，他對DeepSeek都興趣十足。容聯云大模型產品負責人唐興才則向記者提供了一組數據，“經過實際測試，基于DeepSeek，容聯云在會話質檢、會話數據挖掘等方面的準確率提升了2-3個百分點”。

從“極限壓縮”到“創新土壤”

成本、成本，2024年后半年以來，創新工場董事長兼零一萬物CEO李開復多次強調，“中國工程師確實找到了各種方法來降低成本，提出了新的算法，設計了新的模型結構，大大加速了模型訓練進程的同時，使其能夠在能力較差的芯片上運行，無論是國產還是非國產芯片都適配”。

以DeepSeek等中國團隊為例，“與美國團隊之間的技術差距從兩年前的七年縮短到了幾個月，這是巨大的進步。訓練成本降低到十分之一甚至更少，推理成本降低到大約三十分之一”，李開復說。

重要的是，這種極限壓縮，不但沒有影響大模型的能力，反而讓業內人士更相信AGI（通用人工智能）。用心識宇宙（Mindverse）的創始人兼CEO陶芳波的話說，“整個春節的大部分時間，我都在捧著他們的每一篇論文，一邊拍大腿一邊感嘆”。他這樣解讀，“大模型訓練是一個相當復雜的軟硬一體的工程，而DeepSeek幾乎重新設計了絕大部分關鍵組件：MLA、GRPO、DeepSeekMoE、DualPipe、FP8混合精度、R1-Zero、MTP等等。范圍之廣，密度之大，非常震撼。從學術視角看，這些創新中很多單拿出來，都達到頂級學術會議最佳論文的水平”。

從“模型競賽”到“應用比拼”

應用端的反應是檢驗技術的直接窗口。

“春節后，我們收到的很多咨詢不是有關算力的，而是想讓我們幫助他們調用DeepSeek開發自己的應用”，一位云廠商相關人士向記者透露。

廣東共建未來教育科技的負責人劉俊就想做開發，不過是間接的。“我想讓DeepSeek幫我在應用開發服務商中篩選一家適合我們公司的，就像買面膜，我只關注功效不在乎品牌，幫我在淘寶那么多商家里找到符合我要求的”，他給記者打了個比方。與DeepSeek互動時，他強調了價格透明，DeepSeek給了他四家公司備選，“我已經聯系了一家”。

已推出應用的企業則快速接入，“DeepSeek有利于我們這種大模型應用企業或者其他需要大模型能力的企業以較低的成本接入并使用相關技術服務，有效降低了技術應用門檻”，唐興才說，“容聯云的大模型應用已經接入DeepSeek，我們在大模型之上根據不同行業和業務場景定制個性化的解決方案，從而推動銀行、保險、證券、醫療等各個領域的數智化應用和發展”。當開源策略打破技術壟斷，當應用創新重構價值分配，當生態競爭取代單點突破，從業者正在見證一個新時代的開啟?！拔艺J為現在在中國，AI-First應用百花齊放的土壤已經具備，那些在移動互聯網時代就具備優秀App開發能力的人，如今已經擁有了大展身手的舞臺”，李開復說。

03"產業鏈沖擊波

“我們打算招募更多的閑置算力”，在接入DeepSeek-R1之后，青云科技市場總監王玉圓向記者透露，在她看來，“這波連鎖反應中，最早受益的是上游的算力公司”。

2024年底至今，DeepSeek是名副其實的科技圈頂流，隨之產業鏈震動，一眾云計算企業接入，2月6日百度智能云宣布千帆大模型平臺上線DeepSeek-R1與DeepSeek-V3模型首日，超1.5萬家客戶進行模型調用；多家國產GPU（圖形處理器）適配，摩爾線程即將開放的夸娥（KUAE）GPU智算集群，全面支持DeepSeek-V3、R1模型及新一代蒸餾模型的分布式部署；大模型應用規?；?，包括但不限于網文、網安、圖形影像類……

誰也不想錯過這次機遇?！熬o鑼密鼓”“一直在關注”“快”，是記者與產業鏈各環節公司交流時聽到最多的詞。

連鎖反應繼續

“上線21天，日活用戶2215萬”，2月5日，第三方機構AI產品榜帶來了DeepSeek的最新數據。對比幾天前“上線18天日活用戶數1500萬”的成績單，DeepSeek的增長曲線依然陡峭。資本市場也快速反應，用DeepSeek概念股漲停潮釋放熱情。

其實，同在AI產業鏈上的各類企業更早嗅到機會，“在DeepSeek-V3發布時（2024年12月26日），青云內部就在做測試了，V3版本體量較大，比較費卡，后來DeepSeek發布了體量更小的DeepSeek-R1（2025年1月20日），包括一些蒸餾版本，青云快速上線了4個DeepSeek-R1系列模型和文生圖版本模型”，王玉圓告訴記者。

此前，華為云、騰訊云、百度智能云、阿里云已接入DeepSeek模型，和青云科技同日官宣合作的有天翼云、京東云、字節跳動旗下的火山引擎。

類似的合作還會繼續，“我們正在測試DeepSeek-R1滿血版，希望用更低成本的方式接入，但不管是用什么類型的GPU，青云都會盡快給客戶提供DeepSeek-R1滿血版服務的”，王玉圓說。

處于產業鏈上游的算力企業也快速跟進。截至目前，沐曦、天數智芯、摩爾線程、海光信息4家國產GPU企業均宣布已適配DeepSeek模型服務。

摩爾線程市場生態高級總監呂其恒告訴記者，“DeepSeek蒸餾模型可以直接部署在我們的GPU和集群上。DeepSeek-V3和R1模型需要一定的適配，摩爾線程的CUDA（由NVIDIA開發的并行計算平臺和編程模型）兼容比較完整，春節期間很快就完成了適配”。

據他透露，摩爾線程即將開放自主設計的夸娥（KUAE）GPU智算集群，全面支持DeepSeek-V3、R1模型及新一代蒸餾模型的分布式部署。

國產芯片大展拳腳

從硬件基礎設施到軟件應用開發，大模型上下游產業鏈包括GPU芯片、CPU芯片、數據采集、標注、存儲和管理等上游環節，大模型開發、訓練、優化等中游環節，以及大模型應用開發、大模型部署與運維等下游企業。

“影響最大的，我認為是國產算力芯片產業，我國成熟制程芯片全產業鏈有很強的供給能力，DeepSeek的出現，讓AI對算力的需求有所降低，國內的FPGA（現場可編程門陣列）和ASIC（供專用集成電路的芯片）算力芯片將在AI領域大展拳腳?！惫ば挪啃畔⑼ㄐ沤洕鷮＜椅瘑T會委員盤和林向記者表示。

王玉圓也認為，DeepSeek引發的連鎖反應中，受益最快的是算力產業?！扒嘣朴媱澱心几嗟拈e置算力，通過青云的基石智算CoresHub對外提供服務?！彼M一步解釋，“有算力需求的企業和開發者，不需要直接去買算力，而是在青云平臺調用API的方式，直接按token計費，門檻更低?！?/p>

這也是云廠商提供大模型服務的普遍方式，區別在于自建還是租用算力。具體到青云，叫作算力共營，2024年已有多家智算中心接入，不過“我們現在想招募更多算力資源”，王玉圓說。

相比之下，百度的模式更重。2月5日，百度智能云宣布，已點亮昆侖芯三代萬卡集群，并將進一步點亮3萬卡集群。中國工程院院士、清華大學計算機系教授鄭緯民認為，當下構建國產自主萬卡系統充滿挑戰，但至關重要。

用起來是關鍵

芯片、集群離用戶端太遠，普通用戶對產業鏈下游的應用關注更多。據不完全統計，目前安恒信息、奇安信、天融信、360、美圖、閱文、視覺中國、聯想等大模型應用都已接入DeepSeek。

其中天融信于2月6日宣布，天融信天問大模型正式完成DeepSeek大模型的接入，賦能安全事件檢測分析、威脅情報融合等多個場景，進一步提升了天融信現有的安全產品和服務能力。

“春節期間（和DeepSeek的）合作就發生了”，自家大模型已集成DeepSeek的一家公司負責人告訴記者?！拔覀兛赡軆商旌蠊傩鶧eepSeek相關的合作”，另一位業內人士跟記者交流的當天，相關合作就已披露。

“差不多3天吧”“春節加班了”“緊鑼密鼓”，在與多家AI相關企業溝通時，記者能明顯感受到從業者的時不我待。

2月6日的最新消息來自百度智能云：“2月3日，百度智能云千帆大模型平臺正式上線DeepSeek-R1與DeepSeek-V3模型，模型上線首日，超1.5萬家客戶通過千帆平臺進行模型調用”。

除了直接調用DeepSeek官方"API，企業和開發者還可通過云廠商調用API，或采購能夠適配DeepSeek的GPU，本地化部署DeepSeek服務。

“云廠商更多是將DeepSeek等模型集成到自身云平臺，為用戶提供‘算力+模型’的綜合服務，類似‘傻瓜相機’的集成應用，適合對AI技術需求相對較小且技術能力偏弱的個人開發者或者中小企業。

GPU公司更多是關注模型的算法優化、整體速度等運行效率和性能，適合對計算性能和能耗要求較高且大規模部署大模型技術推理與訓練的企業”，瑞達恒研究院經理王清霖告訴記者。