編者按: 在“人工智能時代的加速與世界的未來”這個充滿張力的命題下,兩篇看似悖反的文章構成了極具啟示性的對話。黃欣榮教授的《學習、優化、超越:DeepSeek技術創新的中國模式》一文揭示了DeepSeek現象所展現的中國AI發展的獨特方法論。在技術追趕階段,通過學習借鑒實現快速迭代;在創新突破階段,以優化“算力—算法—數據”完成彎道超車;在應用落地階段,用“低成本普惠”策略實現突圍。這種“學習—優化—超越”的三級跳,既遵循技術發展的一般規律,又彰顯了中國場景的特殊性。在算力資源約束與開源生態構建的辯證關系中,我們看到的不僅是技術路徑的選擇,更是一種發展哲學的智慧:在資源稟賦有限的情況下,通過系統創新實現戰略突圍,這正是中國式現代化在科技領域的生動展現。但技術躍遷的凱歌中,哲學詰問和省思如影隨行而來,徐英瑾教授的《框架問題、文學創作與DeepSeek等大語言模型——從“偶然性哲學”的角度看》一文指出,大語言模型在文學創作中暴露的“框架問題”,實則是智能系統認知局限的隱喻。九鬼周造的“偶然性哲學”提示我們,當AI在詞向量矩陣中追逐新奇性時,恰恰遺忘了常識推理的“可能性之球”。這種結構性缺陷,暴露出深度學習范式在知識表征與邏輯推理層面的根本性矛盾。主流大模型在反轉劇情設置上的集體失靈,不是算力不足的表現,而是認知架構的先天痼疾。這場對話的交織,勾勒出人工智能時代的深層悖論:技術加速度正在突破認知的舒適區,而智能系統本身卻困在常識的迷宮里。這種張力恰恰構成了文明演進的新坐標:當算法能生成詩歌卻難以區分“唐風與漢風”,當模型能推演復雜棋局卻難以把握“常識推理難題”,我們不得不直面技術理性與人文價值的對話困境。DeepSeek等大模型的開拓創新之路,既需要持續的技術攻堅和創新,更需要建立“算法—人文”的雙向對話機制。當技術加速度與哲學沉思形成共振,人工智能時代的春天才會真正來臨。
摘 " 要: DeepSeek是中國AI大模型的典型代表。在基礎層面,DeepSeek繼承并學習了其他大模型的理論和技術,在算力、算法和數據三方面走的是一條學習借鑒之路。在技術層面,它對芯片算力進行了深度挖掘,對算法模型進行了優化改進,并對數據資源進行了篩選和優化,從而走出了一條優化創新之路。在應用層面,它通過降低成本、落地應用、開源普及,用盡可能小的資金和算力投入,開發出了功能強大的大模型;同時,通過開源普及贏得了廣泛的信任,為自己的未來技術生態打下了堅實的基礎。這是一條當前最切合中國國情的技術創新之路,是中國式現代化在科技創新領域的生動實踐,對中國的技術創新具有普遍性的理論和現實意義。
關鍵詞: DeepSeek;中國式現代化;生成式人工智能;大模型;中國式創新
中圖分類號:TP18 " 文獻標識碼:A 文章編號:1004-8634(2025)02-0005-(11)
DOI:10.13852/J.CNKI.JSHNU.2025.02.001
近年來,由于大數據和深度學習的推動,人工智能領域發展得風生水起,熱點頻出,特別是美國的OpenAI等公司,更是出盡了風頭。然而,奮起直追的中國人工智能同樣創造出奇跡,走出了一條具有中國特色的創新之路。其中,2025年1月20日震驚世界的AI大模型DeepSeek-R1,就是人工智能中國式創新的典范。1 在硬件條件缺乏優勢的前提下,中國人工智能為什么能夠緊跟甚至超越作為人工智能“領頭羊”的美國,從而在國際人工智能界引起轟動呢?國內外學者對DeepSeek的技術創新及其成功之路進行了多視角的分析。本文從技術哲學,特別是技術創新理論的角度,來剖析DeepSeek的創新之路,并由此探討在中國式現代化進程中技術創新的中國模式。
一、基礎層面走學習借鑒之路
讓機器來模仿人類的思維模式以便減輕人類腦力勞動的沉重負擔,是千百年來人類的夢想。這一探索歷程在計算機出現之前就已經開始。計算機問世后,科學家們迅速意識到要讓計算機變得更加智能,不僅要讓它具備科學計算的能力,還要讓它能夠進行思考和創新。于是,在1956年夏天,7位來自計算機、電子、數學等領域的科學家在美國達特茅斯聚集,經過一個多月的熱烈討論,他們創造了“人工智能”這一名稱,創建了該學科,2 開始踏上人工智能理論與實踐的艱難探索之路。
人的思維是如何實現的呢?人工智能專家們通過分析人類大腦結構及其思維方式后發現,人類思維的實現依賴于三大要素:一是作為思維物質基礎的大腦,二是作為思維精神基礎的思維方式,三是作為思維加工對象的經驗素材。因此,要人工實現人類大腦的思維,需要硬件基礎的算力、體現思維規律的算法以及作為思維對象的數據。算力的發展伴隨著微電子技術和芯片的發展而不斷演進,算法的研究與腦科學、數學、心理學等學科緊密相關,而數據的采集、存儲、處理、傳輸也與芯片和計算機的發展密切相關。如今,人們將人工智能的三大要素稱為算力、算法和數據,也就是說,人工智能的發展離不開算力、算法和數據的支撐。
人工智能的研發突破是理論先行,需要在理論上探索其可行性,并提出理論框架結構和模型。隨后,利用計算機、芯片等技術手段來實現這些理論構想,這主要涉及機器模型的構思和建造。最后,在技術可行的前提下進行產業化,將人工智能的成果轉化為具體的產品和產業,讓人工智能真正融入人類學習、工作與生活之中,影響生產和生活方式。理論探索是人工智能發展的基石,技術實現是人工智能發展的關鍵環節,而產業落地則是人工智能發展的目標和歸宿。在基礎理論層面的研究是從0到1的顛覆性創新的思想源泉,歷史上的人工智能創新都是理論先行,而且只有基礎理論的重大突破才能帶來真正的顛覆性進展。作為后起之秀的中國人工智能,在基礎理論和硬件技術方面難以迅速取得突破,因此采取了學習借鑒策略,充分學習、消化和利用國外已有的理論框架和技術框架來推進自己的人工智能研發計劃。因此,我們可以從算力、算法和數據三大要素來分析DeepSeek在基礎理論和基礎技術上學習借鑒國外的策略。
1.DeepSeek的算力借鑒
算力是人工智能的硬件基礎,它負責采集、存儲、處理和傳輸信息,同時也是歸納、推理和決策的基礎。在人工智能的三大要素中,算力扮演著基礎端的角色,它決定了人工智能的生產能力,即智能生產力。一個優秀的人工智能系統,必須具備強大的算力,這相當于擁有一身好力氣,才能擁有強大的生產力。構成算力最重要的構件是芯片,其中,中央處理器(CPU)負責數據的集中處理,而圖形處理器(GPU)則主要負責圖像信息處理。隨著分布參數的不斷增加,負責邊緣計算的GPU的重要性日益凸顯,甚至在某些情況下已經超越了CPU,占據了主導地位。3
作為計算機和人工智能的發源地,歐美國家在芯片研發和制造方面已經先行一步,無論是CPU還是GPU,其研發和生產處于全球領先地位。因此,我國在發展人工智能時,目前只能建立在英特爾、AMD的CPU和英偉達的GPU等國外廠商的基礎上,這意味著我國人工智能的算力基礎在現階段只能采取學習借鑒的策略。
在算力硬件方面,DeepSeek同樣采取了學習借鑒的策略。為了實現深度學習和推理決策等功能,DeepSeek除了需要使用最基礎的CPU之外,還必須使用GPU集群和邊緣計算設備。1 在DeepSeek的深度學習模型訓練和推理過程中,GPU可以提供強大的并行處理能力和加速計算能力。DeepSeek還可能通過FPGA(現場可編程門陣列)或TPU(張量處理單元)等硬件來加速和優化算力效率,但其核心訓練框架仍依賴英偉達的GPU。2 關于DeepSeek具體使用了哪些芯片,哪些是國產芯片,哪些是國外芯片,DeepSeek并未公開相關信息。但從已有信息來看,它確實使用了英偉達的H100以及H800等GPU芯片。3 盡管通過結構優化等手段,DeepSeek所使用的GPU芯片數量相比于GPT等大模型有大幅度減少,甚至導致了英偉達公司股價的一度下跌,但它仍然無法擺脫對英偉達的GPU芯片的依賴。
由此可見,在當前我國高端芯片尚不能完全自給自足的情況下,包括DeepSeek在內的人工智能研發項目只能暫時采取學習借鑒的策略,使用最新的芯片處理器來構建更強大的算力。
2.DeepSeek的算法借鑒
算法類似于人類的思維方式,是人工智能能夠模擬人類處理信息的核心。它將作為經驗的數據與作為“大腦”的芯片連接起來,使芯片硬件能夠類似人類的思維快速處理這些數據,從而實現人工智能的思考功能。人類在面對進入大腦的海量信息時,通過加工處理才能產生認知。同樣,人工智能在面對海量的數據信息時,也需要通過一定的算法來快速理出頭緒,這就需要一方面理解人類的自然語言以把握人類的意圖,另一方面又能輸出人類能夠理解的自然語言。
人類認知主要依靠兩種基本方法:一種是歸納,它通過梳理、歸納碎片化的特殊現象或經驗,使其上升為具有普遍性的認知或知識;另一種是演繹方法,它從普遍性的認知或知識推演出具有特殊性的現象,從而解釋已有現象或預測未來現象。然而,機器要實現人類的這兩種認知方法并不容易。人工智能專家從零開始在黑暗中摸索了數十年,逐漸掌握了人類的思維方法,并用芯片技術再現其思維過程。
在人工智能早期,由于算力的限制,數據的采集、存儲和處理都十分困難,因此主要利用演繹方法,以人工投喂給機器的人類知識為前提進行演繹推理,這就是符號主義路徑。符號主義的推理方法經過20世紀50年代到90年代的曲折發展,取得了不少成績,如幾何定理的機器證明、專家系統、棋類博弈等。4
僅靠演繹推理無法涌現出新知識,人類的新知識也是通過實踐經驗的學習、總結才逐漸涌現生成的。因此,人工智能要像人類那樣思維,還必須具備學習歸納的能力。這種學習歸納能力的研究經歷了漫長的探索階段,這條路線被稱為機器學習或聯結主義路徑。機器學習在1959年就已經被提出來,后來經過約翰·霍普菲爾德(John Hopfield)等人1982年提出的循環(遞歸)神經網絡(RNN),以及杰弗里·辛頓(Geoffrey Hinton)等人1986年提出的反向傳播算法(BP)等幾個不同的階段。辛頓于2006年提出深度學習(DL)方法,即利用多隱層的人工神經網絡優異的特征學習能力,找到數據的特征,從而實現對數據的分類,再從分類中歸納提煉出具有一般性的知識。5 2017年底,谷歌機器翻譯團隊重磅發文,提出了極其重要的“自我注意力”這一概念,并構建了能夠處理自然語言的算法模型Transformer,這是人工智能算法研究的革命性突破。隨后,生成式人工智能突飛猛進,都得益于Transformer的貢獻。6 2022年底,OpenAI公司利用Transformer推出了震驚世界的ChatGPT,隨后美國的谷歌、Meta,以及國內的阿里、騰訊、百度等公司都利用Transformer來建立自己的大模型。
DeepSeek公司成立于2023年7月,之所以能夠在這么短的時間里研發出讓世界震驚的大模型,在算法上也采取了學習借鑒策略,即緊跟國外已有的算法理論及其技術架構。DeepSeek像ChatGPT等國外的AI大模型那樣,采用了自然語言處理、機器學習、深度學習等技術,特別是Transformer的算法框架。從基本算法來說,國內各種大模型,包括DeepSeek在內,基本上都學習借鑒了國外已經過長期研究并實踐證明可行的各種算法,特別是Transformer算法模型。1 DeepSeek在多模態任務中還可能采用了CNN/LSTM/GRU,但其核心大語言模型仍基于Transformer。2 雖然在研發實踐中會有所優化和改進,但總體來說,學習借鑒仍是其重要的策略。
3.DeepSeek的數據借鑒
數據是建立大模型的基本養料,相當于人類的經驗素材。人類之所以越來越聰明,就是因為能夠在生產、生活等實踐活動的經驗中不斷學習、總結和提煉,從而得到一些具有普遍性的經驗規律,然后再抽象為更有普適性的一般知識或規律。如果說算力是生產力,算法是生產工具,那么數據就是生產資料。
隨著大數據時代的來臨,數據的采集、存儲、傳輸等問題迎來了智能化時代。從互聯網興起開始,數據就在網絡中存儲、傳輸。特別是各種智能設備的廣泛使用和各種網絡平臺的廣泛興起,使得人類生活的各類數據都被徹底數字化,并以數字化的形式存儲在網絡云端。人工智能所能夠使用的數據最終都必須被轉化為數字化的數據,只有數字化的數據才能夠被智能機器用來學習、建模和決策等。
中國在數字化方面緊跟國外的數字化大潮,在大數據時代并未落后太多。雖然大數據、數字化等基本概念和基本理論大多由國外學者或企業率先提出,但中國學者或企業也緊隨其后,作出自己的貢獻。國內目前的各類大模型在數據采集、存儲、處理方面的理論和實踐,主要采取的是學習借鑒策略。DeepSeek公司也是在學習國內外大模型的基礎上,建構了自己的大模型;特別是利用了國內外已有大模型的相關理論和成功經驗,才能夠在短期內建立自己的大語言模型語料數據庫。
我們從語料庫建設和數據處理技術兩方面來看DeepSeek在數據資源方面的學習借鑒。語料數據庫是所有大模型的生產原料,DeepSeek公司要想建設大模型,不可能完全白手起家,一定會盡可能地借鑒、利用世界上所有的語料數據庫,包括國內外已有語料數據庫。當然,這些數據庫更多地存儲在云端,且大部分是公共資源,DeepSeek完全可以拿來為其所用。有了語料數據庫,還需要從數據庫中挖掘、尋找出自己需要的信息,這就需要借助一系列數據庫技術。這些技術大部分是國外已經成熟的技術,DeepSeek也可以直接學習和利用。其中DeepSeek的技術棧可能包含數據管理和存儲技術(如PostgreSQL和MySQL)、數據處理框架(如Apache Spark)、數據分析工具(如Pandas和Matplotlib)、機器學習框架(如PyTorch和Scikit-learn),以及數據增強庫(如Albumentations)。其云計算基礎設施可能基于多云環境(AWS、GCP、Azure),并遵循數據匿名化等隱私保護措施。3 這些國外創造并成熟應用的技術在DeepSeek公司建構大模型過程中得到了綜合的應用,不過部分技術細節需結合開源代碼(如DeepSeek-Data倉庫)進一步驗證。
總之,在基礎層面,無論是作為生產力的算力,或作為生產工具的算法,還是作為生產資料的數據,我們在原創性方面暫時還沒有重大突破。這些基礎理論和硬件技術的顛覆性突破,即從0到1的原創,我們尚在路上,我們更多還是站在巨人肩膀上,采取學習借鑒的策略。DeepSeek雖然一出現就震驚世界,但從基礎理論和硬件技術層次來說,主要還屬于技術借鑒階段。當然,任何理論和技術都是人類的共同財富,不可能完全由某個國家獨自貢獻和單獨壟斷。我們完全可以共享這些理論和技術,共享人類的知識財富。而且我們作為后起之秀,暫時學習借鑒無疑是實現科技趕超的一個重要策略。
二、技術層面走優化創新之路
AI大模型的科學理論創新需要諸多技術的支持才能夠實現,技術支持是人工智能研發的中間層次。中國人工智能研發雖然在基礎層面目前還缺乏從0到1的顛覆性創新,但在技術層面卻走出了自己的優化創新之路。DeepSeek之所以能夠引起世界性的轟動,就是因為它在技術層面進行了許多重要的優化創新,使原有的理論和技術得到了顯著提升。雖然這種優化并非從0到1的顛覆性理論創新,但它仍然是在既有基礎上進行的實質性改進,屬于優化性技術創新。
所謂技術優化,就是在他人創新成果的基礎上進行改進,在要素、結構、功能、成本等方面作出更加有效的提升,如用簡單要素實現原本需要復雜要素才能實現的功能,或者對原有的復雜結構進行簡化,或者探索出更廣泛的應用場景等。就人工智能大模型而言,無論是提高算力效率、用有限的算力實現強大的功能,還是簡化算法流程、用軟件算法彌補硬件算力的不足,以及在數據采集、存儲、處理等方面作出改進,都屬于優化創新的范疇。用相同的算力實現更強大的功能,或者用更小的算力達到同樣的效果,都是對AI大模型技術的優化創新和技術進步。
中國當前的AI大模型,包括DeepSeek,之所以選擇優化之路,有兩方面的原因。一是基礎理論創新的難度較高:因為基礎理論的突破需要深厚的研究基礎和長期的艱苦努力,因而不可能在短期內取得重大成果。二是基礎算力受到一定限制:由于國內芯片特別是GPU的制造水平暫時還跟不上,而先進的GPU又受到進口限制,因此在基礎算力上中國AI公司無法與美國等國的AI公司動輒數萬塊甚至數十萬塊GPU的規模相抗衡。面對這樣的現實條件,中國AI公司只能尋求換道超車,通過優化技術來提升競爭力。美國AI公司由于算力資源相對充裕,不需要在優化上投入過多精力,而中國AI公司則需要在用有限的算力實現最強功能上精打細算,盡量節省算力資源。
其實,國外人工智能系統在算力、算法和數據三個方面本就有不少優化創新的空間,因此DeepSeek公司作為一家中國小型初創企業,選擇走上了一條技術優化的創新之路。DeepSeek在哪些方面對國外的技術做出了重要的優化創新呢?我們依然從算力、算法和數據三個方面來分析其優化創新之路。
1.通過硬件重構來優化算力
算力需要強大的芯片等硬件來支持。例如,馬斯克公司最新的Grok3竟然使用了20萬塊英偉達最先進的H100 GPU,號稱形成了目前世界上最強大的算力。作為一個2023年才創立、靠自有資金運營且只有一百多人的初創小公司,DeepSeek公司不可能建構如此強大的算力。一方面,20萬塊H100 GPU需要一筆龐大的資金,這是初創小公司無法承受的;另一方面,即使在資金充足的情況下,由于目前美國對中國AI行業的各種封鎖,也不可能購得如此多的高端芯片。DeepSeek公司僅靠先前購買并儲存的少量H100 GPU以及數量有限、被減配的H800 GPU來構成其基本算力。雖然DeepSeek公司目前并未公布其芯片硬件的具體構成,但可以想見的是,其算力資源根本無法與OpenAI、谷歌、馬斯克的xAI等國外大公司相提并論。
為了在缺少算力資源的條件下研發出具有世界競爭力的大模型,DeepSeek公司采取了重構算力系統、優化算力結構等方式來減少對算力的依賴,以提高現有算力的效率。
首先,加速硬件性能。DeepSeek充分利用專用硬件如FPGA或TPU等硬件加速器來提高算力,加快深度學習的運算速度。通過這兩種專用芯片,DeepSeek可能采取了提高并行處理能力、實現定制化架構、降低延遲和功耗以及優化算法等舉措。1
其次,重構數據流架構。數據流的架構影響著數據管理策略,并最終影響運算性能。DeepSeek可能通過軟件層面的流水線優化(如數據預取策略)提升GPU利用率,如使用數據預處理與批處理、高效的數據傳輸協議、層次化的數據存儲、數據流圖優化、計算與數據存儲的緊耦合、實時數據調度和使用緩存機制等優化策略,以減少對英偉達高端芯片的依賴。1
最后,采用并行計算。并行計算是加速數據處理的重要途徑。DeepSeek利用多核處理器和GPU進行并行計算,優化了模型訓練和推理過程。這包括將深度學習模型進行任務分解與并行處理,將任務副本分布在多個GPU上并行處理,將模型分解并行處理以及優化內存管理、進行異步計算、采用優化計算圖和充分利用深度學習框架等。2 通過這些優化措施,DeepSeek能夠充分利用多核處理器和GPU的計算能力,大幅提高深度學習模型訓練和推理的速度與效率。
更為重要的是,DeepSeek公司在使用英偉達的GPU訓練模型時,將原本用于計算功能的部分流式處理器(如132個中的20個)修改為負責服務器間的通信傳輸,從而繞開了硬件對通信速度的限制。DeepSeek還利用更底層的匯編語言TPX直接處理數據,而不是利用高級語言CUDA。這樣做減少了層級之間的通信傳輸開銷,使得較低級的H800 GPU能夠實現接近高級H100 GPU 的強大功能。3
2.通過簡化過程來優化算法
算法作為處理大模型海量數據并從中生成認知的工具,對人工智能硬件效率的優化提升具有關鍵性作用。相較于硬件優化,算法優化的難度可能稍低,且路徑更為多樣。在GPU等硬件受限的情況下,中國的AI大模型更多地采用算法優化來彌補GPU等硬件的不足。因此,中國人工智能的突破重點放在了算法優化這條路徑上。通過優化算法,即使使用較低級的硬件,也能讓AI大模型發揮出和使用較高級的硬件同樣的功能,甚至超越國外大模型。
當前國內外主流的大模型算法都是基于Transformer實現的,而Transformer具有復雜的結構和流程。該模型的核心在于融入了注意力機制,并通過預訓練、模型微調、基于人類的強化學習(RL)、模型壓縮技術、安全與隱私保護技術等一系列技術來實現深度學習和自然語言處理等復雜過程。4 DeepSeek對Transformer的優化主要包括采取結構改進、模型壓縮、訓練策略優化、自適應注意力機制、性能調優等一系列措施,旨在強化算法功能、提升算法效率。
從結構改進來看,DeepSeek在注意力機制上做了重要改進,引入了原生稀疏注意力(NSA)、局部注意力等新機制,并減少了Transformer的層數和寬度,從而優化了算法的效率和性能。DeepSeek公司的團隊發文對此進行了詳細論述。5原生稀疏注意力和局部注意力模仿了人類的思考方式,從根本上解決了長文本消耗巨大算力的問題。它們能夠壓縮信息,關注信息的關鍵詞,去除無用修飾詞,從而把握全局。這樣,DeepSeek可以將長文本切成小塊,自動生成每塊的摘要,然后進行動態篩選、精準挖掘。這種“邊篩選邊學習”的策略,使文本處理速度實現了飛躍,能力大幅提升,而成本則大幅降低。
從模型壓縮來看,DeepSeek主要采用了模型蒸餾、剪枝和參數共享等技術,以減少模型的參數量,提高計算速度,同時保留模型的核心性能。模型蒸餾是利用其他大型、復雜的模型作為“教師模型”來訓練一個更小的“學生模型”,從而節省訓練難度和時間。剪枝則是剪除一些非關鍵參數。通過這些技術,復雜的Transformer得到了極大壓縮,提高了數據處理效率。6
從訓練策略來看,DeepSeek使用了MoE模型,沒有完全遵循Transformer原有的逐步訓練策略,而是采取了漸進式或跨越式訓練方式,特別是跳過其他訓練過程直接進行強化學習(RL)訓練。例如,在開發R1之前,DeepSeek公司先制作了一個名為R1-zero的版本。R1-zero沒有進行預訓練和監督微調,而是直接采用了RL訓練。然后,在R1-zero的基礎上,使用少量的高質量標注數據再次進行RL訓練,從而得出了R1。1
此外,DeepSeek還引入了自適應注意力權重的計算,使模型能夠動態調整注意力范圍,提高信息捕捉的靈活性和效率;利用更高效的激活函數或正則化等優化策略,進一步提升模型的表現,減少過擬合的風險;并采用多模態數據處理和模型調整策略,以優化多模型處理能力。
3.通過中文特色數據來優化數據
作為AI大模型的生產資料,數據的優劣直接影響大模型的生產能力和生產效率。數據的規模可能影響大模型的生成能力和智能水平,而數據的質量則直接影響大模型的生成質量和生成效率。在算力硬件不占優勢的情況下,我國的大模型,包括DeepSeek在內,除了需要在算法優化方面下足功夫之外,還必須對數據進行全面優化,這樣才能夠用最少的算力達到甚至超越國外大模型的功能。為此,DeepSeek采取了在數據處理方法上加強數據優化、在數據特色上加強中文數據的收集和整理、在數據應用上強化推理能力等一系列優化措施。
第一,優化通用數據。
國內外大模型的數據通常都非常龐大,但國外模型在規模上往往更大,因為它們的算力更強,可以處理更大規模的數據。同時,由于國家眾多,國外數據在多樣性方面也更具優勢。國內大模型要在算力不足、數據規模相對較小的情況下取得同樣的效果,就必須對大模型的數據進行預先優化處理。在數據準備和處理方面,DeepSeek采取了數據預處理、數據增強、樣本選擇優化、多模態數據集成、高質量數據收集以及制定收集標準等數據優化措施,以提升模型訓練的效果。2
網絡云端數據復雜多樣,處理難度巨大。如果不進行數據預處理,大模型的運行效率可能會受到影響。為此,DeepSeek首先對數據進行了清洗,去除噪聲和不相關數據,確保訓練數據的質量,從而提高模型的學習效果;清洗之后,還進行了標準化和歸一化處理,以提高模型的收斂性和穩定性。
DeepSeek還使用了數據增強技術,對數據進行旋轉、縮放、翻轉、噪聲添加等操作,以擴充訓練數據集,增加模型的魯棒性。 DeepSeek通過StyleGAN2架構與對抗損失函數優化,可生成超分辨率圖像,修復低質量輸入,并開源基于擴散模型的圖像修復工具DeepSeek-DiffusionFix,以優化在數據不足的場景下依賴此類模型生成的合成數據。3 為了使大模型具備處理多模態數據的能力,在算力和數據源都不足的情況下,DeepSeek采取了多模態數據集成的優化技術,以整合不同數據來源,并提取和融合多模態特征,從而捕捉更豐富的信息。4
為了提高模型的訓練精度和速度,DeepSeek采取了構建大型高質量數據集、動態更新數據等優化措施,強化了數據標注的質量;同時,利用已有的數據進行半監督學習或遷移學習,以減少對大量標注數據的依賴。
這些優化措施有助于確保DeepSeek能夠在有效和高質量的數據支持下進行訓練,從而提高模型在實際應用中的性能。
第二,強化中文數據。
國外大模型雖然在數據規模和多樣性上具有顯著優勢,但在中文數據處理方面卻存在明顯局限。例如,ChatGPT等國外大模型在英文對話中表現出色,回答質量高,但在中文對話中,其回答質量卻明顯下降。這主要是因為國外大模型缺乏足夠的中文數據,導致其在中文處理和學習方面經驗不足,難以適應中國市場的實際需求。然而,以DeepSeek為代表的國內大模型在中文數據方面具有得天獨厚的優勢。
DeepSeek的中文數據優勢體現在數據規模和領域覆蓋上(如互聯網中文內容占比達60%以上)。中國作為一個擁有十四億多人口和五千年悠久歷史的大國,為AI大模型提供了豐富的中文數據資源。如今,中國人基本上都生活在數字世界中,特別是中國的網絡社交和網絡支付系統發達,每天產生龐大而復雜的中文數據。這些數據因為隱私和安全等原因不會被國外大模型所使用,而且國外大模型在中文數據處理和學習方面也存在經驗不足等問題。相比之下,國內大模型可以方便地利用這些海量中文數據,這是中國AI大模型取之不盡、用之不竭的學習資源。中國的人口紅利在AI領域轉化為了大模型的數據紅利。此外,中國豐富的歷史數據也為AI大模型提供了寶貴的學習資源。這些數據蘊含著中國先人的獨特智慧,是國外大模型所難以獲取的。DeepSeek等國內大模型通過學習五千年中華文化,獲得了中華文明的才華和智慧,因此更加聰明、更加適合中國國情。這些豐富的中文數據在數據層面極大地補充、豐富和優化了中國AI大模型的中國化數據資源。
在過去,由于科技落后和計算機技術的限制,中文在編程、輸入等方面確實存在一些不便之處。一些人甚至提出中文拉丁化的主張,認為象形方塊字不適合數字時代。然而,隨著人工智能特別是生成式人工智能時代的來臨,人們逐漸發現中文在語義豐富性、符號識別容易度以及理解簡單性方面具有一些獨特優勢。DeepSeek充分發揮了漢字在智能時代的這些優勢,在大模型學習、推理和決策中充分利用象形漢字的特點,從而實現了硬件投入少、投資成本低而學習能力、智慧能力不輸國外模型的目標。也許,DeepSeek的成功實踐證明了中文可能更適合模式識別和智能學習、推理,而豐富的中文數據則是中國AI大模型的先天優勢所在。
第三,突出推理應用。
人類具備從經驗中學習歸納的能力,以及基于歸納出的一般知識進行演繹的能力。然而,人工智能在追求這兩種能力的過程中經歷了漫長的探索。
在人工智能發展早期,由于算力不足、算法缺乏以及數據采集和存儲的困難,尚不具備從數據經驗中學習歸納的條件和能力。因此,研發人工智能的先行者們走上了符號主義之路,其核心在于發揮演繹推理的優勢,主要讓AI輔助人類進行演繹推理和判斷決策。幾何定理的機器證明、專家系統以及棋類博弈等,都是20世紀在演繹推理路徑下取得的杰出的人工智能成果。但值得注意的是,演繹推理必須建立在正確的邏輯前提之下,而智能機器無法自行獲取這些前提知識,只能依賴人類的梳理和投喂。因此,智能機器對人工的依賴性極強。這也是其被稱為“人工智能”的原因。
隨著生成式人工智能的興起,各類大模型開始將重點放在生成能力上,更加關注算力的大小、模型的大小以及能否生成更多的知識。1 因此,國外大模型動輒采用數十萬塊的GPU、數千億的參數規模,旨在生成更多的知識。自生成式人工智能誕生以來,人工智能領域逐漸從重演繹推理轉向重歸納學習。然而,歸納學習的最終目的仍是推理應用,解決問題。遺憾的是,國外不少AI大模型卻偏離了這一初衷。
鑒于算法和數據的限制,DeepSeek在重視算法優化的同時,更加注重生成知識的推理應用。除了關注生成能力外,DeepSeek還將側重點放在了生成知識的應用上。它將學習歸納得來的知識作為推理前提,用于推理演繹、解釋現象以及解決具體問題。這一創新性舉措拓展了AI大模型的性能,使大模型既擅長歸納學習又精于演繹推理,從而具備了更類人的智能和實現了更廣泛的應用。2 因此,盡管DeepSeek在歸納學習能力上可能并不比其他大模型更強,但其演繹推理和解決問題的能力卻更為卓越。DeepSeek改變了大模型重歸納生成、輕演繹推理的慣性,推動了未來AI大模型更加重視歸納生成和演繹推理的辯證統一。
總之,根據技術創新理論,從0到1的顛覆性創新是創新,但從1開始的優化同樣也屬于創新,可稱其為優化創新,而且它是技術進步的重要動力。創新理論的提出者熊彼特認為,創新包括產品創新、工藝創新、市場創新、供應鏈創新和生產組織創新五種典型形式。任何對原有技術的改進和推動,只要相比之前有所進步,都屬于創新性活動,對技術進步都有貢獻。3 DeepSeek對算力的極致挖掘和改進、對算法的一系列優化、對數據的優化補充,以及將大模型從重歸納生成轉向歸納生成與演繹推理并重等舉措,都是對以往大模型的優化改進。因此,這些完全屬于技術創新,即從1開始的優化創新。
三、應用層面走大膽超越之路
國外的AI大模型雖然算力強大、算法先進,在理論上展現出強大的原創性,技術上也確實領先一步。然而,在開發應用層面,它們的表現卻不盡如人意。這主要是因為國外的人工智能研發者更傾向于從零起步的原創性探索,雖然取得了許多顛覆性的成果,但在將這些成果轉化為實際應用方面,卻顯得不夠積極和務實。有人早就預言,人工智能的“原創之花”可能在美國綻放,但真正落地、開花、結果,可能會在中國這片大地上實現。中國的大模型開發者更多地以問題為導向,為實際應用而研發。因此,盡管美國的AI大模型在理論和技術上領先一步,但在應用方面,中國并未落后。DeepSeek正是完美地詮釋了中國AI大模型應用優先的務實研發路徑,代表中國AI大模型在應用層面走出了一條大膽超越的道路。
DeepSeek是如何在應用層面實現超越的呢?它主要通過降低成本、落地應用以及開源普及這三大創新手段,成功地在應用層面走出了一條低成本、易落地、開源化的中國式超越之路。這不僅提升了AI技術的普及程度,還促進了AI技術在各個領域的廣泛應用和發展。
1.降低成本
研發成本和應用成本高低是決定一項技術能否廣泛研發并大面積推廣使用的關鍵因素。美國AI大模型的研發和應用成本門檻極高,動輒耗費幾百億甚至上千億美元,這使得只有微軟、谷歌和類似馬斯克旗下公司的超級大公司才有能力進行研發,其他中小公司往往難以躋身其中,這無疑限制了許多有創意的初創公司和研發者參與創新、推動AI發展的機會。
DeepSeek打破了AI大模型被超級大公司壟斷的局面,創造了低成本研發AI大模型的奇跡。DeepSeek公司的團隊成員均來自本土高校,包括本科、碩士、博士學歷的年輕人才,他們年齡多在二三十歲,部分成員甚至還在實習階段。DeepSeek通過算法優化、數據管理與處理、云計算與基礎設施的優化,以及資源共享與協作等技術與策略,有效優化了硬件、算法和流程,從而大大降低了研發和應用成本。據DeepSeek-V3技術報告顯示,其研發經費僅為560萬美元左右,是國外大公司的1/20左右。1 這在世界上是首次以如此少的經費開發出功能如此強大的AI大模型。
一項新技術如果需要耗費億萬資金才能研發和應用,那么它將很難實現落地普及。只有將研發成本降至合理且可接受的程度,該項技術才能真正遍地開花、惠及大眾。因此,創新理論的奠基人熊彼特和管理學大師德魯克都把降低成本視為一項重要的技術創新。2 DeepSeek首次打破了AI大模型的算力壁壘和資金壁壘,讓小公司、小企業也能參與到研發AI大模型的競賽中來,讓充滿活力的年輕人能在技術創新活動中貢獻更多的力量。更為重要的是,研發成本的降低可大大降低應用成本,使得AI大模型得以全面落地,不再僅僅是某些科研人員的競賽項目,這是DeepSeek的一項超越式創新。
2.落地應用
落地應用是新技術得以傳播并產生社會影響的重要手段。一項新技術如果僅停留在實驗室里,不能實現產業化,不走向社會,不惠及民生,那么即使技術再先進,其實際用處也會大打折扣。不少技術由于費用高昂、技術復雜、體積龐大等問題,只能被某些機構壟斷,難以落地普及。例如,第一臺計算機ENIAC體積巨大、操作復雜,難以復制推廣。隨后的IBM公司制造的大型計算機同樣體積龐大,需要專門場地和專業人員操作,因此也主要局限于在大型機構中使用。直到臺式電腦、筆記本電腦、平板電腦和手機出現,實現了計算機的微型化和實用化,才真正讓計算機無處不在,廣泛應用于社會各個領域。在DeepSeek之前,AI大模型規模龐大,僅GPU芯片就需數十萬塊,耗費巨大且使用不便,因此只能被少數超大公司所壟斷,難以廣泛落地應用。
DeepSeek在AI大模型的落地應用上作出重大貢獻,打破了其高高在上的神話,使得AI大模型能夠更加順利地落地推廣。雖然DeepSeek公司在顛覆性創新上可能無法與OpenAI、谷歌等巨頭相媲美,但它采取了一系列創新性舉措,使得AI大模型更易于落地應用。首先是輕量化、小型化。AI大模型不再依賴大量的芯片堆積,大算力也不再是必要條件,從而實現了AI大模型的輕量化和小型化,為落地應用打下了堅實的基礎。其次是界面友好、易于使用。DeepSeek簡化了用戶界面,降低了使用難度。最后是留出擴展功能,允許他人在其基礎上進行擴展性開發應用。
從技術創新發展的角度來看,落地應用同樣是重要的創新環節。熊彼特和德魯克都充分肯定了應用普及對技術創新的推動作用,并將其視為創新活動的重要環節。1
3.開源普及
以往的很多技術創新,包括AI大模型,在被少數機構壟斷后往往被嚴格保密,不輕易讓他人知曉、研發。這種將新技術藏于黑箱的行為嚴重阻礙了技術的進步和應用推廣,導致新技術成為某些人謀取私利的工具。然而,DeepSeek選擇開源。因此,開源是DeepSeek又一項具有超越性的創新舉措。
DeepSeek公司自公布之日起就采取了多項開源措施,一方面增強了透明度和可信性,另一方面促進了社區合作和技術進步。DeepSeek公司的開源措施主要包括:(1)開源部分模型與工具:發布輕量級模型或工具鏈(如CV工具包),供開發者和研究人員使用和改進。(2)開發社區建設:在GitHub等平臺創建開源項目,吸引開發者貢獻代碼、報告問題和提出改進建議,提升社區活躍度。(3)共享數據集:發布用于訓練和測試的開源數據集,促進研究者和開發者在相關領域的探索和驗證。(4)提供教程和文檔:提供詳細的使用文檔、示例代碼和教程,幫助社區成員快速上手DeepSeek的技術。(5)參與開源活動:積極參與開源會議、“黑客松”和社區活動,推動技術交流與合作。2 DeepSeek公司這些開源舉措,能夠加速人工智能的進步和創新,讓更多機構和個人參與到人工智能的大開發、大競賽之中,從而創造更加活躍的創新環境。
AI大模型因數據海量、算法復雜,其信任問題一直備受關注,人們擔心可能存在數據造假或算法偏見。而以往的閉源黑箱模式更加劇了這種懷疑。DeepSeek公司的開源策略增加了AI大模型的透明度,提高了公眾的信任度。同時,開源還吸引了更多的開發者和研究者參與其中,共創、共建與共享,共同推動人工智能的進步,構建出一個更加良好的AI技術生態,促進AI技術的持續發展。
德魯克認為,像技術新應用、開拓新市場、創造新效率、降低成本等對原有事物有所改進、提高,都可以被視為一種創新。從技術層面來看,應用新技術、開發新產品或改進現有產品、改變產品用途、提高產品性能和生產效率等,皆可被稱為技術創新。這種創新不僅包括科學技術的突破,還涉及商業模式、管理方式和市場營銷手段的創新。3 因此,DeepSeek在降低成本、落地應用和開源普及方面的努力,無疑屬于技術創新,是應用層面的超越式創新。
四、結語
DeepSeek公司的AI大模型以其低廉的成本和卓越的性能驚動了世界,成為中國AI大模型的典范,這是中國式現代化在AI領域的一次成功實踐。通過理論、技術、應用三個層次的深入分析,可以發現,DeepSeek公司之所以能在短期內憑借小資金、小團隊成功撬動AI大模型市場并取得驚人成就,主要得益于其對基礎理論的學習借鑒、技術層面的優化創新以及應用層面的大膽超越。這一系列舉措不僅體現了DeepSeek公司在AI領域呈現的“中國模式”,更使其走出了一條具有中國特色的AI創新之路,為中國AI發展贏得了世界的贊譽,使中國AI站在了世界前沿方陣之中。當然,盡管以DeepSeek為代表的中國AI大模型已經取得了階段性的成功,展現了中國式現代化在科技創新方面的潛力,但從長遠來看,中國仍有許多不足之處。為了在AI領域持續領先,實現更高水平的中國式現代化,中國必須在從0到1的顛覆性創新上狠下功夫,敢于顛覆傳統,勇于原創,無論在理論基礎還是技術基礎上都要爭取有自己的獨到之處。在優化創新和應用創新方面,要敢于站在巨人的肩膀上,充分利用中國的獨特優勢,突出中國特色,堅定不移地走出一條符合中國國情、具有中國特色的創新之路,進一步豐富和完善“中國模式”在AI領域的應用。
Learning, Optimizing and Surpassing: The Chinese Model of Technological
Innovation in DeepSeek
HUANG Xinrong
Abstract: DeepSeek is a representative example of China’s large AI models. It has achieved world-shaking results in a short time, carving out a path of innovation with distinct Chinese characteristics, especially in the field of AI and large models. Such success is built on three core pillars: learning and drawing on the wisdom of predecessors at the foundational level, innovating through technological optimization, and boldly surpassing boundaries in application. At the foundational level, DeepSeek inherits and learns from the theories and technologies of other large models, following a path of learning and adaptation in computing power, algorithms, and data. At the technological level, it has deeply explored chip computing power, optimized algorithmic models, and refined data resources, forging a path of optimization and innovation. In terms of application, DeepSeek has built a powerful large model with minimal financial and computational input by lowering operational costs, promoting implementation, and promoting open-source initiatives, rapidly achieving real-world applications. Meanwhile, it has won widespread trust through its open-source initiatives, laying a solid foundation for its future technological ecosystem. This model suggests the path of technological innovation that best suits China’s national conditions. It effectively exemplifies Chinese-style modernization in the field of scientific and technological innovation, providing significant theoretical and practical implications for China’s technological innovation.
Keywords: DeepSeek; Chinese-style modernization; generative artificial intelligence; large language models; Chinese-style innovation
(責任編輯:蘇建軍)