《中國經濟周刊》 記者 孫冰 | 北京報道

視覺中國
數字化浪潮,席卷著全世界的每一個角落。這一切變革的背后,都與小小的芯片息息相關。從手機、計算機到飛機、汽車、家用電器,從工廠的機械臂、切割機到醫院的呼吸機、超聲儀,小到手里的公交卡大到天上的衛星,芯片已經無處不在。
AI 時代的加速到來,尤其是大模型的崛起,帶來前所未有的算力需求,這對于芯片產業來說,既是挑戰,也是機遇。
過去,芯片領域的主角無疑是CPU(中央處理器)。但由于GPU(圖形處理器)更能夠滿足AI 時代高性能計算的需求,近年來其熱度飆升,不僅指標性公司的股價不斷攀上新高,也有大量創業公司和資本在此尋找機會和追逐夢想。
GPU 為何會逆襲崛起?芯片要換主角了?
今年年初,英偉達的股價在150美元附近,今年7 月一度沖高到480美元,目前(截至8 月7 日)在450 美元附近,總市值超過1.1 萬億美元。這意味著,今年前7 個月,英偉達的市值增長了恐怖的7600 多億美元,漲幅超過210%。目前,英偉達是第一家市值超過萬億美元的芯片公司,也是全球第六大市值公司。如果從上市開始計算,其股價漲幅超過了1100 倍。
今年5 月25 日,英偉達發布了令人咋舌的一季度財報,財報中關于二季度的營收指引,更是“亮瞎華爾街的雙眼”。于是,僅在一天內,英偉達的市值就暴漲超2000 億美元。而在這個星球上,市值超過2000 億美元的公司并不多。
GPU 和CPU 的河東與河西,通過“AI 時代的芯片王者”英偉達和“PC 時代的芯片王者”英特爾的市值對比,可以感受得更加直觀。英特爾目前市值在1470 億美元左右,英偉達是其7 倍還多。而“芯片三巨頭”中的另外一家AMD,因為也吃到AI 浪潮的紅利,今年來股價上漲了超過35%,目前市值在1880 億美元左右,依舊是老二。
更驚人的是,目前英偉達的市盈率已經超過了200 倍,風口浪尖上的特斯拉也不過60 多倍的市盈率,微軟和Meta 不到40 倍,谷歌不到30 倍,阿里巴巴不到25 倍,騰訊只有15 倍……即使是“能卡住英偉達脖子”的臺積電(英偉達芯片由臺積電生產)也只是15 倍左右。
能讓資本市場如此激動主要是英偉達符合了投資人最喜歡的兩大特征:風口行業+統治地位。根據近日Jon Peddie Research(JPR)發布的全球GPU 市場數據報告顯示,英偉達以84%的市場份額排名第一,排名第二的AMD為12%,第三位的英特爾為4%。
GPU 不就是顯卡嗎?在英特爾時代,GPU 甚至都沒有“單獨名分”,被封裝在CPU 內。從某種意義上可以說,是英偉達發明了GPU,使其單獨存在。那GPU 和英偉達為何會猶如坐上了火箭一般?答案其實在OpenAI 和ChatGPT 身上。
隨著ChatGPT 等大模型掀起AI狂潮,全世界都在為這個“人類歷史上都不多見的技術革命”而興奮不已。但為何是一個GPU 公司成了最大贏家?
這是因為英偉達是AI 大模型背后的“軍火商”,美國銀行的一份報告更是稱其為“AI 淘金時代的賣鏟王”。因為不管你是“百模大戰”還是“千模群舞”,統統都要跑在英偉達的GPU 上。

英偉達、英特爾和AMD 的股價走勢
英偉達相關人士告訴 《中國經濟周刊》 記者,早在2016 年,英偉達就向OpenAI 交付了全球第一臺DGX-1超級計算機。2022 年底,OpenAI 創建的ChatGPT 在短短兩個月內收獲億級用戶,它的火爆證明了生成式AI和加速計算所帶來的“AI 的iPhone時刻”已經到來。
據該人士介紹,英偉達發明了GPU 作為并行處理器,以模擬視頻游戲和電影,使其逼真如現實世界。雖然GPU 最初被設計用于處理3D 圖形的像素,但也非常擅長處理數據,這使其非常適合處理深度學習任務。
“早在10 多年前,人工智能研究人員就開始使用GPU 進行深度學習。2011 年,研究人員發現12 個英偉達GPU可以提供2000個CPU的深度學習性能。此外,英偉達還改進了GPU設計、系統架構和軟件,并加快了訓練速度,使GPU 的性能每年提高一倍以上,比摩爾定律更快。”上述人士表示。
此外,該人士還表示,GPU 還可以模擬人類智能,運行深度學習算法,并充當感知和理解世界的計算機、機器人和自動駕駛汽車的大腦。未來,英偉達也將致力于幫助客戶利用加速計算實現生成式AI 和大語言模型的突破性進展。
“CPU 是通用處理單元,你可以理解為是一個‘大管家’,什么事都要管,CPU 的全部模塊中通常有25%用作運算單元 (ALU)、有25%作為控制單元 (Control)、50%用于緩存單元(Cache);GPU 則是單一的圖形處理單元,有90%的模塊用作計算單元,控制單元和緩存單元只占10%。再則GPU的計算模式是并行處理,即可以同時做很多事;而CPU 是串行處理,即處理完一件事再處理另一件。因此,面對巨大的AI 算力需求,計算能力更強、計算效率更高的GPU 就成為主流選擇。”資深芯片研究專家、《芯片簡史》 作者汪波告訴 《中國經濟周刊》 記者,他擁有20多年芯片領域的科研和教學經驗。
中金公司研究部科技硬件行業首席分析師彭虎向 《中國經濟周刊》 記者分析,技術上,CPU 采用馮·諾依曼構架,在并行處理大量數據的運算時效率受到限制。與傳統CPU 相比,GPU具有多線程、高核心數、更高的存儲訪問帶寬和速度,以及浮點運算能力強等優勢,逐步發展成為當下AI 算力芯片的主流形態。
“當然,通用型GPU 也日益面臨著高效率和高功耗之間的矛盾平衡問題,專用型AI 算力芯片(如TPU、NPU、IPU 等)逐步借助自身高算力與低功耗的特點,成為某些互聯網云服務商提供AI 算力的芯片方案之一。”彭虎說。
如果以圖靈測試為起點,人工智能的發展史已經超過70 年,數度跌宕起伏中的退潮,大多是受限于算力,要么算力不足,要么成本太高。所以,很多人調侃ChatGPT 是“大力出奇跡”,一是因為英偉達造出算力強悍的GPU,二是能堆起萬顆昂貴芯片。隨著算力的強大,AI 的新浪潮也將隨之到來。
雖然洶涌的AI 浪潮給英偉達帶來了驚人的增長,但其實在此之前,英偉達已經吃過一波史詩級的數字貨幣紅利,因為計算能力更強的GPU 也是“挖礦”首選。而且GPU和英偉達的“AI故事”還遠未到高潮。
根據集邦咨詢(TrendForce)預計,2023 年全球AI 芯片出貨量將增長46%。其中,英偉達GPU 為AI服務器市場搭載主流,市場占有率約60%~70%。
瑞穗證券(Mizuho Securities)發布的研究報告預計,英偉達今年的營收可能達到250 億至300 億美元。到2027 年,其AI 相關收入將達3000 億美元,屆時英偉達在全球AI 服務器芯片市場的市場占有率將在75%左右。
如此誘人的巨大市場,自然會面臨越來越激烈的競爭。已經纏斗了數十年的“芯片三巨頭”,英特爾(成立于1968年)、AMD(成立于1969 年)和英偉達(成立于1968 年)的鏖戰注定要延續到AI 時代。
今年6月,AMD推出了數據中心APU(加速處理器)Instinct MI300,大舉進軍AI 市場。在剛剛結束的AMD 二季度財報電話會上,AMD 首席執行官蘇姿豐透露,本季度AMD 的AI 數據中心芯片客戶數量“增長了7 倍以上”,預計該業務下半年業績將有50%的增幅。
英特爾則在2019 年就耗資20億美元收購了以色列AI 芯片公司Habana,后續又不斷補齊AI 業務的各個板塊。今年英特爾推出的第二代深度學習芯片Habana Gaudi2,就是對標英偉達100 系列,專為訓練大語言模型而構建。英特爾還預計到2025年,將會完成Gaudi AI 芯片和GPU兩條產品線的整合,并推出更完整、更具競爭力的下一代GPU 產品。

2023 年5 月29 日,英偉達創始人CEO 黃仁勛在COMPUTEX 大會上公布了一批與人工智能相關的新產品和服務。
搞AI 芯片,也成為全球主要科技公司的必選項,畢竟誰都不想自己的算力命脈攥在英偉達手里。雖然僅僅為了ChatGPT,微軟就買下了上萬顆英偉達芯片;呼吁暫停AI 研發的馬斯克也悄悄囤了1 萬張英偉達A100;微軟、谷歌、Meta、特斯拉也都悉數下場,自研AI 芯片。
汪波認為,在全球GPU 市場上,目前英偉達確實可以說是一家獨大。而且英偉達的護城河,不僅僅是芯片本身,還包括自己開發系統,即CUDA 計算平臺以及軟硬件生態。“這有點類似蘋果除了在iPhone 等硬件上有優勢,還有強大的iOS 軟件生態系統。”他說。
英偉達創始人、CEO 黃仁勛曾在今年5 月對外透露,CUDA 在全球已經擁有超過400 萬開發者和超過3000 個應用程序。CUDA 下載量累計達到4000 萬次,僅去年一年就有2500 萬次。全球有40000 家大型企業正在使用英偉達的產品進行加速計算,已有15000 家初創公司建立在英偉達的平臺上。
當一個你以為的硬件公司說自己是一家軟件公司的時候,是要琢磨琢磨的。就像2007 年第一代iPhone 發布時,有人提問喬布斯:蘋果如何避免iPhone 被模仿并陷入價格競爭?喬布斯的回答是;“我們是一家軟件公司。”
“如果其他公司推出新的GPU 芯片,開發者就需要學習新的開發語言,這是很痛苦的,就像要改變一個人的語言乃至思維方式。因此,與硬件匹配的軟件生態是頭部芯片公司非常重要的競爭壁壘。”汪波表示。
黃仁勛提出過一個著名的“黃氏定律”,即GPU 芯片每6 個月性能就會提升1 倍,速度是摩爾定律的3 倍。這意味著GPU 是一個需要狂奔的賽道,生死時速,贏者通吃,注定屬于敢于冒險的大玩家,很容易變成塵埃,也很容易偉大。
當然,英偉達也并非能夠躺贏。縱觀芯片發展史,一家名不見經傳的小公司,因為一個天才的芯片設計方案而迅速崛起已經發生過很多次,這其實也是英偉達曾經的“劇本”。

視覺中國
實際上,GPU 并不是為AI 所生的,它只是解決AI 算力需求的一種方案,有沒有更好的?答案是肯定的,只是還不知道究竟誰是顛覆GPU 的下一個芯片主角。
一位國產GPU 廠商的GPU 產品設計負責人告訴 《中國經濟周刊》,芯片是算力的基本構成,核心的計算都運行在芯片上。整個硬件的邏輯是芯片以板卡或者其他算力卡的形態,部署在服務器中,服務器安置在機柜中,大量機柜組成數據中心。大模型的崛起,毫無疑問給芯片產業帶來了一個巨大的潛在市場,也帶來了很多技術要求,特別是對于芯片的單卡算力性能、互連能力等關鍵性能指標都提出更高的要求,因此需要市場開發更強的芯片產品。
這位負責人認為,GPU 成為主流是因為AI 發展的初期,能夠獲取的最適合的芯片架構就是GPU,因此有先發優勢。但GPU 的核心痛點在于芯片制造技術追不上算力需求的增加,也就是常說的摩爾定律走到了盡頭。目前GPU 芯片所用的最先進制程是4nm~5nm 制程,已經非常逼近摩爾定律的物理極限了,未來幾乎無法再通過制程的升級來提升芯片性能。
此外,該負責人表示,傳統的GPU還保留了不少不需要的圖形運算功能,使得整個芯片的計算效率并不是最高,這也是GPU 的劣勢。其他主流的AI 芯片解決方案,也都還不完美,比如針對AI 運算開發的專用芯片(ASIC)方案,雖然計算效率更高,但通用性較差。
“未來最有希望實現突破的還在于更新的封裝技術(比如3D 封裝)、更新的材料等方式,嘗試突破摩爾定律。”該負責人說。
汪波從芯片架構原理的角度,做了進一步的解釋。他表示,受制于其架構本身,用GPU 解決AI 算力并不完美,畢竟GPU 最初并不是因AI 而生的。此外,GPU 的計算和存儲是分開的,需要在計算和存儲之間來來回回地調用數據,這種搬運數據消耗的能量是計算的10 倍。而且GPU 很多時候是在等待數據過來再進行計算,因此,GPU的計算效率并不高,而且功耗非常大,GPU的強大算力是要付出巨大成本的。
“在芯片設計中,一直在尋求PPA折中,即性能(Performance)、功耗(Power)和面積(Area)的平衡點,因為三者不能同時達到最優。性能和功耗一直是一對矛盾,而面積越大,芯片成本越高。”汪波說。
汪波還表示,實際上,學術界和科技公司的研究者們都在研究更適配人工智能的芯片,采用新的原理和新的材料。比如做存算一體的芯片,在存儲器內部去完成計算,不用再搬運數據,這樣就能實現功耗更低但算力更大。“目前,雖然還在探索階段,但好消息是在這個領域,中國和世界同步的。”他說。
還有一個思路就是改變芯片的馮諾依曼式架構,模擬人腦數據處理方式的神經形態芯片。“神經形態芯片已經發展了幾十年,雖然目前算力還沒有辦法跟GPU 去PK,但如果其算力能達到GPU 的一半,就可能憑借能耗和成本優勢異軍突起。”汪波說。
彭虎也分析稱,GPU 具有強大的并行計算能力和高效的浮點運算能力,且屬于通用芯片,能夠較好地滿足各類AI 算法要求,但也存在較高功耗和較低算力利用率的短板。除了GPU,AI 芯片還包括FPGA 和各類ASIC 方案。FPGA 屬于具備可編程硬件結構的集成電路,其可編程性和靈活性可快速適應不同AI 算法要求,但也存在高功耗的問題。ASIC 屬于專用芯片,通過算法固化實現更高的算法利用率和能耗比,但開發周期較長、靈活性較弱。
“我們認為,目前GPU 仍是較好滿足AI 大模型、支持多模態的成熟的一站式解決方案,ASIC 以其高性價比、高能耗比等優勢將在未來AI 市場中占據一席之地。”彭虎說。
實際上,能耗問題已經是算力發展乃至AI 發展的重要瓶頸。北京智源人工智能研究院副院長兼總工程師林詠華告訴 《中國經濟周刊》 記者,一個百億級別大模型僅僅訓練消耗的電費每天都要在10 萬元以上。
“超過千億級別的大模型,訓練需要1000~2000 張A100 的卡,硬件成本約5000 萬美金,還需要投入人力、電力、網絡支出等,一年至少5000萬美金到1 億美金成本。”昆侖萬維CEO 方漢曾表示。
一家國內頭部AI 算力供應商的負責人告訴 《中國經濟周刊》 記者,一個傳統數據中心,電費要占運維總成本60%~70%。而每耗費一度電,卻只有一半用在了正事(計算)上,其他則浪費在散熱上。因此,新型數據中心一般會采用液冷技術,這樣可以比采用風冷節省30%以上的電費。
全球大型互聯網公司都在想盡各種辦法解決散熱難題,為了降低能耗,他們把數據中心埋在山里(騰訊)、泡在湖里(阿里)、扔進大海(微軟)、拉到北極(Meta)……
2018 年的中興事件和2019 年的華為事件之后,“芯片”不僅成為一個國民熱詞,也有大量的資本和創業公司進入芯片領域。但那時,AI 芯片的方向還比較多,除了GPU,還有FPGA(現場可編程門陣列)和ASIC(專用集成電路)。但在英偉達的市場示范效應之下,在2020 年掀起的第二波芯片創業熱潮,則主要集中在GPU 領域,尤其是GPGPU(通用圖形處理器,可通過編程進行不同計算任務)。
2022 年8 月,美國政府禁止英偉達向中國出口最先進的高算力GPU A100 和H100,英偉達隨后專門面向中國市場推出了符合美國出口管制要求的A800 和H800 芯片(限制了A100 和H100 部分性能)。
據媒體援引消息人士稱,今年,中國的各大互聯網公司都在瘋狂囤貨英偉達GPU,僅僅字節跳動就向英偉達訂購了超過10 億美元的GPU,這個數字已經接近英偉達2022 年在中國市場銷售的商用GPU 總和,而且字節跳動還收購了市面上幾乎所有公開出售的A100 芯片。
據英偉達官網,A100 芯片標價為1 萬美元/塊(大批量采購統籌會有一定折扣),升級版H100 則為3.6萬美元/塊。但記者從代理商方面了解到,雖然中國版的A800 和H800 芯片官方售價略低,但實際上,由于供不應求等原因,其實際價格比高性能版反而要更高,A800 的溢價已經到10 萬人民幣以上。
面對巨大的市場需求和極其不確定的國外方案,中國AI 企業當然希望能有“新選擇”,也有很多中國芯片企業希望能成為“新選擇”。
“從歷史上看,一家新的芯片公司要想崛起,去挑戰現有頭部大公司,都是要先從中低端芯片開始做起,通過占領中低端,逐步培養用戶習慣和開發者規模,再慢慢向高端發展。如果直接就開發英偉達A100 這樣的高端芯片,需要投入非常大的人力和資金,還要面臨軟件和生態的護城河,這是很難的。”汪波說。
汪波認為,中國企業也可以采取類似的路徑:一是先從中低端做起,逐步邁向高端;二是先占領一些垂直行業,先做到專門特定領域的引領地位,如醫療、工業、交通等領域。
“其實現在可以看到,中國的一些大型科技公司已經在采用這種策略,例如華為、阿里和騰訊等都是選擇在特定領域發力。還有壁仞、摩爾線程、寒武紀等專門的GPU 公司也都做得不錯。預計5 年內,中端是可能有所突破的,但要突破高端還是需要一步步努力。”他說。
但汪波強調,目前國內GPU 市場是高端芯片被限制了,但中低端芯片反而沒有限制。“很多人會認為,中低端芯片沒限制還能用不錯,但從長遠來看,我覺得這種策略對國內芯片公司的發展并不是一件好事,長期看會加大封鎖的破壞力。”他說。
汪波認為,這一方面會讓國外企業大規模占領中國市場,給他們帶來巨額的商業回報,可以繼續維持研發,做出更領先的產品;另一方面,國內的用戶和開發者會習慣于國外系統,這就意味著即使有國內公司研發出性能好的芯片,也開發出軟件系統,但會面臨切換系統的難題。
“這兩方面都會讓國外品牌的護城河更高。如果未來真的遭遇全面限制,在缺芯的危機之下,會加快本土芯片企業的成長,推動市場更多使用中國本土芯片。”汪波說。
在彭虎看來,目前,海外GPU 公司占據全球AI 芯片的主要份額,國產廠商正在快速追趕中。從需求來看,國內AI 行業的發展在應用落地側具備較成熟的經驗,帶動國內各類AI 芯片設計公司的快速興起。從供給來看,相比于海外通用GPU,國內AI 芯片設計公司普遍采用ASIC 方案,較好地匹配了國內AI 市場需求。展望未來,如果國內在芯片先進制造領域提升工藝水平并掌握一定產能,相信國內AI 芯片將獲得更大的成長發展空間。
盡管難度不小,但AI 芯片和AI算力都是“未來之局”,中國一定要有自己的“中國方案”。汪波表示,他對未來還是非常有信心的。“芯片設計本身主要依靠好的idea,從芯片發展史來看,創新往往都來自一個叛逆的想法。之前我們連3G 芯片都設計不了,但在5G芯片上,我們做到了領先全球。”他說。
今年6 月,中國科學院對外發布了“香山”開源高性能RISC-V 處理器核和“傲來”RISC-V 原生操作系統。汪波認為,這一布局意義重大。“國外的芯片和軟件雖好,但如果不開源,高昂的價格就是最大的短板。因此,我們如果發展開源生態,就可能成為自主破局的突破口。”他說。
中國科學院計算技術研究所副所長包云崗也表示:“過去我國發展處理器芯片有兩種模式,即高鐵模式和北斗模式。前者是在現有生態下引進、消化、吸收、再創新,后者是完全自主構建技術體系。有了RISC-V 后,我們可以走第三種模式——5G 模式。國內企業應加速參與到開放標準的制定中,同時自主研發一批關鍵核心技術,面向國際市場,兼容國際生態,抓住第三次芯片浪潮的時代機遇。”
當然,中國方案已經在加速成長。由于不能使用國外的技術架構,華為是國內較早就開始走自研之路的企業。
“當前中國大模型中有一半是由華為昇騰AI 來支撐的。”今年7 月,華為輪值董事長胡厚崑對外透露。華為昇騰計算業務總裁張迪煊也透露,截至目前,昇騰已認證了30 多家硬件伙伴、1200 多家軟件伙伴,聯合孵化了2500多個AI 場景方案。在中國,每2 家AI企業就有1 家選擇昇騰。
華為相關負責人告訴 《中國經濟周刊》 記者,華為預測是到2030 年,人類將進入YB(1 億億億字節)數據時代,全球通用算力將增長10 倍,人工智能算力將增長500 倍。
該負責人強調,影響算力的因素不僅僅是芯片,需要系統架構的創新、硬件和基礎軟件的協同創新。目前,算力需求的爆炸式增速已遠超摩爾定律,單純依靠芯片工藝進步帶來的算力提升,已不能滿足算力增長需求,必須進行計算體系的架構創新,包括從通用計算走向通用計算加異構計算的多樣性算力創新,以及從硬件到基礎軟件、到應用使能的協同創新。
“萬物互聯的智能時代,非結構化數據占比越來越大,如文本、圖片、語音、視頻等這類數據的加工、處理、傳輸,需要多樣性的計算來匹配。舉例來說,CPU 處理大數據、Web 等場景是非常匹配的,但是對于圖形、圖像的處理,就需要GPU 來匹配;而日常生活中的圖形圖像識別、智能搜索推薦等,就可以用基于AI 計算的NPU(網絡處理器/嵌入式神經網絡處理器)來處理了。”該負責人表示。
據該負責人透露,華為是通過架構的創新,提升計算的效率。“比如在計算節點層面,華為推出對等平構架構,突破傳統的以CPU 為中心的異構計算帶來的性能瓶頸,使得節點性能得到30%的提升;在數據中心層面,華為發揮云、計算、存儲、網絡、能源的綜合優勢,相當于把AI 數據中心當成一臺超級計算機來設計,使得昇騰AI 集群性能更高,并且更可靠。”