DeepSeek改變了硅谷對AI的認(rèn)知

2025-03-18 00:00:00KevinRoose

第一財(cái)經(jīng) 2025年3期

一項(xiàng)人工智能突破給股市帶來了沖擊波，讓硅谷巨頭們感到不安，并引發(fā)了關(guān)于美國技術(shù)主導(dǎo)地位終結(jié)的大討論。但與這項(xiàng)突破相關(guān)的論文標(biāo)題卻簡單樸素，頗為學(xué)術(shù)—《通過強(qiáng)化學(xué)習(xí)激勵(lì)大型語言模型的推理能力》。

這篇長達(dá)22頁的論文是一家名為DeepSeek的中國人工智能初創(chuàng)公司在1月22日發(fā)布的，最初并未引發(fā)太大關(guān)注。AI從業(yè)人員大多花了幾天時(shí)間來消化論文的主張及其所描述的含義。該公司創(chuàng)建了一個(gè)名為DeepSeek-R1的AI模型，并聲稱他們僅使用了數(shù)量不多的二流AI芯片，以極低的成本便能匹敵領(lǐng)先的美國AI模型的性能。

DeepSeek表示，它是通過巧妙的工程設(shè)計(jì)彌補(bǔ)了計(jì)算能力的不足。一些行業(yè)觀察人士最初對DeepSeek取得的突破表示難以置信。他們認(rèn)為，DeepSeek肯定是通過某種作弊手段才取得R1的成果，或者捏造了數(shù)據(jù)，讓模型看起來比實(shí)際情況更有吸引力。也許R1其實(shí)只是對美國AI模型的巧妙改版，并未代表什么真正的進(jìn)展。

最后，隨著越來越多的人深入研究DeepSeek-R1的細(xì)節(jié)—與市面上大多數(shù)領(lǐng)先的AI模型不同，它是以開源形式發(fā)布的，外界可以更仔細(xì)地探究它的內(nèi)部運(yùn)作—上述的懷疑逐漸轉(zhuǎn)變成了擔(dān)憂。

1月下旬，當(dāng)大量美國人開始親自使用DeepSeek的模型，DeepSeek移動(dòng)應(yīng)用也登頂蘋果AppStore排行榜，恐慌情緒徹底爆發(fā)。

我認(rèn)為，該公司的小額經(jīng)營成本可能被嚴(yán)重夸大了，但我確實(shí)認(rèn)為，DeepSeek-R1的突破是真實(shí)的。DeepSeek論文中的發(fā)現(xiàn)，顯然在挑戰(zhàn)美國技術(shù)行業(yè)一直以來的幾個(gè)主要假設(shè)。

第一個(gè)假設(shè)是，要構(gòu)建尖端的AI模型，就需要在性能強(qiáng)大的芯片和數(shù)據(jù)中心上投入巨額資金。

這一信條在業(yè)界已經(jīng)根深蒂固，怎么強(qiáng)調(diào)都不為過。微軟、Meta、Google等公司已經(jīng)斥資數(shù)百億美元來建設(shè)它們認(rèn)為構(gòu)建和運(yùn)行下一代AI模型所需的基礎(chǔ)設(shè)施。OpenAI不久前宣布與甲骨文和軟銀成立的合資企業(yè)，投資高達(dá)5000億美元。

DeepSeek似乎僅花了上述公司投入的零頭便訓(xùn)練出了R1。該公司聲稱，他們在訓(xùn)練上一代模型上花費(fèi)了約550萬美元。但是，即使R1的訓(xùn)練成本是DeepSeek所聲稱的數(shù)字的10倍，仍然比美國主流AI公司旗下最強(qiáng)大模型的開發(fā)成本要低好幾個(gè)數(shù)量級。

顯然，我們得出的結(jié)論并不是美國的技術(shù)巨頭在浪費(fèi)金錢。一旦訓(xùn)練完成，強(qiáng)大的AI模型運(yùn)行成本仍然很高。對OpenAI和Google這樣的公司來說，投入數(shù)千億美元仍然是合理的，通過能承受的高昂投入來保持行業(yè)領(lǐng)先地位也無可厚非。

但是，DeepSeek在成本方面的突破對近年來推動(dòng)人工智能軍備競賽的模型“越大越好”的說法提出了挑戰(zhàn)。人工智能公司可能只需比以前想象的少得多的投資，就能訓(xùn)練出非常強(qiáng)大的模型。這也表明，我們可能很快就會看到大量資本涌入體量較小的人工智能初創(chuàng)公司。目前由于訓(xùn)練模型成本巨大，硅谷巨頭面臨的主要是彼此之間的競爭，未來它們面臨的競爭將會更加激烈。

硅谷人人都在關(guān)注DeepSeek，還有其他技術(shù)上的原因。該公司在論文中透露了一些關(guān)于R1實(shí)際構(gòu)建過程的細(xì)節(jié)，包括模型蒸餾中的一些尖端技術(shù)：將AI大模型壓縮成更小的模型以降低運(yùn)行成本，性能卻不會損失太多。DeepSeek還提供了一些細(xì)節(jié)，表明將一個(gè)“普通”的AI語言模型轉(zhuǎn)換成一個(gè)更復(fù)雜的推理模型并不像之前想象的那么難，只需在其基礎(chǔ)上應(yīng)用“強(qiáng)化學(xué)習(xí)”技術(shù)即可。

不必?fù)?dān)心看不懂這些術(shù)語—重要的是，以前美國技術(shù)公司們嚴(yán)密保護(hù)的改進(jìn)人工智能系統(tǒng)的方法現(xiàn)在已經(jīng)在網(wǎng)上公開了，任何人都可以免費(fèi)獲取和復(fù)制。

即使美國技術(shù)巨頭的股價(jià)有所回升，DeepSeek的成功也會讓市場對它們的長期人工智能戰(zhàn)略產(chǎn)生不小的懷疑。比如，如果你是Meta—美國唯一將自家模型作為免費(fèi)開源軟件發(fā)布的技術(shù)巨頭，還有什么能阻止DeepSeek或其他初創(chuàng)公司將你花費(fèi)數(shù)十億美元開發(fā)的模型，蒸餾提煉成更小、更便宜的模型，然后以極低的價(jià)格推向市場呢？

多年來，許多美國的人工智能專家（以及聽取他們意見的政策制定者）一直認(rèn)為，美國在AI競賽中至少領(lǐng)先了數(shù)年。現(xiàn)在，這樣的地緣政治假設(shè)已經(jīng)被削弱。美國公司所取得的突破，對于中國公司—至少是一家中國公司—來說，在幾周內(nèi)復(fù)制出來可能是非常容易的。

DeepSeek的成果還提出了一些問題，即美國政府用于防止強(qiáng)大的人工智能芯片落入中國手中的出口管制是否如預(yù)期奏效呢？考慮到更有效的新型模型訓(xùn)練方式，這些法規(guī)是否需要調(diào)整？

DeepSeek的用戶已經(jīng)注意到，這個(gè)模型經(jīng)常拒絕回答有關(guān)敏感話題的問題。作為開源軟件，如果其他開發(fā)者在DeepSeek模型的基礎(chǔ)上開發(fā)，那么這類做法可能會逐漸蔓延至整個(gè)行業(yè)。

我還不確定DeepSeek的突破會產(chǎn)生怎樣的全面影響，至少，這件事表明了圍繞AI的軍備競賽已經(jīng)真正打響，過去幾年的進(jìn)展令人眼花繚亂，未來還有更多令人驚訝的事情在等著我們。