999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

揭秘DeepSeek 一個(gè)更極致的中國(guó)技術(shù)理想主義故事

2025-03-05 00:00:00于麗麗
科學(xué)大觀園 2025年5期
關(guān)鍵詞:模型

DeepSeek 對(duì)模型架構(gòu)進(jìn)行了全方位創(chuàng)新。它提出的一種嶄新的MLA(一種新的多頭潛在注意力機(jī)制)架構(gòu),把顯存占用降到了過(guò)去最常用的MHA 架構(gòu)的5%~13%,同時(shí),它獨(dú)創(chuàng)的DeepSeekMoESparse結(jié)構(gòu),也把計(jì)算量降到極致,所有這些最終促成了成本的下降。

中國(guó)的7家大模型創(chuàng)業(yè)公司中,DeepSeek(深度求索)最不聲不響,但它又總能以出其不意的方式被人記住。

一年前,這種出其不意源自它背后的量化私募巨頭幻方,是大廠外唯一一家儲(chǔ)備萬(wàn)張A100芯片的公司;一年后,則來(lái)自它才是引發(fā)中國(guó)大模型價(jià)格戰(zhàn)的源頭。

在被AI連續(xù)轟炸的5月,DeepSeek一躍成名。起因是他們發(fā)布的一款名為DeepSeekV2的開源模型,提供了一種史無(wú)前例的性價(jià)比:推理成本被降到每百萬(wàn)token僅1塊錢,約等于Llama370B的七分之一,GPT-4Turbo的七十分之一。

DeepSeek被迅速冠以“AI界拼多多”之稱的同時(shí),字節(jié)、騰訊、百度、阿里等大廠也按捺不住,紛紛降價(jià)。中國(guó)大模型價(jià)格戰(zhàn)由此一觸即發(fā)。

彌漫的硝煙其實(shí)掩蓋了一個(gè)事實(shí):與很多大廠燒錢補(bǔ)貼不同,DeepSeek是有利潤(rùn)的。

這背后,是DeepSeek對(duì)模型架構(gòu)進(jìn)行了全方位創(chuàng)新。它提出的一種嶄新的MLA(一種新的多頭潛在注意力機(jī)制)架構(gòu),把顯存占用降到了過(guò)去最常用的MHA架構(gòu)的5%~13%,同時(shí),它獨(dú)創(chuàng)的DeepSeekMoESparse結(jié)構(gòu),也把計(jì)算量降到極致,所有這些最終促成了成本的下降。

在硅谷,DeepSeek被稱作“來(lái)自東方的神秘力量”。SemiAnalysis首席分析師認(rèn)為,DeepSeekV2論文“可能是今年最好的一篇”。OpenAI前員工AndrewCarr認(rèn)為論文“充滿驚人智慧”,并將其訓(xùn)練設(shè)置應(yīng)用于自己的模型。而OpenAI前政策主管、Anthropic聯(lián)合創(chuàng)始人JackClark認(rèn)為,DeepSeek“雇傭了一批高深莫測(cè)的奇才”,還認(rèn)為中國(guó)制造的大模型,“將和無(wú)人機(jī)、電動(dòng)汽車一樣,成為不容忽視的力量”。

在基本由硅谷牽動(dòng)故事進(jìn)展的AI浪潮里,這是罕有的情形。多位行業(yè)人士告訴我們,這種強(qiáng)烈的反響源自架構(gòu)層面的創(chuàng)新,是國(guó)產(chǎn)大模型公司乃至全球開源基座大模型都很罕見的嘗試。一位AI研究者表示,Attention架構(gòu)提出多年來(lái),幾乎未被成功改過(guò),更遑論大規(guī)模驗(yàn)證。“這甚至是一個(gè)作決策時(shí)就會(huì)被掐斷的念頭,因?yàn)榇蟛糠秩硕既狈π判摹!?/p>

而另一方面,國(guó)產(chǎn)大模型之前很少涉足架構(gòu)層面的創(chuàng)新,也是因?yàn)楹苌儆腥酥鲃?dòng)去擊破那樣一種成見:美國(guó)更擅長(zhǎng)從0到1的技術(shù)創(chuàng)新,而中國(guó)更擅長(zhǎng)從1到10的應(yīng)用創(chuàng)新。何況這種行為非常不劃算——新一代模型,過(guò)幾個(gè)月自然有人做出來(lái),中國(guó)公司只要跟隨、做好應(yīng)用即可。對(duì)模型結(jié)構(gòu)進(jìn)行創(chuàng)新,意味著沒有路徑可依,要經(jīng)歷很多失敗,時(shí)間、經(jīng)濟(jì)成本都耗費(fèi)巨大。

DeepSeek顯然是逆行者。在一片認(rèn)為大模型技術(shù)必然趨同、follow是更聰明捷徑的喧嘩聲中,DeepSeek看重“彎路”中積累的價(jià)值,并認(rèn)為中國(guó)的大模型創(chuàng)業(yè)者除應(yīng)用創(chuàng)新外,也可以加入到全球技術(shù)創(chuàng)新的洪流中。

DeepSeek的很多抉擇都與眾不同。截至目前,7家中國(guó)大模型創(chuàng)業(yè)公司中,它是唯一一家放棄“既要又要”路線,至今專注在研究和技術(shù),未做toC應(yīng)用的公司,也是唯一一家未全面考慮商業(yè)化,堅(jiān)定選擇開源路線甚至都沒融過(guò)資的公司。這些使得它經(jīng)常被遺忘在牌桌之外,但在另一端,它又經(jīng)常在社區(qū)被用戶“自來(lái)水”式傳播。

DeepSeek究竟是如何煉成的?我們?yōu)榇嗽L談了甚少露面的DeepSeek創(chuàng)始人梁文鋒。

這位從幻方時(shí)代就在幕后潛心研究技術(shù)的“80后”創(chuàng)始人,在DeepSeek時(shí)代,依舊延續(xù)著他的低調(diào)作風(fēng),和所有研究員一樣,每天“看論文,寫代碼,參與小組討論”。

和很多量化基金創(chuàng)始人都有過(guò)海外對(duì)沖基金履歷,多出身物理、數(shù)學(xué)等專業(yè)不同的是,梁文鋒一直是本土背景,早年就讀的也是浙江大學(xué)電子工程系人工智能方向。

多位行業(yè)人士和DeepSeek研究員告訴我們,梁文鋒是當(dāng)下中國(guó)AI界非常罕見的“兼具強(qiáng)大的infra工程能力和模型研究能力,又能調(diào)動(dòng)資源”“既可以從高處作精準(zhǔn)判斷,又可以在細(xì)節(jié)上強(qiáng)過(guò)一線研究員”的人,他擁有“令人恐怖的學(xué)習(xí)能力”,同時(shí)又“完全不像一個(gè)老板,而更像一個(gè)極客”。

這是一次尤為難得的訪談。訪談里,這位技術(shù)理想主義者,提供了目前中國(guó)科技界特別稀缺的一種聲音:他是少有的把“是非觀”置于“利害觀”之前,并提醒我們看到時(shí)代慣性,把“原創(chuàng)式創(chuàng)新”提上日程的人。

一年前,DeepSeek剛下場(chǎng)時(shí),我們初次訪談了梁文鋒:《瘋狂的幻方:一家隱形AI巨頭的大模型之路》。如果說(shuō)當(dāng)時(shí)那句“務(wù)必要瘋狂地懷抱雄心,且還要瘋狂地真誠(chéng)”還是一句美麗的口號(hào),一年過(guò)去,它已經(jīng)在成為一種行動(dòng)。

以下為對(duì)話部分

價(jià)格戰(zhàn)第一槍是怎么打響的?

暗涌:DeepSeekV2模型發(fā)布后,迅速引發(fā)一場(chǎng)血雨腥風(fēng)的大模型價(jià)格戰(zhàn),有人說(shuō)你們是行業(yè)的一條鯰魚。

梁文鋒:我們不是有意成為一條鯰魚,只是不小心成了一條鯰魚。

暗涌:這個(gè)結(jié)果讓你們意外嗎?

梁文鋒:非常意外。沒想到價(jià)格讓大家這么敏感。我們只是按照自己的步調(diào)來(lái)做事,然后核算成本定價(jià)。我們的原則是不貼錢,也不賺取暴利。這個(gè)價(jià)格也是在成本之上稍微有點(diǎn)利潤(rùn)。

暗涌:5天后智譜AI就跟進(jìn)了,之后是字節(jié)、阿里、百度、騰訊等大廠。

梁文鋒:智譜AI降的是一個(gè)入門級(jí)產(chǎn)品,和我們同級(jí)別的模型仍然收費(fèi)很貴。字節(jié)是真正第一個(gè)跟進(jìn)的。旗艦?zāi)P徒档胶臀覀円粯拥膬r(jià)格,然后觸發(fā)了其他大廠紛紛降價(jià)。因?yàn)榇髲S的模型成本比我們高很多,所以我們沒想到會(huì)有人虧錢做這件事,最后就變成了互聯(lián)網(wǎng)時(shí)代的燒錢補(bǔ)貼邏輯。

暗涌:外部看來(lái),降價(jià)很像在搶用戶,互聯(lián)網(wǎng)時(shí)代的價(jià)格戰(zhàn)通常如此。

梁文鋒:搶用戶并不是我們的主要目的。我們降價(jià)一方面是因?yàn)槲覀冊(cè)谔剿飨乱淮P偷慕Y(jié)構(gòu)中,成本先降下來(lái)了;另一方面也覺得無(wú)論是API,還是AI,都應(yīng)該是普惠的、人人可以用得起的東西。

暗涌:在這之前,大部分中國(guó)公司都會(huì)直接復(fù)制這一代的Llama結(jié)構(gòu)去做應(yīng)用,為什么你們會(huì)從模型結(jié)構(gòu)切入?

梁文鋒:如果目標(biāo)是做應(yīng)用,那沿用Llama結(jié)構(gòu),短平快上產(chǎn)品也是合理選擇。但我們目的是AGI,這意味著我們需要研究新的模型結(jié)構(gòu),在有限資源下,實(shí)現(xiàn)更強(qiáng)的模型能力。這是scaleup到更大模型所需要做的基礎(chǔ)研究之一。除了模型結(jié)構(gòu),我們還做了大量其他的研究,包括怎么構(gòu)造數(shù)據(jù)、如何讓模型更像人類等,這都體現(xiàn)在我們發(fā)布的模型里。另外,Llama的結(jié)構(gòu),在訓(xùn)練效率和推理成本上,和國(guó)外先進(jìn)水平估計(jì)也已有兩代差距。

暗涌:這種代差主要來(lái)自哪里?

梁文鋒:首先訓(xùn)練效率有差距。我們估計(jì),國(guó)內(nèi)最好的水平和國(guó)外最好的相比,模型結(jié)構(gòu)和訓(xùn)練動(dòng)力學(xué)上可能有一倍的差距,光這一點(diǎn)我們要消耗兩倍的算力才能達(dá)到同樣效果。另外數(shù)據(jù)效率上可能也有一倍差距,也就是我們要消耗兩倍的訓(xùn)練數(shù)據(jù)和算力,才能達(dá)到同樣的效果。合起來(lái)就要多消耗4倍算力。我們要做的,正是不停地去縮小這些差距。

暗涌:大部分中國(guó)公司都選擇既要模型又要應(yīng)用,為什么DeepSeek目前選擇只做研究探索?

梁文鋒:因?yàn)槲覀冇X得現(xiàn)在最重要的是參與到全球創(chuàng)新的浪潮里去。過(guò)去很多年,中國(guó)公司習(xí)慣了別人做技術(shù)創(chuàng)新,我們拿過(guò)來(lái)做應(yīng)用變現(xiàn),但這并非一種理所當(dāng)然。這一波浪潮里,我們的出發(fā)點(diǎn),就不是趁機(jī)賺一筆,而是走到技術(shù)的前沿,去推動(dòng)整個(gè)生態(tài)發(fā)展。

暗涌:互聯(lián)網(wǎng)和移動(dòng)互聯(lián)網(wǎng)時(shí)代留給大部分人的慣性認(rèn)知是,美國(guó)擅長(zhǎng)搞技術(shù)創(chuàng)新,中國(guó)更擅長(zhǎng)做應(yīng)用。

梁文鋒:我們認(rèn)為隨著經(jīng)濟(jì)發(fā)展,中國(guó)也要逐步成為貢獻(xiàn)者,而不是一直“搭便車”。過(guò)去30多年IT浪潮里,我們基本沒有參與到真正的技術(shù)創(chuàng)新里。我們已經(jīng)習(xí)慣摩爾定律從天而降,躺在家里18個(gè)月就會(huì)出來(lái)更好的硬件和軟件。ScalingLaw也在被如此對(duì)待。

但其實(shí),這是西方主導(dǎo)的技術(shù)社區(qū)一代代孜孜不倦創(chuàng)造出來(lái)的,只因?yàn)橹拔覀儧]有參與這個(gè)過(guò)程,以至于忽視了它的存在。

真正的差距不是一年或兩年,而是原創(chuàng)和模仿之差

暗涌:為什么DeepSeekV2會(huì)讓硅谷的很多人驚訝?

梁文鋒:在美國(guó)每天發(fā)生的大量創(chuàng)新里,這是非常普通的一個(gè)。他們之所以驚訝,是因?yàn)檫@是一個(gè)中國(guó)公司,在以創(chuàng)新貢獻(xiàn)者的身份,加入到他們游戲里去。畢竟大部分中國(guó)公司習(xí)慣follow,而不是創(chuàng)新。

暗涌:但這種選擇放在中國(guó)語(yǔ)境里,也過(guò)于奢侈。大模型是一個(gè)重投入游戲,不是所有公司都有資本只去研究創(chuàng)新,而不是先考慮商業(yè)化。

梁文鋒:創(chuàng)新的成本肯定不低,過(guò)去那種拿來(lái)主義的慣性也和過(guò)去的國(guó)情有關(guān)。但現(xiàn)在,你看無(wú)論中國(guó)的經(jīng)濟(jì)體量,還是字節(jié)、騰訊這些大廠的利潤(rùn),放在全球都不低。我們創(chuàng)新缺的肯定不是資本,而是缺乏信心以及不知道怎么組織高密度的人才實(shí)現(xiàn)有效的創(chuàng)新。

暗涌:為什么中國(guó)公司——包括不缺錢的大廠,這么容易把快速商業(yè)化當(dāng)?shù)谝灰x?

梁文鋒:過(guò)去30年,我們都只強(qiáng)調(diào)賺錢,對(duì)創(chuàng)新是忽視的。創(chuàng)新不完全是商業(yè)驅(qū)動(dòng)的,還需要好奇心和創(chuàng)造欲。我們只是被過(guò)去那種慣性束縛了,但它也是階段性的。

暗涌:但你們畢竟是一個(gè)商業(yè)組織,而非一個(gè)公益科研機(jī)構(gòu),選擇創(chuàng)新,又通過(guò)開源分享出去,那要在哪里形成護(hù)城河?像5月這次MLA架構(gòu)的創(chuàng)新,也會(huì)很快被其他家復(fù)制吧?

梁文鋒:在顛覆性的技術(shù)面前,閉源形成的護(hù)城河是短暫的。即使OpenAI閉源,也無(wú)法阻止被別人趕超。所以我們把價(jià)值沉淀在團(tuán)隊(duì)上,我們的同事在這個(gè)過(guò)程中得到成長(zhǎng),積累很多know-how,形成可以創(chuàng)新的組織和文化,就是我們的護(hù)城河。

開源,發(fā)論文,其實(shí)并沒有失去什么。對(duì)于技術(shù)人員來(lái)說(shuō),被follow是很有成就感的事。其實(shí),開源更像一個(gè)文化行為,而非商業(yè)行為。給予其實(shí)是一種額外的榮譽(yù)。一個(gè)公司這么做也會(huì)有文化的吸引力。

暗涌:你怎么看類似朱嘯虎的這種市場(chǎng)信仰派觀點(diǎn)?

梁文鋒:朱嘯虎是自洽的,但他的打法更適合快速賺錢的公司,而你看美國(guó)最賺錢的公司,都是厚積薄發(fā)的高科技公司。

暗涌:但做大模型,單純的技術(shù)領(lǐng)先也很難形成絕對(duì)優(yōu)勢(shì),你們賭的那個(gè)更大的東西是什么?

梁文鋒:我們看到的是中國(guó)AI不可能永遠(yuǎn)處在跟隨的位置。我們經(jīng)常說(shuō)中國(guó)AI和美國(guó)有一兩年差距,但真實(shí)的差距是原創(chuàng)和模仿之差。如果這個(gè)不改變,中國(guó)永遠(yuǎn)只能是追隨者,所以有些探索也是逃不掉的。

英偉達(dá)的領(lǐng)先,不只是一個(gè)公司的努力,而是整個(gè)西方技術(shù)社區(qū)和產(chǎn)業(yè)共同努力的結(jié)果。他們能看到下一代的技術(shù)趨勢(shì),手里有路線圖。中國(guó)AI的發(fā)展,同樣需要這樣的生態(tài)。很多國(guó)產(chǎn)芯片發(fā)展不起來(lái),也是因?yàn)槿狈ε涮椎募夹g(shù)社區(qū),只有第二手消息,所以中國(guó)必然需要有人站到技術(shù)的前沿。

更多的投入并不一定產(chǎn)生更多的創(chuàng)新

暗涌:現(xiàn)在的DeepSeek有一種OpenAI早期的理想主義氣質(zhì),也是開源的。后邊你們會(huì)選擇閉源嗎?OpenAI和Mistral都有過(guò)從開源到閉源的過(guò)程。

梁文鋒:我們不會(huì)閉源。我們認(rèn)為先有一個(gè)強(qiáng)大的技術(shù)生態(tài)更重要。

暗涌:你們有融資計(jì)劃嗎?看有媒體報(bào)道,幻方對(duì)DeepSeek有獨(dú)立拆分上市的計(jì)劃,硅谷的AI創(chuàng)業(yè)公司,最終也都難免要和大廠綁定。

梁文鋒:短期內(nèi)沒有融資計(jì)劃,我們面臨的問題從來(lái)不是錢,而是高端芯片被禁運(yùn)。

暗涌:很多人認(rèn)為,做AGI和做量化是完全不同的兩件事,量化可以悶聲去做,但AGI可能更需要高舉高打,需要結(jié)盟,這樣可以讓你的投入變大。

梁文鋒:更多的投入并不一定產(chǎn)生更多的創(chuàng)新。否則大廠可以把所有的創(chuàng)新包攬了。

暗涌:你們現(xiàn)在不做應(yīng)用,是因?yàn)槟銈儧]有運(yùn)營(yíng)的基因嗎?

梁文鋒:我們認(rèn)為當(dāng)前階段是技術(shù)創(chuàng)新的爆發(fā)期,而不是應(yīng)用的爆發(fā)期。長(zhǎng)遠(yuǎn)來(lái)說(shuō),我們希望形成一種生態(tài),就是業(yè)界直接使用我們的技術(shù)和產(chǎn)出,我們只負(fù)責(zé)基礎(chǔ)模型和前沿的創(chuàng)新,然后其他公司在DeepSeek的基礎(chǔ)上構(gòu)建toB、toC的業(yè)務(wù)。如果能形成完整的產(chǎn)業(yè)上下游,我們就沒必要自己做應(yīng)用。當(dāng)然,如果需要,我們做應(yīng)用也沒障礙,但研究和技術(shù)創(chuàng)新永遠(yuǎn)是我們第一優(yōu)先級(jí)。

暗涌:但選擇API的話,為什么選擇DeepSeek,而不是大廠?

梁文鋒:未來(lái)的世界很可能是專業(yè)化分工的,基礎(chǔ)大模型需要持續(xù)創(chuàng)新,大廠有它的能力邊界,并不一定適合。

暗涌:但技術(shù)真的可以拉開差距嗎?你也說(shuō)過(guò)并不存在絕對(duì)的技術(shù)秘密。

梁文鋒:技術(shù)沒有秘密,但重置需要時(shí)間和成本。英偉達(dá)的顯卡,理論上沒有任何技術(shù)秘密,很容易復(fù)制,但重新組織團(tuán)隊(duì)以及追趕下一代技術(shù)都需要時(shí)間,所以實(shí)際的護(hù)城河還是很寬。

暗涌:你們降價(jià)后,字節(jié)率先跟進(jìn),說(shuō)明他們還是感受到某種威脅。你怎么看創(chuàng)業(yè)公司與大廠競(jìng)爭(zhēng)的新解法?

梁文鋒:說(shuō)實(shí)話我們不太關(guān)心這件事,只是順便做了這件事。提供云服務(wù)不是我們的主要目標(biāo)。我們的目標(biāo)還是去實(shí)現(xiàn)AGI。

目前沒有看到什么新解法,但大廠也沒有明顯占優(yōu)。大廠有現(xiàn)成的用戶,但它的現(xiàn)金流業(yè)務(wù)也是它的包袱,也會(huì)讓它成為隨時(shí)被顛覆的對(duì)象。

暗涌:你怎么看DeepSeek之外的6家大模型創(chuàng)業(yè)公司的終局?

梁文鋒:可能活下來(lái)2到3家。現(xiàn)在都還處在燒錢階段,所以那些自我定位清晰、更能精細(xì)化運(yùn)營(yíng)的,更有機(jī)會(huì)活下來(lái)。其他公司可能會(huì)脫胎換骨。有價(jià)值的東西不會(huì)煙消云散,但會(huì)換一種方式。

暗涌:幻方時(shí)代,面對(duì)競(jìng)爭(zhēng)的姿態(tài)就被評(píng)價(jià)為“我行我素”,很少在意橫向比較。關(guān)于競(jìng)爭(zhēng),你思考的原點(diǎn)是什么?

梁文鋒:我經(jīng)常思考的是,一個(gè)東西能不能讓社會(huì)的運(yùn)行效率變高,以及你能否在它的產(chǎn)業(yè)分工鏈條上找到擅長(zhǎng)的位置。只要終局是讓社會(huì)效率更高,就是成立的。中間很多都是階段性的,過(guò)度關(guān)注必然眼花繚亂。

一群做“高深莫測(cè)”事的年輕人

暗涌:OpenAI前政策主管、Anthropic聯(lián)合創(chuàng)始人JackClark認(rèn)為DeepSeek雇傭了“一批高深莫測(cè)的奇才”,做出DeepSeekv2的是怎樣一群人?

梁文鋒:并沒有什么高深莫測(cè)的奇才,都是一些頂尖高校的應(yīng)屆畢業(yè)生,沒畢業(yè)的博四、博五實(shí)習(xí)生,還有一些畢業(yè)才幾年的年輕人。

暗涌:很多大模型公司都執(zhí)著地去海外挖人,很多人覺得這個(gè)領(lǐng)域前50名的頂尖人才可能都不在中國(guó)的公司,你們的人都來(lái)自哪里?

梁文鋒:V2模型沒有海外回來(lái)的人,都是本土的。前50名頂尖人才可能不在中國(guó),但也許我們能自己打造這樣的人。

暗涌:這次MLA創(chuàng)新是如何發(fā)生的?聽說(shuō)idea最早來(lái)自一個(gè)年輕研究員的個(gè)人興趣?

梁文鋒:在總結(jié)出Attention架構(gòu)的一些主流變遷規(guī)律后,他突發(fā)奇想去設(shè)計(jì)一個(gè)替代方案。不過(guò)從想法到落地,中間是一個(gè)漫長(zhǎng)的過(guò)程。我們?yōu)榇私M了一個(gè)team,花了幾個(gè)月時(shí)間才跑通。

暗涌:這種發(fā)散性靈感的誕生和你們完全創(chuàng)新型組織的架構(gòu)很有關(guān)系。幻方時(shí)代,你們就很少自上而下地指派目標(biāo)或任務(wù)。但AGI這種充滿不確定性的前沿探索,是否多了管理動(dòng)作?

梁文鋒:DeepSeek也全是自下而上。而且我們一般不前置分工,而是自然分工。每個(gè)人有自己獨(dú)特的成長(zhǎng)經(jīng)歷,都是自帶想法的,不需要push他。探索過(guò)程中,他遇到問題,自己就會(huì)拉人討論。不過(guò)當(dāng)一個(gè)idea顯示出潛力,我們也會(huì)自上而下地去調(diào)配資源。

暗涌:聽說(shuō)DeepSeek對(duì)于卡和人的調(diào)集非常靈活。

梁文鋒:我們每個(gè)人對(duì)于卡和人的調(diào)動(dòng)是不設(shè)上限的。如果有想法,每個(gè)人隨時(shí)可以調(diào)用訓(xùn)練集群的卡無(wú)須審批。同時(shí)因?yàn)椴淮嬖趯蛹?jí)和跨部門,也可以靈活調(diào)用所有人,只要對(duì)方也有興趣。

暗涌:一種松散的管理方式也取決于你們篩選到了一批強(qiáng)熱愛驅(qū)動(dòng)的人。聽說(shuō)你們很擅長(zhǎng)從細(xì)節(jié)招人,可以讓一些非傳統(tǒng)評(píng)價(jià)指標(biāo)里優(yōu)秀的人被選出來(lái)。

梁文鋒:我們選人的標(biāo)準(zhǔn)一直都是熱愛和好奇心,所以很多人會(huì)有一些奇特的經(jīng)歷,很有意思。很多人對(duì)做研究的渴望,遠(yuǎn)超對(duì)錢的在意。

暗涌:Transformer誕生在谷歌的AILab,ChatGPT誕生在OpenAI,你覺得大公司的AILab和一個(gè)創(chuàng)業(yè)公司對(duì)于創(chuàng)新產(chǎn)生的價(jià)值有什么不同?

梁文鋒:不管是Google實(shí)驗(yàn)室,還是OpenAI,甚至中國(guó)大廠的AILab,都很有價(jià)值的。最后是OpenAI做出來(lái),也有歷史的偶然性。

暗涌:創(chuàng)新很大程度也是一種偶然嗎?我看你們辦公區(qū)中間那排會(huì)議室左右兩側(cè)都設(shè)置了可以隨意推開的門。你們同事說(shuō),這就是給偶然留出空隙。Transfomer誕生中就發(fā)生過(guò)那種偶然經(jīng)過(guò)的人聽到后加入,最終把它變成一個(gè)通用框架的故事。

梁文鋒:我覺得創(chuàng)新首先是一個(gè)信念問題。為什么硅谷那么有創(chuàng)新精神?首先是敢。ChatGPT出來(lái)時(shí),整個(gè)國(guó)內(nèi)對(duì)做前沿創(chuàng)新都缺乏信心,從投資人到大廠,都覺得差距太大了,還是做應(yīng)用吧。但創(chuàng)新首先需要自信。這種信心通常在年輕人身上更明顯。

暗涌:但你們不參與融資,很少對(duì)外發(fā)聲,社會(huì)聲量上肯定不如那些融資活躍的公司,怎么確保DeepSeek就是做大模型的人的首選?

梁文鋒:因?yàn)槲覀冊(cè)谧鲎铍y的事。對(duì)頂級(jí)人才吸引最大的,肯定是去解決世界上最難的問題。其實(shí),頂尖人才在中國(guó)是被低估的。因?yàn)檎麄€(gè)社會(huì)層面的硬核創(chuàng)新太少了,使得他們沒有機(jī)會(huì)被識(shí)別出來(lái)。我們?cè)谧鲎铍y的事,對(duì)他們就是有吸引力的。

暗涌:前一段OpenAI的發(fā)布并沒有等來(lái)GPT5,很多人覺得這是技術(shù)曲線明顯在放緩,也有很多人開始質(zhì)疑ScalingLaw,你們?cè)趺纯矗?/p>

梁文鋒:我們偏樂觀,整個(gè)行業(yè)看起來(lái)都符合預(yù)期。OpenAI也不是神,不可能一直沖在前面。

暗涌:你覺得AGI還要多久實(shí)現(xiàn),發(fā)布DeepSeekV2前,你們發(fā)布過(guò)代碼生成和數(shù)學(xué)的模型,也從dense模型切換到了MOE,所以你們的AGI路線圖有哪些坐標(biāo)?

梁文鋒:可能是2年、5年或者10年,總之會(huì)在我們有生之年實(shí)現(xiàn)。至于路線圖,即使在我們公司內(nèi)部,也沒有統(tǒng)一意見。但我們確實(shí)押注了三個(gè)方向。一是數(shù)學(xué)和代碼,二是多模態(tài),三是自然語(yǔ)言本身。數(shù)學(xué)和代碼是AGI天然的試驗(yàn)場(chǎng),有點(diǎn)像圍棋,是一個(gè)封閉的、可驗(yàn)證的系統(tǒng),有可能通過(guò)自我學(xué)習(xí)就能實(shí)現(xiàn)很高的智能。此外,可能多模態(tài)、參與到人類的真實(shí)世界里學(xué)習(xí),對(duì)AGI也是必要的。我們對(duì)一切可能性都保持開放。

暗涌:你覺得大模型終局是什么樣態(tài)?

梁文鋒:會(huì)有專門公司提供基礎(chǔ)模型和基礎(chǔ)服務(wù),會(huì)有很長(zhǎng)鏈條的專業(yè)分工。更多人在此之上去滿足整個(gè)社會(huì)多樣化的需求。

所有的套路都是上一代的產(chǎn)物

暗涌:過(guò)去這一年,中國(guó)的大模型創(chuàng)業(yè)還是有很多變化的,比如去年開頭還很活躍的王慧文中場(chǎng)退出了,后來(lái)加入的公司也開始呈現(xiàn)出差異化。

梁文鋒:王慧文自己承擔(dān)了所有損失,讓其他人全身而退。他做了一個(gè)對(duì)自己最不利,但對(duì)大家都好的選擇,所以他做人是很厚道的,這點(diǎn)我很佩服。

暗涌:現(xiàn)在你的精力最多放在哪里?

梁文鋒:主要的精力在研究下一代的大模型。還有很多未解決的問題。

暗涌:其他幾家大模型創(chuàng)業(yè)公司都是堅(jiān)持既要又要,畢竟技術(shù)不會(huì)帶來(lái)永久領(lǐng)先,抓住時(shí)間窗口把技術(shù)優(yōu)勢(shì)落到產(chǎn)品也很重要,DeepSeek敢于專注在模型研究上是因?yàn)槟P湍芰€不夠嗎?

梁文鋒:所有套路都是上一代的產(chǎn)物,未來(lái)不一定成立。拿互聯(lián)網(wǎng)的商業(yè)邏輯去討論未來(lái)AI的盈利模式,就像馬化騰創(chuàng)業(yè)時(shí),你去討論通用電氣和可口可樂一樣,很可能是一種刻舟求劍。

暗涌:過(guò)去幻方就有很強(qiáng)的技術(shù)和創(chuàng)新基因,成長(zhǎng)也比較順利,這是你偏樂觀的原因嗎?

梁文鋒:幻方某種程度上增強(qiáng)了我們對(duì)技術(shù)驅(qū)動(dòng)型創(chuàng)新的信心,但也不都是坦途。我們經(jīng)歷了一個(gè)漫長(zhǎng)的積累過(guò)程。外部看到的是幻方2015年后的部分,但其實(shí)我們做了16年。

暗涌:回到關(guān)于原創(chuàng)式創(chuàng)新的話題。現(xiàn)在經(jīng)濟(jì)開始進(jìn)入下行,資本也進(jìn)入冷周期,所以它對(duì)原創(chuàng)式創(chuàng)新是否會(huì)帶來(lái)更多抑制?

梁文鋒:我倒覺得未必。中國(guó)產(chǎn)業(yè)結(jié)構(gòu)的調(diào)整,會(huì)更依賴硬核技術(shù)的創(chuàng)新。當(dāng)很多人發(fā)現(xiàn)過(guò)去賺快錢很可能來(lái)自時(shí)代運(yùn)氣,就會(huì)更愿意俯身去做真正的創(chuàng)新。

暗涌:所以你對(duì)這件事也是樂觀的?

梁文鋒:我是20世紀(jì)80年代在廣東一個(gè)五線城市長(zhǎng)大的。我的父親是小學(xué)老師,90年代,廣東賺錢機(jī)會(huì)很多,當(dāng)時(shí)有不少家長(zhǎng)到我家里來(lái),基本就是家長(zhǎng)覺得讀書沒用。但現(xiàn)在回頭去看,觀念都變了。因?yàn)殄X不好賺了,連開出租車的機(jī)會(huì)可能都沒了。一代人的時(shí)間就變了。

以后硬核創(chuàng)新會(huì)越來(lái)越多。現(xiàn)在可能還不容易被理解,是因?yàn)檎麄€(gè)社會(huì)群體需要被事實(shí)教育。當(dāng)這個(gè)社會(huì)讓硬核創(chuàng)新的人功成名就,群體性想法就會(huì)改變。我們只是還需要一堆事實(shí)和一個(gè)過(guò)程。

來(lái)源|暗涌Waves

猜你喜歡
模型
一半模型
一種去中心化的域名服務(wù)本地化模型
適用于BDS-3 PPP的隨機(jī)模型
提煉模型 突破難點(diǎn)
函數(shù)模型及應(yīng)用
p150Glued在帕金森病模型中的表達(dá)及分布
函數(shù)模型及應(yīng)用
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
3D打印中的模型分割與打包
主站蜘蛛池模板: 国产欧美日韩专区发布| 漂亮人妻被中出中文字幕久久| 国产精品30p| 午夜a视频| 日韩A级毛片一区二区三区| 亚洲国产中文精品va在线播放| 国产福利免费视频| 亚洲一本大道在线| 一级片免费网站| 欧美精品在线免费| 伊在人亚洲香蕉精品播放| 思思99热精品在线| 亚洲精品欧美重口| 欧美激情综合一区二区| 伊人色综合久久天天| 操美女免费网站| 国产精品香蕉在线观看不卡| 亚洲性视频网站| 亚洲色图欧美在线| 色久综合在线| 国产视频只有无码精品| 综合天天色| 国产天天射| 免费高清毛片| 九九热精品在线视频| 欧美人与牲动交a欧美精品| 婷婷六月综合| 2020亚洲精品无码| 国产美女主播一级成人毛片| 亚洲三级成人| 久久不卡国产精品无码| 精品无码日韩国产不卡av | 精品人妻一区无码视频| 日本五区在线不卡精品| 欧美色伊人| 四虎永久免费地址| 国产喷水视频| 亚洲天堂在线视频| 国产超薄肉色丝袜网站| 久久精品女人天堂aaa| 波多野结衣一区二区三区AV| 91精品国产综合久久不国产大片| 无码'专区第一页| 香蕉视频在线精品| 思思99热精品在线| 久久无码免费束人妻| 亚洲国产精品不卡在线| 亚洲欧美一区在线| 在线观看无码a∨| 看你懂的巨臀中文字幕一区二区 | 丁香婷婷综合激情| 992tv国产人成在线观看| 岛国精品一区免费视频在线观看| 91网址在线播放| 伊人久久久久久久| 无码视频国产精品一区二区| 啪啪免费视频一区二区| 欧美三级不卡在线观看视频| 欧美精品不卡| 国产精品人成在线播放| 国产精品手机在线播放| 国产成人乱无码视频| 亚洲综合香蕉| 日本免费精品| 色婷婷在线播放| 午夜视频www| 国产黑丝一区| 欧美笫一页| 欧美精品1区2区| 色综合久久综合网| 午夜综合网| 无码精品国产dvd在线观看9久| 在线va视频| 最新国产网站| 99精品视频在线观看免费播放| 国禁国产you女视频网站| lhav亚洲精品| 亚洲午夜福利在线| 伊人成人在线视频| 夜夜操天天摸| 亚洲国产欧美国产综合久久| 性做久久久久久久免费看|