針對DeepSeek-V3 的測試,編輯準(zhǔn)備了包括通用問答、內(nèi)容總結(jié)、專業(yè)數(shù)學(xué)題、金融知識問答等四個(gè)方面。部分測試還將與豆包、Kimi 等大語言模型進(jìn)行對比,以便于更直觀地觀察DeepSeek-V3 的能力。
訓(xùn)練一個(gè)AI大模型需要多少錢?
OpenAICEO山姆·奧特曼曾表示,GPT-4的訓(xùn)練成本大約1億美元(約合人民幣7.3億元),未來訓(xùn)練大模型的成本將高于10億美元。尚未完成訓(xùn)練的GPT-5大模型,為時(shí)約半年的一輪訓(xùn)練就消耗了大約5億美元,可見AI公司的支出成本有多高。
而DeepSeek(深度求索)最新推出的DeepSeek-V3大模型訓(xùn)練成本僅為557.6萬美元(約合人民幣4070萬元),大概是GPT-4的二十分之一,總計(jì)約消耗了278.8萬個(gè)GPU小時(shí),參數(shù)為6710億,其中激活參數(shù)為370億。
DeepSeek官網(wǎng)的價(jià)格表顯示,緩存命中輸入價(jià)格僅為0.1元/百萬tokens,緩沖未命中輸入價(jià)格為1元/百萬tokens,輸出價(jià)格則為2元/百萬tokens,在諸多AI大模型中屬于最低一檔。(注明:1token約等于1.5個(gè)漢字或3個(gè)英文字母)
豆包、通義千問等AI大模型,能力較低的版本差不多也是這個(gè)價(jià)格,但性能較強(qiáng)的大模型如Doubao-pro-128k,輸入價(jià)格5元/百萬tokens,輸出價(jià)格為9元/百萬tokens,Kimi的moonshot-v1-128k輸出價(jià)格更是高達(dá)60元/百萬tokens。(注明:數(shù)據(jù)來自AI公司官方)
DeepSeek-V3超低的訓(xùn)練成本和最低一檔的輸入、輸出價(jià)格,令人不禁疑惑,到底是其他AI公司資源利用率太差,還是DeepSeek技術(shù)實(shí)力太強(qiáng),抑或DeepSeek-V3的能力是吹的?
好在,盡管DeepSeek-V3的大模型主打開源和API接口使用,但
也為用戶準(zhǔn)備了可以便捷使用的網(wǎng)頁版。只要對其測試一番,對比與主流大語言模型的差距,我們就能獲知DeepSeek的真正實(shí)力。
DeepSeek-V3實(shí)測,結(jié)果令人驚訝
DeepSeek頁面極為簡潔,主框僅有深度思考、聯(lián)網(wǎng)搜索、上傳文件、發(fā)送四個(gè)按鈕。如果不打開聯(lián)網(wǎng)搜索功能,將無法搜索網(wǎng)上相關(guān)的信息,只能當(dāng)作本地大模型使用,且深度思考和聯(lián)網(wǎng)搜索無法同時(shí)開啟,但依然需要電腦聯(lián)網(wǎng)將問題發(fā)送給DeepSeek。
針對DeepSeek-V3,編輯準(zhǔn)備了四輪測試,包括通用問答、內(nèi)容總結(jié)、專業(yè)數(shù)學(xué)題、金融知識問答,部分測試還將與豆包、Kimi等大語
言模型進(jìn)行對比,以便于更直觀地觀察DeepSeek-V3的能力。
常規(guī)問答:簡短整潔、可讀性高
作為一名科技編輯,編輯每天都會向AI詢問“今天科技圈有什么新聞”,讓AI大模型幫助我快速收集新聞,絕大多數(shù)大模型也能夠輕松勝任。于是,編輯將其作為第一輪測試題目。
DeepSeek尋找了10條新聞,新聞之間用分割線劃分,視覺上更加清晰明了。每一段新聞的末尾,還會提供可一鍵直達(dá)的網(wǎng)頁鏈接。該項(xiàng)目的測試中,DeepSeek的亮點(diǎn)在于,新聞的總結(jié)簡潔且突出了重點(diǎn),所收集的內(nèi)容也不局限于國內(nèi)平臺,部分消息來自海外新聞媒體,點(diǎn)擊鏈接可直達(dá)海外的新聞網(wǎng)站。有趣的是,DeepSeek還找到了自己的“黑料”,DeepSeek-V3大模型會稱自己是ChatGPT,山姆·奧特曼發(fā)文回應(yīng),認(rèn)為原因是數(shù)據(jù)污染。
編輯用豆包和Kimi收集新聞時(shí),豆包回復(fù)的內(nèi)容文字太多,內(nèi)容不夠簡潔清晰,Kimi則過于精簡,新聞的總結(jié)基本只有一句話。
隨后編輯還讓AI推薦幾首古典音樂,在未聯(lián)網(wǎng)的狀態(tài)下,DeepSeek依然可以準(zhǔn)確回答我的問題,只是所有內(nèi)容全部變成了英文。而切換至聯(lián)網(wǎng)模式后,再次提問相同的問題,回答的內(nèi)容則又變成了中文。
本著求真的心態(tài),編輯又進(jìn)行了幾次測試,發(fā)現(xiàn)未聯(lián)網(wǎng)狀態(tài)下詢問西方古典音樂時(shí),DeepSeek給出的回答是英文,詢問中國相關(guān)的音樂內(nèi)容,如周杰倫的歌曲,DeepSeek就會是中文。DeepSeek居然是根據(jù)回答內(nèi)容的相關(guān)性選擇語言,而不是提問所用的語言,令編輯多少有點(diǎn)詫異。
總而言之,在常規(guī)問答項(xiàng)目中,DeepSeek表現(xiàn)出色,無論是聯(lián)網(wǎng)狀態(tài)還是非聯(lián)網(wǎng)狀態(tài)都能準(zhǔn)確回答出編輯提出的問題,表現(xiàn)絲毫不遜色豆包、Kimi等國內(nèi)第一梯隊(duì)的AI大模型。
內(nèi)容總結(jié):結(jié)果很精簡,重點(diǎn)有缺失
在之前大模型橫評中,編輯曾讓豆包、Kimi、文心一言、訊飛星火等多款A(yù)I大模型總結(jié)小紅書發(fā)布的《潮流數(shù)碼白皮書》,結(jié)果大模型總結(jié)出的內(nèi)容普遍缺失重點(diǎn),有車轱轆話來回轉(zhuǎn)的情況。
與大多數(shù)大模型相同,DeepSeek給出的內(nèi)容遺失了太多重點(diǎn),尤其是《潮流數(shù)碼白皮書》給出的部分事例,DeepSeek完全沒有歸納出來。
AI大模型基本存在相同的問題,總結(jié)內(nèi)容時(shí)容易變成“歸納大綱和標(biāo)題”,導(dǎo)致大量信息無法展現(xiàn)出來,用戶僅憑“腦補(bǔ)”也難以還原出原本內(nèi)容。
就生成的內(nèi)容而言,DeepSeek的表現(xiàn)與Kimi、文心一言較為接近,略強(qiáng)于訊飛星火,稍遜于豆包。能夠達(dá)到這個(gè)效果,已經(jīng)很出乎編輯的意料了。
數(shù)學(xué)題解答:快速、準(zhǔn)確、有過程
在數(shù)學(xué)題解答中,編輯先后準(zhǔn)備了三道數(shù)學(xué)題,第一道題是較為簡單的小學(xué)數(shù)學(xué)題。第二道題則是經(jīng)典的三門問題,DeepSeek全部輕松回答正確,因而編輯不再展示AI給出的答案,小伙伴們可以自己思考一下。在DeepSeek取得兩連勝后,編輯決定給AI大模型上一上強(qiáng)度,拿出了曾經(jīng)擊敗過多個(gè)AI大模型的第三道題:
某班有39名同學(xué)參加短跑、跳遠(yuǎn)、投擲三項(xiàng)體育比賽,人數(shù)分別為23人、18人、21人,其中三項(xiàng)比賽全部參加的有5人,僅參加跳遠(yuǎn)的有3人,僅參加投擲的有9人,請問僅參加短跑的有多少人?(正確答案:9人)
此前的測試中,唯有付費(fèi)版o1-preview計(jì)算出了該問題的正確答案,豆包、Kimi、文心3.5、免費(fèi)版GPT-4o等大模型全部回答錯(cuò)誤。令編輯沒想到的是,DeepSeek居然給出了正確答案。
一時(shí)間編輯懷疑,是不是經(jīng)過這段時(shí)間的訓(xùn)練,所有大模型都能計(jì)算出該問題的答案了,于是編輯又測試了幾款大模型,結(jié)果豆包和文心3.5依然未能回答正確,分別給出了3人和12人的答案,升級了k1視覺思考模型的Kimi和訊飛星火則給出了正確答案。
除了能夠正確回答問題,DeepSeek還能夠詳細(xì)展示思考步驟,部分問題還會反復(fù)驗(yàn)證答案,甚至使用其他方式再計(jì)算一次,而且解答問題的速度更是獨(dú)一檔。
在本輪測試中,DeepSeek的表現(xiàn)堪稱優(yōu)秀,所有問題全部答對、解答速度快、有思考步驟,反而是赫赫有名的豆包、文心3.5再次折戟,未能解答出第三道題,DeepSeek表現(xiàn)出的實(shí)力遠(yuǎn)遠(yuǎn)大于它的名氣。
金融問題答疑:精準(zhǔn)理解,給出了適當(dāng)建議
面向所有消費(fèi)者的大語言模型,至今大多仍免費(fèi)提供服務(wù),反而主攻的是B端市場和主打?qū)I(yè)功能的AI大模型,逐漸收費(fèi)服務(wù)。C端市場用戶眾口難調(diào),且許多人不愿意付費(fèi)使用,唯有打造專業(yè)使用場景,面向有對應(yīng)需求的用戶,AI公司方能有機(jī)會實(shí)現(xiàn)盈利。因而在第四輪測試中,編輯準(zhǔn)備了一道金融知識問題:
當(dāng)市場利率上升或下降時(shí),債券價(jià)格會如何變化?投資者應(yīng)如何應(yīng)對利率波動(dòng)以保護(hù)債券投資組合價(jià)值?
這一輪測試中,所有AI大模型給出的答案大同小異,均能準(zhǔn)確解讀市利率變化和債券價(jià)格的關(guān)系,并給出一些投資建議,包括分散投資、縮短久期、投資債券基金等方案。
網(wǎng)上金融相關(guān)的信息過于繁雜,查詢、挑選、提純信息的流程也較為麻煩,AI能很好地解決這一問題,幫助我們匯集相關(guān)信息并提取有用的內(nèi)容。
金融問題相關(guān)測試中,編輯仍未開啟聯(lián)網(wǎng)搜索功能,DeepSeek給出的答案中規(guī)中矩,與其他AI大模型拉不開差距,但這已足夠證明DeepSeek的優(yōu)秀,畢竟它的訓(xùn)練成本僅557.6萬美元。
總結(jié):能力出乎意料,功能有待豐富
測試DeepSeek-V3之前,編輯有點(diǎn)看不起這款大模型,OpenAI訓(xùn)練GPT的成本以“億美元”為單位,一個(gè)訓(xùn)練成本僅557.6萬美元的AI大模型,表現(xiàn)能高到哪兒去?結(jié)果實(shí)測結(jié)果狠狠給了編輯一巴掌。
幾輪測試下來,除了幾乎所有大模型都存在丟失重點(diǎn)的內(nèi)容總結(jié)環(huán)節(jié),其他幾輪測試DeepSeek都拿到了高分,表現(xiàn)絲毫不遜色國內(nèi)赫赫有名的文心一言、Kimi、豆包等AI大模型。
在數(shù)學(xué)題解答項(xiàng)目中,即便面對豆包、文心3.5都未能給出正確答案的難題,DeepSeek依然迅速解出答案。訊飛星火和Kimi上次測試給出了錯(cuò)誤答案,這次成功答對,進(jìn)步幅度不小。
部分小伙伴看到這里可能就會覺得,DeepSeek花幾百萬美元就能訓(xùn)練出這么優(yōu)秀的大模型,OpenAI、百度、字節(jié)跳動(dòng)都是在浪費(fèi)錢。其實(shí)不然,DeepSeek縱然在邏輯推理方面表現(xiàn)出色,但其功能缺乏是最大的問題,無法用于創(chuàng)作圖片、PPT,也不提供智能體可選,功能相對較少。
豆包、文心一言、ChatGPT等,則在朝著“萬能大模型”進(jìn)發(fā),即AnyToAny,用戶可以輸入任何模態(tài)的內(nèi)容,并輸出任何模態(tài)的內(nèi)容。針對許多專業(yè)領(lǐng)域,豆包、文心一言紛紛推出了對應(yīng)的智能體,涵蓋生活、學(xué)習(xí)、創(chuàng)作等方方面面,這是DeepSeek遠(yuǎn)不能及的。
對于以文字生成為主要需求的用戶來說,DeepSeek-V3是一款不錯(cuò)的AI大模型,但若有更多需求,如寫長篇小說、創(chuàng)作圖片、投資計(jì)算,豆包、Kimi等免費(fèi)服務(wù)的AI大模型及其提供的智能體或許更合適。
當(dāng)然,DeepSeek也確實(shí)做到了花小錢辦大事,通過更先進(jìn)的MoE架構(gòu)、多技術(shù)融合優(yōu)化、FP8混合精度訓(xùn)練框架等技術(shù),以及與開源社區(qū)合作的方法,在成本較低的情況下,就訓(xùn)練出文字生成和邏輯推理能力不輸乃至領(lǐng)先主流AI大模型DeepSeek-V3。
訓(xùn)練成本高昂、競爭愈發(fā)激烈已成趨勢,未來幾年國內(nèi)外將有大量AI公司倒閉,如何開源與節(jié)流已成AI公司必須思考的難題,DeepSeek降低成本的方法值得其他AI公司學(xué)習(xí)。
來源|雷科技