DeepSeek,這個攪動全球AI市場的“鲇魚”,到底“牛”在哪里,又對我們的生活有何影響?
機器“教會”人類如何思考
1月20日晚間,中國“名不見經傳”的AI初創企業深度求索公司(DeepSeek)正式發布推理大模型DeepSeek-R1。因其可比肩OpenAI的性能、極低的服務價格,以及代碼和模型架構的完全開源,成了攪動全球AI市場的“鲇魚”。
如果說前段時間DeepSeek的熱潮還僅僅局限在AI圈,那么它現在已延伸到了更大的范圍。
雖然從測評結果來看,DeepSeek-R1并沒有對OpenAI形成“碾壓”趨勢,但受到了格外多的好評。“有溫度”是很多人使用下來的評價。DeepSeek-R1能夠提供“情緒價值”,其一些關于“人生問題”的回答甚至登上了熱搜,被網友稱為獨屬于“中文”大模型的浪漫。
在DeepSeek內點開R1提問后,模型總會先展示出它的一些“碎碎念”,然后再給出答案,“碎碎念”就是它的推理和思考過程,甚至在遇到困惑時會說“等等”來中斷自己的思路。而同樣的問題問OpenAI,只會給用戶展示出原始思維過程的摘要。
從奧數題到明星八卦,人類第一次如此清晰地目睹“機器如何思考”,還特別會“融會貫通”,不少網友評價,仿佛與一個“現實的人”在對話。這種“透明化推理”讓用戶不僅能獲得答案,還能觀察AI的思考邏輯,有網友表示,可以反向學習DeepSeek如何拆解復雜問題,機器教會人類“如何思考”。
一位AI領域的從業人士表示,過去,大模型的訓練過程通常是先訓練出一個基座模型,然后對他進行監督微調,接下來進行強化學習訓練。“所謂監督微調,就是我們給模型問題和期望的答案,模型先照著范本學習,然后通過打分告訴它做得好還是差,讓模型從反饋中學習”,這位人士比喻,“而DeepSeek-R1的訓練方式相當于一道范題都不給孩子看,直接送上考場,然后通過對每個問題不同答案得到的分數反饋,讓模型自己掌握逐漸解題思路。”
沒有監督學習,這就意味著它不需要大量的人工標注數據,也就意味著節約成本,就能顯著提升性能;在實際開發過程中,開發者可以省去大量數據準備的時間,以更快的速度推向市場。而通過“試錯”和反饋來積累經驗,形成推理能力,讓模型即使在完全陌生的領域也能展現出創新的思維和解決問題的能力。
人人可以用得起的東西
Deepseek還有一個戲謔的名字——“AI界拼多多”。Deepseek的中文名是“深度求索”,為量化巨頭“幻方量化”的子公司。這是一家“隱形”的AI巨頭,擁有1萬枚英偉達A100芯片。
成立僅一年多時間,2024年5月,Deepseek就發布一款名為DeepSeek V2的開源模型,提供了一種史無前例的性價比,推理成本每百萬token(字符)僅1塊錢。DeepSeek也被迅速冠以“AI界拼多多”之稱。
然而,僅又過了半年多,12月26日,全新系列模型DeepSeek-V3首個版本上線并同步開源,在性能上和世界頂尖的閉源模型GPT以及Claude-3.5-Sonnet不分伯仲。最讓海外AI界震驚的是,在性能突出的同時,該模型的訓練成本大幅降低。DeepSeek新開源模型僅花費了560萬美元進行訓練,成本相當于GPT的十分之一。
資深人士分析稱,DeepSeek訓練成本低,一個重要原因是使用了數據蒸餾技術,通過已有的高質量模型來合成少量高質量數據,并作為新模型的訓練數據。同時創新使用了FP8(八位浮點數)、MLA(多頭潛在注意力)和MOE(利用混合專家架構)三種技術。相較于其他模型使用的MOE架構,DeepSeek每次只需要占用很小比例的子集專家參數就可以完成計算。MLA機制則能顯著降低推理過程中內存占用開銷。正如其開發者梁文鋒在接受媒體采訪時表示,DeepSeek選擇“不做垂類和應用,而是作研究,作探索”“做最難的事”“解決世界上最難的問題”。梁文鋒口中的“難”,或許就是“原創”二字,是從“零到十”。
DeepSeek得到如此高的關注度還有一個原因就是“開源”。過去,作為用戶想使用推理模型,例如OpenAI,需要每個月20-200美金的會員,而在DeepSeek-R1上,這些都是免費的。神思電子首席科學家閔萬里表示,AI要想發展就得需要算力,由于算力所需投資規模巨大,這是大多中小科技企業的“痛點”,他們對低成本的人工智能系統的需求更為迫切。而DeepSeek就應運而生。
而對于普通人而言,在過去,人們要獲取特定領域的知識,必須具備相關專業的學術背景或經驗,這造成了信息獲取的不平等。AI的到來,讓人們實現了平等獲取知識的機會,信息平權時代就要到來。正如梁文鋒曾在接受媒體采訪時表示:“無論API,還是AI,都應該是普惠的、人人可以用得起的東西。”Deepseek將是送給全世界的禮物。
(摘自《齊魯壹點》李夢瑤)