深度求索公司在網絡上發布的大語言模型DeepSeek最新版本轟動全球。美國硅谷的高科技公司首席科學家、相關領域的頂級學者紛紛加入了討論,甚至引發了納斯達克指數的異常波動。
那么,在市場上已經存在不少大語言模型的情況下,為什么DeepSeek能引起如此大的轟動?原因有二:其一,它開放源代碼,允許全世界下載,支持本地部署;其二,它的低訓練成本打破了大語言模型完全依賴性能和顯卡的思維定式。
DeepSeek的訓練成本500萬美元(約合人民幣3 631萬元),是指最新版本的預訓練和訓練費用,不包含前期技術驗證、預研發費用,以及技術積累的人工和計算開銷。
根據深度求索公司發布的論文,DeepSeek能做到低訓練成本,主要是依靠MoE混合專家模型(以下簡稱MoE)、混合精度訓練、動態注意力機制、并行內存雙通道數據蒸餾等技術。其中,MoE和混合精度訓練最為亮眼。
在大語言模型訓練領域,頭部公司采用的是Dense模型,該模型訓練用到的參數越多,難度就越大,并且難度會因為參數的變多呈現指數級的增加,導致訓練成本居高不下。DeepSeek采用的是MoE,簡單來說,就是把參數拆分,分開訓練,訓練的復雜程度和參數就不是指數關系,而是線性關系。
舉個例子,一個班級的同學各有所長,有擅長做數學題的,有擅長吟詩作賦的,有擅長體育運動的,還有擅長聊天營造氣氛的。MoE是讓這些學生分別回答擅長領域的問題,Dense則是把所有問題一股腦兒丟給全班同學,期待大家能成長為一個上知天文下知地理、能歌善舞、善解人意的全才。
在進行專家訓練之前,DeepSeek引入了一個分發系統。每一個令牌(token)會被這個分發系統分發給不同的專家,或者把同一個令牌發給不同的專家,最后把專家的意見歸納總結,以此提高模型的效率。
另一個低訓練成本的關鍵是混合精度訓練。在大語言模型訓練過程中,需要保持一定的浮點小數精度,精度越高,結果越可靠,計算成本也越高。計算需要用到顯卡,而顯卡的需求量可以用參數量乘以精度估算。在32位的全精度下,一個參數由4個字節表示,一個10億參數的模型大概需要4GB的顯卡內存才能加載全精度的模型。
DeepSeek通過把32位參數縮短到8位或者16位,節省了一半以上的顯卡內存。可精度下降也會導致結果的可靠性降低。為了解決可靠性問題,混合精度訓練便會挑選參數的重要性,重要的參數精度較高,不那么重要的參數精度較低。同時,為了避免多次運算后精度差導致的累計誤差過大,DeepSeek會在多次計算后調整精度,確保累計的誤差不會太大。至于多少次計算后再調整精度效果最好,DeepSeek給出了詳細的闡釋。
上述兩點是低訓練成本的基石,當然,DeepSeek采用的其他技術,比如動態注意力機制、并行內存雙通道數據蒸餾也把顯卡的利用效率提升到了較高水平。
或許有人認為,這些理論并非創新性的,比如MoE混合專家模型早在1991年就有論文提出了??墒牵馨堰@么多的論文模型整合到一個應用中,本身就是工程學的創新。我們從來不會因為瓦特改良了蒸汽機,而忽略后世特里維西克、埃文斯的貢獻。
牛頓曾說:“我是站在巨人的肩膀上?!盌eepSeek是巨人肩膀上的產物,它也會成為下一個托舉人類人工智能發展進步的巨人。