孫杰賢

ChatGPT自2022年11月橫空出世以來,一路狂飆,將AIGC和AI大模型推到風口浪尖。
ChatGPT英文全稱“Chat G e n e r a t i v e P r e - Tr a i n e d Transformer”,是由美國公司OpenAI基于GPT3.5版本開發(fā)的一個人工智能聊天機器人程序,是一款人工智能技術(shù)驅(qū)動的自然語言處理工具。
清華大學智能產(chǎn)業(yè)研究院院長、中國工程院外籍院士張亞勤這樣評價ChatGPT: ChatGPT確實是一次跳躍和質(zhì)變,是AI的一個里程碑。人機對話已經(jīng)做了半個多世紀了,進步很大,但整體沒有實質(zhì)性的飛躍,不能通過“圖靈測試”。而ChatGPT是第一個可以通過“圖靈測試”的智能體,是通用人工智能的雛形。
A I G C的英文全稱是“A I Generated Content”,是人工智能和內(nèi)容創(chuàng)作的結(jié)合,能夠讓機器自動生成高質(zhì)量、高效率的內(nèi)容,在智能硬件、大數(shù)據(jù)分析等領(lǐng)域都有廣泛應(yīng)用。AIGC包括圖像、視頻、音頻等多種類型,包括自動生成文本和音頻。從目前AIGC的發(fā)展來看,其應(yīng)用范圍正在逐步擴大,并且已經(jīng)從簡單的文字內(nèi)容生成發(fā)展到智能圖片編輯、語音識別和智能寫作等。
因此,從概念定義來看,ChatGPT是AIGC概念的一種產(chǎn)品形態(tài)或者說應(yīng)用形態(tài)。而AI大模型則是兩者背后的核心技術(shù)。
A I大模型即基礎(chǔ)模型(Foundation Model),是基于海量多源數(shù)據(jù)打造的龐大神經(jīng)網(wǎng)絡(luò)。通過訓練,AI大模型從大量標記和未標記的數(shù)據(jù)中捕獲知識,并將知識存儲到大量的參數(shù)中,以實現(xiàn)對各種任務(wù)進行高效處理的技術(shù)架構(gòu),是實現(xiàn)通用人工智能的重要方向。AI大模型包含自然語言類大模型、計算機視覺類大模型,以及統(tǒng)一整合的多模態(tài)大模型等,ChatGPT 是AI大模型在自然語言處理領(lǐng)域突破性的創(chuàng)新。
發(fā)展歷程看,AI大模型先后經(jīng)歷了預訓練模型、大規(guī)模預訓練模型、超大規(guī)模預訓練模型三個階段。相應(yīng)的,AI大模型的發(fā)展也從以不同模態(tài)數(shù)據(jù)為基礎(chǔ)過渡到與學習理論等方面相結(jié)合,并呈現(xiàn)出全面發(fā)力、多點開花的新格局。
AI大模型有兩個核心要義:“預訓練”和“大模型”,意味著模型在大規(guī)模數(shù)據(jù)基礎(chǔ)上完成了預訓練后無需調(diào)整,僅需要少量數(shù)據(jù)的微調(diào),就能直接支撐各類應(yīng)用。從應(yīng)用領(lǐng)域來看,AI大模型可分為通用AI大模型和垂直AI大模型(也稱產(chǎn)業(yè)AI大模型),兩者在參數(shù)級別、應(yīng)用場景、商業(yè)模式等方面差異正在顯性化。通用AI大模型需要巨大的計算資源和數(shù)據(jù)量能夠處理各種領(lǐng)域和場景的自然語言,但是不一定有深入的專業(yè)知識,比如ChatGPT。垂直AI大模型是針對特定行業(yè)或者應(yīng)用場景而開發(fā),比如醫(yī)療、金融、教育等,它能夠利用行業(yè)的數(shù)據(jù)和知識,提供更精準和高效的解決方案。
垂直AI大模型可以更容易地與用戶和行業(yè)進行有效的溝通和合作,也更符合行業(yè)的規(guī)范和標準,因此,垂直AI大模型將是重要發(fā)展方向。
同人工智能一樣,AI大模型背后也需要數(shù)據(jù)、算法與算力的支撐。
高質(zhì)量的數(shù)據(jù)是助力AI訓練與調(diào)優(yōu)的關(guān)鍵,足夠多、足夠豐富、質(zhì)量足夠高的數(shù)據(jù),是生成式AI大模型的根基。目前AI模型的數(shù)據(jù)來源包括以下幾類:公共數(shù)據(jù)集、公共網(wǎng)站、自有數(shù)據(jù)、眾包數(shù)據(jù)、合成數(shù)據(jù)等。除了合成數(shù)據(jù)外,其他數(shù)據(jù)都是通過采集互聯(lián)網(wǎng)獲得。
隨著AI大模型的發(fā)展,數(shù)據(jù)量呈現(xiàn)指數(shù)級的增長態(tài)勢。比如,2018年的GPT-1數(shù)據(jù)集約4.6GB,2020年的GPT-3數(shù)據(jù)集達到了753GB, 而到了2021年的Gopher,數(shù)據(jù)集規(guī)模已經(jīng)達到了驚人的10,550GB。由于企業(yè)的很多業(yè)務(wù)數(shù)據(jù)、物流數(shù)據(jù)、財務(wù)數(shù)據(jù)等都是非常核心的私域數(shù)據(jù),很難把數(shù)據(jù)拿給別人去訓練。這也是垂直AI大模型的一個發(fā)展瓶頸。
算法是 AI 解決問題的機制、方式和路徑,算法的優(yōu)劣直接決定了AI大模型的空間復雜度與時間復雜度。例如,GPT 是在Transformer 模型基礎(chǔ)上發(fā)展的,相比于傳統(tǒng)的循環(huán)神經(jīng)網(wǎng)絡(luò)或卷積神經(jīng)網(wǎng)絡(luò),Transformer在處理長文本時具有更好的并行性和更短的訓練時間。三要素中,算法的研發(fā)門檻相對較低,每家企業(yè)都有自己實現(xiàn)大模型的路徑算法,且有眾多開源項目可作為參考,我國企業(yè)也可以憑此縮短差距,甚至彎道超車。
算力是打造AI大模型態(tài)的必備基礎(chǔ),AI大模型所需要的計算量,大致上相當于參數(shù)量與數(shù)據(jù)量的乘積。大模型之所以“大”,就是因為龐大的參數(shù)量和海量數(shù)據(jù)。上文也提到AI大模型的指數(shù)級增長,而參數(shù)量亦是如此。比如,GPT-3的參數(shù)量達到了驚人的1750億。因此,AI大模型的真正門檻在算力。數(shù)據(jù)訓練需要較高性能的芯片完成對整體模型神經(jīng)網(wǎng)絡(luò)的訓練構(gòu)建。據(jù)悉,為了訓練GPT-3,微軟新建了一個搭載了1萬張顯卡,價值5億美元的算力中心。模型在訓練上則消耗了355個GPU年的算力,而成本超過460萬美元。根據(jù)OpenAI公司的測算:全球AI訓練所用的計算量平均每3.43個月便會翻一倍,遠超摩爾定律。在可見的未來,算力不足將會是制約AI大模型發(fā)展的最大因素。
應(yīng)用AI大模型大概以下具體步驟。數(shù)據(jù)收集:收集和準備海量的數(shù)據(jù);設(shè)計模型:設(shè)計模型結(jié)構(gòu)和參數(shù);模型訓練:進行模型的訓練,進行模型優(yōu)化;模型測試:測試訓練好的模型,同預期效果進行比對;模型部署:部署應(yīng)用。
當然,AI大模型價值不僅僅是作作畫、寫寫文章、聊聊天那么簡單。AI大模型代表了人工智能技術(shù)向產(chǎn)品化、產(chǎn)業(yè)化落地的趨勢,這個趨勢的持續(xù)發(fā)展會深刻改變產(chǎn)業(yè)格局。同時,人們對AI的認知、行業(yè)對其能力的評估都將越來越體系化。
AI大模型的真正意義在于改變了模型的開發(fā)模式,將模型的生產(chǎn)由“小作坊”升級為工業(yè)化的“流水線”,而模型開發(fā)模式的轉(zhuǎn)變,將使得AI技術(shù)能夠更廣泛地下沉到一些長尾場景。前面也提到,垂直AI大模型是AI大模型的重要發(fā)展方向。底層AI大模型的研發(fā)具有極高的研發(fā)門檻,面臨高昂的成本投入,不利于人工智能技術(shù)在千行百業(yè)的推廣。但是具有數(shù)據(jù)、算力、算法綜合優(yōu)勢的企業(yè)可以基于第三方的AI大模型將復雜生產(chǎn)過程封裝起來,通過低門檻、高效率的生產(chǎn)平臺,向千行百業(yè)提供大模型服務(wù)。行業(yè)企業(yè)或者服務(wù)提供商只需要通過生產(chǎn)平臺提出在實際AI應(yīng)用中的具體需求,生產(chǎn)大模型的少數(shù)企業(yè)就能夠根據(jù)應(yīng)用場景進一步對大模型開發(fā)訓練,幫助應(yīng)用方實現(xiàn)大模型的精調(diào),以更好滿足各行業(yè)對于AI模型的需求。
舉個例子,礦山行業(yè)有眾多應(yīng)用場景,除了挖礦本身,還有挖礦前的勘測規(guī)劃,挖礦后的運輸、通風、安全保障,以及過程中間的經(jīng)營管理等。中國礦業(yè)大學便基于AI大模型,用機器視覺+機器人揀選的方式,以同步檢測技術(shù)取代人工,實現(xiàn)高效預拋廢,延長礦山設(shè)備壽命,減人提效。
我們在經(jīng)歷基于數(shù)據(jù)的互聯(lián)網(wǎng)時代和基于算力的云計算時代之后,即將邁入基于大模型的AI時代。可以肯定,那些率先開發(fā)或者應(yīng)用AI大模型的企業(yè)將會在AI產(chǎn)業(yè)布局中獲得先發(fā)優(yōu)勢。