

近年來,大型語言模型技術不斷飛躍,海內外互聯網企業在人工智能領域的技術開發及迅速擴張為大語言模型的技術進步與應用落地開拓蓬勃發展的空間。
1.大型語言模型的定義及特征
大型語言模型(Large Language Model,LLM),即利用大規模語料數據進行預訓練的預訓練語言模型(Pre-trained Language Models,PLMs),是自然語言處理(Natrual Language Processing,NLP)的方式之一。早期的大型語言模型主要基于循環神經網絡(Recurrent Neural Network, RNN)和卷積神經網絡(Convolutional Neural Network, CNN)等基礎模型進行構建。但該類模型無法進行文本特征提取及生成,隨著大語言模型對生成式模型的引入,模型可通過學習語言的概率分布,生成與訓練數據相似的新文本,在自然語言處理任務中取得了突破性的表現。
大型語言模型一般指在大規模語料庫訓練下包含數千億參數的語言模型。大型語言模型中最具代表性的是Transformer(特征提取器)模型架構及其預訓練語言模型,可實現對內容的理解,以及根據上下文生成相應內容等功能。現有大型語言模型采用與小型語言模型類似的模型架構及預訓練模型,但相比小模型其模型規模更大、訓練數據更多、計算資源需求更高。當參數規模超過一定閾值,大語言模型各方面能力遠超小模型,大語言模型因此獨立于小模型單獨存在。[1]
大型語言模型遵循預訓練、適應性調優的處理過程。[2]預訓練在大型語言模型中起重要作用。通過預訓練的處理,大規模語料庫中的一般知識通過語言建模與去噪自編碼進入大規模模型參數中[3];適應性微調通過針對相應下游任務做出調整,獲得更好的性能,加速下游任務的訓練。可通過指令微調手機指令格式增強模型遵循人類指令能力、可通過微調手機指令格式,增強模型遵循人類指令的能力,從而使模型對齊人類反饋數據,強化學習,更符合人類偏好。GPT、BERT、XLNet等語言模型的提出,為大型語言模型的主流地位奠定了實踐基礎。
基于大型語言模型的大規模參數及模型特征,其在運用中具有涌現能力及多語言提取能力的特征。第一,基于大規模參數大型語言模型表現出的涌現能力主要有三個方面。首先是上下文學習能力,大型語言模型可通過輸入文本的詞序列生成測試實例的預期輸出。其次是指令遵循能力,通過對指令微調提高泛化能力。最后是多步驟復雜任務處理能力,通過思維鏈推理策略解決復雜任務[4];第二,基于大型語言模型特征的多語言提取能力主要表現在Transformer的模型架構之中。Transformer利用一種前饋全連接神經網絡架構,使用多頭自注意力機制,構建了編碼器-解碼器結構。[5]Transformer特征提取器的使用使得模型具有了易于并行、能夠獲取長距離依賴、綜合特征提取能力強的特征,有一定的多語言特征提取能力。[6]
2.國內外互聯網企業技術動向與商業布局
隨著Transformer神經網絡的提出及Bert模型在多個自然語言處理領域取得最優效果,自然語言處理預訓練模型從單語言擴展到跨語言、多模態、輕量化等任務模式。[7]技術步入新模態的同時也帶動海內外人工智能領域進入新格局。具體見表1。
第一,海外互聯網巨頭動作頻頻,技術發展上追求模型AGI(Artificial General Intelligence,人工智能通用型系統)能力,商業布局上依賴原有商業模式將大語言模型融入相關產品。技術上,海外互聯網企業在大語言模型起步早發展快,雖在技術上各有側重但都追求人工智能通用型能力,力圖使模型具有人類智能水平。谷歌注重技術探索與多路徑發展,2018年推出Bert模型,2019年推出T5模型,2021年推出Lamda模型,2022年推出PaLM模型。OpenAI聚焦對GPT模型的修訂與更正,自2018年提出GPT-1模型至最新的GPT-4,從模型規模到模型適應性上都取得長足發展。Meta注重對模型性能強化,其最新模型LLaMA-13B可在單張顯卡上運行,模型規模小、性能高;商業布局上,海外互聯網企業在大型語言模型的商業布局中布局廣、模式豐富,但多依賴原有商業版圖。OpenAI主營人工智能研究,作為最早向公眾開放的大語言模型公司其具有天然的用戶數據積累優勢,在商業模式上指向API、訂閱制和與其他企業進行技術合作。微軟商業版圖橫跨生產力、智能云、個人計算,在搜索引擎New being、辦公產品Microsoft中融入GPT-4,同時推出Security Copilot。亞馬遜聚焦電子商務、云計算,預計在原有模式中自研大語言模型服務企業客戶。谷歌推出聊天機器人Bard后,推出基于Sec-PaLM模型的Google Cloud Security AI Workbench人工智能安全工作臺,增強威脅檢測與分析。
第二,國內互聯網企業紛紛追趕,技術發展上注重自主研發,商業布局上注重全棧式發展。技術上,國內互聯網公司在大型語言模型上研究起步較晚但發展迅速快,且多數互聯網企業選擇自主研發大型語言模型。百度自2019年首次發布ERNIE模型后不斷精進模型,至文心一言使用的ERNIE3.0實現通用于不同任務范式和領域的大模型。阿里發布通義M6、通義-AliceMind、通義-視覺模型、通義千問,尋找自身技術路徑。華為發布基于MindSpore框架的PanGu-Σ模型,參數規模大且包含Transformer解碼器架構通過隨機路由專家(Random Routed Experts,RRE)進行擴展,為領域內模型演進提供新思路。騰訊基于太極平臺完成混元大模型構建;在商業布局上,國內互聯網企業注重技術研發與全棧式落地,從模型建構的自主研發到模型應用場景規劃多依賴自身原有互聯網布局,但現階段應用多為聊天機器人階段。百度發布文心一言,同時計劃依托百度智能云對外提供服務,業務架構包括百度大腦+平臺+應用。360發布360智腦將與瀏覽器、數字助理、蘇打辦公、智能營銷等場景應用深度結合。華為發布PanGu-Σ在分布式集群和華為全棧下有獨特性能優勢,可對開放域對話、問答、機器翻譯和代碼生成等應用程序數據進行微調。阿里發布通義千問,累積了從飛天云操作系統、自研芯片到智算平臺的“AI+云計算”的全棧技術實力。騰訊在騰訊應用層、模型層布局,支持更多場景和應用。京東聚焦任務型的智能對話及交互,通過語音、文本、數字人等多種形式完成復雜任務,賦能產業AI。國內互聯網企業對大型語言模型部署貫穿企業全棧式發展,但現階段應用層面仍體現在聊天機器人層面,大型語言模型在應用層面的廣泛普及仍需不斷開展。
3.大型語言模型的發展前景
大型語言模型在技術推進和商業應用上正經歷著前所未有的變革發展,其發展前景既包含技術上的突破也包含商業場景中的拓展創新。
第一,大型語言模型在技術前景上,需克服算力限制與模型限制,提升智能化程度。目前大型語言模型主要以生成式模型下的大型語言模型為主導,通過大規模數據參數進行預訓練、微調,盡管目前技術呈現出蓬勃發展態勢,但大規模數據處理依賴于大量計算資源,計算機、GPU、TPU等芯片的處理能力在支撐模型工作的同時也限制了模型的不斷擴容,如何提升算力、精進模型成為大型語言模型及自然語言處理要解決的問題。
第二,大型語言模型在商業前景上,需廣泛布局各端應用,提高內容生產效率。目前企業對大型語言模型的商業應用聚焦于互聯網原有布局,但大型語言模型的自然語言處理能力、大規模智能化數據庫,以及文本、圖片等的生成能力促使其具備一定的生產能力。從生產角度,大型語言模型在人工智能中的應用使得文本、圖像內容可被大規模迅速生成,使得元宇宙、數字孿生等技術愿景成為可能。從消費角度,大型語言模型具有自然語言處理能力,可為政府服務、企業、個人三方提供分層化、定制化消費產品,實現其商業模式上的拓展與創新。
參考文獻
[1][3][4]Zhao W X, Zhou K, Li J, et al. A Survey of Large Language Models[J]. arXiv preprint arXiv, 2023.
[2][5]岳增營,葉霞,劉睿珩.基于語言模型的預訓練技術研究綜述[J].中文信息學報,2021(9):15-29.
[6]Pires T, Schlinger E, Garrette D. How multilingual is multilingual BERT?[J]. arXiv preprint arXiv, 2019.
[7]阿布都克力木·阿布力孜,張雨寧,阿力木江·亞森等.預訓練語言模型的擴展模型研究綜述[J].計算機科學,2022(S2):43-54.
作者簡介:郭全中,中央民族大學新聞與傳播學院教授,江蘇紫金傳媒智庫高級研究員;楊元昭,中央民族大學新聞與傳播學院傳播學碩士研究生。
(本文繪圖:王文姝)