〔內容提要〕自然語言處理(Natural Language Processing,NLP)始于上世紀50年代,是人工智能(AI)研究的重要方向。2018年以來,NLP從預訓練語言模型PLMs(Pre-trained Language Models)進化到大規模語言模型LLMs(Large Language Models),語料庫達到百億規模,參數超過千億,特別是隨著ChatGPT 3.5和GPT 4的橫空出世,LLMs的發展和應用進入新紀元,以其為代表的AI已成為經濟社會發展的重要驅動力。本文首先回顧了AI、NLP的發展過程,對LLMs發展現狀、訓練優化、創新應用、發展趨勢進行了全面綜述,總結了LLMs的發展進程、模型規模、技術架構,分析了LLMs的訓練數據集構建、訓練優化技術,討論了LLMs創新形態—智能體的典型案例,梳理了LLMs在制造、金融、醫療、教育、營銷、外貿等行業的應用情況,最后探討了LLMs的發展趨勢。LLMs以其強大的能力,賦能眾多行業和場景,必將成為我國經濟高質量發展的重要抓手。
〔關鍵詞〕大語言模型;自然語言處理;人工智能;應用趨勢
一、發展現狀
1950年,“圖靈測試”由艾倫·圖靈提出,1956年,約翰·麥卡錫提出人工智能(AI)。經過10多年努力,專家系統(Expert Systems)得到了發展,但其局限于某些特定情境,處理復雜問題的能力不足,知識庫擴展也存在問題,計算機硬件是其短板。導致20世紀70-80年代,AI發展進入瓶頸期。
80年代到本世紀初,深度學習技術獲得明顯進展,并應用于自然語言處理(Natural Language Processing,NLP)和計算機視覺等方面。IBM公司研發出的深藍(DeepBlue)電腦,在1997年戰勝國際象棋冠軍,IBM的沃森(Watson)可以使用自然語言回答問題,Google的阿爾法圍棋(AlphaGo)在2016年擊敗世界圍棋冠軍,這些顛覆性AI產品在某些方面的能力已經超越人類。
2018年至今,NLP的發展進入黃金期,預訓練語言模型PLMs(Pre - trained Language Models),采用Transformer框架,擅長處理大規模語料庫,參數規模越高模型性能越好,百億大規模語料庫或千億參數的PLMs進化成超大規模語言模型LLMs(Large Language Models)。
近年來,以GPT系列為代表的生成式預訓練模型迭代加快,LLMs研發形成浪潮,整個行業快速增長。ChatGPT(Chat Generative Pretrained Transformer)是GPT系列第4版,由美國OpenAI公司開發,于2022年11月30日上線,因其強大的功能引發轟動,上線兩個月活躍用戶突破1億/月。其他頭部公司紛紛跟進:微軟將ChatGPT接入bing搜索引擎打造必應ChatAI,活躍用戶突破1億/日,同時引入Office推出365 Copilot;谷歌也推出了基于LaMDA的Bard;百度等國內公司也陸續推出對標產品。2023年3月15日,OpenAI公布了顛覆性大型多模態模型GPT4,標志著NLP發展和應用進入新紀元。
總體來看,NLP的發展經歷了4個階段:統計語言模型(SLM)、神經網絡語言模型(NLM)、預訓練語言模型(PLMs)、大規模語言模型(LLMs)。見圖1。
(1)SLM(Statistical Language Model)階段:語言建模LM(Language Model)的研究始于上世紀50-60年代,集中在語言翻譯與基本語法分析方面,通過編寫代碼處理語言文本,很難對大量復雜文字數據進行處理。
(2)NLM(Neural Language Model)階段:80-90年代,電腦硬件性能提升,大文本數據庫越來越多,主要采用統計機器翻譯SMT(Statistical Machine Translation)方法,統計方法(Statistical Methods)成為主導。
(3)PLMs階段:2010年,深度學習(Deep Learning)興起,循環神經網絡(Recurrent Neural Network)、注意力機制(Attention Mechanism)、Transformer及變體模型出現,機器翻譯、文本理解與生成等進展顯著。
(4)LLMs階段:近年來,隨著多模態(Multimodality)與強化學習(Reinforcement Learning)技術的應用,模型不但能處理文本,還能處理圖像、音頻和視頻,同時擁有更全面的語言理解與生成能力。

目前,LLMs有三種主流框架:(1)Decoderonly對字序列從左到右單向處理,采用自注意機制,擅長完成語言生成NLG(Natural Language Generation),典型模型為GPT系列。(2)Encoder-only采用雙向編碼,在處理字序列中的每個字的同時,會考慮其左右側信息,因此能捕獲更豐富的語義信息,善于完成自然語言理解NLU(Natural Language Understanding),典型模型為BERT(Bidirectional Encoder Representations from Transformers)。(3)Encoderdecoder專注于生成更自然更連貫的對話,典型模型為BART和T5。針對不同的NLU、NLG需求,LLMs會采用不同的算法、數據和架構,圖2展示了國內外主要LLMs的進化過程。
二、創新應用
(一)典型模型
(1)百度文心智能體平臺:基于文心4.0開發,支持零、低和全代碼三種開發模式,用戶可以輕松定制能思考、決策和反思的智能體,如虛擬翻譯或虛擬數學老師。
(2)百度智能代碼助手(BaiduComate):采用流程無縫集成、上下文增強等技術,幫助編程者高效編碼、優化,該智能體可幫助程序員分析模塊功能、代碼庫結構,甚至生成具有特定功能的代碼。
(3)騰訊元器(Metasphere):是由混元大模型定制生成的智能交互平臺,能在不同設備、眾多場景中聯動,因地制宜提供個性化的解決方案,改善用戶體驗;元器能思考、決策和反思并不斷進化,服務用戶更貼心,也更精準。

(4)Meta通用機器人智能體(RoboAgent):只通過7500個軌跡的訓練,便學會了完成烘焙、上茶、拾取、清潔等12種復雜任務的技能,RoboAgent能把這些技能泛化應用在100種其他場景中,顯示出強大的適應和泛化能力。
(5)Coze創新型智能體平臺:全面支持開發者智能創建、自動代理,通過API調用,生成式AI實施更快、部署更方便,推動企業加快實現數字化轉型、智能化運營。
(6)Auto-GPT免費開源項目:采用GPT-3.5、GPT-4技術,用戶只要提供AI項目名、項目描述和5個目標,通過API即可完成一個完全自主項目的創建,Auto-GPT能自主完成任務并動態優化,在項目管理執行自動化方面具有里程碑意義。
(7)MetaGPT:基于GPT-4的多智能體協作平臺,通過定義角色和分解任務,協同多個智能體工作并完成復雜任務。MetaGPT模仿開發團隊的真實操作,與軟件項目傳統的研發流程相似,內部角色包括項目經理、架構師、程序員等,其訓練內容包括審查代碼、執行預編譯和編程迭代,幫助開發者盡早發現錯誤并改善代碼質量。MetaGPT不但支持多種自然語言和編程語言,還能適應多種運行環境。
(二)LLMs行業應用
1.制造
作為制造業大國的中國,要想成為制造強國,離不開AI這一重要手段。LLMs能整合制造企業的信息資源,創新研發模式,改進生產流程,優化物流線路,提高研發、生產、流通效率。LLMs賦能的智能機器人更能提質、增效、減人、降成本。
2.金融
金融業數據開放性差、獲取難、數量多、變化快。AI可以快速梳理和深入分析市場,為投資者提供操作建議和風險警示。LLMs能幫助人們理性分析,減少情緒干擾,實現自動交易,降低人為風險,更好應對市場變化。LLMs可對金融市場、相關機構和各類參與者進行實時監管,提高市場透明度,打擊金融違規違法行為。
3.醫療
LLMs可賦能疾病診斷治療、醫療器械設計、新藥研發臨試等方面。能及早發現流行病并做出傳播預測。可根據家庭成員的身體狀態、病史、病歷等提供精準貼心的服務。可輔助醫療器械和藥物設計,節省投入、降低成本、縮減周期、提高性能。
4.教育
LLMs可用于教學輔助提高教授與學習效率。通過智能評估減輕老師負擔,實現因人施教。智能導師、智能輔導員為學生提供研發指導、學習輔導、作業批改、感情溝通甚至心理疏導。智能外教幫助學生練習口語、積累詞匯、提高聽說能力。
5.營銷
LLMs通過分析消費者的日常喜好、社交行為、瀏覽偏好、購買歷史等數據,制定營銷策略,有針對性地推薦商品,增加售賣轉化率,讓客戶愛上品牌、愿意留下、不斷回購。LLMs作為智能客服助手,能跨越語言障礙回答客戶問題并提供解決方案,減輕人工負擔,降低服務成本、提高回應速度,讓客戶更滿意。可提供有質量的營銷內容,提高品牌聲譽、知名度和搜索排名,吸引更多用戶。LLMs可對客戶評論、反饋自動識別并加以總結,讓企業更好、更深入了解市場。
6.外貿
GPT-4支持的語言達26種,有能力當好全世界客戶的智能客服,實現低成本服務,讓客戶更滿意。LLMs能更好管理供應鏈,通過調整生產實現優化庫存、提高效率、更快交貨。LLMs可幫助外貿企業及時分析客戶的不同文化、喜好情況,更精準定位和畫像。幫助企業識別、規避各種風險,更準確預測市場并抓住機遇。外貿企業可利用GPT-4提供的API構建各種應用,助力物流、報關等系統。LLMs通過分析買家搜索次數、消費情況、瀏停時間來優化商品推介、提高訂購轉化率。LLMs能根據天氣、通關政策等對供應鏈進行更好的規劃,縮短到貨時間,讓客戶更滿意。
三、發展趨勢
1.多模態數據融合
LLMs通過融合多模態數據,理解世界更全面真實。通過融合自然數據(文字、圖片、音視頻等)、物聯網傳感器收集信息(溫濕度、風速、路況、4D時空等)、人體信息(蛋白質、心電、腦電等),提高模型的理解、表達、推理、創造能力。多模態數據解析,不但要求模型計算能力要強大,還需要優化算法設計,以實現數據融合解析的高效精準。
2.學習能力更強
LLMs能夠自我調整去適應新任務、新環境,能夠把已學到的知識應用到新任務上,學習和適應能力不斷得以強化,并貫穿其全生命周期。
3.透明度更高
LLMs算法要具備可解釋性,幫助人們了解其內在邏輯,理解其決策程序,增加信任度,從而推動其更好地應用。通過對模型和知識進行蒸餾,將復雜模型內在邏輯、決策程序簡化轉移,生成一個更好理解更透明的小模型,便于人們理解。
4.深度定制產品
垂直領域LLMs研發要選擇“數據質量高、數據供給穩定、規則清晰和需求明確”的行業領域,打造輔助系統和專家系統。LLMs訓練效果是由數據質量決定的,數據質量越高,偏差噪音越小,預測就越準確,數據供給越穩定,學習和優化才能得以持續,也更能適應將來的發展變化,規則清晰和需求明確有助于模型設計、開發和部署,可控性更強,風險也更小。
5.注重數據安全
LLMs的訓練、應用需要海量數據,這些數據涉及敏感內容和用戶隱私,需要采取嚴格的安全措施來確保數據安全。在LLMs的數據分析、訓練應用中,采用數據加密技術保證數據傳輸和存儲的安全,通過匿名化處理來保護用戶隱私,嚴格訪問控制確保數據安全,定期對安全進行內部審計和檢查,發現漏洞及時整改。
6.實現綠色計算
LLMs規模在不斷增大,需要更多的算力和存儲,如何降低運營成本、提高能效比、實現綠色計算變得日益重要。可通過改進架構和算法降低模型復雜度,從而減少資源消耗,采用高效環保的設備,多使用可再生能源供電,建立綠色計算評估體系,推動LLMs可持續發展。
高質量發展是時代的主題,是黨的二十大提出的“兩步走”戰略的根本要求,以LLMs為代表的AI技術必將為高質量發展注入強大動能。因此,我們一定要抓住機遇,加大產業投入,特別是研發投入,逐步解決國產替代、自主芯片這些關鍵技術和產品,統籌算力建設與使用,構建更多高質量的中文數據集。加強AI全產業鏈人才培養,建立健全相關法律、法規、標準、制度,妥善應對可能出現的安全風險與挑戰,推動AI技術與產業發展,讓LLMs在新一輪產業變革中加快形成更多新質生產力。
(作者單位:1.遼寧省大數據管理中心;2.成都市優加一教育科技有限公司;3.遼寧世紀教育研究院)