






摘 要:對(duì)機(jī)器學(xué)習(xí)、深度學(xué)習(xí)、知識(shí)工程等為代表的判別式人工智能和以GPT、Sora等為代表的生成式人工智能的特點(diǎn)、技術(shù)現(xiàn)狀和應(yīng)用能力邊界進(jìn)行了研究,系統(tǒng)地比較了判別式人工智能與生成式人工智能的背景、技術(shù)原理、技術(shù)特點(diǎn),分析了當(dāng)前AIGC的技術(shù)現(xiàn)狀、瓶頸,總結(jié)了生成式人工智能(AIGC)進(jìn)一步推動(dòng)AI賽道進(jìn)入快速發(fā)展期的原因,并對(duì)未來一段時(shí)間內(nèi),AIGC在油氣工業(yè)領(lǐng)域的應(yīng)用趨勢、難點(diǎn)進(jìn)行了分析預(yù)測。
關(guān)鍵詞:生成式人工智能;油氣縱深;潛在應(yīng)用需求
中圖分類號(hào):TP391;TP38;TE9 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):2096-4706(2024)13-0129-07
Value Scenarios and Challenges and Future Directions of Pre-trained AI Big Model in the Oil and Gas Field
CHEN Hongzhi1, GONG Benru1, WANG Xiaoyan1, LIN Xiufeng1,2, SUN Jiafeng3
(1.Research Institute of CNPC Kunlun Digital Intelligence Technology, Co., Ltd., Beijing 102206, China; 2.School of Information, Renmin University of China, Beijing 100872, China; 3.Inner Mongolia Branch of China Mobile Communications Group Co., Ltd., Hohhot 010000, China)
Abstract: This paper researches the characteristics, current technological status, and application capability boundaries of Discriminative Artificial Intelligence represented by Machine Learning, Deep Learning, and Knowledge Engineering, as well as AIGC represented by GPT and Sora. It systematically compares the backgrounds, technological principles, and technological characteristics of Discriminative Artificial Intelligence and AIGC, analyzes the current technological status and bottlenecks of AIGC, and summarizes the reasons for Artificial Intelligence Generated Content (AIGC) to further promote the rapid development of the AI industry. Furthermore, it analyzes and predicts the application trends and difficulties of AIGC in the oil and gas industry in the near future.
Keywords: AIGC; oil and gas depth; potential application need
0 引 言
過去數(shù)十年間,基于機(jī)器學(xué)習(xí)、深度學(xué)習(xí)、知識(shí)工程等在內(nèi)的判別式人工智能(AI)技術(shù),以可訓(xùn)練、可持續(xù)提升等類腦行為能力,在自動(dòng)化數(shù)據(jù)采集、狀態(tài)監(jiān)測、模式分類與識(shí)別、預(yù)測/預(yù)防性維護(hù)、協(xié)同優(yōu)化求解等工業(yè)領(lǐng)域場景中,得到了更廣泛的應(yīng)用[1]。同時(shí),在油氣工業(yè)應(yīng)用方面,通過開放式創(chuàng)新和產(chǎn)學(xué)研深度融合的模式[2],建立了諸如“道達(dá)爾+谷歌云”“雪佛龍+微軟”等跨界組合,聚焦協(xié)同工作環(huán)境、智能井、生產(chǎn)實(shí)時(shí)優(yōu)化、智能油藏管理等,加速了人工智能在油氣工業(yè)縱深領(lǐng)域的應(yīng)用探索,形成了上下游決策自動(dòng)化、井筒鉆探數(shù)據(jù)處理、智能化地震成像處理、智能壓裂等貫穿油氣縱深的AI應(yīng)用,為油氣工業(yè)的數(shù)據(jù)分析效率提升、勘探評(píng)價(jià)能力升維、實(shí)時(shí)預(yù)測與決策、開放生態(tài)環(huán)境構(gòu)建等方面,實(shí)現(xiàn)了價(jià)值創(chuàng)造。
2022年末,隨著OpenAI發(fā)布ChatGPT,基于Transformer架構(gòu)的大規(guī)模預(yù)訓(xùn)練模型的生成式人工智能(AIGC)技術(shù),進(jìn)一步推動(dòng)了人工智能從點(diǎn)狀應(yīng)用進(jìn)一步向具備多場景泛化能力的通用人工智能(AGI)發(fā)展[3]。從基于鍵盤-鼠標(biāo)的人機(jī)交互向基于自然語言的人機(jī)交互模式發(fā)展,使能更多非專業(yè)用戶可參與到模型的訓(xùn)練、調(diào)優(yōu)和應(yīng)用建設(shè)中,進(jìn)一步加快了普通終端用戶對(duì)人工智能的接納。同時(shí),基于大規(guī)模數(shù)據(jù)對(duì)模型的預(yù)訓(xùn)練,形成在自然語言與語義理解、上下文銜接、多輪對(duì)話、動(dòng)機(jī)和意圖分析、內(nèi)容生成等方面能力的強(qiáng)化,使基于大模型生成內(nèi)容的數(shù)據(jù)服務(wù)在搜索、客服、機(jī)器翻譯、代碼編寫、情感計(jì)算、流程自動(dòng)化等應(yīng)用場景的表現(xiàn),得到了更為顯著的提升[4]。從ChatGPT [5]的發(fā)布開始,國內(nèi)生成式大模型(LM)的數(shù)量快速增長,模型更新速度縮短至每月級(jí)別[6],百余家企業(yè)和知名學(xué)術(shù)機(jī)構(gòu)包括文心一言、通義千問、星火等百余家不同規(guī)模的企業(yè)、學(xué)術(shù)機(jī)構(gòu)發(fā)布了自己的LLM [7]。同時(shí),通過引入思維鏈(COT)[8]、提示工程[8]、LoRa [9]、LangChain [10]等創(chuàng)新的模型訓(xùn)練方法和微調(diào)框架,結(jié)合LLM帶來的人機(jī)交互模式的轉(zhuǎn)變,一方面進(jìn)一步簡化了LLM的訓(xùn)練和微調(diào)程序;另一方面,也使能更多的低階開發(fā)者具備調(diào)試與應(yīng)用LLM的能力。這進(jìn)一步加速了AIGC大模型產(chǎn)業(yè)的迭代速度。
2024年初,OPENAI發(fā)布視頻生成大模型Sora [11],支持通過自然語言人機(jī)交互,生成最長60 s的視頻,實(shí)現(xiàn)了生成式人工智能從支持圖片、語言等單一模態(tài),向基于語音、文字、圖像、視頻流融合的多模態(tài)交互的變革,模型能力和應(yīng)用想象空間實(shí)現(xiàn)了躍遷。
如圖1~3所示,人工智能技術(shù)經(jīng)歷了典型的“厚積薄發(fā)”過程,從早期的單一場景、小數(shù)據(jù),到AIGC時(shí)代的多場景可泛化,呈現(xiàn)出了迭代時(shí)間逐漸縮短;應(yīng)用模式更加普及;準(zhǔn)入門檻逐步降低,競爭快速進(jìn)入“紅?!钡膽B(tài)勢。
結(jié)合預(yù)訓(xùn)練生成式人工智能大??焖侔l(fā)展趨勢,文章從LM的特點(diǎn),當(dāng)前的應(yīng)用現(xiàn)狀,典型應(yīng)用場景,應(yīng)用難點(diǎn)以及未來能源工業(yè)人工智能應(yīng)用展望等幾個(gè)方面,分析了LM與油氣行業(yè)數(shù)智化的結(jié)合點(diǎn)、應(yīng)用模式以及未來的發(fā)展?jié)摿?。文章主要分為下?個(gè)章節(jié):第1節(jié)討論預(yù)訓(xùn)練大模型的技術(shù)特點(diǎn),人工智能技術(shù)在油氣工業(yè)領(lǐng)域的現(xiàn)狀及局限;第2節(jié)闡述預(yù)訓(xùn)練大模型的特點(diǎn)、背景和截至目前的能力邊界;第3節(jié)結(jié)合油氣行業(yè)數(shù)智化需求,從數(shù)據(jù)、算力、算法、應(yīng)用層面討論大模型在油氣行業(yè)的應(yīng)用場景和實(shí)現(xiàn)大模型落地應(yīng)用的關(guān)鍵約束。第4節(jié)結(jié)合應(yīng)用現(xiàn)狀,展望如何通過大模型與各類數(shù)智化應(yīng)用技術(shù)結(jié)合,進(jìn)一步提升油氣行業(yè)數(shù)智化水平。第5節(jié)結(jié)合當(dāng)前應(yīng)用情況,討論LM在油氣工業(yè)應(yīng)用中的主要挑戰(zhàn)。在第六節(jié),結(jié)合全文討論與分析,給出了作者團(tuán)隊(duì)對(duì)未來AIGC應(yīng)用的展望。
1 判別式人工智能在油氣工業(yè)的應(yīng)用現(xiàn)狀及局限
人工智能以其對(duì)聲,光,電,圖,表,文等多模態(tài)數(shù)據(jù)可學(xué)習(xí),可提煉,可迭代的特點(diǎn),近年來為能源工業(yè)界的測錄井解釋,鉆井安全風(fēng)險(xiǎn)識(shí)別,過程工藝協(xié)同優(yōu)化,裝備及過程工業(yè)數(shù)字孿生,數(shù)據(jù)采集與數(shù)據(jù)處理等場景中,實(shí)現(xiàn)了高效數(shù)據(jù)采集與內(nèi)容提取,多模態(tài)數(shù)據(jù)融合,特征工程與模式分類,過程控制與決策自動(dòng)化,為能源工業(yè)的增儲(chǔ)上產(chǎn),降本增效、“雙碳”轉(zhuǎn)型、客戶引流與促銷增收以及數(shù)智技術(shù)國產(chǎn)化替代提供了新的探索[1-2,12-16]。但判別式機(jī)器學(xué)習(xí)與深度學(xué)習(xí)存在的應(yīng)用點(diǎn)單一,訓(xùn)練過程煩瑣,不具備泛化能力,部署工程量大[17],后服務(wù)投入成本高,對(duì)每個(gè)單一場景互斥等局限,導(dǎo)致AI應(yīng)用難以實(shí)現(xiàn)標(biāo)準(zhǔn)產(chǎn)品化和原生化,具體表現(xiàn)在:
1)對(duì)任何場景,在初始階段,均需從數(shù)據(jù)準(zhǔn)備開始,經(jīng)歷完整的模型訓(xùn)練,測試,部署過程,跨場景不可復(fù)制,遷移訓(xùn)練過程的工作量不亞于重新訓(xùn)練。
2)對(duì)于每一個(gè)孤立的場景,需要大量針對(duì)細(xì)節(jié)詳細(xì)標(biāo)注的優(yōu)質(zhì)數(shù)據(jù)作為訓(xùn)練和測試集,以確保所提供的模型,符合該場景的需求。這帶來了大量的前期工作量,且該工作量對(duì)于跨場景、私域應(yīng)用而言,實(shí)際上具有不可復(fù)用性。
3)在模型完成訓(xùn)練后,其部署過程需要專業(yè)的工程人員完成,現(xiàn)階段,主要廠商為加速推動(dòng)AI能力在垂直場景中的落地,均配套推出了對(duì)應(yīng)的工程化訓(xùn)推一體平臺(tái),如華為Modelart [18],用友BIP-AIWorkshop [19],亞馬遜AWS-Sagemaker [20],阿里PAI和Modelscope [21]等,但現(xiàn)階段,其作用局限于降低工程部署工作量,對(duì)工程師的專業(yè)度要求并未降低。
4)在模型正式上線后,由于使用者多為非專業(yè)人員,隨場景數(shù)據(jù)的細(xì)微變化,模型易出現(xiàn)參數(shù)漂移,對(duì)于需要完全在自有IDC中進(jìn)行私有部署的企業(yè)用戶而言,其后服務(wù)運(yùn)營的時(shí)效性也難得以有效保障,特別是對(duì)于油氣生產(chǎn)經(jīng)營等典型的連續(xù)流程工業(yè),在工作流程不可輕易中止的前置條件下,對(duì)AI應(yīng)用解決方案的植入帶來了更高的門檻。
5)上述因素綜合作用下,判別式AI在現(xiàn)階段的落地應(yīng)用,更多地聚焦在數(shù)據(jù)采集、數(shù)據(jù)組織、模式識(shí)別等具有確定解、不侵入具體工作流程的場景,對(duì)于決策優(yōu)化、多輪人機(jī)交互等具備一定模糊或灰度屬性的場景應(yīng)用相對(duì)較少。
2 預(yù)訓(xùn)練大模型背景、技術(shù)特點(diǎn)
預(yù)訓(xùn)練大模型指基于大量預(yù)先標(biāo)注數(shù)據(jù)(PB級(jí)別數(shù)據(jù)量,或萬億級(jí)別自然語言token,或超過千億像素的圖像數(shù)據(jù)集,或以上三者聯(lián)合),訓(xùn)練的具有億級(jí)以上參數(shù)規(guī)模的深度網(wǎng)絡(luò)?,F(xiàn)階段,基于Transformer架構(gòu)[22]的大參數(shù)預(yù)訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)成為當(dāng)前生成式人工智能大模型(LM)采用的主要骨架。得益于Transformer提出的基于注意力機(jī)制的創(chuàng)新架構(gòu),當(dāng)模型參數(shù)達(dá)到或超過一定規(guī)模后,LM具備信息采集和組織、語義理解、內(nèi)容生成等涌現(xiàn)技能[23],上述技能使LM可在多輪人機(jī)交互、上下文語義理解、自動(dòng)化意圖拆解、基于問答的增強(qiáng)式信息檢索(RAG)、多模態(tài)內(nèi)容創(chuàng)作[11]等方面,更好地理解人類意圖、擴(kuò)展情感計(jì)算深度,實(shí)現(xiàn)更好的人機(jī)交互。此外,基于海量預(yù)處理數(shù)據(jù),圍繞多類場景問題求解,訓(xùn)練的具備場景泛化、內(nèi)容生成、人機(jī)交互等能力的大規(guī)模預(yù)訓(xùn)練模型,具備在原有基礎(chǔ)上進(jìn)行增量訓(xùn)練和通過少量數(shù)據(jù)微調(diào)后,滿足特定場景需求的能力。這不僅使LM具備了一定的持續(xù)學(xué)習(xí)和積累能力,而且為AI落地應(yīng)用過程中的持續(xù)運(yùn)營問題,提供了進(jìn)一步的可行性。
此外,通過引入前述基于思維鏈的提示工程(如圖4所示),一方面進(jìn)一步簡化了LM的訓(xùn)練和微調(diào)程序;另一方面,也使能更多的低階開發(fā)者具備調(diào)試與應(yīng)用LM的能力,這進(jìn)一步加速了AIGC大模型產(chǎn)業(yè)的迭代速度。
但與此同時(shí),生成式人工智能帶來的幻覺,推理和預(yù)測過程的不可解釋問題,導(dǎo)致LM的生成內(nèi)容不穩(wěn)定,易出現(xiàn)錯(cuò)誤答案,甚至出現(xiàn)類似圖5所示“幻覺”等具有一定邏輯性的錯(cuò)誤引導(dǎo),從而帶來系列次生的隱私、安全及道德倫理風(fēng)險(xiǎn)[24]。
3 大模型在垂直行業(yè)的應(yīng)用現(xiàn)狀
在ChatGPT發(fā)布后,生成式LM在多個(gè)不同的場景中得到了落地實(shí)踐,Miranda [25]等通過AIGC實(shí)現(xiàn)復(fù)雜音樂生成,基于自研的DisCoCat框架,結(jié)合LM實(shí)現(xiàn)了可解釋的音樂合成,并嘗試了在量子芯片上的部署。在通信領(lǐng)域,國內(nèi)主要通信運(yùn)營商與學(xué)術(shù)機(jī)構(gòu)及頭部互聯(lián)網(wǎng)公司合作,圍繞通信行業(yè)的開發(fā)、運(yùn)維、營銷、計(jì)費(fèi)、客服、客戶關(guān)系管理和商業(yè)智能等直觀的價(jià)值場景,建設(shè)通信行業(yè)大模型TelecoGPT,實(shí)現(xiàn)智能網(wǎng)絡(luò)規(guī)劃、智能網(wǎng)絡(luò)維護(hù),智能網(wǎng)絡(luò)優(yōu)化與運(yùn)營,顯著降低人員工作負(fù)載[26]。在司法領(lǐng)域,LM被證實(shí)可用于圖像識(shí)別、法律援助助手生成以及法律文案生成方面可為人工工作提供較大的幫助[27]。在搜索推薦和銷售轉(zhuǎn)化領(lǐng)域,針對(duì)推薦與搜索領(lǐng)域最核心的用戶標(biāo)簽問題,通過多智能體系統(tǒng),提示工程與GPT3.5的結(jié)合,建設(shè)了自動(dòng)標(biāo)簽系統(tǒng)[28],進(jìn)一步降低了推薦系統(tǒng)用戶打標(biāo)的業(yè)務(wù)門檻,為眾創(chuàng)模式的應(yīng)用提供了可行性。
綜上,現(xiàn)階段,生成式人工智能大模型更多聚焦在系統(tǒng)容錯(cuò)較好、C端場景或2B的客服、銷售等外圍類場景進(jìn)行系列先導(dǎo)應(yīng)用[29]。同時(shí),為確保提供可信安全的生成式數(shù)據(jù)服務(wù),可解釋的內(nèi)容生成,成了現(xiàn)階段各類研究和應(yīng)用的重點(diǎn)突破方向。為進(jìn)一步降低AIGC的應(yīng)用門檻,通過結(jié)合多智能體系統(tǒng)、分布式融合策略框架[30]等外掛框架,融合預(yù)訓(xùn)練基礎(chǔ)大模型已積累的能力,實(shí)現(xiàn)AIGC與真實(shí)應(yīng)用場景更迅速地融合。
4 在油氣工業(yè)應(yīng)用大模型的主要挑戰(zhàn)
油氣工業(yè)數(shù)智化應(yīng)用,具有低容錯(cuò)、強(qiáng)機(jī)理、極限工況、連續(xù)生產(chǎn)、跨學(xué)科交叉幅度大等流程工業(yè)的共性特點(diǎn),這些特點(diǎn),對(duì)LM在該領(lǐng)域的應(yīng)用,也帶來了一定的挑戰(zhàn),具體表現(xiàn)有以下幾點(diǎn)。
4.1 場景洞察難
石油天然氣工業(yè)數(shù)智化場景覆蓋了從采集、分析、控制、呈現(xiàn)、決策等產(chǎn)業(yè)鏈,但在實(shí)際場景應(yīng)用上,是否真正具備價(jià)值機(jī)會(huì),以及如何實(shí)現(xiàn)可量化的商業(yè)價(jià)值評(píng)判,是技術(shù)、經(jīng)驗(yàn)、商業(yè)模式、交付能力、生態(tài)等方面共同作用的結(jié)果,洞察難度大,試錯(cuò)成本高。
4.2 數(shù)據(jù)獲取與治理難
能源工業(yè)具有典型的自然壟斷特性,在多個(gè)場景下,支撐多種大模型應(yīng)用,需要足量的高品質(zhì)數(shù)據(jù)資產(chǎn)支撐。這些數(shù)據(jù)資產(chǎn)覆蓋范圍廣、數(shù)量大、質(zhì)量不一致,需要完備的數(shù)據(jù)存儲(chǔ)、治理、傳輸、表征和應(yīng)用鏈路,以保證數(shù)據(jù)資產(chǎn)的全鏈路可靠。但此類數(shù)據(jù)資產(chǎn),多為私域,存在數(shù)據(jù)獲取渠道和獲取可行性上的限制。
4.3 跨專業(yè)語言對(duì)齊難
在油氣等垂直領(lǐng)域應(yīng)用大模型,涉及勘探、開發(fā)、生產(chǎn)、營銷、運(yùn)營等多種不同專業(yè)。不同專業(yè)之間的知識(shí)體系和價(jià)值邏輯均不盡相同,跨專業(yè)間的術(shù)語、專業(yè)知識(shí)、業(yè)務(wù)模式等復(fù)雜體系,亟須統(tǒng)一模式進(jìn)行對(duì)齊。此外,對(duì)于同類專業(yè)內(nèi)部,終端用戶的業(yè)務(wù)專業(yè)語言與開發(fā)者之間技術(shù)語言之間的對(duì)齊,同樣也存在需平復(fù)的溝壑。這些現(xiàn)象,對(duì)系統(tǒng)設(shè)計(jì)和應(yīng)用開發(fā),都帶來了大量技術(shù)以外的挑戰(zhàn)。
4.4 應(yīng)用構(gòu)建與集成難
企業(yè)業(yè)務(wù)信息系統(tǒng),包括ERP、MES、SCM、SRM、CRM、HRM等,均以“流程驅(qū)動(dòng)為主、數(shù)據(jù)和模型驅(qū)動(dòng)為輔”。僅依靠大模型獨(dú)立提供服務(wù),需與現(xiàn)有業(yè)務(wù)系統(tǒng)及流程難以實(shí)現(xiàn)對(duì)接。對(duì)于不同系統(tǒng)之間、諸如API、中間件、數(shù)據(jù)庫、消息隊(duì)列、安全等各類不同接口均需要予以考慮,集成交付難度大。此外,跨多個(gè)分布式系統(tǒng),帶來的組織、角色、權(quán)限統(tǒng)一管理與數(shù)據(jù)資產(chǎn)安全應(yīng)用問題,為大模型應(yīng)用的嵌入,帶來了不確定性。
4.5 結(jié)論解釋難
在技術(shù)方面,生成式人工智能目前仍基于transformer架構(gòu),典型黑盒編解碼架構(gòu)使推理預(yù)測過程不可解釋。在業(yè)務(wù)方面,AIGC提供的數(shù)據(jù)服務(wù),存在生成幻覺、錯(cuò)誤引導(dǎo)等風(fēng)險(xiǎn),需要通過具有業(yè)務(wù)屬性的結(jié)果解釋,以滿足終端用戶的理解與使用要求。
4.6 工程部署難
如圖6所示,LM的部署需要完整的CI/CD和DevOps流水線進(jìn)行支撐;統(tǒng)一數(shù)據(jù)治理平臺(tái),實(shí)現(xiàn)全鏈路數(shù)據(jù)開發(fā)與治理一體化;訓(xùn)推一體化AI中臺(tái)支持模型訓(xùn)練、推理和持續(xù)優(yōu)化;針對(duì)AIGC模型與業(yè)務(wù)系統(tǒng)的銜接,需要基于Agent的智能體集群,實(shí)現(xiàn)承上啟下和基于提示工程的持續(xù)優(yōu)化。以上幾方面的能力建設(shè),需要跨組織、跨學(xué)科、跨領(lǐng)域的協(xié)作執(zhí)行。
5 大模型在油氣領(lǐng)域未來應(yīng)用方向的思考
在流程工業(yè)場景中,基于大模型的主要應(yīng)用形態(tài)如圖7所示,包括AI模型原生服務(wù)(Model as Service(MAS)),AI原生調(diào)度器(Model as pilot (MAP)),可組裝應(yīng)用(Model as applications (MAA)),三種模式與業(yè)務(wù)系統(tǒng)的嵌入逐級(jí)加深,理論上,其對(duì)油氣行業(yè)數(shù)智化的潛在價(jià)值也是逐級(jí)加深。三種模式分別定義如下:
1)MAS。以大模型現(xiàn)有能力,提供精細(xì)意圖理解,提供面向千人千面意圖的生成式數(shù)據(jù)服務(wù),顯著提升信息獲取命中率和效率。其典型應(yīng)用包括:安全生產(chǎn)方案生成、標(biāo)準(zhǔn)檢索、個(gè)性化報(bào)表分析、AIGC-chatbot等基礎(chǔ)工具應(yīng)用。
2)MAP?,F(xiàn)有各SOTA級(jí)AIGC模型難以直接覆蓋油氣全縱深。應(yīng)用AIGC的自然語言交互能力,利用大模型作為調(diào)度器,調(diào)度現(xiàn)有能力完成用戶意圖,簡化人機(jī)交互,提升效率。其典型應(yīng)用包括:通過自然語言實(shí)現(xiàn)測井曲線重構(gòu)、巖性物性預(yù)測、潛力層推薦、采集方案生成等能力喚起。
3)MAA。結(jié)合具象場景,AIGC與已有業(yè)務(wù)系統(tǒng)實(shí)現(xiàn)更友好地組裝和人機(jī)交互,AIGC作為統(tǒng)一人機(jī)交互入口,實(shí)現(xiàn)意圖與系統(tǒng)工作流間的轉(zhuǎn)化,形成“數(shù)據(jù)+流程”雙驅(qū)動(dòng)的“樂高”式企業(yè)應(yīng)用。其典型應(yīng)用包括:智能化工作流執(zhí)行、場景應(yīng)用組裝、數(shù)字員工等。
通過引入LM,充分應(yīng)用其在信息采集和組織、語義理解、內(nèi)容生成等方面相較于機(jī)器/深度學(xué)習(xí)的優(yōu)勢,適當(dāng)應(yīng)用上述的三種不同交互模式,預(yù)期將在以下方面,更好地加速油氣工業(yè)數(shù)智化進(jìn)程:
1)安全生產(chǎn)輔助決策:針對(duì)鉆完井、催裂化生產(chǎn)等勘探開發(fā)、生產(chǎn)制造過程中的封閉場景,結(jié)合專家經(jīng)驗(yàn)和歷史語料對(duì)大模型進(jìn)行增量訓(xùn)練后,將使之具備結(jié)合異常征象,進(jìn)行事故預(yù)判的能力,為實(shí)現(xiàn)智能系統(tǒng)對(duì)推理結(jié)果的可解釋性,通過LM與先驗(yàn)知識(shí)圖譜的聯(lián)合應(yīng)用,可為上述涉及地下工況環(huán)境或裝置內(nèi)封閉式場景異常征象的業(yè)務(wù)視角可解釋。
2)搜索與精準(zhǔn)問答:現(xiàn)階段、包括油氣銷售、系統(tǒng)運(yùn)維、生產(chǎn)操作輔助、財(cái)務(wù)對(duì)賬等場景下,都已部署了VPA虛擬機(jī)器人助手(Virtual Personal Assitant)[31],但既往的應(yīng)用中,多是通過窮舉問答對(duì)和人工窮舉意圖的形式,持續(xù)豐富VPA的技能集合,并實(shí)現(xiàn)在閉環(huán)場景中的應(yīng)用。LM具有更好的語義理解、意圖分析、多輪和情感計(jì)算能力,信息檢索、多輪對(duì)談、情感判斷、外呼詢證等場景中,針對(duì)開環(huán)意圖的銷售、詢證、投訴處置、建議生成、標(biāo)準(zhǔn)信息檢索等具備更好地解析能力。
3)基于大模型的多模型調(diào)度及聯(lián)合應(yīng)用:測井錄井、業(yè)財(cái)一體化模擬測算等設(shè)計(jì)決策輔助類型的場景,具有強(qiáng)可解釋性、容錯(cuò)性差等特點(diǎn),需通過LM與淺層機(jī)器學(xué)習(xí)、深度學(xué)習(xí)、知識(shí)圖譜融合應(yīng)用,以LM作為調(diào)度器,聯(lián)合應(yīng)用知識(shí)機(jī)理和各類模式識(shí)別工具,在勘探側(cè),可實(shí)現(xiàn)對(duì)測井錄井曲線重構(gòu)、巖性預(yù)測、測井錄井解釋、潛力層推薦;在業(yè)財(cái)一體方面,實(shí)現(xiàn)不同經(jīng)營策略下,財(cái)務(wù)健康度、經(jīng)營指標(biāo)的可解釋數(shù)字孿生預(yù)測與測算,實(shí)現(xiàn)更高的置信度。
4)文案和內(nèi)容生成助手:數(shù)智化環(huán)境下的協(xié)同辦公、信息檢索、數(shù)據(jù)分析、邏輯觀點(diǎn)提煉和自然語言表達(dá)需求,例如文案內(nèi)容輔助生成、美化及資料組織等,可基于LM的內(nèi)容生成能力,檢索并協(xié)助組織更多一手資料,提升文案生成和更迭效率,降低出錯(cuò)的可能性。
6 結(jié) 論
本文系統(tǒng)性地調(diào)研和總結(jié)了經(jīng)典判別式人工智能和新一代生成式人工智能的背景、發(fā)展現(xiàn)狀、技術(shù)特點(diǎn),并展望了AIGC技術(shù)未來的應(yīng)用方向。不同于經(jīng)典判別式人工智能的業(yè)務(wù)場景單一、點(diǎn)狀、泛化能力差等短板,AIGC通過基于海量數(shù)據(jù)、大算力預(yù)訓(xùn)練的大參數(shù)Transformer網(wǎng)絡(luò),產(chǎn)生了一定程度的智能涌現(xiàn),實(shí)現(xiàn)了更好地上下文記憶、用戶意圖理解、信息檢索、知識(shí)生成和信息分發(fā)。上述能力使用戶可基于少量數(shù)據(jù)的參數(shù)微調(diào)、RLHF強(qiáng)化學(xué)習(xí)、提示工程、與外掛Agent聯(lián)合應(yīng)用等方式,使能更低門檻的模型調(diào)優(yōu)、迭代以及應(yīng)用嵌入,為AI技術(shù)從專業(yè)應(yīng)用到普及應(yīng)用提供了潛在可行性。
對(duì)于油氣工業(yè)為代表的典型流程工業(yè)而言,如何應(yīng)用AIGC涌現(xiàn)出的上述新能力,突破價(jià)值場景提煉、數(shù)據(jù)獲取與治理、結(jié)論解釋、應(yīng)用構(gòu)建與集成、跨專業(yè)語義對(duì)齊、跨云/跨IDC適配與應(yīng)用集成等瓶頸問題,在安全生產(chǎn)輔助決策、精準(zhǔn)問答與檢索、內(nèi)容生成、多模型調(diào)度與聯(lián)合應(yīng)用方面,形成有價(jià)值的AI原生應(yīng)用,仍將是未來一段時(shí)間,探索的重點(diǎn)。
參考文獻(xiàn):
[1] 肖立志,宋先知.油氣人工智能理論與應(yīng)用場景(第一輯)[M].北京:電子工業(yè)出版社,2023.
[2]匡立春,劉合,任義麗,等.人工智能在石油勘探開發(fā)領(lǐng)域的應(yīng)用現(xiàn)狀與發(fā)展趨勢[J].石油勘探與開發(fā),2021,48(1):1-11.
[3] WU J Y,GAN W S,CHEN Z F,et al. AI-Generated Content (AIGC): A Survey [J/OL].arXiv:2304.06632 [cs.AI].(2023-03-26).https://arxiv.org/abs/2304.06632.
[4] DEVLIN J,CHANG M W,LEE K,et al. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding [J/OL].arXiv:1810.04805 [cs.CL].(2018-10-11).https://arxiv.org/abs/1810.04805.
[5] OpenAI. Introducing ChatGPT [EB/OL].[2024-01-15].https://openai.com/blog/chatgpt.
[6] OpenAI,ACHIAM J,ADLER S,et al. GPT-4 Technical Report [J/OL].arXiv:2303.08774 [cs.CL](2023-03-15).https://arxiv.org/abs/2303.08774.
[7] 王祺,李冬露,張?jiān)?,?2023年中國AIGC產(chǎn)業(yè)全景報(bào)告 [EB/OL].(2023-08-22).https://www.idigital.com.cn/report/
4227?type=0.
[8] WEI J,WANG X Z,SCHUURMANS D,et al. Chain-of-Thought Prompting Elicits Reasoning in Large Language Models [J/OL].arXiv:2201.11903 [cs.CL].(2023-01-10).https://arxiv.org/abs/2201.11903v6.
[9] HU E J,SHEN Y L,WALLIS P. LoRA: Low-Rank Adaptation of Large Language Models [J/OL].arXiv:2106.09685 [cs.CL].(2021-06-17).https://arxiv.org/abs/2106.09685.
[10] Langchain. Langchain: Get Your LLM Application From Prototype to Production [EB/OL].[2024-01-15].https://www.langchain.com.
[11] LIU Y X,ZHANG K,LI Y. Sora: A Review on Background, Technology, Limitations, and Opportunities of Large Vision Models [J/OL].arXiv:2402.17177.(2024-02-27).[cs.CV].https://arxiv.org/abs/2402.17177.
[12] 鄒文波.人工智能研究現(xiàn)狀及其在測井領(lǐng)域的應(yīng)用[J].測井技術(shù),2020,44(4):323-328.
[13] 蔣希文.鉆井事故與復(fù)雜問題:第2版 [M].北京:石油工業(yè)出版社2006.
[14] 陳宏志,馬鵬程.一種設(shè)備狀態(tài)監(jiān)測方法及系統(tǒng):CN201910704324 [P].2019-11-01.
[15] 陳宏志,馬鵬程.一種數(shù)據(jù)處理方法及電子設(shè)備:CN201910912792 [P].2020-01-10.
[16] 陳宏志,馬鵬程.一種數(shù)據(jù)處理方法、系統(tǒng)及電子設(shè)備:201910789677 [P].2019-11-26.
[17] 用友云平臺(tái)團(tuán)隊(duì).數(shù)字化中臺(tái) [M].北京:電子工業(yè)出版社,2021.
[18] 田奇,白小龍.ModelArts人工智能應(yīng)用開發(fā)指南 [M].北京:清華大學(xué)出版社,2020.
[19] 陳宏志,金基勇,裴芝林,等.模型構(gòu)建方法、系統(tǒng)、電子設(shè)備和可讀存儲(chǔ)介質(zhì):CN202011337071 [P].2021-02-05.
[20] WU C,SONG Y,MARCH D. Learning from Drivers to Tackle the Amazon Last Mile Routing Research Challenge [J/OL].arXiv:2205.04001 [cs.AI].(2022-05-09).https://arxiv.org/abs/2205.04001.
[21] LI C L,CHEN H H,YAN M,et al. ModelScope-Agent: Building Your Customizable Agent System with Open-source Large Language Models [J/OL].arXiv:2309.00986 [cs.CL].(2023-09-02)https://arxiv.org/abs/2309.00986.
[22] VASWANI A,SHAZEER N,PARMAR N,et al. Attention is All You Need [C]//NIPS'17:Proceedings of the 31st International Conference on Neural Information Processing Systems.Red Hook:Curran Associates Inc,2017:6000-6010.
[23] WEI J,TAY Y,BOMMASANI R,et al. Emergent Abilities of Large Language Models [J/OL].arXiv:2206.07682 [cs.CL].(2022-06-15).https://arxiv.org/abs/2206.07682.
[24] HUANG X W,RUAN W J,HUANG W,et al. A Survey of Safety and Trustworthiness of Large Language Models Through the Lens of Verification and Validation [J/OL].arXiv:2305.11391 [cs.AI].(2023-05-19).https://arxiv.org/abs/2305.11391.
[25] MIRANDA E R,YEUNG R,PEARSON A,et al. A Quantum Natural Language Processing Approach to Musical Intelligence [J/OL].arXiv:2111.06741v2 [quant-ph].(2021-11-10).https://arxiv.org/abs/2111.06741.
[26] 亞信科技,清華大學(xué)智能產(chǎn)業(yè)研究院.AIGC(GPT-4)賦能通信行業(yè)應(yīng)用白皮書 [R/OL].(2024-01-15).https://www.doc88.com/p-27039239698517.html.
[27] LAI J Q,GAN W S,WU J Y,et al. Large Language Models in Law: A Survey [J/OL].arXiv:2312.03718 [cs.CL].(2023-11-26).https://arxiv.org/abs/2312.03718v1.
[28] WANG J J,YANG D,HU B B,et al. Know Your Needs Better: Towards Structured Understanding of Marketer Demands with Analogical Reasoning Augmented LLMs [J/OL].arXiv:2401.04319 [cs.CL].(2023-01-09).https://arxiv.org/abs/2401.04319.
[29] 中國信息通信研究院華東分院,中國信息通信研究院人工智能研究中心,上海人工智能實(shí)驗(yàn)室開源生態(tài)發(fā)展中心.大模型落地應(yīng)用案例集2023 [R/OL].(2024-01-15).https://max.book118.com/html/2024/0112/8047141060006025.shtm2023.
[30] WANG L,MA C,F(xiàn)ANG X Y,et al. A Survey on Large Language Model based Autonomous Agents [J/OL].arXiv:2308.11432 [cs.AI].(2023-08-22).https://arxiv.org/abs/2308.11432.
[31] AL-AMIN M,ALI N S,SALAM A,et al. History of Generative Artificial Intelligence (AI) Chatbots: Past, Present,and Future Development [J/OL].arXiv:2402.05122 [cs.GL].(2023-02-04).https://arxiv.org/abs/2402.05122.
作者簡介:陳宏志(1986—),男,漢族,福建人,高級(jí)工程師,博士,研究方向:人工智能與垂直領(lǐng)域的交叉學(xué)科應(yīng)用;宮本儒(1985—),男,漢族,遼寧人,工程師,碩士,研究方向:石化信息化系統(tǒng)與應(yīng)用;王笑妍(1997—),女,漢族,河北人,工程師,碩士,研究方向:能源行業(yè)數(shù)字孿生與人工智能應(yīng)用;林秀峰(1985—),男,漢族,北京人,高級(jí)工程師,高級(jí)經(jīng)濟(jì)師,博士,研究方向:大數(shù)據(jù)與人工智能應(yīng)用;通訊作者:孫加峰(1981—),男,漢族,內(nèi)蒙古烏蘭察布人,研究方向:算力管理、算力網(wǎng)絡(luò)、算網(wǎng)融合。