楊明澔 李小波 曾倩 李欣



摘要:人工智能大語言模型是一種經過大量文本數據預訓練、具有大量參數的深度學習模型。針對大語言模型落地油氣上游業務領域存在的專業認知深度、可信度以及能力拓展等方面的挑戰,探討了相關技術途徑,包括專業知識語料準備、微調、知識嵌入、檢索增強等,并通過打造大語言模型應用PetroAI來實踐其中關鍵技術。初步應用效果表明:在通用大語言模型基礎上,通過內部專業知識的嵌入與增強,為油氣上游業務知識共享和智能化利用提供了新的技術手段,具有廣闊的應用前景。針對如何提升大語言模型在油氣上游業務的應用范圍和效果,仍需進一步探索研究。
關鍵詞:大語言模型;油氣上游;知識智能化;知識嵌入;檢索增強
一、前言
大語言模型(LLM)是指經過大量文本數據預訓練、包含幾十甚至上千億參數量的深度學習模型(簡稱大模型),具有強大的自然語言表達能力和泛化能力,可以識別、總結、翻譯、預測和生成文本及其他內容,將信息傳遞密度從“數據”提高到“答案”。自2022年開始,大模型相關研究快速上升為人工智能學術研究熱點,國際計算語言學年會(ACL)大模型相關文章數量從2022年的48篇增長到2023年的121篇,占發布文章的約10%,大模型也在自然語言理解任務,限定條件和無限定條件的自然語言生成等任務上取得領先表現。2022年11月基于大模型的生成式應用ChatGPT發布后,國內外大模型正經歷爆發式增長,先后推出了包括BLOOM、GLM、LLaMA等開源大模型以及文心一言、星火認知、通義千問等閉源大模型。據不完全統計,截至2023年8月底國內已經發布的大模型數量已經過百。隨著大模型逐步成熟,其在垂直領域落地應用趨勢越發明顯[1],目前金融、醫療、教育、地學、電力等多個行業已經利用大模型轉變傳統知識工作模式。
大模型落地垂直行業,仍面臨一些挑戰:大模型的預訓練語料大都來自公開的通用語料,部署在公有云上,缺乏行業內部數據和專業知識,直接使用存在缺乏行業認知深度、數據安全隱患、內容及時性和可信度無法保障等問題。此外,大模型部署還存在部署和運行成本方面的挑戰。
油氣產業鏈條長,業務面廣,專業性強,數字化轉型和智能化發展過程中面臨多樣化和碎片化的需求挑戰。大模型在油氣上游業務的落地應用,將聚合公司內外部各類業務數據和專業知識并智能化應用,顯著提升業務報告撰寫、專業工具使用、業務問題推理分析、措施建議推薦等知識密集型任務工作效率和決策管理水平,將重構目前油氣行業技術研發生態和價值體系,加速“數字中國石油”目標實現,助推業務一體化和高質量發展,提升數字時代企業的核心競爭力。
二、大語言模型落地油氣上游業務的關鍵技術
(一)油氣上游業務技術特點分析
從知識工程角度看,油氣上游業務具有如下四個方面的突出特點。
專業多學科:油氣上游業務鏈條長,專業面廣,認識和開發利用地下油氣資源除了本專業相關知識外,還需要綜合物理、化學、生物、地質、力學等學科知識。如何有效融合各學科專業知識,保證輸出內容的專業深度和可靠性,是大模型落地油氣上游業務首先要面對的問題。
資料多模態:勘探開發過程中形成的專業數據來源廣、類型多、數據體量分布不均,包括但不限于地震、測井、巖心、露頭、實驗和生產測試過程中產生的圖像、音視頻、曲線、結構化表格、文字報告、專業軟件輸出結果文件等,如何有效利用這些多模態數據資料提升大模型的專業深度,是大模型落地的一大挑戰。
對象不確定:受探測手段精度和可靠樣本數的限制,地下儲層認識都存在不同程度的不確定性,相應的解釋結果、方案措施往往都存在多種可能選擇,如何動態引入地下鉆采數據和專家知識約束,提高輸出答案的質量,也是大模型深度應用的關鍵挑戰。
數據實時性:油氣勘探開發過程中某些數據具有實時性要求,這些數據往往存儲在特定數據庫中,使用者需要根據這些數據作出分析決策。受計算資源和成本限制,大模型無法通過預訓練過程實時更新其知識語料,需要通過檢索相關數據庫獲取實時資料。
(二)大語言模型落地油氣上游業務的關鍵技術
從前面分析可以看到,大模型落地油氣上游業務領域,需要結合勘探開發的業務特點,重點需要提升大模型在行業認知深度、內容可信度和實時性方面的能力,需要突破如下幾個方面的關鍵技術。
1.高質量專業語料準備
油氣上游業務領域構建高質量專業語料,主要包括三個方面:名詞釋義,知識圖譜,問答對。
百科語料庫是訓練大模型的必要語料之一,其中包含了大量的條目,涵蓋了各種石油上游的主題。通過專家編纂而成,因此它們提供了高質量的語言數據,包含了廣泛的詞匯和語法結構,并且這些條目通常都按照一定的結構組織,例如分類和層級結構,這有助于訓練模型理解和處理復雜的語言結構。是訓練大模型的基石。
問答對語料[2]庫是另一種重要的語料來源,其中包含了大量的問題和答案對。有時候一個問題會有多個答案。這種語料庫可以幫助模型學習如何處理自然語言交互,例如如何理解問題和如何生成適當的答案,明白正確的回答,較差的回答和錯誤的回答是什么樣的,并且對齊用戶的思考。問答對語料庫還可以幫助訓練模型理解語言的上下文和推理能力,提高回復的質量。
知識圖譜[3]是一種用于表示實體和它們之間關系的圖形化數據結構,它包含了各種領域的大量知識。知識圖譜可以幫助訓練大模型理解實體之間的關系,例如分類、屬性和關系。知識圖譜還可以幫助模型理解語言中的隱含意義和推理,可以一定程度上限制大模型的偏見和幻覺。
2.知識嵌入與檢索增強
油氣上游業務領域已經建立起各類專業數據庫與知識庫,提供了實時性與專業性極強的數據知識語料,可通過知識嵌入與檢索增強來提高大模型解決油氣上游專業問題的能力。
知識嵌入是通過向量化技術將文本、圖像等類型的業務知識從稀疏樣本空間投影到稠密向量空間,參與深度學習的訓練和預測過程。知識嵌入與檢索增強兩者都依賴向量數據庫[4],通過對多種數據進行編碼后,作為索引存儲,可以進一步加快搜索的效率。與基礎數據庫的針對文字標簽的模糊搜索相比,向量作為索引的情況下,允許對多模態的信息搜索,允許用戶通過自然語言去搜索對應文字信息,并且對于基于語言大模型為入口的應用,向量化文字和圖片信息有助于增強基礎大模型和多模態大模型的知識蒸餾與更新。
向量檢索過程包括三個技術:各個模態的編碼技術,向量數據庫和計算向量距離的算法。向量數據庫會先把多模態信息根據固定的編碼格式和升維方法,提取出其中的特征,當用戶使用同樣格式的信息進行搜尋的時候,向量數據庫會將用戶輸入的信息也向量化,之后通過計算向量間的距離,確認相似度,并且輸出相似度高的對應模態。
3.模型效率微調
在節省硬件資源的前提下,讓大模型對齊下游任務成為挑戰。傳統的全參數微調對硬件的要求與預訓練所需不相上下。為了更好地使用大模型,通過凍結部分或者全部模型參數,進行部分參數調優的技術發展了起來。
在對于模型的微調方面,早期的思想是在模型中添加一些參數以保證其在下游任務中的效果。其中包括prompt-tuning,prefix-tuning,p-tuning等通過在輸入層加入前綴完成參數效率微調[5],adapter等通過在大模型中加入可訓練層進行微調[6]。
但是,以上的方式都存在問題:由于增加了模型的深度從而額外增加了模型推理的延時。Prompt較難訓練,同時減少了模型的可用序列長度,方法往往效率和質量不可兼得,效果差于full-finetuning。LoRA模型誕生了,它通過凍結預訓練模型權重并注入可訓練的秩分解矩陣來減少可訓練參數的數量,從而實現精煉模型。這被稱為“Low-Rank Adaptation”(LoRA)[7]。在GPT-3上訓練發現該技術可以降低硬件入門門檻3倍。
三、油氣勘探開發大語言模型應用實踐
本文研發團隊圍繞上述關鍵技術開展了一系列攻關,通過打造油氣勘探開發大語言模型應用PetroAI來實踐上述部分關鍵技術。
(一)專業語料準備
構建了一個石油的百科,包括26509條具體釋義(見圖1)。通過對英文、中文的對齊和并且基于含義分類,作為知識圖譜構建本體和實體的基礎,也作為大模型分詞器的起點。支持通過其中字詞和首字母進行查詢,并且支持后臺編輯其中字詞以保證信息鮮度。
在此之上,結合其他分詞字典了,通過sentence piece技術構建了一個石油專業分詞器(見圖2),與傳統大模型自帶的分詞器相比,石油專業分詞器可以更好地對石油文章進行分詞。分詞器作為自然語言處理的基礎,可以幫助模型更好地處理石油相關概念。
對于石油知識的記憶與展示,基于圖數據庫的知識圖譜是最好的語料。通過對本體和實體的構建,院協同研究平臺通過平臺上上萬篇石油論文,構建出有33377個節點和25369條關系的石油勘探開發主干知識圖譜,為未來構建知識圖譜相關應用和大模型檢索提供基礎。
問答對作為支持大模型和人類對齊的基礎語料,能更好地讓大模型學習到如何輸出正確的格式和形式,并且在已有問答對的情況下對話機器人與人類交談時可以保證正確和簡潔的輸出。在問答對的創建上,結合大模型的基礎能力,構建了可以通過直接將文章片段放入后生成json格式的問答對功能(見圖3)。在問答對的使用上,通過院協同研究平臺后端可以修改其中的問答對并且可以進行啟用和禁用。
(二)知識嵌入與檢索增強
為了充分利用企業內部知識庫,提供生產內容的專業可信度,嵌入了油氣上游知識圖譜和石油百科內容,通過檢索來提高生產內容的專業質量。
(三)模型微調
通過從數千篇石油科技文檔上準備高價值問答對,并且使用ptunring或者lora技術對模型進行監督微調和人類反饋學習,改善了大模型的“偏見”和“幻覺”,將一些詞的通用領域概念特征修改為石油領域的特征(見圖4),并且更加詳細地展示在石油領域具體問題的分析細節和研究成果。
(四)文檔知識庫問答
利用大模型開發框架LangChain,將知識庫中的文本切塊并且向量化,能在用戶提出問題的時候快速找到對應文章塊并注入大模型。通過這個過程,用戶可以更加方便地獲取文章的全部或者部分的簡介,或者通過文章塊提高大模型對問題的回復質量。PetroAI支持建立知識庫對文章的動態管理,并且之后將會針對用戶的權限進行文檔訪問的限制,進一步保證信息安全(見圖5)。
四、下一步探索的技術方向
為了進一步發揮大模型在油氣上游業務的應用效果和范圍,還有如下一些方面值得進一步探索。
(一)多模態知識應用
油氣勘探開發業務中數據具有文本、圖片、音視頻以及特定專業格式。如何與基于文本的大語言模型融合實現多模態知識使用是行業當前痛點。主流的方法分為兩個,多模態的互相轉換和多模態的特征融合。由于大語言模型的核心為文字,如果可以將其他模態的信息轉換成文字,就可以使用提示詞工程將這些信息作為先驗知識加入模型的輸入[8]。接下來的多模態轉換主要討論的是其他模態的信息怎么通過模型以文字的方式輸出。而通過將多模態的知識進行編碼,提取其特征。之后在模型中進行特征融合。模型針對融合后的特征進行解碼,在這個過程中,模型可以依據多模態知識正確回復用戶提問[9]。
(二)代理(Agent)
Agent應用于語言大模型[10],現實世界場景中的智能Agent(人類或人工)可以從交換信息中受益匪淺,這些信息使它們能夠協調、制定戰略并利用其組合的感官體驗來在物質世界中行動。為了增強大模型的推斷能力,需要讓大模型與其他模型和軟件協作,并且現有的石油產業已經沉淀了很多的模型,可以給大模型進一步的支持。進一步來說,大模型在數學計算上面也存在一定問題,高等數學等計算的準確率無法達到可用的級別。在模型應用方面,由于語言大模型主要輸出手段是文字,而想應用其優秀的推斷能力進行自動化生產還需要其他軟件配套。
五、結論
本文探討了語言大模型在油氣上游領域應用的難題,對關鍵技術的探索與時間和未來的方向。在探討大模型在油氣上游應用的主要方向時,可以看到,隨著人工智能和機器學習技術的不斷發展,大模型的應用前景越來越廣闊。在油氣勘探和開發領域,大模型可以更好地輔助用戶減少部分重復的文字工作,輔助策略決定。然而,大模型在油氣上游應用仍面臨許多挑戰和問題,比如回復的部分情況下會有的錯誤和幻覺。因此,我們需要進一步加強技術研究和創新,不斷優化和完善大語言模型在油氣上游業務的應用,助力油氣勘探和開發業務的智能化發展。
參考文獻
[1]Pir R M.Large language models (llm): need, methods,and research trends[J].2023,13(1).
[2]易洪川.關于問答對[J].湖北大學學報(哲學社會科學版),1992(05):28-34.
[3]Hogan A, Blomqvist E, Cochez M, et al.Knowledge graphs[J].ACM Computing Surveys, 2022, 54(4): 1–37.
[4]Guo R, Luan X, Xiang L,et al.Manu: a cloud native vector database management system: arXiv:2206.13843[Z/OL].arXiv, 2022(2022–06–28)[2023–10–16].http://arxiv.org/abs/2206.13843.
[5]Liu X, Zheng Y, Du Z, et al. GPT understands, too: arXiv:2103.10385[Z/OL].arXiv, 2021(2021–03–18)[2023–07–25].http://arxiv.org/abs/2103.10385.
[6]Houlsby N, Giurgiu A, Jastrzebski S,等.Parameter-efficient transfer learning for nlp: arXiv:1902.00751[Z/OL].arXiv, 2019(2019–06–13)[2023–10–13].http://arxiv.org/abs/1902.00751.
[7]Hu E J, Shen Y, Wallis P, et al.LoRA: low-rank adaptation of large language models: arXiv:2106.09685[Z/OL].arXiv, 2021(2021–10–16)[2023–07–25].http://arxiv.org/abs/2106.09685.
[8]Wu C, Yin S, Qi W,et al.Visual chatgpt: talking, drawing and editing with visual foundation models: arXiv:2303.04671[Z/OL].arXiv, 2023(2023–03–08)[2023–10–13].http://arxiv.org/abs/2303.04671.
[9]Zhu D, Chen J, Shen X,et al.MiniGPT-4: enhancing vision-language understanding with advanced large language models: arXiv:2304.10592[Z/OL].arXiv, 2023(2023–04–20)[2023–04–25]. http://arxiv.org/abs/2304.10592.
[10]Abhishek D, Théophile G, Joshua R, Dhruv B, Devi P, Michael R, Joelle P, et al.TarMAC: Targeted Multi-Agent Communication.[J]. Computing Research Repository, 2019, abs/1810.11187.
基金項目:1.中國石油天然氣集團公司“十四五”重點科技項目“油氣勘探開發人工智能關鍵技術研究”(項目編號:2023DJ84-06);2.中國石油勘探開發研究院信息化重點項目“勘探開發知識成果共享與協同研究平臺”
作者單位:中國石油勘探開發研究院人工智能研究中心、中國石油天然氣集團有限公司勘探開發人工智能技術研發中心
■ 責任編輯:張津平、尚丹