999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于自然語言的油田勘探大數據檢索系統

2024-07-02 09:48:03劉永軍許攀王斌文李興亮關中南
大眾科學 2024年1期
關鍵詞:語義數據庫用戶

劉永軍 許攀 王斌文 李興亮 關中南

摘 要: 近年來,人工智能和大數據處理技術在多個領域取得了良好效果,在油田勘探開發領域,各油田單位也進行了大量的探索,期望能夠通過人工智能算法和大數據處理技術幫助科研人員解決工作中遇到的難題。通過分析自然語言處理的工作原理,結合油田勘探科研生產的實際需求,使用StanfordNLP機器學習工具訓練了勘探大數據檢索語言模型,開發了勘探大數據檢索系統。對自然語言處理的相關概念進行了描述,介紹了分詞樣本和詞性樣本的訓練過程,講解了通過模型實現勘探大數據檢索的算法實現過程,對勘探大數據檢索系統的實際應用效果進行了展示。最后對人工智能在勘探開發領域的應用進行了討論和展望,為人工智能在該領域的進一步應用打下基礎。

關鍵詞: 機器學習 自然語言處理 勘探大數據 人工智能 ChatGPT StanfordNLP

中圖分類號: TP391.1文獻標識碼: A文章編號: 1679-3567(2024)01-0004-05

地質資料是地質工作成果的重要載體,是重要的信息資源。將分類語言主題語言(情報語言)與自然語言一體化檢索應用于地質資料信息化檢索系統,將有效的提高檢全率、檢準率,使檢索操作也比較靈活、簡便,這對地質資料信息化管理具有重要意義[1]。吐哈油田從2009年開始持續投入建設吐哈勘探開發技術數據庫管理與應用平臺,完成了物探、鉆井、錄井、測井、試油、分析化驗等9類數據的數字化管理工作。為進一步提高數字資料的應用效率,吐哈油田期望通過為用戶提供自然語言檢索方式,使計算機能夠更好地理解用戶意圖,更快更精準地向用戶推送所需數據;同時通過自然語言檢索,計算機能夠挖掘到容易被忽略但對勘探研究非常重要的信息,協助研究人員在勘探研究過程中獲得新的突破。整個軟件架構如圖1所示。

本文研究了自然語言處理算法的基本原理,并以此為理論基礎,充分借鑒ChatGPT的算法思路,設計了一套勘探大數據檢索系統軟件架構,該構架包含樣品收集、樣本標注、模型訓練、模型驗證和模型應用五部分,數據處理人員通過不斷地對模型進行訓練、應用和再訓練來完善模型,提高問題識別率和數據檢索精度[2]。

在建設勘探大數據檢索系統初期,根據勘探數據庫自動生成了15 347條自然語言訓練樣本,采用斯坦福大學研發的開源機器學習工具包StanfordNLP[3]進行模型訓練,生成了第一個自然語言分類模型;然后基于吐哈油田勘探生產數據庫,使用Eclipse編程工具調用StanfordNLP實現了自然語言分析,開發了第一版勘探大數據檢索系統,實現了自然語言的井筒文檔和井筒數據問答功能,但問題識別率只有40%,回復正確率僅達到20%。隨著系統的不斷應用,通過不斷收集問題樣本,累計再訓練了用戶輸入的10 450條自然語言,系統檢索精度有了大幅提升,問題識別率達到70%,有效回復率達到50%。

本文第1節介紹了自然語言處理算法原理;第2節介紹了自然語言處理在勘探大數據庫檢索系統中的應用;第3節展示了勘探大數據檢索系統的應用效果;最后對人工智能在油田勘探開發領域的前景進行了討論和展望。

1 自然語言處理算法原理

自然語言處理簡稱NLP(Natural Language Process? ing)。NLP是計算機科學與人工智能領域中的一個重要研究方向,目的是通過預訓練語言模型讓計算機去理解并處理人類的自然語言,并正確完成自然語言所表述的任務[4]。NLP涉及計算機與人類語言之間的交互,特別是如何對計算機進行編程以處理和分析大量自然語言數據。NLP主要應用于文本挖掘、信息檢索、句法語義分析、機器翻譯、問答系統、對話系統。總的來看,自然語言的基本原理可以概括為詞法分析、句法分析和語義分析。

1.1 詞法分析

詞法分析(tokenization)是自然語言處理的基本操作之一。分詞的直譯是詞形化,顧名思義,就是把連續的文本分割成一個個獨立的詞元。目前分詞算法的準確度可以達到95%。分詞算法根據其核心思想主要分為兩種:第一種是基于字典的分詞,先把句子按照字典切分成詞,再尋找詞的最佳組合方式;第二種是基于字的分詞,即由字構詞,先把句子分成一個個字,再將字組合成詞,尋找最優的切分策略,同時也可以轉化成序列標注問題。在NLP中,最常用的神經網絡為循環神經網絡(RNN,Recurrent Neural Network),它在處理變長輸入和序列輸入問題中有著巨大的優勢。目前對于序列標注任務,公認效果最好的模型是BiLSTM+ CRF[5]。結構如圖2所示。

1.2 句法分析

句法分析是通過詞語組合分析得到句法結構的過程,而實現該過程的工具或程序被稱為句法分析器。目前較成熟的句法分析模型是基于概率的短語結構分析方法(Probabilistic Context Free Grammar,PCFG)。PCFG是一種生成式的方法,該算法基于句法樹模型,它的短語結構文法可以表示為一個五元組(X,V,S,R,P),X是一個有限詞匯的集合,其中的元素稱為詞匯或者終結符;V是一個有限標注的集合,稱為非終結符集合;S稱為文法的開始符號,并且包含于V;R是有序偶對(α,β)的集合,就是產生的規則集;P代表每個產生規則的統計概率。

1.3 語義分析

語義分析是指對語言表達進行深層次的理解和解釋,以抽取其中包含的語義信息。在自然語音模型中,語義分析技術可以分為不同層次和任務,包括詞法分析、句法分析、語義角色標注、命名實體識別等。近年來,基于神經網絡的方法在自然語音模型中的語義分析中取得了顯著的進展。例如:預訓練的語言模型(Pre-trained Language Models)利用大規模無監督語料庫進行訓練,學習到豐富的語義表示。這些模型可以被用于各種下游任務,如命名實體識別、情感分析等,從而提高對語義的理解和表達能力。

另一個重要的發展是深度學習與知識圖譜的結合。知識圖譜是一個結構化的知識庫,包含豐富的實體、關系和屬性信息。將深度學習模型與知識圖譜相結合,可以為自然語音模型提供更全面、準確的語義信息。通過利用知識圖譜中的實體關系和屬性,自然語音模型可以在語義分析過程中獲得更多背景知識和上下文信息,從而提高對話的質量和準確度。

2 自然語言處理在勘探大數據庫檢索系統中的應用

目前油田的信息系統均采用輸入或選擇關鍵字段信息,通過在數據庫中進行模糊查詢的方式來檢索數據,然后將數據以列表或文字的方式呈現給用戶,用戶再在列表中進行人工篩選,得到最終需要的結果。

本方案旨在為用戶提供自然語言的輸入界面,通過NLP分析語言的語義,使計算機了解用戶的真實意圖,然后檢索數據庫,將數據組織為用戶想要的結果,推送到顯示界面。如用戶輸入“測試1井1 340米的孔隙度”,則系統會從數據庫查詢測試1井在1 340 m處的樣品孔隙度參數,然后直接展示給用戶,省略了人工篩選環節,這將大幅提高用戶檢索數據的效率。

2.1 勘探大數據檢索自然語言處理模型

為實現上文表述的應用場景,需要通過計算機完成從“自然語言”到“數據庫語言”的轉換,自然語言可以是一段話,也可以是一句話或一個詞語。但本文中的自然語言有別于傳統意義的自然語言,它是一種結合勘探專業的“專業自然語言”,如上文提到的“測試1井1 340米的孔隙度”,如果按照傳統的自然語言,將會分解為“測試、1、井、1 340、米、的、孔隙度”,這將導致計算機無法完成該語言想要達到的目標,因此需要根據勘探專業特點對模型進行完全的重新訓練,使算法能夠將“測試1井”識別為一個井筒號,從而引導計算機從數據庫中檢索到測試1井的相關數據。

2.1.1 勘探專業詞性分類

為使模型能夠識別勘探專業詞匯,同時保證計算機能夠識別詞法分析后形成的單詞,并根據單詞的含義生成用于查詢數據庫的SQL語句,按井號、井深、計量單位、報告名稱、數據庫字段、油田部門(如采油廠、送樣單位、鉆井公司等)等為類別對訓練樣本進行詞性分類,同時建立數據字典,通過數據字典實現單詞和數據庫字段的關聯,如表1所示。

2.1.2 準備和標注樣本

為保證第一個自然語言檢索模型具有足夠的訓練樣本,筆者編寫了樣本生成腳本,使用勘探數據庫中的井號等信息,自動生成了第一個標記好的訓練樣本共計15 347行,表2為部分生成的訓練樣本格式。

2.1.3 訓練和測試模型

采用StanfordNLP作為語言模型的訓練工具,針對15 347行訓練樣本進行了訓練,并生成了第一個語言詞性分析模型THKT.model.tagger、第一個語言分詞模型THKT.ser.gz和第一個字典集THKT_Dict.ser.gz。隨后使用StanfordNLP提供的測試工具對模型進行了測試,測試結果表明訓練的模型能夠滿足應用。測試文本和測試結果如表3所示。

2.2 數據檢索的算法實現

用戶輸入的查詢語言經過分詞和詞性標記后,被處理成了計算機所期望的查詢數據集、查詢條件和查詢結果三大類,分別對應數據庫中的數據表、查詢條件和查詢結果。數據檢索算法圍繞這三部分內容,通過數據字典,將用戶輸入文字轉換為數據庫中的數據表、查詢條件,然后形成查詢語句。針對較為復雜的查詢結果,如數據統計、交叉查詢等查詢結果,系統采用定制開發的方式實現。圖3為數據檢索的算法實現流程圖。

3 勘探大數據檢索系統的應用效果

隨著勘探大數據檢索系統(ChatTuha)的投入應用,該系統獲得了廣大油田用戶的歡迎,在4個月內共接收23 128條自然語言,正確回復了16 349條數據,正確率達到70.6%,為用戶提供了實實在在的幫助。同時也在油田范圍內掀起了一股有關人工智能在油田各領域如何落地的討論熱潮。

自然語言處理技術在數據庫檢索中的應用打破了傳統的數據檢索方式,為用戶提供了一種所想及所得的查詢手段,大幅提高了數據庫的應用效率。下一步,將持續對系統模型進行訓練,對相應的相應算法進行擴展,努力將ChatTuha打造成一位具有高智商的工作秘書。圖4為ChatTuha的使用界面。

4 討論與展望

4.1 問題總結

自然語言處理在勘探大數據檢索中的應用推動了油田勘探信息化建設中對人工智能研究的討論,自然語言向機器語言的轉換可通過訓練樣本、使用數據字典、基于機器學習的方法完成;由機器語言向數據庫語言的轉換可通過對詞性進行標記,根據數據和需求的不同將自然語言處理成若干個可分類的條件組合,使用基于關鍵詞匹配、基于相似度和基于分類器的方法實現?,F有的基于自然語言的勘探大數據檢索雖然取得了不少優秀的成果,也誕生了許多嶄新的研究思路,但目前仍存在著一些不足和缺陷沒有得到解決。

(1)勘探大數據訓練樣本等資源缺乏。目前勘探大數據檢索的訓練樣本是根據現有數據庫中的信息自動生成的,缺少接近人類實際檢索語言的樣本,因此樣本的收集需要一個長期的過程。

(2)勘探大數據檢索模型通用性差。勘探大數據檢索模型是完全根據油田勘探專業的應用要求進行訓練的,只能應用于油田勘探開發領域,用戶只能使用專業性的語言進行提問,否則模型可能會無法識別用戶語言。

(3)勘探大數據檢索模型的精度有待進一步提高。近年來自然語言處理算法提升了對數據檢索語言的識別精度,但提升的幅度有限。研究者還在不斷嘗試對算法進行完善,來進一步提高模型的精度和運行速度。

4.2 未來展望

根據當前的技術發展與研究現狀,未來自然語言在勘探大數據應用方面的研究可以從如下方面開展。

(1)權威機構研究制定勘探大數據模型的訓練規范與標準,標注和發布語料庫資源供廣大學者開展分析研究。

(2)跨專業多樣性的訓練。為提高分析模型的通用性,可集合鉆井、測井、錄井、試油、分析檢測等不同專業的語言數據集進行聯合訓練,從而提高模型的通用性和魯棒性。

(3)建立語料收集機制。可以國內各大油田內部信息平臺為依托,設立語料收集窗口,從而增加樣本規模,提高語言處理精度。

5 結語

本文旨在回顧自然語言處理在勘探大數據檢索中的應用,以幫助新的研究者建立對這一領域的全面了解。首先,對自然語言處理作了簡要介紹。其次,通過在實際開發勘探大數據檢索平臺后得出了自然語言處理在勘探大數據檢索中的應用主要包括語句分詞、詞性識別和數據檢索的算法實現。再次,通過展示勘探大數據檢索系統的應用效果,得出該方法在勘探大數據應用中具有較高實用性的結論。最后,圍繞這3個研究方向進行研究方法和研究進展的闡述。相信隨著自然語言處理技術的不斷發展,勘探大數據檢索研究將有更加廣闊的前景。

參考文獻

[1]溫雪茹,翟國平,李銀羅.將情報語言與自然語言一體化檢索應用于地質資料檢索系統[C]//中國圖書館學會專業圖書館分會,敦煌研究院.中國圖書館學會專業圖書館分會2009年學術年會論文集.中國地質科學院水文地質環境地質研究所,2009:3.

[2]劉睿珩,葉霞,岳增營,等.面向自然語言處理任務的預訓練模型綜述[J].計算機應用,2021,41(5):1236-1246.

[3]本刊訊.斯坦福大學發布自然語言處理工具包StanfordNLP,支持中文等53種語言[J].數據分析與知識發現,2019,3(3):24.

[4]李小偉,舒輝,光焱,等.自然語言處理在簡歷分析中的應用研究綜述[J].計算機科學,2022,49(S1):66-73.

[5]李鉑鈞,項秀才讓,德吉卡卓,等.基于Bi-LSTM的藏文依存句法分析研究[J].計算機仿真,2023,40(7): 300-304.

猜你喜歡
語義數據庫用戶
語言與語義
數據庫
財經(2017年2期)2017-03-10 14:35:35
關注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
關注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
數據庫
財經(2016年15期)2016-06-03 07:38:02
“上”與“下”語義的不對稱性及其認知闡釋
現代語文(2016年21期)2016-05-25 13:13:44
關注用戶
商用汽車(2016年4期)2016-05-09 01:23:12
數據庫
財經(2016年3期)2016-03-07 07:44:46
數據庫
財經(2016年6期)2016-02-24 07:41:51
認知范疇模糊與語義模糊
主站蜘蛛池模板: 麻豆精品在线播放| 亚洲三级片在线看| 日韩毛片基地| 国产成人精品日本亚洲77美色| 国产精品视频猛进猛出| 干中文字幕| 国产凹凸一区在线观看视频| 亚洲精品欧美重口| 国产午夜福利在线小视频| 四虎亚洲精品| 日韩毛片免费观看| 欧美国产在线看| 青青草原偷拍视频| 国产中文一区a级毛片视频| 久久国语对白| 超清人妻系列无码专区| 国产96在线 | 午夜无码一区二区三区| 国产又色又爽又黄| 国产地址二永久伊甸园| 国产91小视频| 久久99热这里只有精品免费看 | www.精品国产| 国产农村妇女精品一二区| 亚洲天堂2014| 亚洲黄色网站视频| 91精品国产麻豆国产自产在线| 4虎影视国产在线观看精品| 日韩在线1| 成人免费一区二区三区| 直接黄91麻豆网站| 欧洲极品无码一区二区三区| 中文字幕欧美日韩高清| 亚洲有无码中文网| 亚洲h视频在线| 国产乱码精品一区二区三区中文 | 国产黄色片在线看| 亚洲性视频网站| 婷婷六月激情综合一区| 91成人在线观看视频| 精品中文字幕一区在线| 91无码国产视频| 亚洲天堂首页| 久久久久久久久久国产精品| 精品乱码久久久久久久| 四虎AV麻豆| 99草精品视频| 狠狠干综合| 凹凸精品免费精品视频| 日韩欧美91| 永久毛片在线播| 欧美色综合网站| 秋霞国产在线| 91在线视频福利| 91精品人妻互换| 免费国产好深啊好涨好硬视频| 亚洲欧美不卡视频| 久久久久国色AV免费观看性色| 国产精品一区二区国产主播| 九色在线视频导航91| 久久综合丝袜日本网| 亚洲乱码精品久久久久..| 人禽伦免费交视频网页播放| 亚洲天堂网2014| 欧美另类视频一区二区三区| 九色国产在线| 性色一区| 婷婷中文在线| 亚洲成人精品在线| 久久婷婷五月综合97色| 国产呦精品一区二区三区下载| 日本午夜三级| 99久视频| 国产激情第一页| 91精品国产丝袜| 国产人人射| 亚洲综合久久成人AV| 波多野结衣一二三| 久久99国产乱子伦精品免| 国产区精品高清在线观看| 91免费片| 免费一级毛片|