999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

煤礦安全知識問答系統的答案生成模型研究

2025-01-17 00:00:00于非凡董立紅秦昳
現代電子技術 2025年2期
關鍵詞:文本模型

摘 要: 隨著國家和煤礦行業對煤礦應急管理要求的逐步提高,對煤礦安全知識的學習也提出了更高的要求,因此建立一種煤礦安全知識智能問答模型。有效學習煤礦安全知識,對于確保煤礦企業工作人員的人身安全和預防煤礦安全事故的發生至關重要。首先,基于RoBERTa?wwm算法自動生成問答對數據,獲取并分析煤礦安全知識原始文本數據,定義問題類型并標注問答對;然后,結合RoBERTa?wwm與UniLM,采用點互信息與鄰接熵發現新詞擴充領域詞典,提出問答對自動生成算法,同時構建煤礦安全培訓知識問答對數據集,解決煤礦安全知識系統問答對數據集問題;最后,引入問題相似度機制,針對無法回答問題和無關問題提出答案生成策略,構建基于問題相似度機制的答案生成模型,使其只關注可回答問題,從而提升模型的推理能力。實驗結果表明,所提出的煤礦安全知識問答系統答案生成模型可有效識別無法回答和無關的問題,能夠為煤礦企業工作人員提供知識支持,最大程度地提升煤礦企業工作人員安全培訓學習效果。

關鍵詞: 智能問答系統; 煤礦安全; 答案生成; RoBERTa?wwm; UniLM; 點互信息; 鄰接熵; 問題相似度

中圖分類號: TN929.5?34; TP391" " " " " " " " 文獻標識碼: A" " " " " " " " " " " "文章編號: 1004?373X(2025)02?0061?09

Research on answer generation model of coal mine safety knowledge

question answering system

YU Feifan, DONG Lihong, QIN Yi

(School of Computer Science and Technology, Xi’an University of Science and Technology, Xi’an 710600, China)

Abstract: With the gradual improvement of national and coal mining industry's requirements for emergency management of coal mines, higher requirements have been put forward for learning coal mine safety knowledge. Therefore, an intelligent question answering model for coal mine safety knowledge is established. The effective study of coal mine safety knowledge are crucial to ensure the personal safety of coal mining enterprise staff and prevent the occurrence of coal mine safety accidents. The answer pair data can be generated automatically based on RoBERTa?wwm algorithm, and the question types are defined and the question answering pairs are labeled by obtaining and analyzing the original text data of coal mine safety knowledge. By combining with RoBERTa?wwm and UniLM, the point mutual information and adjacent entropy are used to discover new word expansion domain dictionaries, propose an automatic question answering pair generation algorithm, and construct the question answering pair dataset of coal mine safety training knowledge, so as to solve the problem of question answering dataset in coal mine safety knowledge system. By introducing the question similarity mechanism, an answer generation strategy is proposed for unanswerable questions and irrelevant questions, and the answer generation model based on the question similarity mechanism is constructed to focus only on answerable questions and improve the reasoning ability of the model. The experimental results show that the proposed answer generation model of the coal mine safety knowledge question answering system can effectively identify the unanswerable and irrelevant questions, and can provide knowledge support for the coal mine enterprise staff, so as to improve the safety training and learning effect of the coal mine enterprise staff to the greatest extent.

Keywords: intelligent question answering system; coal mine safety; answer generation; RoBERTa?wwm; UniLM; point mutual information; adjacency entropy; problem similarity

隨著國家和煤業集團對煤礦智能化和煤礦應急管理要求的逐步提高,對煤礦安全知識的學習提出了更高的要求。因此,建立煤礦安全知識智能問答模型,有效學習煤礦安全知識,對于確保煤礦企業工作人員的人身安全和預防煤礦安全事故的發生至關重要。

問答系統(Question Answering System, QAS)是一個知識信息系統,在獲取問題和回答問題方面起著重要的作用[1]。目前,關于問答系統的研究主要聚焦于基于檢索和基于生成兩類方法。基于檢索的方法依賴于建立的知識庫或文本語料庫,當用戶提出問題時,系統通過檢索來匹配知識庫中的信息或語料庫中的文本,然后從中選擇或排名可能的答案。基于檢索的問答系統如STUDENT系統[2],需要大量人工來標注大規模數據集,且存在依賴于關鍵詞、缺乏語義理解、無法處理復雜邏輯等問題。

因此,為更好地應對復雜的自然語言理解和問題回答任務,研究者們逐漸轉向了基于生成的問答方法。基于生成的方法使用深度學習模型來學習問題和答案之間的復雜映射關系,具備一定的上下文理解和生成語言的能力,能夠更靈活地處理用戶提出的問題。例如,文獻[3]通過對問題分類,利用深度神經網絡模型LSTM為問題回答任務生成相關答案;文獻[4]提出一種基于SQuAD數據集預訓練的BiLSTM問答模型,對提出的問題進行排名,從而獲得更準確的答案。

為獲得更好的性能,近年來BERT通過大規模訓練未標記的數據來生成豐富的上下文表達,在問答領域中被廣泛應用[5]。BERT的迅速發展使得一系列基于BERT優化改進的模型,如RoBERTa[6]、SpanBERT[7]、ALBERT[8]、ELECTRA[9]等快速產生,加快了智能問答領域的發展。文獻[10]對SQuAD[11]、CoQA[12]、QuAC[13]、NaturalQuestions[14]等多個流行問答基準進行了測試,測試結果表明,以上問答模型基于BERT及其變體,性能相較于其他模型更好。由此可見,預訓練語言模型已經成為問答領域新的基礎組件。文獻[15]基于RoBERTa和短語索引構建問答系統,利用分布式計算在大規模數據集上進行問答處理,提高了系統性能和效率。文獻[16]利用RoBERTa提取文本語義特征表示,同時將其輸入LSTM進行情感傾向分析,取得了較高的準確率。但是這樣的問答系統缺乏人類的推理能力來識別問題并理解,對于識別無法回答的問題仍是一個挑戰[17?18]。

基于上述研究,本文構建了一種煤礦安全知識問答系統。首先基于RoBERTa?wwm算法自動生成問答對數據,解決煤礦安全知識系統問答對數據集構建問題;然后引入問題相似度機制,針對無法回答的問題和無關問題提出答案生成策略,使其只關注可回答問題,提高模型性能,提升模型的推理能力。

本文方法的技術路線如圖1所示,將條例文本作為輸入,通過問答對自動生成算法生成可能生成的問題集,并與提出的問題進行問題相似度計算,將可回答的問題篩選出來,再輸入到RoBERTa?wwm閱讀理解器來生成答案。

1" 煤礦安全知識問答對數據集自動構建

合理、完備的數據集是提高答案生成模型推理能力的前提條件,因此,針對煤礦安全規范化對于煤礦企業工作人員的知識要求,提出自動構建煤礦安全知識問答對數據集,流程如圖2所示。

首先分析收集現有煤礦安全領域相關數據風格及內容,同時對數據進行預處理,明晰煤礦安全知識的不同類型問題,手工標注設計問答對;然后采用點互信息和鄰接熵方法更好地發現、挖掘煤礦安全專業新詞,增強領域適配性;最后聯合RoBERTa?wwm和UniLM構造問答對自動生成算法,生成煤礦安全知識問答對,實現煤礦安全知識問答對數據集的自動構建。

1.1" 數據獲取

搜集與整理煤礦安全相關規程規范資料,將《煤礦安全規程2022》作為數據提取文本,由于爬取的規程文本為PDF格式,需解析為可編輯的TXT文本格式。隨后,針對其中的27個表格進行相應處理,將其內容轉化為與規程一致的文字描述,確保詞匯合適,指代明確,表達清楚,防止因表格數據的缺少導致信息不完整。根據不同章節間文本內容的相關性進行合理的劃分,構建連貫的段落和章節結構,并添加147個名詞解釋,最終得到了895篇煤礦安全規程文本。

根據《煤礦安全規程解讀2022》《煤礦安全規程隨身筆記2022》《煤礦安全規程實施指南2022》《煤礦安全規程班組學習指南2022》《煤礦安全規程》《專家解讀井工煤礦》等專業書籍,對上述收集的煤礦安全規程單篇文本進行多角度提問,人工標注煤礦安全規程問答對共計5 100條,涉及時間、人物、地點、機構、溫度、年份、操作標準和獎罰規定等問題。借鑒SQuAD數據集結構,使用“文本?問題?答案”三元組數據形式并以JSON存儲格式儲存,同時對其進行編號。具體的問答對數據集結構如圖3所示。

問答對數據包括從專業解讀書籍標注的問答對數據以及從“煤礦安全網”導出的煤礦安全問答對數據。本文使用正則表達式對所獲得的文本數據進行清洗和過濾,去除無用信息,對煤礦安全提問數據進行人工標注審核,共獲得12 050條問答對數據,表1為部分數據樣例。

1.2" 數據預處理

上文收集標注的煤礦安全問答對數據集具有一定噪聲,為降低噪聲對結果的影響,對上述數據進行預處理。首先對收集標注的問答對數據進行過濾,同時根據分詞工具對數據進行分詞。為保證分詞正確,選擇煤礦專業詞匯大全作為分詞字典。數據預處理流程如圖4所示。

1) 數據過濾:收集標注的數據中包含一些多余的空格和非法字符,且經格式轉換后會產生一些錯誤字符,故本文使用正則表達式定義規則和人工處理過濾多余的錯誤信息,確保數據的質量,獲得可表達煤礦安全領域特點的語句。

2) 分詞:通過空格將經過上述處理后的語句分隔,將其作為基于RoBERTa?wwm問答對自動生成算法的輸入。其中,在使用分詞工具實現分詞時,存在一些煤礦安全領域的專業名詞不能被識別的問題,例如“回風巷”可能被錯誤地分為“回”和“風巷”。

1.3" 基于RoBERTa?wwm問答對自動生成算法

為生成高質量問答對,設計煤礦安全知識問答對自動生成算法,結構如圖5所示。將理解能力與編碼能力強的RoBERTa?wwm作為編碼器,但其文本生成能力不足,因此在下游任務微調中使用文本生成能力更強的UniLM作為解碼器,確保解碼生成具有上下文的問題和答案。其中,通過基于點互信息與鄰接熵新詞發現方法更好地挖掘煤礦安全專業詞匯信息,提高任務領域適配性。同時,采用Top?P策略解碼生成答案序列,提高文本利用率,生成多樣性的答案序列;使用集束搜索策略生成問題序列,提高問題語句表述能力與流暢性。

1.3.1" 基于點互信息與鄰接熵新詞發現方法

為使所提模型應用于煤礦安全領域,使得煤礦安全專業詞匯被更好地理解,本文針對煤礦安全專業詞語的特點,使用基于點互信息和鄰接熵的新詞發現方法發現新詞擴充詞庫,從而提高分詞效果。根據上文對收集的數據進行預處理后,如果直接進行點互信息的計算,生詞識別的速度會較慢,因此,有必要采用[n-gram]方法來統計詞頻,對低頻詞進行切片和刪除。在經過詞頻處理和統計后,對收集到的語料庫進行過濾,再計算點互信息。以“風巷道”為例,點互信息計算公式如下:

[PMI=log2p(a)p(b)p(c)] (1)

式中:[p(a)]表示字“風,巷道”在句中共同出現的概率;[p(b)]、[p(c)]表示“風”“巷道”單獨出現在語料中的概率。

當點互信息計算值大于閾值時,對該詞進行鄰接熵計算,計算公式如下:

[HL=i=1n-pi·logp(i)] (2)

[HR=j=1M-pj·logp(j)] (3)

式中:[i]和[j]分別表示左右數;[n]和[m]分別表示不重復的左右鄰接的總數;[pi]和[pj]分別表示左右鄰接的條件概率;[HL]和[HR]分別表示左右鄰接的熵。

根據計算的結果保留較大的鄰接熵,刪除較小的鄰接熵,最后采用現有的字典將新詞進行過濾。采用以上新詞方法獲得1 165個新詞,通過實驗驗證,該方法能發現大量新詞,但也會產生一些“噪詞”,即一些可能被錯誤分割或者完全沒有意義的詞。

根據新詞方法擴充到分詞詞典后,使用煤礦安全領域語料進行二次預訓練,通過分詞詞典進一步提高算法在煤礦安全的字詞表達能力。

1.3.2" 編解碼器

本文編碼器采用的是RoBERTa?wwm,由12層雙向Transformer堆疊。對于給定輸入序列,如煤礦安全條例文本為[cimi=1],將其初始化為[H0]后輸入到第一層的編碼模塊,前一層編碼模塊的輸出[HL-1]作為后一層模塊的輸入,[HN]為最后一層輸出的文本向量表示。計算公式如下:

[H0=[c1,c2,…,cm]] (4)

[HL=TransformerL(HL-1)," L=1,2,…,12] (5)

1) Transformer注意力機制

注意力機制通過對文本進行權重分析,計算文本中每個詞與文本中所有詞的關系,得到每個詞與所有文本的關聯度,使得上下文的語言信息可以更好地學習。在編碼器的L層Transformer中,單個注意力權重采用如下公式進行計算:

[Q=HL-1WQL," K=HL-1WKL," V=HL-1WVL] (6)

[Mi,j=0," " "可見信息-∞," 不可見信息] (7)

[AL=softmaxQKTdk+MVL] (8)

式中:上一層Transformer輸出[HL-1∈RM×dh],基于3個參數矩陣[WQL]、[WKL]、[WVL∈Rdh×dk],通過線性映射到不同的空間,得到查詢矩陣Q、鍵矩陣K和值矩陣V;[Mi,j]表示這對token是否可以相互被注意到;[AL]表示注意力權重;[KT]表示鍵矩陣的轉置矩陣;[dk]表示縮放因子,用于平衡點積得分的量級。

基于以上計算,利用多頭注意力機制融入不同角度的注意力。該過程先對[Q]、[K]、[V]進行線性變換投影,然后進行單個注意力計算,重復這一操作h次,將它們拼接在一起,最后通過映射回到單個注意力計算結果的維度。計算公式如下:

[MultiHead(Q,K,V)=Concat(head1,head2,…,headh)W0L] (9)

式中:[MultiHead(Q,K,V)]表示多頭注意力的輸出向量;[head]表示不同頭的輸出,通過[Concat]將其拼接在一起。

2) Seq?to?Seq語言模型

本文針對Seq?to?Seq語言模型的訓練目標設置Mask方式,如圖6所示,不可見信息由黑色方格表示,設為負無窮;白色方格則是需要Attention的信息,設為0。

圖6中:[S0]區域表示輸入序列前半部分,對應編碼為0的原始條例序列C;[S1]區域則表示輸入序列后半部分,對于編碼為1的目標答案和問題序列。在左邊白色區域設置為0,表示前半部分的信息都可被關注到;右上黑色區域設置為負無窮,以阻止后半部分的目標文本信息被前半部分關注;在右下黑白區域中,黑色區域也被設置為負無窮,而白色區域為0,這表示[S1]區域自身之前的信息,但對于后文信息卻不能提前關注到。Seq?to?Seq語言模型示意圖如圖7所示,輸入部分內部做雙向Attention,輸出部分只做單向Attention,其中連線表示關注信息流向。

3) 解碼生成

基于編碼器實現生成編碼語義向量[HN]后,需將問答對序列解碼生成,將最后一層變量([Kt,Vt,Qt])通過利用全連接層,softmax以及學習參數[b]來計算每個字的概率,從而預測下一個詞的可能位置。[P(w)]計算公式如下:

[P(w)=softmax(WTQQt+WTKKt+WTVVt+b)] (10)

為提高序列解碼效率,并以多角度關注文本中關鍵的信息,采用Top?P解碼策略,使得在不同的時間步下解碼結果可能會有所不同,保證了生成一對多的目標答案。在問題生成中為確保生成可靠的問題,使用穩定的集束搜索解碼算法。本文通過以上方法生成煤礦安全知識問答對,實現煤礦安全知識問答對數據集的自動構建。

2" 答案生成策略

2.1" 問題相似度機制相關工作

相似度是指兩個文本、句子或詞語之間在語義或結構上的接近程度。假定兩段問題文本A和B,語義文本相似度計算旨在衡量兩段問題文本在語義上的相近程度。通常,問題文本的語義相似度數值越小,則說明兩個問題之間的語義差異性越大,即在語義層面上越不相似;反之,該數值越大,則說明這兩個問題所表達出的語義越相似。由于人類語言表達十分復雜,文本當中包含許多同義詞、縮略詞、否定詞等,還有多變的句法結構,加大了語義文本相似度計算的難度。

在問答模型中,提出的問題與問答對數據集中的問題相似度計算結果直接影響問答模型生成答案的性能。近年來,學者們提出了許多方法來進行問題之間的相似度計算,以提高問答模型的效率。例如,文獻[19]提出基于向量空間模型來計算查詢和存檔問題之間的余弦相似度,但是其只針對簡短的問題。文獻[20]使用解析器構建問題的語法樹,并根據語法樹之間的相似度對問題進行排序。但這種方法需要大量的訓練數據,也沒有受過良好的訓練來分析非正式的書面問題。文獻[21]開發了一種向量袋方法,并使用CNN和基于注意力的LSTM來捕獲社區問題之間的語義相似性,并相應地對它們進行排名。文獻[22]基于詞嵌入,在句子和詞級別使用文本相似度計算了新問題和前一個問題之間的相似性,以及新問題和與前一個問題相關的答案之間的相似性。文獻[23]針對問答模型中的噪聲數據,提出基于課程學習的常識問答模型,根據相似度方法設計問題難度策略來提高對問題的學習。

2.2" 問題相似度計算方法

為了只關注可回答問題,引入問題相似度機制,該機制計算提出的問題和生成的問題之間的余弦相似度。

令[GQ]為生成的問題集,[QP]為提出的問題,則[GQ=m],[QP=1]。生成問題的句子嵌入由下式給出:

[XGQSE={E(i)GQ∈R512," i=1,2,…,m}] (11)

式中:[XGQSE]是生成問題[(GQ)]的句子嵌入[(SE)] 集合;[EGQ]是每個生成問題[(GQ)]的句子嵌入。

提出問題的句子嵌入為:

[XQPSE=E(i)QP∈R512," i=1] (12)

式中:[XQPSE]是提出的問題[(QP)]的句子嵌入 [(SE)]集合;[E(i)QP]是每個提出的問題[(QP)]的句子嵌入。

提出的問題和生成的問題之間的余弦相似度根據以下公式計算:

[cos(E(i)GQ,XQPSE)=E(i)GQ,XQPSEE(i)GQXQPSE," i=1,2,…,m] (13)

式中[E(i)GQ,XQPSE]表示[E(i)GQ]和[XQPSE]的內積。

為了計算問題相似度得分,需要在生成的問題中識別出與所提出的問題的余弦相似度最高的問題。最高相似度問題max是由式(14)獲得的。

[max=argmaxi∈{1,2,…,m}cosE(i)GQ,XQPSE] (14)

生成的問題(根據式(14)識別)與提出的問題之間的最高問題相似度分數s由下式給出:

[s=cos(EjGQ,XQPXE)] (15)

式中,[EjGQ]和[XQPXE]分別是第[j]個生成的問題(通過式(14)獲得)和提出的問題的句子嵌入。

2.3" 問題分類

引入問題相似度機制,使用其對輸入給答案生成模型的問題進行識別。該機制根據閾值對無法回答、無關和可回答的問題進行識別和過濾,將提出的問題分為無法回答的問題、無關的問題和可回答的問題。

1) 無法回答的問題:當文章中有上下文但用戶提出的問題非常復雜,問答系統無法回答時,該問題被標記為不可回答的問題。

2) 無關的問題:當用戶提出一個與給定文章無關的問題時,這個問題被標記為無關。

3) 可回答的問題:在給定的文章中有上下文的問題,并且這個問題可以被問答系統回答。

根據問題的分類,將提取問答對數據集中1 000個問題作為無法回答的問題、無關的問題和可回答的問題。實驗得出,無關問題的問題相似度得分在0.00~0.50之間,而無法回答問題的問題相似度得分在0.50~0.85之間。進一步,實驗檢查了可回答問題的問題相似度得分,發現問題相似度得分在0.85~1.00之間。因此,將提出問題的相應標簽與問題相似度評分閾值設置為如表2所示。

3" 實驗與結果分析

3.1" 實驗設置

實驗所采用的硬件配置為Intel[?] Xeon[?] Gold 6330處理器,32 GB運行內存,GPU為NVIDIA GeForce RTX 3090。所使用的軟件環境為Ubuntu 20.04.2 LTS操作系統下Tensorflow 1.14深度學習框架,Python 3.7編譯器,具體配置如表3所示。

3.2" 數據集評估

采用基于RoBERTa?wwm問答對自動生成算法生成問答對,并對其進行評估。

3.2.1" 評估指標

BLEU(Bilingual Evaluation Understudy)是一種常用的自動評價指標,用于衡量自然語言生成系統生成的文本與參考答案之間的相似程度[24]。BLEU需要計算[1-gram],[2-gram],…,[n-gram]的精確率,一般[n]設為4,與BLEU?1、BLEU?2、BLEU?3、BLEU?4指標對應。BLEU計算公式如下:

[BLEU=BPexpn=1NWnlogPn] (16)

[BP=1," " " " " cgt;se1-s/c," "c≤s] (17)

[Pn=c∈n-gram∈cCountclip(n-gram)c'∈an-gram'∈c'Count(n-gram)] (18)

[Countclipwi=min(Countwi,Ref_Countwi)] (19)

式中:BP表示懲罰因子;[Wn]表示[n-gram]的權重,一般采用均勻權重;[Pn]為[n-gram]的精確率;[c]為預測答案序列長度;[s]為標記答案序列長度;a為預測答案;[Count]表示[n-gram]在預測答案中出現的次數;[Ref_Count]表示[n-gram]在標記答案中出現的次數。

3.2.2" 評估結果

本實驗采用BLEU評價指標統計了解碼策略選擇對算法的影響效果,如表4所示。

基準實驗采用表4中第1組實驗,在答案序列和問題序列中,不使用解碼策略而是直接使用貪婪策略對答案和問題序列進行生成。

由表4實驗結果可得,當答案序列解碼策略和問題序列解碼策略均采用貪婪策略時,BLEU?1~BLEU?4的得分都處于相對較低的水平,貪婪策略在生成答案和問題時可能導致較低的質量和多樣性。當答案序列解碼策略采用貪婪策略,而問題序列解碼策略采用集束搜索(B=2)時,BLEU得分相對提高,表明集束搜索在生成答案序列時能夠提高BLEU分數。使用Top?P策略進行答案序列解碼,同時采用集束搜索(B=2)或更高B值時,BLEU得分顯著提高。Top?P策略在生成答案序列時能夠更好地捕捉多樣性和相關性,這使得BLEU分數有所提高,而隨著B值的增加,BLEU?1~BLEU?4的得分逐漸下降。

使用Top?P策略進行答案序列解碼,同時采用集束搜索(B=2)作為問題序列解碼策略時,能夠獲得最高的BLEU分數,在生成問答對時能夠在多樣性和準確性之間取得良好的平衡,并有效提高問答對算法的性能。

為了驗證本文提出算法的有效性,在收集的煤礦安全問答數據集上進行對比實驗,使用如下算法進行對比。

1) LSTM?based:采用LSTM模型構建序列到序列的編碼器?解碼器問答對生成算法。

2)RoBERTa?LSTM:采用RoBERTa作為編碼器,LSTM作為解碼器,構建序列到序列的算法。

3) RoBERTa?UniLM:將RoBERTa與UniLM結合,不使用wwm結構,從而驗證在問答對自動中RoBERTa?wwm算法優于RoBERTa。

4) RoBERTa?wwm?UniLM:本文提出的問答對自動生成算法,采用原始參數,從而驗證使用特定領域內繼續預訓練的有效性。

5) PreTrain RoBERTa?wwm?UniLM:為本文提出的最終算法,在RoBERTa?wwm?UniLM算法的基礎上繼續進行預訓練,增強算法對煤礦安全領域的表達能力。

不同模型BLEU評估實驗結果如表5所示。由表5可知:LSTM?based為基準算法,沒有采用預訓練的語言模型,難以理解文本語境,因此在自問題生成方面詞匯相關性答案時的性能較差,導致其BLEU分數相對較低;引入RoBERTa模型后,利用RoBERTa的向量表征能力更好地捕捉了文本的語境,從而提高了生成答案的質量;在引入UniLM后,UniLM作為一個預訓練算法,能更好地理解文本的復雜性,從而提高了問題生成的準確性和多樣性。同時,全詞掩蓋訓練方式有助于提高算法在特定領域中的適應性,從而提高BLEU值。

PreTrain RoBERTa?wwm?UniLM算法在所有BLEU指標上取得最高分數,特別是BLEU?4,表明它在生成高度相關且多詞匯相關性答案時表現出色。各個算法的BLEU指標評估對比圖如圖8所示。

3.3" 實驗結果分析

實驗使用的數據為上文收集煤礦安全規程文本及問答對數據,利用上文問答對自動生成算法來隨機抽取的煤礦安全規程文本篇章生成問題。表6所示為文本可能生成的問題。

根據表6從文本中生成所有可能的問題,這些問題被進一步交給問答對自動生成算法生成可能的問題的答案。表7顯示了問答對自動生成算法生成的問答對。原始文本條例:凍結井筒的井壁結構應當采用雙層或者復合井壁,井筒凍結段施工結束后應當及時進行壁間充填注漿。注漿時壁間夾層混凝土溫度應當不低于4 ℃,且凍結壁仍處于封閉狀態,并能承受外部水靜壓力。

表8為問題相似度結果。

表8中,第1列為提出的問題;第2列為指定提出的問題和生成的問題之間的最高問題相似度得分;第3列為通過與閾值的比較,根據最高的問題相似度得分來判斷問題是可回答問題還是無法回答問題或無關問題;第4列表示提出的問題生成的答案。從煤礦安全規程中隨機抽100個段落進行實驗,其中包含無法回答和無關的問題,當生成問題與提出問題的余弦相似度得分不超過閾值時,將其標記或標記為不可回答問題或無關問題。因此,低于閾值的問題將不會被傳遞到問答算法。本文提出的問題相似度機制不允許RoBERTa?wwm閱讀理解器通過錯誤猜測來回答無法回答或無關的問題。通過實驗發現可回答問題的問題相似度得分在0.90以上,由此說明問題相似度機制可以識別出與人類判斷水平相當的問題。如表9所示,本文共提取了1 000個問題,包括無法回答的問題和無關的問題。實驗結果表明問題相似度機制的引入對算法識別無法回答問題及無關問題的效率進一步提高,從而只關注可回答問題。

對于數據集中的特定文本,從不同的文本中隨機選擇無關的問題,這樣隨機選擇的問題就不會與上下文相關。該方法的效率[η]計算公式為:

[η=w1+w21 000×100%] (20)

式中:[w1]為無關問題的數量;[w2]為沒有回答的無關問題的數量。

4" 結" 語

本文對煤礦安全知識的問答模型進行研究,結合自然語言處理技術,提出一種煤礦安全問答對數據集自動構建方法和基于問題相似度機制答案生成模型。本文完成的主要研究工作如下。

1) 提出煤礦安全領域問答對自動構建方法。收集現有煤礦安全領域相關數據風格及內容,明晰煤礦安全的不同類型問題,手工標注設計問答對;采用點互信息和鄰接熵方法更好地發現專業新詞匯,增強領域適配性;結合RoBERTa?wwm和UniLM構造問答對自動生成算法,自動生成高質量的煤礦安全問答對數據。該方法一方面能夠減輕人工標注數據的負擔,并對本文研究答案生成模型提供支持;另一方面,還可為未來相關研究提供語料庫,拓展了研究領域的可能性。

2) 提出基于問題相似度機制答案生成模型。引入了一個模仿人類推理的問題相似度機制,以識別所提出的問題是可回答的問題還是無法回答或無關的問題。如果提出的問題是無法回答或無關問題,那問題就不會傳遞給算法,幫助算法專注于可回答的問題,以提高性能。

參考文獻

[1] 王寰,孫雷,吳斌,等.基于閱讀理解智能問答的RPR融合模型研究[J].計算機應用研究,2022,39(3):726?731.

[2] TERRY W. Five lectures on artificial intelligence [J]. Linguistic structures processing, 1997, 5(8): 399?520.

[3] UPADHYA B A, UDUPA S, KAMATH S S. Deep neural network models for question classification in community question?answering forums [C]// 2019 10th International Conference on Computing, Communication and Networking Technologies (ICCCNT). [S.l.]: IEEE, 2019: 1?6.

[4] AGRAWAL A, GEORGE R A, RAVI S S, et al. ARS_NITK at MEDIQA 2019: analysing various methods for natural language inference, recognising question entailment and medical question answering system [C]// Meeting of the Association for Computational Linguistics. [S.l.]: ACL, 2019: 533?540.

[5] 袁里馳.利用深度神經網絡并結合配價信息的語義角色標注[J].小型微型計算機系統,2022,43(9):1925?1930.

[6] LIU Y, OTT M, GOYAL N, et al. Roberta: a robustly optimized bert pretraining approach [EB/OL]. [2023?01?17]. https://www.xueshufan.com/publication/2965373594.

[7] JOSHI M, CHEN D, LIU Y, et al. Spanbert: improving pre?training by representing and predicting spans [J]. Transactions of the association for computational linguistics, 2020, 8: 64?77.

[8] RANI V, NABI S T, KUMAR M, et al. Self?supervised learning: a succinct review [J]. Archives of computational methods in engineering, 2023, 30(4): 2761?2775.

[9] CLARK K, LUONG M T, LE Q V, et al. Electra: pre?training text encoders as discriminators rather than generators [EB/OL]. [2023?08?13]. https://www.xueshufan.com/publication/2996035354.

[10] JI Z, LEE N, FRIESKE R, et al. Survey of hallucination in natural language generation [J]. ACM computing surveys, 2023, 55(12): 1?38.

[11] YIN Z, SUN Q, GUO Q, et al. Do large language models know what they don't know? [EB/OL]. [2023?10?28]. https://arxiv.org/pdf/2305.18153.

[12] REDDY S, CHEN D, MANNING C D. COQA: a conversational question answering challenge [J].Transactions of the association for computational linguistics, 2019, 7: 249?266.

[13] CHOI E, HE H, IYYER M, et al. QuAC: question answering in context [EB/OL]. [2024?01?21]. https://arxiv.org/pdf/1808.07036.

[14] KWIATKOWSKI T, PALOMAKI J, REDFIELD O, et al. Natural questions: a benchmark for question answering research [J]. Transactions of the association for computational linguistics, 2019, 7: 453?466.

[15] CHAYBOUTI S, SAGHE A, SHABOU A. Efficient QA: a roBERTa based phrase?indexed question?answering system [EB/OL]. [2023?11?21]. https://www.xueshufan.com/publication/3118838679.

[16] 王恒,吳鐵峰.基于RoBERTa?wwm和Bi?LSTM的短文本情感分析[J].佳木斯大學學報(自然科學版),2022,40(4):50?54.

[17] QIAO C, HU X. A neural knowledge graph evaluator: combining structural and semantic evidence of knowledge graphs for predicting supportive knowledge in scientific QA [J]. Information processing amp; management, 2020, 57(6): 102309.

[18] YE Y, ZHANG S, LI Y, et al. Video question answering via grounded cross?attention network learning [J]. Information processing amp; management, 2020, 57(4): 102265.

[19] CAO X, CONG G, CUI B, et al. A generalized framework of exploring category information for question retrieval in community question answer archives [C]// Proceedings of the 19th International Conference on World Wide Web. [S.l.]: ACM, 2010: 201?210.

[20] WANG K, MING Z, CHUA T S. A syntactic tree matching approach to finding similar questions in community?based QA services [C]// Proceedings of the 32nd International ACM SIGIR Conference on Research and Development in Information Retrieval. [S.l.]: ACM, 2009: 187?194.

[21] SANTOS C D, BARBOSA L, BOGDANOVA D, et al. Learning hybrid representations to retrieve semantically equivalent questions [C]// International Joint Conference on Natural Language Processing. [S.l.]: Association for Computational Linguistics, 2015: 694?699.

[22] MOHTARAMI M, BELINKOV Y, HSU W N, et al. SLS at SemEval?2016 task 3: neural?based approaches for ranking in community question answering [C]// Proceedings of the 10th International Workshop on Semantic Evaluation. San Diego, CA, USA: ACM, 2016: 828?835.

[23] 李偉,黃賢英,馮雅茹.基于課程學習的無監督常識問答模型[J].計算機應用研究,2023,40(6):1674?1678.

[24] REITER E. A structured review of the validity of BLEU [J]. Computational linguistics, 2018, 44(3): 393?401.

猜你喜歡
文本模型
一半模型
重要模型『一線三等角』
初中群文閱讀的文本選擇及組織
甘肅教育(2020年8期)2020-06-11 06:10:02
重尾非線性自回歸模型自加權M-估計的漸近分布
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
3D打印中的模型分割與打包
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
論《柳毅傳》對前代文本的繼承與轉化
人間(2015年20期)2016-01-04 12:47:10
FLUKA幾何模型到CAD幾何模型轉換方法初步研究
主站蜘蛛池模板: 国产午夜人做人免费视频中文| 亚洲无码37.| 国产成人久久777777| 欧美日韩资源| 国产视频资源在线观看| 99精品免费在线| 亚洲日韩久久综合中文字幕| 日韩在线2020专区| 中文字幕资源站| 中文字幕在线不卡视频| 午夜福利视频一区| 久久人搡人人玩人妻精品| 中文纯内无码H| 农村乱人伦一区二区| 日韩欧美中文在线| 天堂在线视频精品| 九色在线观看视频| 婷婷中文在线| 久青草网站| 国产精品性| 狠狠久久综合伊人不卡| 国产特一级毛片| 波多野结衣中文字幕久久| 日韩免费中文字幕| 在线免费亚洲无码视频| av色爱 天堂网| 伊人国产无码高清视频| 国产成人亚洲精品蜜芽影院| 国内精品视频区在线2021| 一个色综合久久| 国产中文一区a级毛片视频| 久草视频精品| 狠狠亚洲五月天| 亚洲熟妇AV日韩熟妇在线| 久久激情影院| 国产成人精品在线| 99re精彩视频| 成人午夜免费视频| 在线观看无码av五月花| 久久精品嫩草研究院| 国产三级精品三级在线观看| 国产亚洲精品97AA片在线播放| 久久久成年黄色视频| 日韩小视频在线观看| 亚洲综合九九| 午夜限制老子影院888| a在线观看免费| 午夜性爽视频男人的天堂| 91口爆吞精国产对白第三集| 免费观看欧美性一级| 无遮挡国产高潮视频免费观看 | 国产麻豆永久视频| 国产精品成人免费综合| 手机精品福利在线观看| 国产成人高清亚洲一区久久| 67194亚洲无码| 亚洲一区二区三区麻豆| 亚洲黄网在线| 亚洲热线99精品视频| 热这里只有精品国产热门精品| 国产欧美精品一区二区| 伊人久久大香线蕉影院| 精品国产成人三级在线观看| 欧美精品亚洲二区| 麻豆精选在线| 亚洲第一黄片大全| 欲色天天综合网| av手机版在线播放| 五月天天天色| 国产成人精品一区二区| 国产精品视频观看裸模| 国产成人综合日韩精品无码首页 | 亚洲中文精品人人永久免费| 国内精品视频| 欧美精品一区二区三区中文字幕| 69精品在线观看| h网站在线播放| 91九色国产在线| 中文字幕波多野不卡一区| 中文字幕无码制服中字| 伊人久综合| 国产精品香蕉在线|