999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于BERT 的知識圖譜文本生成系統*

2023-06-04 06:24:00蔡星娟
計算機與數字工程 2023年2期
關鍵詞:文本模型

梁 浩 蔡星娟

(太原科技大學計算機科學與技術學院 太原 030024)

1 引言

段落文本生成任務在自然語言處理(NLP)領域是一個非常具有挑戰性的問題[1~2],該問題的核心是“語義鴻溝”,人類是依靠人的認知水平和生活經驗為背景而產生的知識推理能力,而知識圖譜正是可以模擬人類的知識背景,隨著大數據時代的到來,構建一個大知識圖譜將顯著提升計算機的認知水平[3]。垂直領域知識圖譜對于通用領域知識圖譜更加準確,各個行業都開始建立自己的知識圖譜。例如馮小蘭等[4]構建了漢藏雙語旅游領域知識圖譜系統,解決了目前關于藏文景點的旅游知識匱乏的情況,構建了藏文旅游信息智能化服務系統。曹明宇等[5]利用知識圖譜構建了關于肝癌的問答系統,增加了信息獲取的便捷性。火力發電領域[6]是我國能源建設的重要組成部分,構建火力發電領域知識圖譜亦有深遠重大的意義。我們需要利用知識圖譜技術[7],輸入一些關鍵的詞或者結論性的句子,根據知識圖譜[8]的語義網絡會生成相應的語句,這樣省時省力。Xiaocheng Feng[9]等提出基于主題信息的神經網絡文本生成模型,在傳統的Sequence-to-Sequence 的框架下加入基于主題的Attention 機制和多主題覆蓋機制,使得生成的文本具有跟主題相關的語義信息,但僅適用于通用領域,在專業領域的生成上效果不理想。孫博[10]提出一種基于生成對抗網絡的文本自動生成方法在醫療領域取得較好的效果,但生成模型仍然是不可控生成,無法對生成的文本增加限制條件。Rik K[11]等提出了一種Graph Transformer 編碼方法用于知識圖譜表示學習,作者構建的圖譜實體是在原文本中進行信息抽取,節點實體的描述類似自然語言的表達方式,取得了較好的效果,但是在非自然語言的文本生成[12]方面,仍然有很大的不足,對于專業領域的關鍵詞仍然生成效果不夠理想[13]。為此我們設計了一個基于知識圖譜的火力發電領域段落生成系統來解決文本生成在專業領域方面的準確性不高的問題。

本文分析了文本生成領域的現狀以及需要解決的問題,對火電領域本體進行建模,分步構建火力發電領域知識圖譜,完成了基于知識圖譜的火力發電領域段落生成系統,通過實驗驗證本系統可有效的對用戶輸入的文本進行語義擴充,即生成段落文本。

2 火力發電領域本體建模

2.1 分詞

分詞可以看作序列標注問題,結構化感知器是由Collins[14]在EMNLP 上提出來的,主要用于解決序列標注的問題。結構化感知機是以最大熵準則建模標注序列Y 在輸入序列X 的情況下的score 函數判斷:

其中,Φs(Y,X)為本地特征函數,給定X 序列,求解score函數最大值對應的Y序列:

但在專業領域下的分詞效果不理想,效果如表1所示。

表1 LTP原始分詞效果

使用LTP 分詞之后有些實體并沒有被精確的分出來,所以利用不斷更新自定義詞典的方法,來提高分詞的準確性,我們在《中國電力百科全書(火力發電卷)》[15]和CNKI 論文關鍵字中提取了4586個精確的領域專有名詞,以及1890 個法律法規名詞,將其加入自定義詞典中,分詞效果有較大提升,如表1自定義分詞所示。

2.2 詞性標注

詞性標注的方法分為基于規則的詞性標注方法和基于統計的詞性標注方法,基于統計的詞性標注方法主要有HMM(隱馬爾科夫模型)[16]。該模型可以由隱藏狀態序列生成觀測序列。利用該模型進行詞性標注,如表2所示。

表2 Hanlp詞性標注

可以看出利用詞性標注并不能夠很好地應用在火力發電領域語料中,因此需要增加一些人工的詞性標注規則。人工標注的詞性組合可以把它作為一個完整的名詞,部分如表3所示。

表3 人工標注詞性組合

基于人工標注的詞性規則抽取專業領域實體,并把它補充到自定義詞典中,可以大大增加命名實體識別的準確率。基于此規則我們抽取出2482 個專業領域詞匯加入到自定義詞典中。

3 構建火力發電知識圖譜

3.1 數據獲取

由于該領域尚未有公共語料庫,因此本系統采用的語料由節能報告25 篇,每篇平均5 萬字左右,可行性研究報告30 篇,每篇10 萬~15 萬字左右,CNKI 下載相關論文60 篇,每篇論文6000 字左右,在《中國電力百科全書(火力發電卷)》中的大量專業名詞,以及文本語料構成。

3.2 知識三元組

知識圖譜的核心是“實體(Entity)-關系(Relationship)-實體(Entity)”構成的三元組,可以表示為<EF,R,EE>其中EF代表頭實體,EE代表尾實體,R代表實體之間的關系。以“實體-關系-實體”的三元組形式就可以描述實體之間大量的語義關系。本文從語料中整理出121868 個句子,在這些句子中我們提取出109565 對三元組關系,實體之間不同的關系表示為R,如圖1列出了部分實體間的關系。

圖1 實體關系圖

3.3 火力發電知識存儲

當前在知識圖譜領域最為流行的知識存儲工具Neo4J 圖數據庫。在專業領域的知識背景下,實體之間的關系比較單一,例如火力發電領域的設備“引風機”關于該設備的關系大致為“…達到…”、“…采用…”、“…為…”、“…是…”、“…符合…”、“…有…”等。如圖2 展示了實體“引風機”的一部分網絡關系圖。經查詢統計,本圖譜共有46784 個節點,節點之間關系總數為90289個。

圖2 實體“引風機”部分關系圖

如圖2 顯示了節點的局部可視化知識圖譜,圖3 展示了實體的全部關系,可以看出實體與實體之間的關系比較復雜,兩個不同的實體通過多級關系可以聯系到一起,所以我們可以通過知識圖譜挖掘實體之間復雜關系之后的知識。

圖3 10000節點中具有多級關系的可視化圖譜

4 基于知識圖譜的段落生成系統

本文實現了基于知識圖譜的段落生成系統,可以根據輸入文本進行智能化生成,主要分為輸入句子、實體識別、屬性關系映射、知識圖譜抽取、文本生成五個部分,本系統流程圖如圖4所示。

圖4 系統流程圖

4.1 基于BERT的命名實體識別

BiLSTM 模型[17]在許多自然語言處理任務中得到了廣泛的應用,并實現了優異的性能。它代表了LSTM[18]的重大改進,有效地解決了簡單RNN 中的梯度消失或爆炸問題。BiLSTM 層雙向LSTM 層組成,即前向LSTM 層和向后LSTM 層,因此該模型能夠更加精確地捕獲序列的上下文信息。基本的LSTM單元由三個門(遺忘門,輸入門,輸出門)和一個記憶單元(cell),之間的橫向箭頭被稱為cell state(單元狀態),它就像一個傳送帶,可以控制信息傳遞給下一時刻,它保存了每個神經元的狀態。通過門控機制控制信息傳遞的路徑。給出了各LSTM單元的狀態計算公式:

式中,it、ft、ot分別表示輸入門、遺忘門、輸出門,ct表示細胞狀態,ht-1表示ht時刻的隱藏層特征,ht是隱藏狀態,σ是sigmoid激活函數,⊙代表向量乘積。

傳統的詞向量模型有Word2Vec或者Glove等,可以將中文字符或者詞轉化成計算機可以計算的向量,但這些傳統的向量模型本質上是利用一個淺層的神經網絡模型把低維的向量映射到n 維的向量空間中。Google 在2018 年10 月底公布了預訓練模型BERT 基于雙向Transformer 編碼器[19],刷新了11 項NLP 任務的記錄。自此BERT 模型得到了廣泛的關注,例如俞敬松等[20]利用BERT 模型進行古文的斷句的研究,這里我們使用BERT 模型來代替之前的word2vec 來生成詞向量。我們可以使用BERT 來生成詞向量,BERT 相對于其他的詞向量產生工具,可以解決一詞多義問題,因為BERT 參考了大量的上下文信息。BERT 預訓練模型如圖5所示。

圖5 BERT預訓練模型

BiLSTM-CRF 模型是由word embedding 層、雙向網絡層和CRF 層構成。本文的數據采用BIO 標注形式,BIO 的每個字母表示:B-begin,I-inside,O-outside。實體的第一個字標注為B,之后的文字標注為I,其余實體之外的無關文字標注為O。

如圖6 所示,我們先基于BERT 模型預訓練文本字向量,然后將向量輸入到雙向LSTM 層來學習上下文特征,輸出層可以使用softmax 來預測各個標簽的概率,但是softmax 層的輸出是相互獨立的,不具備上下文關系,這就會發生B-EQU 后再接一個B-EQU 的問題出現,所以我們輸出層接一個具有轉移特征的條件隨機場CRF模型,使得各個輸出具有邏輯性順序性,最終得到序列標簽,完成命名實體識別任務。

圖6 BERT+BiLSTM+CRF框架

4.2 狀態詞識別

狀態詞是指兩個實體之間是否有支配關系,它是關系詞和否定詞的集合,否定詞在兩個實體之間的時候它也表示一種關系,但是在單個實體前后出現則是一種否定詞。例如“引風機達到一級能效”中的狀態詞就是“達到”,說明實體2 之于實體1 是“達到”的關系;“磨煤機未達到一級能效”中的狀態詞就是“未達到”,說明實體2 之于實體1 是“未達到”的否定關系;目前關于否定詞觸發識別基于詞表和基于雙向長短期記憶網絡的,首先對于輸入的一個短句子,我們直接利用BERT+BiLSTM+CRF框架對本句子進行命名實體識別,識別出該句子中設備名和專有名詞,并按照先后出現的順序進行排序。首先我們提取出構建好的知識圖譜中的所有關系R 構成關系詞表Rword,利用抽取出的關系R 在詞表中進行比對,得出確定的關系類型,若詞表中未出現輸入語句中的關系詞,將利用BERT 產生的詞向量來進行文本相似度計算,將與詞表中最相似度最高的關系詞作為該詞的替換詞。

4.3 知識查詢與文本選擇生成

依據識別出輸入句子的關鍵詞和狀態詞,根據neo4j 的Cypher 語句進行模糊匹配查詢,例如查詢實體“引風機”可用的Cypher 語句為MATCH(n:node)where n.name=~”引風機.*”return n;模糊查詢關系“采用”可用的Cypher語句為MATCH p=()-[r]->()WHERE r[k]=[‘采用’]RETURN p;查詢某特定實體的關系可采用語句:MATCH p=(n:node)-[r]->()WHERE r[k]=[‘采用’]RETURN p;利用知識圖譜多級深度查詢,查詢與之所有的關系組合,根據返回的結果依據相應規則來生成一組相關的句子,隨后我們利用文本相似度匹配來選擇相似度最高的句子。

TF-IDF 算法是一種評估文本中一個詞或短語重要程度的統計方法,具體公式如下:

其中,用tk來表示當前研究的特征項,nkj表示研究項tk在文檔dj中的出現次數,∑inij表示文檔dj中所有詞語的出現次數之和,nk表示包含tk的文檔總數,N表示文檔總數。利用TF值和IDF值相結合就可以得到了TF-IDF 算法的計算公式,如式(11)所示。

所以當TF-IDF 值比較高時,說明該實體在文本中占有重要地位也就是該文本的關鍵詞,具有較高的提取價值。最后根據NER 識別的實體以及關系名稱分別計算在句中的TF-IDF值以及輸入句子與查詢句子的余弦相似度cosine 值求和來選取最優的句子并進行生成。

5 實驗結果與分析

命名實體識別(NER)任務要求確定實體的邊界以及實體的類別,故本文命名實體識別我們采用通用的標準評價指標,基于實驗數據的TP、FP 和FN,計算出NER任務的P(準確率)、R(召回率)、F1值進行評價,具體評價公式如下:

上述公式中,TP 表示Test 測試集中被模型正確識別的實體數量,NP 表示在測試集中被錯誤識別的實體數量,FN 表示通過模型沒有識別出的實體數量。為了驗證本模型的有效性,針對本數據集采用HMM,CRF,BiLSTM,BiLSTM-CRF 模型進行對比實驗,基于HMM 隱馬爾可夫的命名實體識別模型在效果上要差于神經網絡模型,基于CRF條件隨機場的模型考慮了全局的標簽信息,準確率大于HMM 模型,Bi-LSTM 模型和CRF 模型在準確率上相差1.35%,但均小于基于Bi-LSTM-CRF 模型,說明CRF 能夠提高Bi-LSTM 的性能。本實驗基于Bi-LSTM-CRF的基礎上加上BERT預訓練模型,在準確率上高于單獨Bi-LSTM-CRF 模型0.86%,召回率提升1.89%,F1 值提升1.08%,驗證了本模型的有效性。針對火力發電領域實體BERT-BiLSTM-CRF 模型在設備實體(B-EQU)、法律規章(B-LAW)、其他專業名詞(B-OTHER)上達到了precision:97.39%;recall:98.07%;FB1:97.73%。具體實驗數據如表4、表5所示。

表4 BERT-BiLSTM-CRF模型測試結果

表5 各模型測試結果

自然語言生成是很復雜的,對于自然語言的生成至今沒有一個統一標準的評價方式。因此對于本系統,我們通過邀請火力發電領域的專業人員總結出100 句領域相關的短句對結果的生成進行評測。通過對短句的測試,若能夠輸出包含短句中相應的實體的解釋信息或者相關語句即可認為本次生成結果是正確的,若是生成的結果未包含正確的實體,且未能跟輸入的句子的相關信息相吻合,則認為本次輸出結果是錯誤的。由表6 系統對比實驗可以看出,當輸入相同的時候本生成系統的輸出更為精準通順,相比未采用知識圖譜和命名實體識別的原系統的輸出,原系統輸出不可控,且表達語義不夠完整,會出現一句話輸出不完整的情況。表6顯示了部分輸入輸出結果。

表6 系統對比實驗

對本次測試的100 句短句有81 句可以正確生成相關語句,剩余句子生成無關語句主要問題在于對于輸入實體的錯誤識別或者圖譜中沒有涉及到該實體的任何信息,之后的工作應該著重研究如何能夠動態構建圖譜,以及提高NER識別的精確度。

6 結語

本文針對火力發電領域的發電以及節能等方面的知識,從火力發電節能報告、建設電廠可行性研究報告、《中國電力百科全書(火力發電卷)》和CNKI 的相關論文中選取語料,依據火電特定領域的特點,完成分詞、詞性標注、實體識別并從中抽取事件三元組構建特定領域知識圖譜。根據構建的領域知識圖譜,可以對輸入的語句根據專業知識進行知識推理和知識表示,利用BERT 預訓練模型,能夠生成一定量的專業描述。但由于采集的領域信息數量有限,構建的圖譜實體以及屬性關系等信息太少,使得生成的文本質量不高,下一步要繼續對圖譜進行擴充,豐富實體數量,擴大可生成文本的范圍。

猜你喜歡
文本模型
一半模型
重要模型『一線三等角』
初中群文閱讀的文本選擇及組織
甘肅教育(2020年8期)2020-06-11 06:10:02
重尾非線性自回歸模型自加權M-估計的漸近分布
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
3D打印中的模型分割與打包
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
論《柳毅傳》對前代文本的繼承與轉化
人間(2015年20期)2016-01-04 12:47:10
FLUKA幾何模型到CAD幾何模型轉換方法初步研究
主站蜘蛛池模板: 国产视频一区二区在线观看 | 国产在线一区视频| 一级爆乳无码av| 亚洲热线99精品视频| 4虎影视国产在线观看精品| 亚洲天堂网视频| 91久久偷偷做嫩草影院| hezyo加勒比一区二区三区| 天天干伊人| 中文字幕调教一区二区视频| 色亚洲成人| 嫩草国产在线| 欧美三级视频网站| 波多野结衣国产精品| 手机精品视频在线观看免费| 欧美成人精品高清在线下载| 激情六月丁香婷婷四房播| 免费看av在线网站网址| 天堂成人在线| 丰满人妻中出白浆| 亚洲天堂精品视频| 国产大片喷水在线在线视频| 欧美日韩精品在线播放| 丁香亚洲综合五月天婷婷| 国产剧情一区二区| 91在线播放免费不卡无毒| 中文天堂在线视频| 色综合天天综合中文网| 久草视频福利在线观看| 中文字幕永久视频| 国产毛片高清一级国语 | 成人第一页| 亚洲女同欧美在线| 欧美国产日韩另类| 国产一区二区免费播放| 国产夜色视频| 亚洲综合欧美在线一区在线播放| 国产a v无码专区亚洲av| 中文字幕欧美成人免费| 欧美日本激情| a级毛片免费网站| 性欧美久久| 欧美视频二区| 美女被操91视频| 99这里只有精品6| 99久久精品国产麻豆婷婷| 全色黄大色大片免费久久老太| 日韩一二三区视频精品| www.av男人.com| 国产视频入口| 无码日韩精品91超碰| 日本一区二区不卡视频| 日韩精品一区二区深田咏美| 中文字幕日韩久久综合影院| 国产在线小视频| 色亚洲激情综合精品无码视频| 亚洲成AV人手机在线观看网站| 国产精品黄色片| 综合天天色| 青青草原国产免费av观看| 久久精品国产999大香线焦| 国产白浆视频| 九九香蕉视频| 激情乱人伦| 在线精品欧美日韩| 热热久久狠狠偷偷色男同| 亚洲国产清纯| 国产激爽大片高清在线观看| JIZZ亚洲国产| 亚洲区第一页| 国产区网址| 国产丝袜丝视频在线观看| 日本亚洲成高清一区二区三区| 亚洲成人精品在线| 国产精品精品视频| 亚洲欧美日韩动漫| 好吊色国产欧美日韩免费观看| 国产一区二区三区免费| 亚洲最新网址| 国产91色| 草逼视频国产| 久久伊人色|