999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于詞性標(biāo)注和規(guī)則相結(jié)合的信息抽取方法

2021-10-28 04:42:36潘興明張海波薄佳男秦小龍
關(guān)鍵詞:規(guī)則文本信息

張 偉,潘興明,張海波,何 霄,薄佳男,秦小龍

(1.中國石油工程技術(shù)研究院有限公司 北京石油機(jī)械有限公司,北京 102206; 2.中國人民大學(xué) 信息學(xué)院,北京 100872)

0 引 言

在大數(shù)據(jù)時(shí)代,數(shù)據(jù)作為重要生產(chǎn)要素[1],對企業(yè)發(fā)展的重要性日益顯著。加速推動企業(yè)數(shù)字化建設(shè)勢在必行,如何有效地從多種類型的無結(jié)構(gòu)或半結(jié)構(gòu)化文本中獲取有效的信息并形成結(jié)構(gòu)化數(shù)據(jù),成為該企業(yè)數(shù)字化建設(shè)過程中面臨的一大挑戰(zhàn)[2]。傳統(tǒng)企業(yè)日常經(jīng)營活動過程中會產(chǎn)生大量文本數(shù)據(jù),早期對這些文本中信息的收集只能依靠人工整理的方式,再匯總給企業(yè)信息管理部門進(jìn)行處理,形成結(jié)構(gòu)化數(shù)據(jù)并保存,完成這些工作常常需要專人專職花費(fèi)大量時(shí)間精力、效率低下[3]。近年來,隨著自然語言處理技術(shù)的快速發(fā)展,文本信息抽取已經(jīng)在情報(bào)收集、科技文獻(xiàn)監(jiān)控、醫(yī)療保健服務(wù)、商業(yè)信息抽取等許多領(lǐng)域得到了有效應(yīng)用[4-6]。李雪駒等提出一種基于規(guī)則和SVM相結(jié)合的論文抽取方法,該方法先以SVM模型得到論文抽取特征及分類結(jié)果,再根據(jù)論文中元數(shù)據(jù)對規(guī)則和機(jī)器學(xué)習(xí)方法的不同適用性,結(jié)合規(guī)則抽取方法去修正,最終得到了想要的抽取結(jié)果[7]。余晨根據(jù)抽取任務(wù)本身及其常見觸發(fā)詞構(gòu)建自定義海事詞庫,提出一種基于規(guī)則的海事信息抽取方法,將海事自由文本轉(zhuǎn)化為結(jié)構(gòu)化的數(shù)據(jù)[8]。吳歡提出針對醫(yī)療領(lǐng)域具有一定的規(guī)范性的乳腺癌病理文本進(jìn)行結(jié)構(gòu)化處理,實(shí)現(xiàn)對非結(jié)構(gòu)化文本的結(jié)構(gòu)化信息提取方法,以輔助臨床科研人員進(jìn)行下一步醫(yī)學(xué)研究[9]。

但在企業(yè)實(shí)際應(yīng)用中,文本中每一個(gè)目標(biāo)信息都事關(guān)企業(yè)業(yè)務(wù)經(jīng)營,每一個(gè)錯(cuò)誤值都會引起不良后果,所以希望模型在滿足絕對精確率的基礎(chǔ)上召回率越高越好。以上研究方法在具體實(shí)際應(yīng)用中還有欠缺,因此設(shè)計(jì)一個(gè)更加高效的、精準(zhǔn)的、能滿足企業(yè)實(shí)際應(yīng)用需求的信息抽取方法具有重要實(shí)際意義。文中提出一種基于詞性標(biāo)注和規(guī)則相結(jié)合的信息抽取方法,對文本分別采用基于詞性標(biāo)注和基于規(guī)則的信息抽取方法進(jìn)行信息抽取并得到抽取結(jié)果,再對結(jié)果信息進(jìn)行合規(guī)判斷和沖突避免,最后引入人工識別。經(jīng)實(shí)驗(yàn)測試驗(yàn)證,該方法相比于單一信息抽取方法具有更好的效果,能有效滿足企業(yè)實(shí)際應(yīng)用需求。

1 相關(guān)理論基礎(chǔ)

1.1 信息抽取

信息抽取(information extraction,IE)[10],指從自然語言文本中抽取指定類型的實(shí)體(entity)、關(guān)系(relation)、事件(event)等事實(shí)信息,并形成結(jié)構(gòu)化數(shù)據(jù)輸出的文本處理技術(shù)[4]。信息抽取更側(cè)重文檔中顆粒度更小的關(guān)系或事件,滿足用戶更深層和更細(xì)粒度的信息需求,是其他信息獲取手段的一種有益補(bǔ)充,可以為進(jìn)一步的自然語言信息處理技術(shù)如文檔檢索、文本分類、文本摘要、情感分析、問答系統(tǒng)等提供支持。國際ACE(automatic content extraction)會議定義了信息抽取的五個(gè)子任務(wù),分別為實(shí)體的檢測與識別、關(guān)系的檢測與識別、事件的檢測與識別、值的檢測與識別和時(shí)間的檢測與識別[11]。

1.2 常用信息抽取方法

1.2.1 基于規(guī)則的信息抽取方法

基于規(guī)則的信息抽取方法常用正則表達(dá)式法,是一種字符串匹配的模式,可以對字符串進(jìn)行操作的邏輯公式。該方法需要人工事先定義好一些特定字符及這些特定字符的組合,組成一個(gè)“規(guī)則字符串”,通過這個(gè)“規(guī)則字符串”實(shí)現(xiàn)從字符串中提取特定子字符串的功能。該方法具有較好的靈活性,抽取過程簡單易操作,但抽取效果高度依賴制定的“規(guī)則字符串”,可移植性較差,適用于對抽取精度較高,表達(dá)規(guī)范的半結(jié)構(gòu)化文本[12]。

1.2.2 基于統(tǒng)計(jì)機(jī)器學(xué)習(xí)的信息抽取方法

基于統(tǒng)計(jì)機(jī)器學(xué)習(xí)的信息抽取方法是從大量原始自然語言語料出發(fā),通過已有的統(tǒng)計(jì)學(xué)、數(shù)學(xué)原理計(jì)算文本不同的特征組合,進(jìn)行機(jī)器學(xué)習(xí)模型訓(xùn)練,達(dá)到預(yù)測語言標(biāo)簽、辨識語義狀態(tài)和規(guī)律的目的。與基于規(guī)則的方法相比較,基于統(tǒng)計(jì)機(jī)器學(xué)習(xí)的方法不需要人工編寫規(guī)則,具備較好的可移植性。在復(fù)雜的任務(wù)下,基于統(tǒng)計(jì)機(jī)器學(xué)習(xí)的方法比基于規(guī)則的方法能取得更好的效果,但存在訓(xùn)練過程依賴大量標(biāo)注訓(xùn)練語料、訓(xùn)練時(shí)間長等問題[13]。

1.3 詞性標(biāo)注

詞性標(biāo)注(POS tagging),又稱詞類標(biāo)注或者簡稱標(biāo)注,與命名實(shí)體識別(NER)、依存句法分析(dependency parsing)一起都是自然語言處理中最常用的基礎(chǔ)任務(wù)[14]。詞性標(biāo)注是指為分詞結(jié)果中的每個(gè)單詞標(biāo)注一個(gè)正確的詞性的程序,即確定每個(gè)詞是名詞、動詞、形容詞還是其他詞性的過程[15],常見的詞性標(biāo)注算法包括隱馬爾可夫模型(HMM)[16-17]、條件隨機(jī)場(CRF)[18]等。

2 石油設(shè)備日常監(jiān)控文本的信息抽取

2.1 數(shù)據(jù)來源及評價(jià)指標(biāo)

文中使用石油設(shè)備日常監(jiān)控文本信息2 029條,對每條文本中10個(gè)不同數(shù)據(jù)值進(jìn)行信息抽取實(shí)驗(yàn)。文本是半結(jié)構(gòu)化形式[19],文本結(jié)構(gòu)基本相同、關(guān)鍵詞比較統(tǒng)一、目標(biāo)信息類型容易事先判斷。石油設(shè)備日常監(jiān)控文本每日由現(xiàn)場服務(wù)工程師上傳至企業(yè)業(yè)務(wù)與檔案管理系統(tǒng),以供相關(guān)人員查閱。

文本信息抽取結(jié)果包含4種情況,TP表示文本中有數(shù)據(jù),成功抽取到了數(shù)據(jù)數(shù);FN表示文本中有數(shù)據(jù),但沒有成功抽取到數(shù)據(jù)數(shù);FP表示文本中缺失數(shù)據(jù),但錯(cuò)誤抽取到了數(shù)據(jù)數(shù);TN表示文本中缺失數(shù)據(jù),也沒有抽取到數(shù)據(jù)數(shù);一般以精確率P、召回率R和F值作為其性能的評價(jià)指標(biāo),計(jì)算公式分別如下[20]:

(1)

(2)

(3)

式中,P(precision)為精確率,表示在所有數(shù)據(jù)的樣本中成功抽取到正確數(shù)據(jù)的概率;R(recall)為召回率,表示在所有抽取到的數(shù)據(jù)中是正確值的概率;F值即為精確率和召回率的調(diào)和平均值。

2.2 信息抽取過程

本實(shí)驗(yàn)編程語言使用Python 3.6;主要運(yùn)行環(huán)境包括Jupyter Noetbook軟件、Win10系統(tǒng)、8 GB內(nèi)存;哈工大語言技術(shù)平臺(LTP)提供的自然語言處理技術(shù),包括中文分詞、詞性標(biāo)注、命名實(shí)體識別、依存句法分析等;使用正則表達(dá)式作為規(guī)則模式匹配,具體實(shí)驗(yàn)流程如下文所述。

2.2.1 構(gòu)建專用詞庫

自定義詞庫包含石油行業(yè)和觸發(fā)抽取任務(wù)的關(guān)鍵詞[21],石油行業(yè)有較多不常用的專業(yè)術(shù)語、特殊詞匯,文本中觸發(fā)抽取任務(wù)的關(guān)鍵詞也各有不同。單獨(dú)使用LTP提供的通用詞庫對文本進(jìn)行分詞,分詞效果不夠理想。事先自定義專用詞庫,再通過LTP提供加載外部詞典庫方法segmentor.load_with_lexicon(model_path,user_dict),將自定義專用詞庫與LTP通用詞庫合并形成專用詞庫,確保文本分詞效果和關(guān)鍵詞定位的準(zhǔn)確率。其過程如圖1所示。

圖1 構(gòu)建專用詞庫流程

2.2.2 分詞效果

筆者分別使用加入了自定義詞庫和只使用通用詞庫的模型對樣本中某一段文本進(jìn)行分詞和詞性標(biāo)注測試,結(jié)果如圖2所示。

單使用通用詞庫分詞:井 深 3 458 m , 旋轉(zhuǎn) 導(dǎo)向 儀器 在 下 鉆 過程 中 遇阻 , 井 隊(duì) 詞性: n d v wp v n n p nd v n nd v wp n n 分詞:循環(huán) 泥漿 , 準(zhǔn)備 起 鉆 。詞性: v n wp v v v wp加入自定義詞庫分詞:井深 3 458 m , 旋轉(zhuǎn)導(dǎo)向 儀器 在 下鉆 過程 中 遇阻 , 井隊(duì) 詞性: n ws wp n n p v n nd v wp n 分詞:循環(huán)泥漿 , 準(zhǔn)備 起鉆 。詞性: n wp v v wp

通過測試結(jié)果對比,發(fā)現(xiàn)加入自定義詞庫的分詞測試中可以更準(zhǔn)確地識別石油行業(yè)一些特殊詞,例如:起鉆、下鉆、井深、旋轉(zhuǎn)導(dǎo)向等,取得了更好的分詞和詞性標(biāo)注效果。

2.2.3 通過關(guān)鍵詞定位要抽取的信息位置

對文本進(jìn)行分句、分詞和詞性標(biāo)注,再根據(jù)對文本中目標(biāo)信息的提取要求確定關(guān)鍵詞,循環(huán)遍歷每句、每詞查找關(guān)鍵詞所在句,定位要抽取的信息所在位置。關(guān)鍵詞主要是選取一些不常用但一定會在目標(biāo)句子中出現(xiàn)的特定詞,多與自定義詞庫相關(guān)。例如:當(dāng)前井深、服務(wù)人員等,因此使用合理的自定義詞庫,可以更加精準(zhǔn)地定位到目標(biāo)信息所在句。

2.2.4 完成信息抽取

(1)基于詞性標(biāo)注的信息抽取方法設(shè)計(jì)。

定位了目標(biāo)信息所在句,再通過判斷要被抽取的目標(biāo)信息的詞性,在關(guān)鍵詞附近查找是否有滿足要求的詞。例如:原文本中有包含服務(wù)人員信息的句子:“服務(wù)人員:李艷敏 李雙成”,通過在關(guān)鍵詞“服務(wù)人員”后面查找屬于“nh”詞性的詞,判斷是否為需要被抽取的信息。LTP提供的詞性對應(yīng)表如表1所示。

表1 LTP提供的詞性對應(yīng)表

續(xù)表1

(2)基于規(guī)則的信息抽取方法設(shè)計(jì)。

定位了目標(biāo)信息所在句,使用正則表達(dá)式進(jìn)行規(guī)則匹配,直接抽取句子中符合要求的信息。基于規(guī)則匹配的信息抽取效果非常依賴“規(guī)則字符串”質(zhì)量,每一種類別目標(biāo)信息都需要特定的“規(guī)則字符串”,要求使用者對正則表達(dá)式語法使用非常熟練,部分正則表達(dá)式語法如表2所示。

表2 部分正則表達(dá)式語法

(3)基于詞性標(biāo)注和規(guī)則匹配相結(jié)合的信息抽取方法設(shè)計(jì)。

定位了目標(biāo)信息所在句,對目標(biāo)句分別采用基于詞性標(biāo)注的信息抽取方法和基于規(guī)則的信息抽取方法進(jìn)行信息抽取,得到抽取結(jié)果R1和R2。對結(jié)果信息進(jìn)行合規(guī)判斷,①如果R1=R2,判斷結(jié)果都為真,輸出結(jié)果R1或R2;②如果R1=空且R2≠空,判斷結(jié)果R2為真,輸出結(jié)果R2;③如果R1≠空且R2=空,判斷結(jié)果R1為真,輸出結(jié)果R1;④如果R1≠空且R2≠空且R1≠R2,說明兩種抽取方法結(jié)果出現(xiàn)沖突,輸出結(jié)果標(biāo)記為-1,標(biāo)記需要加入后期人工識別。流程如圖3所示,圖中平行四邊形表示目標(biāo)數(shù)據(jù),矩形表示必須處理的過程,橢圓形表示注釋。

3 實(shí)驗(yàn)結(jié)果與分析

選取10項(xiàng)文本中需要抽取的目標(biāo)信息:時(shí)間、井名、服務(wù)人員、服務(wù)總進(jìn)尺、當(dāng)前井深、當(dāng)前井斜、剩余井深、日進(jìn)尺、總起鉆數(shù)、儀器原因起鉆數(shù)。目標(biāo)信息包含時(shí)間、數(shù)值、字符串3種不同類型,結(jié)構(gòu)化信息抽取結(jié)果如表3所示。

表3 結(jié)構(gòu)化信息抽取結(jié)果

圖3 基于詞性標(biāo)注和規(guī)則匹配相結(jié)合的 信息抽取方法流程

3.1 實(shí)驗(yàn)結(jié)果

分別采用詞性標(biāo)注信息抽取方法、規(guī)則匹配信息抽取方法、詞性標(biāo)注和規(guī)則匹配相結(jié)合的信息抽取方法進(jìn)行文本信息抽取實(shí)驗(yàn),結(jié)果中不同項(xiàng)對應(yīng)的信息缺失數(shù)如圖4所示。

圖4 不同項(xiàng)對應(yīng)的信息缺失數(shù)

經(jīng)過統(tǒng)計(jì),實(shí)驗(yàn)共抽取2 029*10個(gè)目標(biāo)數(shù)據(jù),其中原文本中就缺失的數(shù)據(jù)有139個(gè)。使用詞性標(biāo)注信息抽取方法得到結(jié)果中缺失的數(shù)據(jù)有695個(gè),使用規(guī)則信息抽取方法得到結(jié)果中缺失的數(shù)據(jù)有371個(gè),使用詞性標(biāo)注和規(guī)則相結(jié)合的信息抽取方法得到結(jié)果中數(shù)據(jù)缺失有160個(gè)。

3.2 評 價(jià)

通過評價(jià)指標(biāo)公式分別計(jì)算出不同方法下的精確率P、召回率R和F值,如表4所示。

表4 效果評價(jià)

3.3 結(jié)果分析

(1)單使用詞性標(biāo)注方法精確率P達(dá)到99.95%,召回率R達(dá)到97.28%;單使用規(guī)則方法精確率P達(dá)到99.90%,召回率R達(dá)到98.9%;使用相結(jié)合的方法精確率P達(dá)到100%,召回率R達(dá)到99.87%。實(shí)驗(yàn)結(jié)果顯示相結(jié)合的信息抽取方法相比于其他單一信息抽取方法在精確率P、召回率R、F值上都有明顯提升;

(2)使用詞性標(biāo)注信息抽取方法在目標(biāo)信息為“時(shí)間”、“井名”、“服務(wù)人員”等字符型的抽取任務(wù)中,相比于規(guī)則信息抽取方法效果更好。使用規(guī)則信息抽取方法在目標(biāo)信息為“當(dāng)前井斜”、“日進(jìn)尺”、“總起鉆數(shù)”等數(shù)值型的抽取任務(wù)中,相比于詞性標(biāo)注信息抽取方法效果更好;

(3)混合信息抽取方法中文本中有數(shù)據(jù),但沒有成功抽取到數(shù)據(jù)的有26個(gè),其中20個(gè)是因?yàn)槲谋局谐霈F(xiàn)的關(guān)鍵詞是選取的關(guān)鍵詞的同義詞,例如:當(dāng)前井深和目前井深;1個(gè)是文本中關(guān)鍵詞書寫錯(cuò)誤,所以未能識別出關(guān)鍵詞和定位到包含信息的句子;5個(gè)數(shù)據(jù)出現(xiàn)結(jié)果沖突,需要引入人工識別。

4 結(jié)束語

基于詞性標(biāo)注和規(guī)則匹配相結(jié)合的信息抽取方法通過對文本分別采用基于詞性標(biāo)注和基于規(guī)則的信息抽取方法進(jìn)行信息抽取并得到抽取結(jié)果,再對結(jié)果信息進(jìn)行合規(guī)判斷和沖突避免,實(shí)現(xiàn)對抽取結(jié)果的重復(fù)確認(rèn),保證了抽取結(jié)果的精確率。最后再對發(fā)生沖突和結(jié)果缺失的信息抽取結(jié)果進(jìn)行人工識別并補(bǔ)全,可大幅提高傳統(tǒng)信息收集的工作效率。有效滿足企業(yè)實(shí)際應(yīng)用需求,但仍還有提升空間:

(1)針對實(shí)驗(yàn)中因未能識別出關(guān)鍵詞同義詞和書寫錯(cuò)誤導(dǎo)致的信息抽取缺失問題,在模型中加入對關(guān)鍵詞的同義詞識別和文本糾錯(cuò),可進(jìn)一步提升模型召回率。

(2)本次實(shí)驗(yàn)使用的企業(yè)日常經(jīng)營活動文本屬于半結(jié)構(gòu)化類型,信息抽取任務(wù)比較簡單,所以效果較好。在面對自由文本等復(fù)雜信息抽取任務(wù)時(shí)可以再融合基于統(tǒng)計(jì)學(xué)習(xí)的信息抽取方法得出更為準(zhǔn)確的結(jié)果。

猜你喜歡
規(guī)則文本信息
撐竿跳規(guī)則的制定
數(shù)獨(dú)的規(guī)則和演變
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
讓規(guī)則不規(guī)則
Coco薇(2017年11期)2018-01-03 20:59:57
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
TPP反腐敗規(guī)則對我國的啟示
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
展會信息
中外會展(2014年4期)2014-11-27 07:46:46
如何快速走進(jìn)文本
語文知識(2014年1期)2014-02-28 21:59:13
主站蜘蛛池模板: 一级香蕉人体视频| 中文字幕2区| 9久久伊人精品综合| 国产Av无码精品色午夜| 国产成人精品在线| 亚洲av无码久久无遮挡| 久久这里只精品热免费99| 97视频在线观看免费视频| 国产成人亚洲毛片| 人人91人人澡人人妻人人爽 | 亚洲三级色| JIZZ亚洲国产| 浮力影院国产第一页| 午夜国产精品视频| 色噜噜中文网| 92午夜福利影院一区二区三区| 先锋资源久久| 91偷拍一区| 四虎影院国产| 99在线观看国产| 天堂成人在线视频| 91久久天天躁狠狠躁夜夜| 亚洲免费成人网| 国产内射一区亚洲| 久久国产亚洲偷自| 日本福利视频网站| 三上悠亚精品二区在线观看| 香蕉视频国产精品人| 亚洲成人黄色在线| 91精品国产综合久久香蕉922 | 老色鬼欧美精品| 国产免费观看av大片的网站| 国产成人综合在线视频| 亚州AV秘 一区二区三区| 夜夜拍夜夜爽| 99热国产这里只有精品无卡顿"| 欧美国产三级| 91麻豆精品国产高清在线| 亚洲最猛黑人xxxx黑人猛交| 亚洲日韩AV无码一区二区三区人| 中文字幕 91| 国产精品无码一二三视频| 九九九久久国产精品| 国产区91| 国产免费久久精品99re丫丫一| 首页亚洲国产丝袜长腿综合| 亚洲青涩在线| 国产毛片久久国产| 亚洲国产成人麻豆精品| 国产亚洲精品97AA片在线播放| 国产精品永久久久久| 99久久精品免费看国产电影| 国产AV无码专区亚洲A∨毛片| AV天堂资源福利在线观看| 久草视频中文| 亚洲免费毛片| 国产日韩欧美中文| 国产欧美日韩另类| 99无码中文字幕视频| 四虎永久免费地址在线网站 | 国产在线观看99| 毛片手机在线看| 一本一道波多野结衣av黑人在线| 欧美成人区| 成人久久18免费网站| 亚洲精品无码AV电影在线播放| 久久国产精品娇妻素人| 欧美日韩激情在线| 亚亚洲乱码一二三四区| 国产精品色婷婷在线观看| 国产午夜人做人免费视频中文 | 免费国产不卡午夜福在线观看| 国产乱视频网站| 免费人成在线观看成人片| 成人av手机在线观看| 久久久精品国产SM调教网站| 奇米影视狠狠精品7777| 久久影院一区二区h| 亚洲天堂网2014| 国产精品成人不卡在线观看| 国产精品毛片一区视频播| 天天躁日日躁狠狠躁中文字幕|