999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于統計和知識的產品部件信息抽取

2018-06-13 11:36:32王鐵錚白宇張桂平
中文信息 2018年4期

王鐵錚 白宇 張桂平

摘 要:隨著社會產品的多樣變化和大數據時代的發展需求,產品信息抽取有著重要的研究意義。針對抽取過程中過多的人工參與和抽取準確度不高的情況,提出一種基于統計和知識相結合的產品部件信息自動抽取方法。為確保抽取的相關性,采用詞頻剪枝過濾干擾詞,使用雙向長短期記憶模型將詞進行分布式表示并計算語義相關度;為確保抽取的完整性,引入知網知識庫,根據詞語首義原的分類來驗證抽取結果是否為部件類概念詞。實驗在120萬篇產品專利摘 要上進行詞向量訓練,分別對運輸交通設備、通訊電子設備、儀器儀表和機械器材四類產品進行測試,證明了模型的可行性和算法的有效性。

關鍵詞:信息抽取 雙向長短期記憶模型 分布式表示 知網

中圖分類號:V263 文獻標識碼:A 文章編號:1003-9082(2018)04-00-03

引言

我們隨著科學技術的蓬勃發展、新產品的不斷涌現,使得描述產品部件信息的詞匯集合處于不斷擴大并更新的狀態,因此以往靠人工收集產品部件信息的方式顯然已經滿足不了人們的需求,利用計算機自動抽取這些信息已成為必然。信息抽取[1]是對文本中包含的信息進行結構化處理,再對其進行存儲的過程,在這個信息爆炸的時代,信息抽取能夠幫助我們完成對信息的快速整理和分析,提高工作效率。

產品部件信息抽取,是信息抽取的一種形式,其是將不同文本對于某一產品的部件信息集中起來,能從不同的角度反映產品的相關組成信息,對產品的部件進行抽取有助于全面地了解這些產品。例如,有關介紹電腦的文本中提到“一種用于電視游戲機的電腦控制器,是利用電腦主機的插頭嵌設在游戲機的主體上的插槽中”,在描述中可知,“控制器”和“主機”是電腦的組成部件,如何在文本中,準確高效的獲取到產品的組成部件信息,就是本文的主要解決的問題。

一、相關研究

目前產品部件信息抽取的方法主要分為三種:基于語言規則的方法[2]、基于統計的方法,以及規則和統計相結合的方法。基于語言規則方法具有明顯的缺陷,即難以用少量規則覆蓋復雜的存在規律,以及當規則數達到一定數量時產生的相互沖突問題。基于統計的方法主要的統計策略有互信息[3,4]、詞頻、連續指數、左右熵[5]、log-likehood、TF-IDF等。這些統計策略各有優缺點和適用對象,沒有一個方法能獨立使用即可抽取出各種類型的信息并達到良好的效果,因此融合多統計特征的統計模型是目前比較主流的統計方法。而基于規則和統計相結合的方法則[6-10]可以取長補短,是目前廣泛采用的方法。結合的方式通常有兩種,即先規則后統計和先統計后規則,采用何種方式需要根據具體應用和算法效果而決定。

本文提出了一種基于統計和知識相結合的抽取方法,為了可以全面準確的獲取產品部件信息,本文在眾多的信息源中,選擇專利文獻為抽取對象,為獲取與產品相關的候選詞,采用基于統計的方法,利用詞頻剪枝和雙向長短記憶模型計算語義相關度;為從相關候選詞中準確獲取產品部件概念詞,采用基于知識的方法,引入知網知識庫,根據對詞語首義原的分析進一步驗證抽取結果,兩種方法相結合,為產品部件信息的抽取提供一個新的思路。

二、基于統計和知識的產品信息抽取方法

本文實現一種基于統計和知識相結合的產品部件信息抽取方法,本文第一步是對產品專利摘要進行分詞,詞性標注和去停用詞的預處理;第二步是過濾非名詞詞性和詞長為1的干擾詞;第三步是通過詞頻剪枝,保留詞頻較高的候選詞;第四步是利用雙向長短記憶模型方法將詞表示成向量形式,計算產品與候選詞的余弦值,過濾相關度較低的干擾詞;第五步是引入知網知識庫,通過驗證候選詞在知網中首義原的定義,來判斷其是否為產品部件概念詞,本文方法框架如圖1所示。

1.基于統計的方法

1.1 詞頻剪枝

詞頻剪枝是一種詞匯分析研究方法,通過對一定長度文本的詞頻進行統計、分析,進而描繪出詞匯規律。詞頻從一定程度上可以描述詞匯的重要程度,在抽取產品部件概念詞過程中,依照詞頻的排序去除干擾詞是很基礎但是效果很好的一種方法。詞頻計算公式如下2-1所示,本文設定了一個詞頻閾值,高于閾值的候選詞,表示是該產品專利的重要詞;低于閾值的候選詞,表示是該產品專利的非重要詞,通過詞頻剪枝,過濾掉非重要的干擾詞。

其中:di是計算詞頻的目標詞;count(di):是統計目標詞di的出現頻數;dict:是候選專利中所有詞匯的字典;P(di):則是最終得到目標詞的概率。

1.2 雙向長短記憶模型實現Word Embedding

本文使用深層神經網絡中雙向長短記憶模型[12](Bi-LSTM)實現Word Embedding的訓練, Bi-LSTM是一個多層的神經網絡,采用隨機初始權重,每次訓練只得到一個局部最優解,直接訓練詞的N維實數向量與內部節點向量的條件概率,并使用一系列優化方法以提高訓練效率,雖然是基于CBOW模型結構,但是將原來的在固定窗口內對Word Embedding取平均作為語境模型替換了,替換為一個更有效的神經模型,通過將它們嵌入到相同的低維空間中來學習上下文和目標詞表示,其中通過對數線性模型將目標詞預測為目標詞,利用更多的強大的參數模型來捕捉上下文的本質。

Bi-LSTM神經網絡的輸入是關鍵詞所在的句子的兩個上下文向量,一個是由從左至右句子(“汽車”)的LSTM形成的,另一個是由從右至左句子(“正常啟動”)的LSTM形成的,這兩個網絡的參數是完全獨立的,如下圖2示例,為了表示句子中目標詞的上下文(例如,對于“汽車[發動機]啟動正常”),首先連接代表右-至-左向量與左-至-右向量,目的是捕捉相關的上下文信息,即使它遠離目標詞,矢量表示公式如2-2所示:

接下來將連接向量饋送到多層感知機中,以便表示上下文的依賴關系,該層的輸出是圍繞目標詞的聯合上下文信息的向量,表示公式如2-3所示:

其中,MLP代表多層感知機,ReLU是激活函數,Li(x)=Wix+bi全連接線性操作,將連接后的向量輸入到多層感知機。

最后,為了學習網絡的參數,使用CBOW模型的負采樣目標函數,表示公式如2-4所示:

其中,t表示求和遍歷訓練語料中的每一個詞和c則是它所對于的句子語境,σ表示sigmoid函數。

訓練結果后,任意兩個詞的語義相關程度可以通過計算兩個詞對應向量的余弦相似度得到,計算公式如2-5所示。計算的結果很好的反映了兩個詞向量的相關度,余弦值接近1,表明兩個詞的相關度高;余弦值接近-1,表明兩個詞的相關度低,通過將計算的結果根據余弦值由高到低的順序排序,為下一步驗證提供了與產品相關的候選詞。

其中V1代表產品的詞向量;V2代表候選產品部件概念詞的詞向量。cos(V1,V2)代表產品與候選產品部件概念詞的余弦相似度。

2.基于知識的方法

知網是中文使用最為廣泛的可計算語義詞典[13]。知網[14]認定的七個最上層的類別,分別是:事件類、萬物類、屬性類、屬性值類、部件類、空間類和時間類。

對于產品組成部件,正好可以通過知網對萬物定義的首義原來進行分類,雖然在知網知識庫中,已經在DEF中定義了“part-whole”這種存在關系,然而在知網知識庫所包含的197704個定義中,存在“part-whole”關系的定義只有12034個,其中和產品有關的,只有飛行器,船,車,電腦四種產品的285個定義,所以只依靠知網現有的“part-whole”的關系提供產品的組成信息可能遠遠不夠用戶的需求。

本文根據知網對世界萬物定義的七種類別,發現產品的部件概念詞不一定只存在具有“part-whole”關系的定義中,除了部件類以外,萬物類中也存在著大量的產品部件概念詞,所以本文將萬物類和部件類視為研究的對象,通過大量觀察產品部件概念詞在知網中的定義,發現產品部件概念詞集中分布在萬物類和部件類定義的詞中,本文設定部件、用具和機器這三個義原為部件特定首義原,驗證流程如圖2所示。

三、實驗設計與結果分析

1.實驗數據

本文訓練集采用的是120萬篇專利文章,數據規模為分詞后833M。本文分詞和詞性標注任務,使用的中科院分詞工具為ICTCALS。停用詞表使用的是“哈工大停用詞詞庫”。開發集是在10種不同類產品(不包含測試集)相關的10000篇專利摘要。測試集是運輸交通設備、通訊電子設備、儀器儀表和機械器材四類產品相關的2000篇專利摘 要,人工抽取每種產品中10個關鍵的產品組成部件概念詞作為所要抽取的目標詞。

2.實驗步驟

本文的實驗數據是相關產品的專利摘要,為了得到更好抽取結果,首先是對訓練語料進行預處理,包括分詞、詞性標注和去停用詞。根據詞頻由高到低的排序,過濾掉低于閾值的候選詞,本文通過10種產品設定不同閾值的對比實驗,實驗數據(如表1所示)表示的是每種產品在設定不同的過濾詞頻閾值時,候選詞中出現人工抽取目標詞的個數,發現閾值設定為4%時,確保目標詞全部出現在候選詞中。

通過詞頻剪枝得到的候選詞,作為Word Embedding的輸入,本文通過10種產品設定不同相似度閾值的對比試驗,實驗數據(如表2所示)表示的是每種產品在設定不同的相似度閾值時,目標詞占候選詞的比例,發現相似度閾值設定為0.2時,目標詞占候選詞的比例較高。

3.結果分析

本文通過三個指標評價實驗的性能,分別是準確率(3-1)、召回率(3-2)、綜合指標F-值(3-3),如下式所示。

本文選擇的baseline是湯青[15]采用的一種統計的部件抽取方法,主要根據產品部件具有的領域聚合特征,在某一領域中詞頻較高或只出現在某個領域中,而在不相關領域中詞頻相對較低,除此之外還考慮了詞性特征。本文采用的統計和知識相結合的抽取方法與baseline方法進行比較,抽取結果平均準確率、召回率和F-值分別提高了3.1%、4.5%和3.7%,實驗結果如表3所示。

結束語

本文提出了一種基于統計和知識相結合的產品部件信息自動抽取方法,首先通過對產品專利摘要進行預處理,過濾掉非名詞詞性的和單字的干擾詞;然后通過詞頻剪枝和使用Bi-LSTM模型高效準確的將詞進行分布式表示,獲取與產品相關的候選詞;最后采用基于知識的方法,利用知網知識庫對候選詞定義的首義原進行驗證,準確高效的抽取了候選詞中的產品組成部件概念詞。本文通過結合統計和知識的方法,既滿足了抽取的相關性,又確保了抽取的完整性。通過考察實驗的準確率、召回率以及F-值發現,表明實驗方法具有實用價值。

參考文獻(Reference)

[1]樊夢佳,段東圣,杜翠蘭等. 統計與規則相融合的領域術語抽取算法[J].計算機應用研究.2016,33(8):2282-2285.

[2]Sui Z, Chen Y, Wei Z. Automatic recognition of Chinese scientific and technological terms using integrated linguistic knowledge[C]//Proc of International Conference on Natural Language Processing and Knowledge Engineering. 2003: 444-451.

[3]劉劍, 唐慧豐, 劉伍穎. 一種基于統計技術的中文術語抽取方法[J].中國科技術語, 2014, 5(2): 10-14.

[4]吳海燕. 基于互信息與詞語共現的領域術語自動抽取方法研究[J].重慶郵電大學學報: 自然科學版, 2013, 25(5): 690-694.

[5]閆琪琪, 張海軍. 中文領域術語自動抽取方法進展研究[J].電腦知識與技術:學術交流, 2014, 21(10): 6716-6718.

[6]胡阿沛,張靜,劉俊麗. 基于改進 C-value 方法的中文術語抽取[J].現代圖書情報技術, 2013, 29(2): 24-29.

[7]李麗雙, 黨延忠, 張婧, 等. 基于條件隨機場的汽車領域術語抽取[J].大連理工大學學報, 2013, 53(2): 267-272.

[8]何琳. 基于多策略的領域本體術語抽取研究[J].情報學報,2012,31(8): 798-804.

[9]李麗雙. 領域本體學習中術語及關系抽取方法的研究[D].大連:大連理工大學, 2013.

[10]熊李艷, 譚龍, 鐘茂生. 基于有效詞頻的改進 C-value 自動術語抽取方法[J].現代圖書情報技術, 2013, 29(9): 54-59.

[11]Geoffrey E.Hinton. Learning distributed representations of concepts[R]. IEEE Transactions on Knowledge & Data Engineering,2001,13(2):232-44

[12]Hochreiter S,Schmidhuber J.Long short-term memory[J].Neural computation,1997,9(8)

1735-1780.

[13]孫茂松,陳新雄.借重于人工知識庫的詞和義項的向量表示:以知網為例[J].中文信息學報, 2016, 30(6):1-6.

[14]董振東,董強,郝長伶. 知網的理論發現[J], 中文信息學報. 2007, 21(4):3-9.

[15]湯青,呂學強,李卓. 領域本體術語抽取研究[J]. 現代圖書情報技術. 2014, 30(1) :43-50.

主站蜘蛛池模板: 四虎亚洲国产成人久久精品| 无码日韩视频| 国产手机在线观看| 国产精品美女免费视频大全| 免费人成网站在线高清| 国产午夜一级毛片| 日韩国产黄色网站| 国产一级裸网站| 亚洲娇小与黑人巨大交| 免费av一区二区三区在线| 国内熟女少妇一线天| 91外围女在线观看| 亚洲人成亚洲精品| 女人18一级毛片免费观看| 日韩精品少妇无码受不了| 18禁色诱爆乳网站| 无码区日韩专区免费系列| 久久人搡人人玩人妻精品一| 色综合激情网| 激情视频综合网| 国产久操视频| 免费无码一区二区| 欧美一区精品| 日韩第八页| 国产精品va免费视频| 欧美日韩国产在线人成app| 老色鬼久久亚洲AV综合| 夜夜爽免费视频| 亚洲一区第一页| 日本成人福利视频| 国产成人欧美| 亚洲美女一区| 国产乱子伦一区二区=| 亚洲第一区欧美国产综合| 污污网站在线观看| 操操操综合网| 伊人色在线视频| 欧美午夜网| 极品国产在线| 亚洲h视频在线| 在线无码九区| 人人澡人人爽欧美一区| 激情六月丁香婷婷| 久草视频精品| 久久精品视频亚洲| 国产精品成人啪精品视频| 91福利免费| www.狠狠| h网站在线播放| 国产成人一二三| 国产在线一二三区| 久久一本精品久久久ー99| 69av在线| 真人高潮娇喘嗯啊在线观看| 亚洲成人高清在线观看| 中文字幕亚洲综久久2021| 丰满人妻被猛烈进入无码| 午夜久久影院| 国产美女无遮挡免费视频网站 | 国产精品99r8在线观看| 日韩在线2020专区| 97在线视频免费观看| 99热这里只有精品在线播放| 国产精品一区在线观看你懂的| 国产精品va免费视频| 国产乱人乱偷精品视频a人人澡| 精品三级在线| 四虎永久在线精品国产免费| 美美女高清毛片视频免费观看| 国产成人久久综合777777麻豆| 91精品视频网站| 精品国产Ⅴ无码大片在线观看81| 亚洲成人精品| 操操操综合网| 国产成人永久免费视频| 欧美第一页在线| 高清不卡毛片| 欧美精品综合视频一区二区| 伊人五月丁香综合AⅤ| 99性视频| 97影院午夜在线观看视频| 波多野结衣在线se|