999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

綜合詞位置和語義信息的專利文本相似度計算

2018-10-24 02:28:00李寶安呂學強
計算機工程與設計 2018年10期
關鍵詞:語義詞匯文本

夏 冰,李寶安,呂學強

(北京信息科技大學 網絡文化與數字傳播北京市重點實驗室,北京 100101)

0 引 言

專利文獻具有相對固定的組織結構,其組織結構主要包括IPC分類號、標題、摘要、說明書、權利要求書等。其中IPC分類號是國際通用分類號,根據IPC分類號可以判定專利類別,權利要求書是發明或者實用新型專利要求保護的內容,是申請專利的核心。專利文獻為保持其新穎性以及避開專利雷區,在用詞方面一般使用獨特或不常用的詞或短語來表達一些常見性的語義,例如用“一種盛水的容器”來表達“水杯”的含義,再例如用“沒有固定停放地點的單車”替代“共享單車”的概念在專利文獻中使用。因此專利文獻相似度計算的準確與否很大程度上取決于詞語間語義相似度的計算。

根據研究方法的不同,詞語間的語義相似度的研究大體上可以分為兩大類:基于知識的詞語語義分析和基于統計的詞語語義分析。基于知識的詞語語義分析需要一個龐大而豐富的知識庫[1,2],庫中包含了詞語概念、上下位等邏輯關系,通過計算不同詞語在知識庫中的語義距離來表示詞語間的相似程度。基于統計[3,4]的詞語語義分析主要是在概率論,統計論等數學理論的基礎上,對大規模語料進行統計,通過判斷詞語的上下文語境是否相似來判斷詞語之間的相似程度。

文本相似度的計算方法主要包括基于統計、基于語義信息、基于句法結構、基于編輯距離的方法。詞匹配法[5]是基于統計的文本相似度計算方法中最具有代表性的一種方法,此方法簡單的統計了詞語出現重復率而忽略了詞語間的語義信息。基于語義信息的文本相似度計算方法是通過領域知識庫[6]計算詞之間的語義距離進而得到文本間的距離,或者將文本表示成詞向量[7]的形式,利用向量空間距離計算公式計算文本間的空間距離。基于句法結構[8,9]的文本相似度計算方法主要是通過對文本中句子結構和句子中詞語語法進行分析。基于編輯距離[10]的文本相似度計算方法是計算待檢文本轉變為目標文本所花費的代價。

本文在總結前人研究成果的基礎上,提出了根據專利文獻獨特的結構特點,對IPC分類號、標題、摘要、權利要求書分別賦予不同的權重,并利用word2vec將詞語表示成詞向量的形式,通過詞向量計算詞語間語義相關性,進而用改進的余弦相似度公式計算文本相似度。

1 相關知識

向量空間模型(VSM)作為最常用的一種文本表示方式,是由Salton等提出,并將此模型成功應用于SMART文本檢索系統。向量空間模型是將文本內容的處理轉化為空間向量的運算,通過空間向量的距離表示文本內容的相似程度,直觀易懂。在構建向量空間模型的過程中,詞頻-逆文檔頻率(TF-IDF)是使用最廣泛的計算權重方法。詞匯的TF-IDF值可以用來衡量詞匯在文本中的重要程度,一個詞在某一文本中出現的次數越多也就是TF值越大(為了降低文本長短不同對TF值的影響一般在計算TF值時需要做歸一化處理),并且在同一語料庫下的其它文本中包含該詞的文本數越小即IDF值越大,則該詞越能反映該文本的主題。余弦相似度是計算文本相似度的一種重要方法,其宗旨是將文本通過向量空間模型向量化后,計算向量之間的夾角,夾角余弦值越大表示兩個向量夾角越小則兩個文本間相似度越高,當兩個向量夾角余弦值為1即兩個向量重合,此時可以粗略認為兩個向量表示的文本內容是一樣的。通過上述TF-IDF的介紹可知,以TF-IDF值作為權重計算文本相似度的方法,僅僅是把文本間出現的相同詞匯作為參考指標,并沒有把詞匯語義信息考慮在內。在實際中,只對詞頻進行統計而忽略詞匯間語義信息的文本相似度計算方法是遠遠不夠的。例如一篇描述蘋果的文本和一篇描述香蕉的文本,基于詞頻統計的方式可能就會認為這是兩篇完全不相關的文本。

Word2vec是由Google開發的一款將詞表示成實數值向量的高效工具,其中采用的模型有CBOW(連續詞袋)模型和Skip-Gram模型(通過輸入一個詞向量來預測相鄰的詞向量)。Word2vec通過訓練,可以將文本內容的處理簡化成n維空間向量的運算,而向量空間上的相似度又可以表示文本內容語義上的相似度。Word2vec的高效性是被研究者廣為稱贊的,一個優化的單機版本一天可以訓練上千億詞,并且整個訓練過程是無監督的。Word2vec輸出的詞向量可以用來做許多NLP的相關工作。Santos等[11]通過word2vec訓練得到詞向量,然后通過詞向量串聯的方式表示文本并最終對文本進行情感分析,Lai S等[12]用word2vec訓練的詞向量表示出來的文本用于深度學習模型來進行文本分類任務。雖然上述工作都取得了良好的效果,但是在用詞向量表示文本時,沒有考慮文本本身的結構特點以及在文本不同位置詞本身的重要性不同的問題。

2 專利文本相似度計算模型

針對上述方法中的不足,本文提出了綜合詞位置和詞匯語義信息的專利文本相似度計算方法。該方法一方面考慮了專利文本獨特的結構特點,將IPC分類號、標題、摘要、權利要求書作為主要研究對象,當詞匯處在不同位置時,該詞匯表現出來的重要程度應該有所不同。另一方面,將詞表示成向量的形式來替代傳統的詞袋模型,傳統的詞袋模型僅僅是根據該詞是否在詞袋中出現來將文本表示成向量的形式,詞向量則可以通過計算向量空間距離得到詞匯之間的語義信息,彌補了傳統詞袋模型的不足。利用詞向量間的語義相似度作為權重改進了余弦相似度公式,并最終通過改進的余弦相似度公式計算專利文本相似度。圖1顯示了本文提出的計算專利文本相似度方法的整個流程,從圖中可以看出該方法主要包括數據采集、專利文本預處理、詞權重的計算、詞匯間語義信息計算、文本相似度計算5個模塊。

圖1 專利文本相似度計算流程

2.1 文本處理和詞權重的計算

本文用來訓練和測試的專利文本是通過ftp接口從國家知識產權局批量下載得到的,得到專利文本后需要去除xml標簽,提取其中的專利數據,然后對專利數據進行分詞、詞性標注、去除停用詞、命名實體識別、新發現詞等預處理操作。經過對專利數據的研究發現,專利文本中關鍵技術的描述和核心詞匯一般都是名詞、動詞或名詞性短語,其中W(名詞)>W(名詞性短語)>W(動詞),W代表詞權重。因此為避免噪音數據對改進專利文本相似度計算方法的影響,本文對專利數據進行處理時去除了其它詞性的詞匯。

IPC分類號是國際通用專利分類號,如果兩篇專利IPC分類號不一致則兩篇專利隸屬于不同的類別,那么就可假設它們之間的相似程度極低。權利要求書揭示了專利文本中需要受到法律保護的范圍,也是申請人在撰寫中篇幅最大描述最多的部分,是專利文本的核心。專利摘要是專利說明書內容的概述,它指出了發明或實用新型名稱、主要技術特征和用途,描述了此專利所屬的技術領域、需要解決的技術問題等,因此在重要性上僅次于權利要求書。專利標題是對整篇專利文本的高度概括,它一般僅說明了該專利發明的名稱,因此在本文介紹的專利文本相似度計算方法上給予較小的權重。綜上所述,詞匯在專利文本中不同部分出現其權重大小依次是:W(權利要求書)>W(摘要)>W(標題),雖然IPC分類號中不包含詞匯,但是考慮IPC分類號的特殊性和重要性,在設置權重時給IPC分類號設置最大的權重。

詞權重的不同可以通過設置不同的詞頻基數來體現,例如詞性為動詞的詞匯詞頻數等于該詞匯出現的實際次數,而詞性為名詞性短語的詞匯詞頻數等于該詞匯出現的實際次數的3倍,同理,根據詞所在位置的不同在計算詞權重時也采用相同的計算方法。通過詞性和詞位置得到詞權重后需要再融入TF-IDF算法計算出最終的詞權重。

2.2 詞匯語義信息和改進的文本相似度計算方法

分布式詞向量最早是由Hinton提出的,其基本思想是:通過訓練將文本中的每一個詞表示成固定長度的向量形式,將所有這些向量放在一起就組成一個詞向量空間,每一個詞即是該空間上的一個點,在空間上引入“距離”的概念,通過計算距離就可得到兩個詞之間的語義關系。Word2vec是將詞表示成分布式詞向量的一種常用工具,因此本文也是利用word2vec將專利數據和其它訓練語料進行訓練,最后得到維度為50的詞向量文件。在得到詞向量之后,通過余弦相似度公式計算詞向量x和y之間夾角,計算方法如式(1)

(1)

余弦值越大夾角越小,兩個詞向量語義信息越接近。

經過以上操作,原始的專利文本數據P被轉化為向量空間中點的集合(k1,k2,k3,…,kn)T,其中ki為專利文本P的特征詞,n為專利文本P中含有的特征詞個數。經過word2vec模型訓練,每個特征詞對應向量空間上的一個點,向量空間上的每個點可以表示成一個維度為50的向量形式(d1,d2,d3,…,d50)。雖然每個特征詞可由固定的50維的詞向量表示,但是不同的專利文本包含的特征詞個數不同,而且特征詞之間沒有明顯對應關系,為解決這兩個問題,本文提出了改進的文本相似度計算方法

C(x,y)=cos(x,y)*W(x)*W(y)

(2)

(3)

其中,C(x,y)為兩個詞匯x和y語義信息計算公式,W(x)代表結合詞性、詞位置和TF-IDF算法得到的詞匯x的詞權重,S為兩個專利文本P1,P2的相似度計算公式,IPC1,IPC2分別代表專利文本P1,P2的IPC分類號,K1,K2分別代表專利文本P1,P2的特征詞集合,m,n分別代表特征詞集合K1,K2中的特征詞。根據式(3)得到的專利文本相似度大于某個閾值t時,則認為兩篇專利相似,閾值t需要根據具體實驗進行設定。

從式(3)中可以看出如果兩篇專利文本IPC分類號不一致,則它們的相似度可以忽略不計。如果兩篇專利文本屬于同一IPC分類號,則式(3)中分子是由專利文本P1的特征詞分別和專利文本P2中的每個特征詞計算詞匯相似度,分母則是專利文本P1和P2的特征詞和其本身特征詞集合中的每個特征詞進行詞匯相似度的計算。通過公式可以看出無論兩篇專利文本特征詞數量是否一樣,最終都是將兩篇專利文本特征詞集合中的所有特征詞計算一遍詞匯相似度,而且這種計算方法也避免了一篇專利文本中的所有特征詞只與另外一篇文本中的某個或者少數特征詞有對應關系。

3 實驗結果及分析

3.1 實驗數據

本文所使用的專利文本是從國家知識產權局提供的ftp接口下載得到的,由于word2vec訓練詞向量需要大量的語料,因此本文在訓練過程中主要使用了118 931篇經過預處理的專利文本和維基百科作為語料,并且最終得到281 345條維度為50的詞向量。

鑒于專利文本數量較大而且實驗中的專利文本都是經過國家知識產權局審核且授權過的,因此可以大致認為這些專利文本之間的相似度較低。本文在實驗開始前預先選好待比對的專利文本,通過人工修改(上下位關系詞替換,同義詞替換等)構造相似專利文本。在選擇待比對的專利文本時,選擇IPC分類號為H04(電通信技術)領域下面的5個小類,具體見表1,其中主題相關專利為同一IPC小類下面的專利數量。

表1 相關實驗數據

3.2 實驗評價標準

本文使用了自然語言處理領域常用的評價指標準確率和召回率作為評價標準,結合表1中的數據,計算準確率和召回率時分別計算每一個IPC小類的準確率Pi和召回率Ri,i∈(1,5),最后得到平均準確率P和平均召回率R。準確率Pi和召回率Ri的具體計算公式如式(4)和式(5)

(4)

(5)

3.3 實驗結果分析

在實驗過程中,利用本文提出的方法與其它兩種文本相似度計算方法作對比來驗證本文提出方法的有效性,第一種方法是只利用詞向量而不考慮專利文本結構特點計算文本相似度,第二種方法是只考慮專利文本結構特點而不使用詞向量計算文本相似度。針對表1中的5組實驗數據得到的文本相似度計算結果見表2。

表2 本文方法與該方法單獨特征項對比實驗結果

從計算結果可以看出,本文提出的方法從整體尤其是準確率要遠優于只使用詞向量或只考慮專利文本結構特點的方法,而且不同方法不同實驗數據判定兩篇專利文本是否相似的閾值t也有所不同,這也說明了,判斷兩篇專利文本是否相似不能只取決于相似度值的大小,而是應該通過相對值的大小來決定的。表2實驗結果是從本文提出的方法與該方法中單獨特征項做對比得到的,表3是本文提出的方法與傳統文本相似度計算方法的比較結果。

本文提出的方法綜合考慮專利文本的結構特征和詞匯間的語義信息,表3中用于對比的兩種方法雖然都考慮了詞匯間語義關聯的問題,但是由于專利文本中含有一些生僻詞和專業術語,知網知識庫中包含大多是常用詞匯,因此相似度計算結果準確率欠佳,而基于LDA模型的方法沒有考慮專利文本的特殊結構特征。從表3可以看出,本文提出的方法要優于基于LDA模型的方法和基于知網的方法,在與基于知網的方法作對比時,只有第二組數據的準確率和召回率稍稍偏低,但從5組數據的平均準確率召回率分析本文提出的方法略優于基于知網的方法。綜上所述,本文提出的方法是有效可行的。

表3 本文方法與傳統方法對比實驗結果

4 結束語

本文提出了一種綜合考慮專利結構特點和詞匯間語義關系的專利文本相似度計算方法。該方法將IPC分類號、摘要、權利要求書等專利文本特有的結構融合到文本相似度計算方法當中,與一般文本相似度計算方法相比更加具有針對性。本文通過word2vec計算詞匯間的語義關系,不僅能夠節省構建領域知識庫所需花費的大量時間,而且還能保證較高的準確率和召回率,同時又克服了傳統詞匹配方法中文本相似度大小主要取決于詞匯重復率的缺陷。實驗結果表明,本文提出的方法與傳統方法相比,在準確率上有較大的提升。

專利文本中生僻詞較多而且通過word2vec計算詞匯間語義關系需要龐大的語料庫作為支持,因此在今后的工作中還需要繼續擴充訓練語料來提高語義相似度的準確率,此外,特征詞的準確與否對于專利文本相似度計算具有至關重要的作用,因此下一步將以特征詞抽取方法的改進作為研究重點。

猜你喜歡
語義詞匯文本
本刊可直接用縮寫的常用詞匯
一些常用詞匯可直接用縮寫
山東醫藥(2020年34期)2020-12-09 01:22:24
語言與語義
在808DA上文本顯示的改善
本刊可直接用縮寫的常用詞匯
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
“上”與“下”語義的不對稱性及其認知闡釋
現代語文(2016年21期)2016-05-25 13:13:44
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
認知范疇模糊與語義模糊
如何快速走進文本
語文知識(2014年1期)2014-02-28 21:59:13
主站蜘蛛池模板: 青青久久91| 国产永久免费视频m3u8| 亚洲欧美成人网| 91网站国产| 国产免费一级精品视频| 欧美在线精品一区二区三区| 久草热视频在线| 伊人天堂网| 奇米影视狠狠精品7777| 日韩高清无码免费| 国产剧情国内精品原创| 青青青国产视频手机| 亚洲欧美成aⅴ人在线观看 | 亚洲欧洲日本在线| 亚洲最新网址| 在线观看网站国产| 亚洲精品图区| 538国产在线| 亚洲视频一区| 国产精品第5页| 亚洲成人在线免费观看| 亚洲码一区二区三区| 成人免费视频一区| 久久香蕉国产线看观看精品蕉| 亚洲成肉网| 亚洲精品高清视频| 亚洲成a人片77777在线播放| 中文无码精品A∨在线观看不卡| 久久精品免费国产大片| 精品少妇人妻无码久久| 国产成人h在线观看网站站| 欧美一级专区免费大片| 国产经典在线观看一区| 亚洲欧洲日产国码无码av喷潮| 人妻精品久久久无码区色视| 国产成人8x视频一区二区| 国产色伊人| 亚洲欧洲日本在线| 国产无人区一区二区三区| 中文字幕av无码不卡免费 | 青草免费在线观看| 亚洲男人天堂久久| 中文字幕在线播放不卡| 四虎精品国产AV二区| 国产精品成人啪精品视频| 精品99在线观看| 丁香婷婷综合激情| 波多野结衣AV无码久久一区| 亚洲青涩在线| 国产亚洲欧美日韩在线一区二区三区| 99热精品久久| 99久久精品无码专区免费| 精品欧美日韩国产日漫一区不卡| 国产精品永久久久久| 国产乱人激情H在线观看| 特级毛片免费视频| yy6080理论大片一级久久| 亚洲美女久久| 亚洲三级色| 亚洲伊人天堂| 99久久性生片| 五月天综合婷婷| 国产精品美女网站| 国产成人亚洲精品无码电影| 亚洲精品国产乱码不卡| 亚洲天堂网在线观看视频| 谁有在线观看日韩亚洲最新视频| 久久久久久尹人网香蕉 | 亚洲人成网站18禁动漫无码| 日韩美毛片| 亚洲男人天堂久久| 男人天堂亚洲天堂| 毛片大全免费观看| 国产一级裸网站| 婷婷六月色| 久久国产精品77777| 精品久久777| 中文字幕一区二区人妻电影| 久久亚洲国产视频| 欧美成人aⅴ| 精品人妻系列无码专区久久| 99爱在线|