999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于領域本體和詞序特征的科技文獻查重方法研究

2019-10-21 21:03:41劉慧媛林珠李帥
科學與財富 2019年25期

劉慧媛 林珠 李帥

摘 要:科技文獻查重在現階段常采用文本相似度計算自動識別科技文獻重復性,然而,面向科技文獻的獨特性,如何提升文本相似度計算的準確率和效率,仍是個值得探討的問題。

關鍵詞:領域本體;詞序特征;科技文獻查重;相似度計算

1.國內外研究現狀

在國外,Deerwester等人提出的Latent Semantic Indexing(LSI,即,隱性語義索引)[1]現階段已被廣泛應用并達到較好的文本相似度計算效果,隱性語義索引得到的結果比基于詞頻統計得到的結果更符合人類的閱讀思維方式,很大程度上提高了檢索結果的準確性,目前很多數據服務提供商和搜索引擎的算法都引入了該算法。Google就是典型的代表。LSI也是一種向量空間模型,在原來向量空間基礎之上做了一定的擴展,它不用對自然語言去理解,而是用統計的方法反映詞語之間內在的相關性,有很高效率。

國內專家學者研究文本相似度的計算過程中高度重視中文語義的識別,通過文本主題識別、語義相似度計算等方法提升相似度計算準確率,也有一些專家學者以詞語為研究對象,研究同一文本中不同詞語間的關聯信息。李善青提出一種整合科技項目相關產出信息的數據模型,采用文本相似度計算判斷項目重復率,也有一些學者引入領域本體提升相似度計算準確率,或者直接采用詞序特征輔助文本語義的識別,但尚未有兩者結合并應用于科技文獻查重領域,同時在查重算法的準確率和效率上仍留存一定的欠缺。

2.關鍵技術

2.1領域本體的構建

本體論(ontology) 是以一個數據模型(data model)去描述知識域 (knowledge domain)的概念、特性及概念之間的關聯,并建模于語義網絡(semantic network)中。它提供一個有系統性、可重用及便攜式的知識表述(knowledge representation)給予計算機軟件系統去推理(reasoning)、挖掘(mining)、聯系(co-relating)、解譯(interpreting)本體內容的語義意思。

針對科技文獻大數據構建的本體主要包括本體形式化描述語言、本體開發工具的選擇兩方面。本體形式化描述語言直接影響本體模型的表達能力和擴展能力,選用OWL(Web Ontology Language)進行本體描述。OWL的優點是以Web資源為描述對象,并且是基于描述邏輯的。

2.2詞序因子與領域文本的結合

通過領域本體進行語義相似度計算可以擴充關鍵詞范圍,并挖掘出與關鍵詞相關的隱性信息。而詞序特征能夠代表關鍵詞的邏輯性和時序性,因此,將代表著詞序特征的詞序因子直接引入領域文本概念相似度計算公式,從而實現兩者的結合。對于領域本體,當兩個概念具有某些共同特征時,則定義它們是相似的,用sin(A,B)表示概念A,B之間的相似度,A與B間的相似滿足以下幾點:1、sin(A,B)大小滿足sim(A,B)∈[0,1] ;2、如果兩個概念完全相同,則sim(A,B)=1 ,當且僅當A=B;3、如何兩個概念沒有任何共同特征,則相似度為0,即sim(A,B)=0

本體中的概念相似性與語義距離相關,語義距離是指本體樹中連接兩個節點的最短路徑所跨的邊數。本文采用語義距離來表示語義相似度,記作Distant(A,B) ,語義距離和語義相似度滿足以下幾點:1、兩個概念距離為0,則其相似度為1;2如果兩個概念距離為無窮大,則其相似度為0;3、兩個概念詞語義距離越大,則其相似度越小,反之亦然。由此本文采用以下公式定義兩個概念相似度:

其中α是可調節參數,此處引入詞序因子,通過兩個詞語的詞序因子的差值計算作為調節參數。

3.基于領域本體和詞序特征的科技文獻查重方法

本文提出了一種基于領域本體和詞序特征的科技文獻查重方法,通過對文獻文本的相似度計算判斷文獻是否重復,該方法中應用的領域本體是通過歷年的科技文獻資源構建的領域本體。該方法通過提取文本的特征詞匯后得出每個特征詞的詞序因子,這些詞序因子代表了各特征詞在文中的位置,能體現在文本的邏輯性。當文本引入領域本體進行詞語消歧和同義替換后,在進行概念相似度計算的環節中,引入特征詞的詞序因子,計算出詞語間的相似度值,根據詞序因子和各特征詞的相似度值進行統計后將得出文本相似值,從而達到科技文獻查重的目的。

4.算法實現

以科技項目查重為例來舉例說明本文的科技文獻查重方法,實驗數據來源于歷史科技項目申報數據、當前申報項目信息等構成的科技文獻數據,這些數據主要包括項目名稱、申請年度、學科領域、依托單位名稱、依托單位類型、以及申報的主體文本等,同時,歷史數據還具有是否立項的標簽信息。算法主要步驟如下:

第一步:構建領域本體:從歷史科技項目申報數據中獲取。

第二步:對歷年的科技項目立項信息數據進行中文分詞后再進行去停用操作,提取出歷年的科技項目立項信息數據的特征詞,對每一年的科技項目立項信息數據的特征詞構建最長公共序列來計算其特征詞的詞序因子;

第三步:對待查重的新申請項目進行中文分詞后再進行去停用操作,提取出該項目立項信息數據的特征詞,對該項目立項信息數據的特征詞構建最長公共序列來計算其特征詞的詞序因子;

第四步:將待查重的新申請項目的詞序因子和每一年的科技項目立項信息數據的詞序因子引入領域本體中概念相似度計算得出查重結論。

其中,第二步實現算法描述如下:

S21:將歷年的科技項目立項信息數據組成數據源C={C1,C2……Ci…},讀取其中任一文本Ci,對文本Ci進行中文分詞,將得到的分詞去停用詞,得到向量特征詞A=(A1,A2,……,An);

S22:用領域本體對向量A進行詞語消歧和同義替換實現文本降維,得到降維后的特征詞向量A=(A1,A2,……,Am) ,其中m

S23:通過隱馬爾可夫模型,計算特征詞向量A的詞序因子序列αi=(αi1, αi2,……, αjm);

S24:重復步驟S22-S23得到每一年的科技項目立項信息數據的詞序因子序列。

第三步實現算法描述如下:

S31:將待查重的新申請項目數據進行中文分詞,將得到的分詞去停用詞,得到特征詞向量B=(B1,B2,……,Bin);

S32:用領域本體對特征詞向量B進行詞語消歧和同義替換實現文本降維,得到降維后的特征詞向量B=(B1,B2,……,Bim) ,其中m

S33:通過隱馬爾可夫模型,計算特征詞向量B的詞序因子序列βi=(βi1, βi2,……, βjm)。

第四步實現算法如下:

將詞序因子序列βi=(βi1, βi2,……, βjm)和每一年的科技項目立項信息數據的詞序因子序列引入領域本體中概念相似度Kl計算,其中l表示年份:

其中,Xα 為任一年份的科技項目立項信息數據降維后的特征詞向量,Xβ 為待查重的新申請項目數據降維后的特征詞向量,Xα為Xα的詞序因子序列,bβ 為Xβ 詞序因子序列,aα、bβ是可調節參數,通過兩個詞序因子的差值計算作為調節參數,dist(Xα,Xβ)為語義相似度,語義相似度指領域本體樹中連接兩個節點的最短路徑所跨的邊數。

5.結論與展望

本文提出一種基于領域本體和詞序特征的科技文獻查重方法,結合領域本體和詞序因子兩種方法的優勢,在領域本體進行相似度計算階段引入詞序因子,從而達到更好的相似度計算效果。由于科技文獻數據類型多樣、數據量龐大,接下來需進一步研究將改算法改進成分布式架構和考慮信息融合技術,以適應科技大數據多源異構的特點,使該方法具有更好的適用性。

參考文獻:

[1]S.Deerwester, S.T. Dumains,G.W. Furmas,Indexing by Latent Semantic Analysis,Journal of the ASIS, 1986-1998,September 1990.

主站蜘蛛池模板: 自拍欧美亚洲| 久久国产V一级毛多内射| 毛片免费在线视频| 五月丁香在线视频| 五月综合色婷婷| 成人福利一区二区视频在线| 一本综合久久| 亚洲AV无码不卡无码| 伊大人香蕉久久网欧美| 五月天综合婷婷| 亚洲精品欧美日韩在线| 亚洲成网站| 婷婷伊人久久| 亚洲精品免费网站| 国产欧美视频综合二区| 欧美成人午夜影院| 日韩高清中文字幕| 午夜福利免费视频| 在线免费看片a| 99re精彩视频| 亚洲精品久综合蜜| 亚洲综合经典在线一区二区| 国产女人喷水视频| 日韩亚洲高清一区二区| 久久久久久久久18禁秘| 午夜福利无码一区二区| 久久综合丝袜长腿丝袜| 亚洲精品人成网线在线 | 亚洲激情99| 美女扒开下面流白浆在线试听 | 亚洲国产欧美目韩成人综合| 中文字幕在线日本| 浮力影院国产第一页| 国产成人免费视频精品一区二区| 久久久国产精品免费视频| 免费毛片视频| 不卡午夜视频| 国产精品30p| 国产一级二级在线观看| 亚洲AV无码久久精品色欲| 六月婷婷激情综合| 国产精品爆乳99久久| 五月激情综合网| 亚洲人成电影在线播放| 国产内射一区亚洲| 狠狠做深爱婷婷综合一区| 国产成人综合日韩精品无码首页| 国产成人三级| 欧美在线网| 亚洲区欧美区| 免费无码AV片在线观看中文| 国产欧美日韩va| 午夜日b视频| 欧美精品v| 日韩av高清无码一区二区三区| 日韩精品一区二区三区大桥未久 | 99re热精品视频国产免费| 在线观看精品国产入口| 亚洲永久视频| 欧美第九页| 另类综合视频| 亚洲中文无码av永久伊人| 久久99精品久久久久纯品| 久久精品无码中文字幕| 91成人免费观看| 亚洲Av综合日韩精品久久久| 无码福利视频| 免费xxxxx在线观看网站| 国产探花在线视频| 精品亚洲麻豆1区2区3区| 精品国产成人三级在线观看| 欧洲欧美人成免费全部视频| 国产成人精品免费视频大全五级| 国产成人精品综合| 色网站免费在线观看| 亚洲欧洲日产国产无码AV| 中国一级毛片免费观看| 米奇精品一区二区三区| 91成人在线免费观看| 国产成人综合日韩精品无码首页| 欧美一级黄片一区2区| 欧美亚洲另类在线观看|