999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于領域本體和詞序特征的科技文獻查重方法研究

2019-10-21 21:03:41劉慧媛林珠李帥
科學與財富 2019年25期

劉慧媛 林珠 李帥

摘 要:科技文獻查重在現階段常采用文本相似度計算自動識別科技文獻重復性,然而,面向科技文獻的獨特性,如何提升文本相似度計算的準確率和效率,仍是個值得探討的問題。

關鍵詞:領域本體;詞序特征;科技文獻查重;相似度計算

1.國內外研究現狀

在國外,Deerwester等人提出的Latent Semantic Indexing(LSI,即,隱性語義索引)[1]現階段已被廣泛應用并達到較好的文本相似度計算效果,隱性語義索引得到的結果比基于詞頻統計得到的結果更符合人類的閱讀思維方式,很大程度上提高了檢索結果的準確性,目前很多數據服務提供商和搜索引擎的算法都引入了該算法。Google就是典型的代表。LSI也是一種向量空間模型,在原來向量空間基礎之上做了一定的擴展,它不用對自然語言去理解,而是用統計的方法反映詞語之間內在的相關性,有很高效率。

國內專家學者研究文本相似度的計算過程中高度重視中文語義的識別,通過文本主題識別、語義相似度計算等方法提升相似度計算準確率,也有一些專家學者以詞語為研究對象,研究同一文本中不同詞語間的關聯信息。李善青提出一種整合科技項目相關產出信息的數據模型,采用文本相似度計算判斷項目重復率,也有一些學者引入領域本體提升相似度計算準確率,或者直接采用詞序特征輔助文本語義的識別,但尚未有兩者結合并應用于科技文獻查重領域,同時在查重算法的準確率和效率上仍留存一定的欠缺。

2.關鍵技術

2.1領域本體的構建

本體論(ontology) 是以一個數據模型(data model)去描述知識域 (knowledge domain)的概念、特性及概念之間的關聯,并建模于語義網絡(semantic network)中。它提供一個有系統性、可重用及便攜式的知識表述(knowledge representation)給予計算機軟件系統去推理(reasoning)、挖掘(mining)、聯系(co-relating)、解譯(interpreting)本體內容的語義意思。

針對科技文獻大數據構建的本體主要包括本體形式化描述語言、本體開發工具的選擇兩方面。本體形式化描述語言直接影響本體模型的表達能力和擴展能力,選用OWL(Web Ontology Language)進行本體描述。OWL的優點是以Web資源為描述對象,并且是基于描述邏輯的。

2.2詞序因子與領域文本的結合

通過領域本體進行語義相似度計算可以擴充關鍵詞范圍,并挖掘出與關鍵詞相關的隱性信息。而詞序特征能夠代表關鍵詞的邏輯性和時序性,因此,將代表著詞序特征的詞序因子直接引入領域文本概念相似度計算公式,從而實現兩者的結合。對于領域本體,當兩個概念具有某些共同特征時,則定義它們是相似的,用sin(A,B)表示概念A,B之間的相似度,A與B間的相似滿足以下幾點:1、sin(A,B)大小滿足sim(A,B)∈[0,1] ;2、如果兩個概念完全相同,則sim(A,B)=1 ,當且僅當A=B;3、如何兩個概念沒有任何共同特征,則相似度為0,即sim(A,B)=0

本體中的概念相似性與語義距離相關,語義距離是指本體樹中連接兩個節點的最短路徑所跨的邊數。本文采用語義距離來表示語義相似度,記作Distant(A,B) ,語義距離和語義相似度滿足以下幾點:1、兩個概念距離為0,則其相似度為1;2如果兩個概念距離為無窮大,則其相似度為0;3、兩個概念詞語義距離越大,則其相似度越小,反之亦然。由此本文采用以下公式定義兩個概念相似度:

其中α是可調節參數,此處引入詞序因子,通過兩個詞語的詞序因子的差值計算作為調節參數。

3.基于領域本體和詞序特征的科技文獻查重方法

本文提出了一種基于領域本體和詞序特征的科技文獻查重方法,通過對文獻文本的相似度計算判斷文獻是否重復,該方法中應用的領域本體是通過歷年的科技文獻資源構建的領域本體。該方法通過提取文本的特征詞匯后得出每個特征詞的詞序因子,這些詞序因子代表了各特征詞在文中的位置,能體現在文本的邏輯性。當文本引入領域本體進行詞語消歧和同義替換后,在進行概念相似度計算的環節中,引入特征詞的詞序因子,計算出詞語間的相似度值,根據詞序因子和各特征詞的相似度值進行統計后將得出文本相似值,從而達到科技文獻查重的目的。

4.算法實現

以科技項目查重為例來舉例說明本文的科技文獻查重方法,實驗數據來源于歷史科技項目申報數據、當前申報項目信息等構成的科技文獻數據,這些數據主要包括項目名稱、申請年度、學科領域、依托單位名稱、依托單位類型、以及申報的主體文本等,同時,歷史數據還具有是否立項的標簽信息。算法主要步驟如下:

第一步:構建領域本體:從歷史科技項目申報數據中獲取。

第二步:對歷年的科技項目立項信息數據進行中文分詞后再進行去停用操作,提取出歷年的科技項目立項信息數據的特征詞,對每一年的科技項目立項信息數據的特征詞構建最長公共序列來計算其特征詞的詞序因子;

第三步:對待查重的新申請項目進行中文分詞后再進行去停用操作,提取出該項目立項信息數據的特征詞,對該項目立項信息數據的特征詞構建最長公共序列來計算其特征詞的詞序因子;

第四步:將待查重的新申請項目的詞序因子和每一年的科技項目立項信息數據的詞序因子引入領域本體中概念相似度計算得出查重結論。

其中,第二步實現算法描述如下:

S21:將歷年的科技項目立項信息數據組成數據源C={C1,C2……Ci…},讀取其中任一文本Ci,對文本Ci進行中文分詞,將得到的分詞去停用詞,得到向量特征詞A=(A1,A2,……,An);

S22:用領域本體對向量A進行詞語消歧和同義替換實現文本降維,得到降維后的特征詞向量A=(A1,A2,……,Am) ,其中m

S23:通過隱馬爾可夫模型,計算特征詞向量A的詞序因子序列αi=(αi1, αi2,……, αjm);

S24:重復步驟S22-S23得到每一年的科技項目立項信息數據的詞序因子序列。

第三步實現算法描述如下:

S31:將待查重的新申請項目數據進行中文分詞,將得到的分詞去停用詞,得到特征詞向量B=(B1,B2,……,Bin);

S32:用領域本體對特征詞向量B進行詞語消歧和同義替換實現文本降維,得到降維后的特征詞向量B=(B1,B2,……,Bim) ,其中m

S33:通過隱馬爾可夫模型,計算特征詞向量B的詞序因子序列βi=(βi1, βi2,……, βjm)。

第四步實現算法如下:

將詞序因子序列βi=(βi1, βi2,……, βjm)和每一年的科技項目立項信息數據的詞序因子序列引入領域本體中概念相似度Kl計算,其中l表示年份:

其中,Xα 為任一年份的科技項目立項信息數據降維后的特征詞向量,Xβ 為待查重的新申請項目數據降維后的特征詞向量,Xα為Xα的詞序因子序列,bβ 為Xβ 詞序因子序列,aα、bβ是可調節參數,通過兩個詞序因子的差值計算作為調節參數,dist(Xα,Xβ)為語義相似度,語義相似度指領域本體樹中連接兩個節點的最短路徑所跨的邊數。

5.結論與展望

本文提出一種基于領域本體和詞序特征的科技文獻查重方法,結合領域本體和詞序因子兩種方法的優勢,在領域本體進行相似度計算階段引入詞序因子,從而達到更好的相似度計算效果。由于科技文獻數據類型多樣、數據量龐大,接下來需進一步研究將改算法改進成分布式架構和考慮信息融合技術,以適應科技大數據多源異構的特點,使該方法具有更好的適用性。

參考文獻:

[1]S.Deerwester, S.T. Dumains,G.W. Furmas,Indexing by Latent Semantic Analysis,Journal of the ASIS, 1986-1998,September 1990.

主站蜘蛛池模板: 伊人久久综在合线亚洲2019| 欧美色图第一页| 亚洲精品久综合蜜| 亚洲伊人电影| 国产亚洲美日韩AV中文字幕无码成人| 亚洲狠狠婷婷综合久久久久| 五月激情婷婷综合| 国产亚洲精品97AA片在线播放| 中文字幕亚洲综久久2021| 国产成人亚洲日韩欧美电影| 99久久精品美女高潮喷水| 91青青草视频| 欧美成人免费一区在线播放| 亚洲AV永久无码精品古装片| 国产福利一区视频| 日本亚洲欧美在线| a级毛片免费看| 欧美日韩精品一区二区在线线| 国产精品不卡永久免费| 亚洲男人的天堂网| 久久久久久尹人网香蕉| 亚洲水蜜桃久久综合网站| 亚卅精品无码久久毛片乌克兰| 亚洲精品国产精品乱码不卞| 亚洲国产天堂在线观看| 欧美国产日本高清不卡| 嫩草在线视频| 精品一区二区无码av| 最新国产成人剧情在线播放| 99无码熟妇丰满人妻啪啪 | 婷婷亚洲天堂| 久久久久人妻一区精品色奶水| 伊人成人在线| 免费看av在线网站网址| …亚洲 欧洲 另类 春色| 午夜免费视频网站| 国产福利在线观看精品| 88av在线播放| 日韩一区精品视频一区二区| 夜夜高潮夜夜爽国产伦精品| 999精品在线视频| 丁香婷婷激情网| 久久精品丝袜高跟鞋| 欧美一区中文字幕| 欧美日韩国产在线人成app| 精品国产自| 中国成人在线视频| 漂亮人妻被中出中文字幕久久| 99在线免费播放| 91av国产在线| 国产乱人乱偷精品视频a人人澡| 国产夜色视频| 在线观看精品自拍视频| 极品国产一区二区三区| 国产欧美精品一区二区| 99无码熟妇丰满人妻啪啪| 制服丝袜亚洲| 东京热一区二区三区无码视频| 成人毛片免费观看| 亚洲a免费| 精久久久久无码区中文字幕| 黄色一及毛片| 日本午夜视频在线观看| 99久久精品免费看国产免费软件 | 91亚洲精品第一| 国产玖玖视频| 久久网欧美| 精品久久综合1区2区3区激情| 亚洲欧美一区二区三区麻豆| 一级在线毛片| 国产综合日韩另类一区二区| 91在线精品麻豆欧美在线| 大陆精大陆国产国语精品1024| 在线中文字幕网| 色网在线视频| 亚洲中久无码永久在线观看软件| 日韩大片免费观看视频播放| 日韩第九页| 成人第一页| jizz国产在线| 久久天天躁夜夜躁狠狠| 不卡无码h在线观看|