劉慧媛 林珠 李帥


摘 要:科技文獻查重在現階段常采用文本相似度計算自動識別科技文獻重復性,然而,面向科技文獻的獨特性,如何提升文本相似度計算的準確率和效率,仍是個值得探討的問題。
關鍵詞:領域本體;詞序特征;科技文獻查重;相似度計算
1.國內外研究現狀
在國外,Deerwester等人提出的Latent Semantic Indexing(LSI,即,隱性語義索引)[1]現階段已被廣泛應用并達到較好的文本相似度計算效果,隱性語義索引得到的結果比基于詞頻統計得到的結果更符合人類的閱讀思維方式,很大程度上提高了檢索結果的準確性,目前很多數據服務提供商和搜索引擎的算法都引入了該算法。Google就是典型的代表。LSI也是一種向量空間模型,在原來向量空間基礎之上做了一定的擴展,它不用對自然語言去理解,而是用統計的方法反映詞語之間內在的相關性,有很高效率。
國內專家學者研究文本相似度的計算過程中高度重視中文語義的識別,通過文本主題識別、語義相似度計算等方法提升相似度計算準確率,也有一些專家學者以詞語為研究對象,研究同一文本中不同詞語間的關聯信息。李善青提出一種整合科技項目相關產出信息的數據模型,采用文本相似度計算判斷項目重復率,也有一些學者引入領域本體提升相似度計算準確率,或者直接采用詞序特征輔助文本語義的識別,但尚未有兩者結合并應用于科技文獻查重領域,同時在查重算法的準確率和效率上仍留存一定的欠缺。
2.關鍵技術
2.1領域本體的構建
本體論(ontology) 是以一個數據模型(data model)去描述知識域 (knowledge domain)的概念、特性及概念之間的關聯,并建模于語義網絡(semantic network)中。它提供一個有系統性、可重用及便攜式的知識表述(knowledge representation)給予計算機軟件系統去推理(reasoning)、挖掘(mining)、聯系(co-relating)、解譯(interpreting)本體內容的語義意思。
針對科技文獻大數據構建的本體主要包括本體形式化描述語言、本體開發工具的選擇兩方面。本體形式化描述語言直接影響本體模型的表達能力和擴展能力,選用OWL(Web Ontology Language)進行本體描述。OWL的優點是以Web資源為描述對象,并且是基于描述邏輯的。
2.2詞序因子與領域文本的結合
通過領域本體進行語義相似度計算可以擴充關鍵詞范圍,并挖掘出與關鍵詞相關的隱性信息。而詞序特征能夠代表關鍵詞的邏輯性和時序性,因此,將代表著詞序特征的詞序因子直接引入領域文本概念相似度計算公式,從而實現兩者的結合。對于領域本體,當兩個概念具有某些共同特征時,則定義它們是相似的,用sin(A,B)表示概念A,B之間的相似度,A與B間的相似滿足以下幾點:1、sin(A,B)大小滿足sim(A,B)∈[0,1] ;2、如果兩個概念完全相同,則sim(A,B)=1 ,當且僅當A=B;3、如何兩個概念沒有任何共同特征,則相似度為0,即sim(A,B)=0
本體中的概念相似性與語義距離相關,語義距離是指本體樹中連接兩個節點的最短路徑所跨的邊數。本文采用語義距離來表示語義相似度,記作Distant(A,B) ,語義距離和語義相似度滿足以下幾點:1、兩個概念距離為0,則其相似度為1;2如果兩個概念距離為無窮大,則其相似度為0;3、兩個概念詞語義距離越大,則其相似度越小,反之亦然。由此本文采用以下公式定義兩個概念相似度:
其中α是可調節參數,此處引入詞序因子,通過兩個詞語的詞序因子的差值計算作為調節參數。
3.基于領域本體和詞序特征的科技文獻查重方法
本文提出了一種基于領域本體和詞序特征的科技文獻查重方法,通過對文獻文本的相似度計算判斷文獻是否重復,該方法中應用的領域本體是通過歷年的科技文獻資源構建的領域本體。該方法通過提取文本的特征詞匯后得出每個特征詞的詞序因子,這些詞序因子代表了各特征詞在文中的位置,能體現在文本的邏輯性。當文本引入領域本體進行詞語消歧和同義替換后,在進行概念相似度計算的環節中,引入特征詞的詞序因子,計算出詞語間的相似度值,根據詞序因子和各特征詞的相似度值進行統計后將得出文本相似值,從而達到科技文獻查重的目的。
4.算法實現
以科技項目查重為例來舉例說明本文的科技文獻查重方法,實驗數據來源于歷史科技項目申報數據、當前申報項目信息等構成的科技文獻數據,這些數據主要包括項目名稱、申請年度、學科領域、依托單位名稱、依托單位類型、以及申報的主體文本等,同時,歷史數據還具有是否立項的標簽信息。算法主要步驟如下:
第一步:構建領域本體:從歷史科技項目申報數據中獲取。
第二步:對歷年的科技項目立項信息數據進行中文分詞后再進行去停用操作,提取出歷年的科技項目立項信息數據的特征詞,對每一年的科技項目立項信息數據的特征詞構建最長公共序列來計算其特征詞的詞序因子;
第三步:對待查重的新申請項目進行中文分詞后再進行去停用操作,提取出該項目立項信息數據的特征詞,對該項目立項信息數據的特征詞構建最長公共序列來計算其特征詞的詞序因子;
第四步:將待查重的新申請項目的詞序因子和每一年的科技項目立項信息數據的詞序因子引入領域本體中概念相似度計算得出查重結論。
其中,第二步實現算法描述如下:
S21:將歷年的科技項目立項信息數據組成數據源C={C1,C2……Ci…},讀取其中任一文本Ci,對文本Ci進行中文分詞,將得到的分詞去停用詞,得到向量特征詞A=(A1,A2,……,An);
S22:用領域本體對向量A進行詞語消歧和同義替換實現文本降維,得到降維后的特征詞向量A=(A1,A2,……,Am) ,其中m S23:通過隱馬爾可夫模型,計算特征詞向量A的詞序因子序列αi=(αi1, αi2,……, αjm); S24:重復步驟S22-S23得到每一年的科技項目立項信息數據的詞序因子序列。 第三步實現算法描述如下: S31:將待查重的新申請項目數據進行中文分詞,將得到的分詞去停用詞,得到特征詞向量B=(B1,B2,……,Bin); S32:用領域本體對特征詞向量B進行詞語消歧和同義替換實現文本降維,得到降維后的特征詞向量B=(B1,B2,……,Bim) ,其中m S33:通過隱馬爾可夫模型,計算特征詞向量B的詞序因子序列βi=(βi1, βi2,……, βjm)。 第四步實現算法如下: 將詞序因子序列βi=(βi1, βi2,……, βjm)和每一年的科技項目立項信息數據的詞序因子序列引入領域本體中概念相似度Kl計算,其中l表示年份: 其中,Xα 為任一年份的科技項目立項信息數據降維后的特征詞向量,Xβ 為待查重的新申請項目數據降維后的特征詞向量,Xα為Xα的詞序因子序列,bβ 為Xβ 詞序因子序列,aα、bβ是可調節參數,通過兩個詞序因子的差值計算作為調節參數,dist(Xα,Xβ)為語義相似度,語義相似度指領域本體樹中連接兩個節點的最短路徑所跨的邊數。 5.結論與展望 本文提出一種基于領域本體和詞序特征的科技文獻查重方法,結合領域本體和詞序因子兩種方法的優勢,在領域本體進行相似度計算階段引入詞序因子,從而達到更好的相似度計算效果。由于科技文獻數據類型多樣、數據量龐大,接下來需進一步研究將改算法改進成分布式架構和考慮信息融合技術,以適應科技大數據多源異構的特點,使該方法具有更好的適用性。 參考文獻: [1]S.Deerwester, S.T. Dumains,G.W. Furmas,Indexing by Latent Semantic Analysis,Journal of the ASIS, 1986-1998,September 1990.