蘇蒙 沈映泉 呂星星 吳鈺秀 吳安波
①云南電網(wǎng)有限責(zé)任公司電力科學(xué)研究院 ②西安科技大學(xué)管理學(xué)院
近年來,隨著國家對科研項(xiàng)目扶持力度的增加,科技項(xiàng)目數(shù)量逐年增長,然而在促進(jìn)我國科技創(chuàng)新事業(yè)發(fā)展的同時,無疑也增加了科技項(xiàng)目的查重難度。本文針對科技項(xiàng)目的查重問題,提出了基于語義的科技項(xiàng)目文本相似度檢測方法,并以電力行業(yè)為例進(jìn)行了驗(yàn)證。結(jié)果表明,基于語義的科技項(xiàng)目文本相似度檢測方法在科技項(xiàng)目查重上是十分有效的。這種方法有利于進(jìn)一步完善及提升科技項(xiàng)目管理的規(guī)范性、科學(xué)性,提高科技項(xiàng)目查重的效率和質(zhì)量。
為了推動科技的創(chuàng)新發(fā)展以及科技競爭力的提高,我國確立了“人才強(qiáng)國”、“創(chuàng)新驅(qū)動”與“科教興國”等核心發(fā)展戰(zhàn)略,同時逐年增加科技項(xiàng)目的科研經(jīng)費(fèi)投入,逐步形成多層次的科技計劃資助體系[1]。隨之而來的是科技項(xiàng)目申請量的逐年增長,2020年我國僅國家自然科學(xué)基金項(xiàng)目申請就達(dá)到281170項(xiàng),與2019年相比增加12.19%[2],科技項(xiàng)目存在“多體系申報”、“重復(fù)立項(xiàng)”等問題[3],這些問題一方面造成了科技資源的浪費(fèi),另一方面使知識資產(chǎn)產(chǎn)生流失。
以下幾個問題經(jīng)常出現(xiàn)在我國科技項(xiàng)目查重工作中:①我國科技項(xiàng)目的信息公開以及共享程度比較低[4]。②目前對于科技項(xiàng)目查重主要采用關(guān)鍵詞檢索、構(gòu)建文檔相似度模型方式,通過人工判斷是否與已有項(xiàng)目重復(fù),缺乏有效的技術(shù)手段支撐[5]。③我國現(xiàn)階段的科技項(xiàng)目查重工作沒有深入挖掘項(xiàng)目文本的語義信息,導(dǎo)致交叉申報、重復(fù)申報的科技項(xiàng)目能夠通過“洗稿”的方式通過相似性檢測。
2014年3月國務(wù)院頒布的《國務(wù)院關(guān)于改進(jìn)加強(qiáng)中央財政科研項(xiàng)目和資金管理的若干意見》和2015年1月《關(guān)于深化中央財政科技計劃(專項(xiàng)、基金等)管理改革的方案》強(qiáng)調(diào)了科技項(xiàng)目管理體制改革的重要性,提出建立開放、統(tǒng)一的國家科技項(xiàng)目信息管理系統(tǒng)[6-7]。隨著國家加強(qiáng)對重復(fù)立項(xiàng)問題的重視,不少學(xué)者在科技項(xiàng)目查重方面取得巨大進(jìn)展。如林建海(2014)提出了一種基于關(guān)鍵詞的項(xiàng)目語義檢索方法,以及基于項(xiàng)目知識表示模型的相似度計算方法[8]。夏志明等(2015)通過提取關(guān)鍵詞進(jìn)行文本相似度計算,進(jìn)一步提高了向量空間模型算法的精確度[9]。楊曉瑜(2020)針對科技項(xiàng)目重復(fù)立項(xiàng)問題,提出了基于深度學(xué)習(xí)的科技項(xiàng)目申報文本相似性檢測方法[10]。陶秀杰等(2021)從算法實(shí)現(xiàn)與功能實(shí)現(xiàn)方面,研究了企業(yè)科技項(xiàng)目申報查重系統(tǒng)的設(shè)計[11]。本文梳理了現(xiàn)階段的科技項(xiàng)目查重方法,并進(jìn)行了電力科技項(xiàng)目申請書查重算法模型測試,最后給出了結(jié)論以及未來研究方向。
科技項(xiàng)目查重是科技管理領(lǐng)域的一個十分重要的過程。科技項(xiàng)目查重指從已有的項(xiàng)目數(shù)據(jù)中通過文本挖掘和綜合判斷,確認(rèn)是否存在與待查項(xiàng)目的研究內(nèi)容相同或高度相似的項(xiàng)目的過程[12]。
詞頻-逆文檔頻率技術(shù)(Term Frequency-Inverse Document Frequency,TF-IDF)作為一種特征詞提取技術(shù)而廣泛使用,也是生成詞向量的一個重要手段,用來評估詞語對于文檔集或語料庫中文本的重要程度。如胡偉偉(2015)等提出了基于向量空間模型的項(xiàng)目申報書查重系統(tǒng)設(shè)計方法[13]。葉雪梅(2019)等提出基于網(wǎng)絡(luò)新詞改進(jìn)文本分類TF-IDF算法[14]。然而,這種方法雖然對科技項(xiàng)目的申報文本進(jìn)行了分詞和權(quán)重計算,并對特征進(jìn)行了排序和選擇,但在降低向量空間的維數(shù)方面并不理想。
編輯距離(Levenshtein distance)一般指的是將一個文本轉(zhuǎn)換成另一個文本需要的最少編輯次數(shù)。編輯距離越小,兩個文本越相似。例如,姜華(2014)等改進(jìn)了字符串相似度度量公式和編輯距離矩陣計算方法。但是,基于字符串的方法不能充分掌握單詞的含義以及單詞之間的相互關(guān)系,不能對同義詞、多義詞進(jìn)行處理。
隨著自然語言在表達(dá)上的同義性以及多義性,相似的表達(dá)內(nèi)容可能代表完全不同的含義,因此本文基于循環(huán)神經(jīng)網(wǎng)絡(luò)在文本特征提取和自然語言語義表達(dá)上的應(yīng)用,對文本語義進(jìn)行更詳細(xì)的區(qū)分。
循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)通常用來處理序列數(shù)據(jù),尤其是時間序列數(shù)據(jù),它的最大特點(diǎn)是在某時刻輸出的神經(jīng)元可以作為輸入再次輸入到神經(jīng)元。RNN的核心部分是一個有向圖,在圖中每一個按鏈?zhǔn)芥溄拥墓?jié)點(diǎn)稱為循環(huán)單元。為解決RNN網(wǎng)絡(luò)難學(xué)習(xí)到很長時間之前的狀態(tài)的缺陷,長短期記憶網(wǎng)絡(luò)(LSTM)進(jìn)一步改進(jìn)了RNN的循環(huán)單元。
在循環(huán)神經(jīng)網(wǎng)絡(luò)不斷發(fā)展的過程中,文本向量化也引入了神經(jīng)網(wǎng)絡(luò)的方法,涵蓋了以基于自注意力機(jī)制和上下文注意力機(jī)制的模型Transformer和RoBERTa-WWM等。神經(jīng)網(wǎng)絡(luò)模型Transformer是一種完全基于注意力機(jī)制用作翻譯的神經(jīng)網(wǎng)絡(luò)模型。這種模型采用注意力機(jī)制,不需要遵循循環(huán)神經(jīng)網(wǎng)絡(luò)的順序結(jié)構(gòu),所以對于文本Transformer也可以進(jìn)行并行化訓(xùn)練,大大加快了訓(xùn)練速度,并且Transformer還可以獲取全局信息,解決了循環(huán)神經(jīng)網(wǎng)絡(luò)很難學(xué)習(xí)到很長時間之前的狀態(tài)的問題。在預(yù)訓(xùn)練模型中,對于文檔中的每一個語句,通過RoBERTa-WWM(A Robustly Optimized BERT Pre-training Approach-Whole Word Masking)預(yù)訓(xùn)練模型提取其語義特征。RoBERTa-WWM模型經(jīng)BERT模型發(fā)展而來。
語義文本相似度計算如下所示。
語義文本相似度計算(Semantic Textual Similarity)一般用來聯(lián)系文本表示和上層應(yīng)用。通常情況下,任意兩個文本之間的語義差異,即語義層面上的相似度與文本相似度的值相反。因?yàn)槿藗兊娜粘UZ言表達(dá)非常復(fù)雜,以及句法結(jié)構(gòu)的多變性,使得語義文本相似度計算更為困難。學(xué)術(shù)界針對這些困難,通過大量的研究以及實(shí)踐,針對語義文本相似度計算問題提出了一系列的模型及方法。
無監(jiān)督學(xué)習(xí)方法可以在沒有標(biāo)記數(shù)據(jù)集的情況下計算文本之間的語義相似度。無監(jiān)督學(xué)習(xí)方法的基本思想是通過自監(jiān)督訓(xùn)練,對句子中的詞向量加權(quán)求和得到句子向量,最后計算句子向量之間的距離來表示語義文本的相似度。這類方法有標(biāo)簽來指導(dǎo)模型,它在大多數(shù)訓(xùn)練集任務(wù)上的表現(xiàn)優(yōu)于無監(jiān)督學(xué)習(xí)方法。
依據(jù)已有的電力項(xiàng)目申請書與可行性報告建立一個電力專業(yè)科技項(xiàng)目語料庫,來為科技項(xiàng)目查和評審提供基礎(chǔ)。語料庫構(gòu)建具體步驟如下:①將項(xiàng)目申請書與可行性報告使用python中的docx包讀取轉(zhuǎn)化為大型列表;②根據(jù)科技項(xiàng)目申請書與可行性報告的結(jié)構(gòu)特點(diǎn),采取字符串識別等方法提取出每個文檔的重要部分(項(xiàng)目名稱,申請單位,起止時間,項(xiàng)目負(fù)責(zé)人,聯(lián)系電話,項(xiàng)目摘要,目的和意義等11項(xiàng));③最后將提取出來的內(nèi)容寫入python字典結(jié)構(gòu)中,將所有的字典結(jié)構(gòu)寫入一個json文件中。
基于語義的文本相似度檢測方法首先對申請書進(jìn)行結(jié)構(gòu)化的內(nèi)容提取,隨后對其進(jìn)行特征提取,得到每個句子的特征向量。進(jìn)而計算句子間的相似度,通過池化的方式得到每段的相似度得分。最終進(jìn)行加權(quán)相加得到文本相似度得分。
將文本相似度比較從小到大劃分為語句,章節(jié),文檔,語料庫四個層面。需要查重的文檔與整個語料庫中的文檔進(jìn)行相似度比較是語料庫層面,兩個項(xiàng)目的相似度比較是基于文檔層面,而兩個文檔的相似度是由章節(jié)層面的相似度得到;每個章節(jié)的相似度又由每句話的相似度線性組合得到。
在語句層面,將一個章節(jié)中的所有語句使用BERT-wwm模型提取特征,如下圖對《KJ2014001德宏電網(wǎng)電壓無功優(yōu)化與監(jiān)控系統(tǒng)研究與開發(fā)》中的項(xiàng)目摘要進(jìn)行特征提取,這一章節(jié)共5個句子,使用BERT-wwm進(jìn)行特征提取后,每個句子轉(zhuǎn)化為一個1×768維的向量,最后這篇文檔的項(xiàng)目摘要轉(zhuǎn)化為一個5×768維的矩陣。
首先,計算余弦相似度與歐氏距離得到句子的相似程度。在章節(jié)層面,將兩篇文檔的同一章節(jié)(記為A和B)進(jìn)行比較,針對章節(jié)A中每一語句與章節(jié)B的幾個語句,采用余弦相似度及提取出來的特征來計算兩者之間的相似度。
之后,選取最大相似度作為章節(jié)A該語句的可能重復(fù)率。以《測試項(xiàng)目》和《德宏電網(wǎng)》的摘要為例,將這兩部分使用余弦相似度進(jìn)行計算,最終得到《測試項(xiàng)目》的每句話與《德宏電網(wǎng)》的相似度。
最后,在文檔層面根據(jù)語料庫中提取的11個部分,選取比較重要的5部分(項(xiàng)目摘要、目的和意義、項(xiàng)目研究內(nèi)容和實(shí)施方案、項(xiàng)目研究的背景、預(yù)期目標(biāo)和成果形式)作為查重的主要依據(jù),并且給定每一部分的重要性程度,以上5部分重要性程度分別為0.35,0.1,0.35,0.1,0.1。之后根據(jù)上一步得到的每一部分重復(fù)率線性組合得到整篇文檔的重復(fù)率0.652。
首先,對相關(guān)的概念進(jìn)行簡單的介紹:真正例(True Positive,TP):表示將正類預(yù)測為正類。假正例(False Positive,F(xiàn)P):表示將負(fù)類預(yù)測為正類。真負(fù)例(True Negative,TN):表示將負(fù)類預(yù)測為負(fù)類。假負(fù)例(False Negative,F(xiàn)N):表示將正類預(yù)測為負(fù)類。語義相關(guān)性(Semantic Relevance,SR):表示詞向量相關(guān)性。
測試集選取自云南電網(wǎng)電科院2021年度科技項(xiàng)目申請書數(shù)據(jù)庫,合計90篇申請文檔,對比的底庫文件為云南電網(wǎng)電科院科技項(xiàng)目申請書數(shù)據(jù)庫中2020年之前的2300篇科技項(xiàng)目申請書文章。
90篇申請文檔測試集查重結(jié)果和測試集測試結(jié)果如表1所示。

表1 兩種測試集上的各指標(biāo)測試結(jié)果
通過對基于語義的電力科技項(xiàng)目申請書查重模型的有效性及準(zhǔn)確性驗(yàn)證可知:在實(shí)際的2021年度電力科技項(xiàng)目申請書上,準(zhǔn)確率達(dá)到91.1%,召回率達(dá)到100%。因此,本次檢測認(rèn)為該模型在實(shí)際的電力科技項(xiàng)目申請書查重上有著優(yōu)良的性能,可以作為電力科技項(xiàng)目申請書審核時的參考文件使用。
本文在對基于詞頻-逆文檔頻率技術(shù)的相似度比較和基于字符串編輯距離相似度比較方法進(jìn)行簡單的介紹后,深入探討文本相似度的檢測方法。然后以電力行業(yè)為例進(jìn)行了驗(yàn)證,結(jié)果表明基于語義的科技項(xiàng)目文本相似性檢測方法在科技項(xiàng)目查重方面非常有效。
本文提出的基于語義的科技項(xiàng)目文本相似度檢測方法盡管在科技項(xiàng)目的重復(fù)檢查中取得了一定的效果,還存在許多不足:①如何將循環(huán)神經(jīng)網(wǎng)絡(luò)用于科技項(xiàng)目的語義信息提取,是未來可能的研究方向。②為了進(jìn)一步推動科技項(xiàng)目查重方法的落實(shí),科技管理部門應(yīng)積極的接納新技術(shù),不斷提高自身的科研管理能力。同時,科技項(xiàng)目管理部門應(yīng)加強(qiáng)對項(xiàng)目申請者的評審,要對項(xiàng)目申請者的項(xiàng)目管理能力進(jìn)行考核,建立更加完善的績效評估制度,并及時對已經(jīng)結(jié)題的項(xiàng)目進(jìn)行績效評估。