999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于語義的科技項(xiàng)目查重方法設(shè)計與政策建議

2022-05-11 03:46:48蘇蒙沈映泉呂星星吳鈺秀吳安波
內(nèi)江科技 2022年4期
關(guān)鍵詞:語義文本科技

蘇蒙 沈映泉 呂星星 吳鈺秀 吳安波

①云南電網(wǎng)有限責(zé)任公司電力科學(xué)研究院 ②西安科技大學(xué)管理學(xué)院

近年來,隨著國家對科研項(xiàng)目扶持力度的增加,科技項(xiàng)目數(shù)量逐年增長,然而在促進(jìn)我國科技創(chuàng)新事業(yè)發(fā)展的同時,無疑也增加了科技項(xiàng)目的查重難度。本文針對科技項(xiàng)目的查重問題,提出了基于語義的科技項(xiàng)目文本相似度檢測方法,并以電力行業(yè)為例進(jìn)行了驗(yàn)證。結(jié)果表明,基于語義的科技項(xiàng)目文本相似度檢測方法在科技項(xiàng)目查重上是十分有效的。這種方法有利于進(jìn)一步完善及提升科技項(xiàng)目管理的規(guī)范性、科學(xué)性,提高科技項(xiàng)目查重的效率和質(zhì)量。

1 引言

為了推動科技的創(chuàng)新發(fā)展以及科技競爭力的提高,我國確立了“人才強(qiáng)國”、“創(chuàng)新驅(qū)動”與“科教興國”等核心發(fā)展戰(zhàn)略,同時逐年增加科技項(xiàng)目的科研經(jīng)費(fèi)投入,逐步形成多層次的科技計劃資助體系[1]。隨之而來的是科技項(xiàng)目申請量的逐年增長,2020年我國僅國家自然科學(xué)基金項(xiàng)目申請就達(dá)到281170項(xiàng),與2019年相比增加12.19%[2],科技項(xiàng)目存在“多體系申報”、“重復(fù)立項(xiàng)”等問題[3],這些問題一方面造成了科技資源的浪費(fèi),另一方面使知識資產(chǎn)產(chǎn)生流失。

以下幾個問題經(jīng)常出現(xiàn)在我國科技項(xiàng)目查重工作中:①我國科技項(xiàng)目的信息公開以及共享程度比較低[4]。②目前對于科技項(xiàng)目查重主要采用關(guān)鍵詞檢索、構(gòu)建文檔相似度模型方式,通過人工判斷是否與已有項(xiàng)目重復(fù),缺乏有效的技術(shù)手段支撐[5]。③我國現(xiàn)階段的科技項(xiàng)目查重工作沒有深入挖掘項(xiàng)目文本的語義信息,導(dǎo)致交叉申報、重復(fù)申報的科技項(xiàng)目能夠通過“洗稿”的方式通過相似性檢測。

2014年3月國務(wù)院頒布的《國務(wù)院關(guān)于改進(jìn)加強(qiáng)中央財政科研項(xiàng)目和資金管理的若干意見》和2015年1月《關(guān)于深化中央財政科技計劃(專項(xiàng)、基金等)管理改革的方案》強(qiáng)調(diào)了科技項(xiàng)目管理體制改革的重要性,提出建立開放、統(tǒng)一的國家科技項(xiàng)目信息管理系統(tǒng)[6-7]。隨著國家加強(qiáng)對重復(fù)立項(xiàng)問題的重視,不少學(xué)者在科技項(xiàng)目查重方面取得巨大進(jìn)展。如林建海(2014)提出了一種基于關(guān)鍵詞的項(xiàng)目語義檢索方法,以及基于項(xiàng)目知識表示模型的相似度計算方法[8]。夏志明等(2015)通過提取關(guān)鍵詞進(jìn)行文本相似度計算,進(jìn)一步提高了向量空間模型算法的精確度[9]。楊曉瑜(2020)針對科技項(xiàng)目重復(fù)立項(xiàng)問題,提出了基于深度學(xué)習(xí)的科技項(xiàng)目申報文本相似性檢測方法[10]。陶秀杰等(2021)從算法實(shí)現(xiàn)與功能實(shí)現(xiàn)方面,研究了企業(yè)科技項(xiàng)目申報查重系統(tǒng)的設(shè)計[11]。本文梳理了現(xiàn)階段的科技項(xiàng)目查重方法,并進(jìn)行了電力科技項(xiàng)目申請書查重算法模型測試,最后給出了結(jié)論以及未來研究方向。

2 科技項(xiàng)目查重方法

科技項(xiàng)目查重是科技管理領(lǐng)域的一個十分重要的過程。科技項(xiàng)目查重指從已有的項(xiàng)目數(shù)據(jù)中通過文本挖掘和綜合判斷,確認(rèn)是否存在與待查項(xiàng)目的研究內(nèi)容相同或高度相似的項(xiàng)目的過程[12]。

2.1 基于詞頻-逆文檔頻率技術(shù)的相似度比較

詞頻-逆文檔頻率技術(shù)(Term Frequency-Inverse Document Frequency,TF-IDF)作為一種特征詞提取技術(shù)而廣泛使用,也是生成詞向量的一個重要手段,用來評估詞語對于文檔集或語料庫中文本的重要程度。如胡偉偉(2015)等提出了基于向量空間模型的項(xiàng)目申報書查重系統(tǒng)設(shè)計方法[13]。葉雪梅(2019)等提出基于網(wǎng)絡(luò)新詞改進(jìn)文本分類TF-IDF算法[14]。然而,這種方法雖然對科技項(xiàng)目的申報文本進(jìn)行了分詞和權(quán)重計算,并對特征進(jìn)行了排序和選擇,但在降低向量空間的維數(shù)方面并不理想。

2.2 基于字符串編輯距離的相似度比較

編輯距離(Levenshtein distance)一般指的是將一個文本轉(zhuǎn)換成另一個文本需要的最少編輯次數(shù)。編輯距離越小,兩個文本越相似。例如,姜華(2014)等改進(jìn)了字符串相似度度量公式和編輯距離矩陣計算方法。但是,基于字符串的方法不能充分掌握單詞的含義以及單詞之間的相互關(guān)系,不能對同義詞、多義詞進(jìn)行處理。

2.3 基于語義的科技項(xiàng)目文本相似度檢測方法

隨著自然語言在表達(dá)上的同義性以及多義性,相似的表達(dá)內(nèi)容可能代表完全不同的含義,因此本文基于循環(huán)神經(jīng)網(wǎng)絡(luò)在文本特征提取和自然語言語義表達(dá)上的應(yīng)用,對文本語義進(jìn)行更詳細(xì)的區(qū)分。

循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)通常用來處理序列數(shù)據(jù),尤其是時間序列數(shù)據(jù),它的最大特點(diǎn)是在某時刻輸出的神經(jīng)元可以作為輸入再次輸入到神經(jīng)元。RNN的核心部分是一個有向圖,在圖中每一個按鏈?zhǔn)芥溄拥墓?jié)點(diǎn)稱為循環(huán)單元。為解決RNN網(wǎng)絡(luò)難學(xué)習(xí)到很長時間之前的狀態(tài)的缺陷,長短期記憶網(wǎng)絡(luò)(LSTM)進(jìn)一步改進(jìn)了RNN的循環(huán)單元。

在循環(huán)神經(jīng)網(wǎng)絡(luò)不斷發(fā)展的過程中,文本向量化也引入了神經(jīng)網(wǎng)絡(luò)的方法,涵蓋了以基于自注意力機(jī)制和上下文注意力機(jī)制的模型Transformer和RoBERTa-WWM等。神經(jīng)網(wǎng)絡(luò)模型Transformer是一種完全基于注意力機(jī)制用作翻譯的神經(jīng)網(wǎng)絡(luò)模型。這種模型采用注意力機(jī)制,不需要遵循循環(huán)神經(jīng)網(wǎng)絡(luò)的順序結(jié)構(gòu),所以對于文本Transformer也可以進(jìn)行并行化訓(xùn)練,大大加快了訓(xùn)練速度,并且Transformer還可以獲取全局信息,解決了循環(huán)神經(jīng)網(wǎng)絡(luò)很難學(xué)習(xí)到很長時間之前的狀態(tài)的問題。在預(yù)訓(xùn)練模型中,對于文檔中的每一個語句,通過RoBERTa-WWM(A Robustly Optimized BERT Pre-training Approach-Whole Word Masking)預(yù)訓(xùn)練模型提取其語義特征。RoBERTa-WWM模型經(jīng)BERT模型發(fā)展而來。

語義文本相似度計算如下所示。

語義文本相似度計算(Semantic Textual Similarity)一般用來聯(lián)系文本表示和上層應(yīng)用。通常情況下,任意兩個文本之間的語義差異,即語義層面上的相似度與文本相似度的值相反。因?yàn)槿藗兊娜粘UZ言表達(dá)非常復(fù)雜,以及句法結(jié)構(gòu)的多變性,使得語義文本相似度計算更為困難。學(xué)術(shù)界針對這些困難,通過大量的研究以及實(shí)踐,針對語義文本相似度計算問題提出了一系列的模型及方法。

無監(jiān)督學(xué)習(xí)方法可以在沒有標(biāo)記數(shù)據(jù)集的情況下計算文本之間的語義相似度。無監(jiān)督學(xué)習(xí)方法的基本思想是通過自監(jiān)督訓(xùn)練,對句子中的詞向量加權(quán)求和得到句子向量,最后計算句子向量之間的距離來表示語義文本的相似度。這類方法有標(biāo)簽來指導(dǎo)模型,它在大多數(shù)訓(xùn)練集任務(wù)上的表現(xiàn)優(yōu)于無監(jiān)督學(xué)習(xí)方法。

3 電力科技項(xiàng)目查重流程

3.1 語料庫構(gòu)建

依據(jù)已有的電力項(xiàng)目申請書與可行性報告建立一個電力專業(yè)科技項(xiàng)目語料庫,來為科技項(xiàng)目查和評審提供基礎(chǔ)。語料庫構(gòu)建具體步驟如下:①將項(xiàng)目申請書與可行性報告使用python中的docx包讀取轉(zhuǎn)化為大型列表;②根據(jù)科技項(xiàng)目申請書與可行性報告的結(jié)構(gòu)特點(diǎn),采取字符串識別等方法提取出每個文檔的重要部分(項(xiàng)目名稱,申請單位,起止時間,項(xiàng)目負(fù)責(zé)人,聯(lián)系電話,項(xiàng)目摘要,目的和意義等11項(xiàng));③最后將提取出來的內(nèi)容寫入python字典結(jié)構(gòu)中,將所有的字典結(jié)構(gòu)寫入一個json文件中。

3.2 文本相似度計算

基于語義的文本相似度檢測方法首先對申請書進(jìn)行結(jié)構(gòu)化的內(nèi)容提取,隨后對其進(jìn)行特征提取,得到每個句子的特征向量。進(jìn)而計算句子間的相似度,通過池化的方式得到每段的相似度得分。最終進(jìn)行加權(quán)相加得到文本相似度得分。

3.3 文本-向量映射

將文本相似度比較從小到大劃分為語句,章節(jié),文檔,語料庫四個層面。需要查重的文檔與整個語料庫中的文檔進(jìn)行相似度比較是語料庫層面,兩個項(xiàng)目的相似度比較是基于文檔層面,而兩個文檔的相似度是由章節(jié)層面的相似度得到;每個章節(jié)的相似度又由每句話的相似度線性組合得到。

在語句層面,將一個章節(jié)中的所有語句使用BERT-wwm模型提取特征,如下圖對《KJ2014001德宏電網(wǎng)電壓無功優(yōu)化與監(jiān)控系統(tǒng)研究與開發(fā)》中的項(xiàng)目摘要進(jìn)行特征提取,這一章節(jié)共5個句子,使用BERT-wwm進(jìn)行特征提取后,每個句子轉(zhuǎn)化為一個1×768維的向量,最后這篇文檔的項(xiàng)目摘要轉(zhuǎn)化為一個5×768維的矩陣。

3.4 段落相似度計算

首先,計算余弦相似度與歐氏距離得到句子的相似程度。在章節(jié)層面,將兩篇文檔的同一章節(jié)(記為A和B)進(jìn)行比較,針對章節(jié)A中每一語句與章節(jié)B的幾個語句,采用余弦相似度及提取出來的特征來計算兩者之間的相似度。

之后,選取最大相似度作為章節(jié)A該語句的可能重復(fù)率。以《測試項(xiàng)目》和《德宏電網(wǎng)》的摘要為例,將這兩部分使用余弦相似度進(jìn)行計算,最終得到《測試項(xiàng)目》的每句話與《德宏電網(wǎng)》的相似度。

3.5 全文相似度計算

最后,在文檔層面根據(jù)語料庫中提取的11個部分,選取比較重要的5部分(項(xiàng)目摘要、目的和意義、項(xiàng)目研究內(nèi)容和實(shí)施方案、項(xiàng)目研究的背景、預(yù)期目標(biāo)和成果形式)作為查重的主要依據(jù),并且給定每一部分的重要性程度,以上5部分重要性程度分別為0.35,0.1,0.35,0.1,0.1。之后根據(jù)上一步得到的每一部分重復(fù)率線性組合得到整篇文檔的重復(fù)率0.652。

4 電力科技項(xiàng)目申請書查重算法模型測試

4.1 測試指標(biāo)

首先,對相關(guān)的概念進(jìn)行簡單的介紹:真正例(True Positive,TP):表示將正類預(yù)測為正類。假正例(False Positive,F(xiàn)P):表示將負(fù)類預(yù)測為正類。真負(fù)例(True Negative,TN):表示將負(fù)類預(yù)測為負(fù)類。假負(fù)例(False Negative,F(xiàn)N):表示將正類預(yù)測為負(fù)類。語義相關(guān)性(Semantic Relevance,SR):表示詞向量相關(guān)性。

4.2 測試集說明

測試集選取自云南電網(wǎng)電科院2021年度科技項(xiàng)目申請書數(shù)據(jù)庫,合計90篇申請文檔,對比的底庫文件為云南電網(wǎng)電科院科技項(xiàng)目申請書數(shù)據(jù)庫中2020年之前的2300篇科技項(xiàng)目申請書文章。

4.3 測試結(jié)果

90篇申請文檔測試集查重結(jié)果和測試集測試結(jié)果如表1所示。

表1 兩種測試集上的各指標(biāo)測試結(jié)果

通過對基于語義的電力科技項(xiàng)目申請書查重模型的有效性及準(zhǔn)確性驗(yàn)證可知:在實(shí)際的2021年度電力科技項(xiàng)目申請書上,準(zhǔn)確率達(dá)到91.1%,召回率達(dá)到100%。因此,本次檢測認(rèn)為該模型在實(shí)際的電力科技項(xiàng)目申請書查重上有著優(yōu)良的性能,可以作為電力科技項(xiàng)目申請書審核時的參考文件使用。

5 結(jié)論與未來研究方向

本文在對基于詞頻-逆文檔頻率技術(shù)的相似度比較和基于字符串編輯距離相似度比較方法進(jìn)行簡單的介紹后,深入探討文本相似度的檢測方法。然后以電力行業(yè)為例進(jìn)行了驗(yàn)證,結(jié)果表明基于語義的科技項(xiàng)目文本相似性檢測方法在科技項(xiàng)目查重方面非常有效。

本文提出的基于語義的科技項(xiàng)目文本相似度檢測方法盡管在科技項(xiàng)目的重復(fù)檢查中取得了一定的效果,還存在許多不足:①如何將循環(huán)神經(jīng)網(wǎng)絡(luò)用于科技項(xiàng)目的語義信息提取,是未來可能的研究方向。②為了進(jìn)一步推動科技項(xiàng)目查重方法的落實(shí),科技管理部門應(yīng)積極的接納新技術(shù),不斷提高自身的科研管理能力。同時,科技項(xiàng)目管理部門應(yīng)加強(qiáng)對項(xiàng)目申請者的評審,要對項(xiàng)目申請者的項(xiàng)目管理能力進(jìn)行考核,建立更加完善的績效評估制度,并及時對已經(jīng)結(jié)題的項(xiàng)目進(jìn)行績效評估。

猜你喜歡
語義文本科技
語言與語義
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
科技助我來看云
科技在線
科技在線
“上”與“下”語義的不對稱性及其認(rèn)知闡釋
科技在線
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
認(rèn)知范疇模糊與語義模糊
主站蜘蛛池模板: 东京热av无码电影一区二区| 中文字幕乱码二三区免费| 亚洲精品动漫在线观看| 综合亚洲色图| 欧美有码在线观看| 亚洲最大在线观看| 色综合天天综合| 在线看国产精品| 国内视频精品| 国产人免费人成免费视频| 成人综合网址| 国产在线第二页| 日韩精品成人网页视频在线 | 国产亚洲欧美在线中文bt天堂| 98超碰在线观看| 国产成人av一区二区三区| 欧美日本激情| 亚洲娇小与黑人巨大交| 欧美翘臀一区二区三区| 久久久91人妻无码精品蜜桃HD| 91国内在线视频| 亚洲天堂精品视频| 黄色网在线| 久久国产拍爱| 午夜欧美理论2019理论| 亚洲精品国产自在现线最新| 免费毛片全部不收费的| 天天色综网| 国产香蕉在线视频| 99视频全部免费| 日韩av在线直播| 欧美成人亚洲综合精品欧美激情| 亚洲a级毛片| 欧美激情福利| 伊伊人成亚洲综合人网7777| 日本黄色a视频| 成人一级免费视频| 国产在线第二页| 国产亚洲精品精品精品| 丁香婷婷在线视频| 91av国产在线| 欧美日韩国产成人在线观看| 欧美精品在线观看视频| 色婷婷亚洲十月十月色天| 天天摸天天操免费播放小视频| 日韩成人高清无码| jizz在线免费播放| 亚洲综合专区| 四虎永久在线精品影院| 午夜福利免费视频| 一本大道在线一本久道| 免费一级毛片不卡在线播放| 亚洲婷婷六月| 无遮挡一级毛片呦女视频| 日韩无码一二三区| 国产精品一老牛影视频| 九九热这里只有国产精品| 日韩欧美国产中文| 国产视频一区二区在线观看 | 久久99蜜桃精品久久久久小说| 日韩经典精品无码一区二区| 激情无码视频在线看| 亚洲日韩欧美在线观看| 国产精品一区在线观看你懂的| 99资源在线| 美女国内精品自产拍在线播放 | 先锋资源久久| 国产另类视频| 欧美第一页在线| 精品久久国产综合精麻豆| 欧美激情综合| 黄片在线永久| 免费AV在线播放观看18禁强制| 日本人真淫视频一区二区三区| 91精品aⅴ无码中文字字幕蜜桃| 伊人激情综合| 免费 国产 无码久久久| 丝袜久久剧情精品国产| 国产97区一区二区三区无码| 欧美国产在线看| 国产杨幂丝袜av在线播放| 久久婷婷人人澡人人爱91|