咸悅 梁瑋琪
摘 要:本文結合進行項目查重現有方法研究一種準確、高效的方式。總結了科技項目查重的一般過程,將其概括為文本預處理、特征提取、模型構建、相似度判別和專家審核。采用資源采集技術,文本數據庫加工技術,文本數據庫技術, 數字資源版權保護技術, 知識挖掘技術, 自然語言處理技術、快速比對技術等,從多方面進行數據采集,通過文本預處理、特征提取以及模型構建及相似度判別,從而為查重網站信息整合平臺做出有力的數據支撐,為查重體系提供必要的參考。
關鍵詞:科研項目;文本挖掘;精準對比
引言:
我國近年來不斷加大科研投入的規模和強度,科研項目的數量和經費規模均得到顯著的提升,形成了多個層次的國家科技計劃資助體系。然而,項目多頭申報、重復立項已成為科研項目管理領域的突出問題之一,尤其是跨科技計劃的重復立項問題。該問題不僅會造成國家科技資源的浪費,而且也會導致惡性的科研競爭環境,對科技創新發展的危害極大。因此,如何建立有效、可行的項目查重機制已經成為科技計劃管理部門的重要任務之一。
教育一直是整個社會的熱點問題和關鍵問題。但現在隨著互聯網的廣泛應用“抄襲借鑒”形成了一種風氣,教育部在《關于切實加強和改進高等學校學風建設的實施意見》中指出:“學風是大學精神的集中體現,是教書育人的本質要求,是高等學校的立校之本、發展之魂。” 誠信教育,是人類文化的重要組成部分,是弘揚人文精神的重要形式,在社會主義先進文化建設中發揮著不可替代的作用,要求我們大力弘揚愛國主義、集體主義、社會主義思想,以增強誠信意識為重點,加強社會公德、職業道德、家庭美德、個人品德建設。讓高校學生認識到誠信的重要性,將有助于學生樹立正確的學習目的和學習態度,并制定合理的學習計劃,并通過他們的努力實現自己具體的奮斗目標。論文查重需要強大的技術作為支撐,包括資源采集技術,文本數據庫加工技術,文本數據庫技術, 數字資源版權保護技術, 知識挖掘技術, 自然語言處理技術、快速比對技術等。因此,本文是針對于科研項目設計的查重整合平臺。
1.概述
為推動科技創新發展和提高科技競爭力,科技項目查重已成為科技管理領域常見的詞匯,科技項目查重一般是指從已有的項目數據中通過文本挖掘和綜合判斷,確認是否存在與待查項目的研究內容相同或高度相似的項目的過程。已有的項目數據包括通過正式立項的項目信息如項目名稱、關鍵詞、摘要和項目申報書等,也包括項目的關聯信息如學術論文、科技報告和科技成果等。此外,項目承擔人和承擔單位等信息也能提供一定的線索。基于文本挖掘的方法能自動的計算項目的相似性,但其準確性較差,可用于快速排除大量的無關項目。項目的重復性判斷是一個復雜的過程,需要專家的綜合判斷能力甄別出重復的項目,但需要耗費大量的人力。
結合上述方法進行項目查重才是一種準確、高效的方式。科技項目查重的一般過程,將其概括為文本預處理、特征提取、模型構建、相似度判別和專家審核。 采用資源采集技術,文本數據庫加工技術,文本數據庫技術, 數字資源版權保護技術, 知識挖掘技術, 自然語言處理技術、快速比對技術等。在海量的全文數據的基礎上實現快速準確的檢測,上述技術是基本的保證。另外,檢測比對庫里需要收錄期刊、學位論文、會議論文、報紙、年鑒、工具書、專利、外文文獻、學術文獻引文等與科學研究、學習相關的主要資源,才可以支撐起一個論文查重檢測系統。
2.平臺搭建
本文所設計一款基于HTML的查重網站信息整合平臺進行對外開放,主要針對于當代高校師生,隨著互聯網的普及與此同時隨著網絡成為新時代發展趨勢。本著端正學風的宗旨,本項目提出查重網站信息整合平臺要求學生要堅持“誠信立人”的原則,養成“嚴謹為學”的態度,促進學術的健康、良性發展保護個人知識產權。
1、科技項目查重信息整合平臺的設計:
平臺將從已有的科技項目大數據中通過文本挖掘和綜合判斷,確認是否存在與待查項目的研究內容相同或高度相似的項目,也包括項目的關聯信息如學術論文、科技報告和科技成果等。此外,項目承擔人和承擔單位等信息也能提供一定的線索,因此科技項目查重的一般過程將其概括為文本預處理、特征提取、模型構建、相似度判別和模擬專家審核;
2、科技項目比對庫:
科技項目查重信息整合平臺要建立一套科技項目比對庫,包含近年來已有的科研項目導入;
3、科技項目比對文檔:
通常是網頁在線格式或PDF格式,報告上會體現與已有的科研項目相似的比例、重復的內容、重復內容的來源等。
3.處理過程
論文查重系統看起來比較簡單,其實需要強大的技術作為支撐,包括資源采集技術,文本數據庫加工技術,文本數據庫技術, 數字資源版權保護技術, 知識挖掘技術, 自然語言處理技術、快速比對技術等。
1、預處理:
預處理是將科技項目的相關大數據信息處理為指定的規范格式,并對文本信息確定處理單元及進行分詞或分句、去停用詞等。
2、特征提取:
特征提取是從預處理后的數據中挖掘出能全面/部分描述項目內容且區別于其他項目的特征向量,一般由特征詞和權重組成,采用基于詞頻或 TFIDF 值的方法計算其權重,并在大數據挖掘和文本分析領域應用基于 TextRank 和主題模型的方法。
3、模型構建:
模型構建是按照數據規劃方式對特征向量進行整合,從而建立能準確、全面描述項目內容的模型。
4、相似度判別:
相似度判別是基于項目表示模型設計相似度判別函數,從已有項目的數據庫中發現疑似項目的過程。
5、模擬專家審核:
重復對疑似項目進行二次數據綜合分析和判斷,確定待查項目是否為重復項目并提供相關證據的過程。
4.結論
綜上所述,本文所提出的基于HTML的查重網站信息整合平臺能夠從多方面進行數據采集,通過文本預處理、特征提取以及模型構建及相似度判別,從而為查重網站信息整合平臺做出有力的數據支撐,為查重體系提供必要的參考。
參考文獻:
[1]李善青,邢曉昭,杜圣梅.科技項目查重方法研究綜述[J].科技管理研究. 2018(06)
基金項目:本文為吉林農業科技學院自然科學類科研項目,項目編號吉農院合字第[校20190693]號。
(吉林農業科技學院? 吉林? 132000)