焦文 魏海燕 石英 魯萱萱


摘 要 在企業和機構內部,科技項目查重能夠避免科技資源浪費、惡性科研競爭等重復立項帶來的問題。本文提出基于行業詞庫預訓練的科研項目查重方法研究,以申報材料中的關鍵指標為研究對象,對其段落、句子、詞等不同級別構建相似度比較模型,采用Elasticsearch數據庫實現海量數據的快速索引。有效提高立項審批過程中工作效率,節約科研成本。
關鍵詞 科技項目查重;相似度計算;文檔結構化;自然語言處理技術
1研究背景
國務院發布的“加快實施創新驅動發展戰略”,全國各級政府、企業、機構積極號召。科技項目的投入的總體趨勢在逐年擴大,科技項目的研究領域在逐年優化,于是各單位的需求數量及最終形成的科技項目的數量逐年在增加。一直以來,科技管理人員采用的是人工提取關鍵詞或重點研究內容比照已研或在研科技項目的歷史資料進行科技項目查重的模式。這種查重模式對于科技管理人員的專業技術水平要求較高,且存在查詢效率低以及查重遺漏的問題。
針對科技項目查重,部分企業和科研人員也進行了相應的研究,但總體效果不明顯的主要原因在于:
(1)項目信息公開、共享和整合程度較低[1]。項目相似性判別方法單一[1]。近年來的相似度判別局限于針對立項材料進行比較,忽視了立項申報中關鍵指標之間的聯系。
(2)針對特定領域的項目查重難以滿足需求。
(3)通過文獻調研發現,國內許多學者對長文本查重有一定的研究。姜雪[2]利用長文本的局部敏感特性使用simhash算法來計算相似度,李成龍[3]和楊東菊[3]等人采用先分詞再轉換為向量空間模型(VSM:Vector Space Model)的方法進行計算,當前通用的相似度判別模型為:simhash[2]、TF-IDF[4]等,喬偉濤[5]、初雅莉[6]等在語義編碼上進行了相應的研究。在實際應用中,能夠很好地對部分科技文檔進行篩選和查重,但是在針對逐年細化的研究領域表現效果不佳。
針對上述所提及的逐年細化領域分類的科技文檔查重存在欠擬合等問題,本文以企業的實際數據作為研究樣本,提出一種基于行業詞庫預訓練的科技項目查重方法。首先對立項材料進行長文本的解析和抽取,抽取立項材料中關鍵指標作為原始數據,利用雙向LSTM和JIEBA分詞等方法對長文本做預處理存入Elasticsearch數據庫,在特征提取階段采用關鍵詞提取、摘要分析為輔,利用基于ALBERT的余弦距離算法模型、TD-IDF算法模型、simhash算法模型、編輯距離相似度模型四種無監督學習算法同時對相似片段進行計算,針對短文本、長文本進行加權計算得出相似度。考慮到在實際立項過程中,立項文檔的研究背景不應作為判斷科技項目重復的主要原因,而是聚焦在研究內容、研究方法、成果物的描述上,我們采用人工標注為輔的有監督的方法對上述的計算結果進行校準,最后得出相似度結果。
2系統流程
查重平臺的流程如圖1所示。主要分為文檔解析和抽取、行業詞庫構建、文本特征提取、相似度判別、人工標注分類幾個步驟。
查重技術流程圖如圖1所示,梳理歷史科技立項文檔資料,對文檔模板進行解析,構建行業領域知識庫,專業詞匯和高質量文檔查重指標項作為知識抽取的數據支撐。對文檔做結構化處理,提取有價值的查重指標關鍵段落,對其進行分詞、去停用詞、特殊符號處理等預處理操作,對有價值的章節進行基于行業詞庫的關鍵詞提取、實體提取、摘要提取、句法分析等語義關系抽取,通過大規模的預訓練的深度學習模型和基于ALBERT的余弦相似度模型、TD-IDF、simhash、編輯距離,輸出對比文檔的各項分析結果,同時引入相似度質量評估,人工對相似要素的分析結果進行標注,對每一指標項的相似度分析結果進行正確和錯誤的標注。最后綜合結構化的相似度得分,估算出文檔的綜合相似度,為科技立項文檔相似對比提供參考依據。
2.1 數據整合和結構化
在科技項目立項過程中,項目申報人會填報其基本信息、立項申請文檔、立項論證文檔、立項任務文檔以及最后項目驗收文檔這四類文檔。基本信息包括:項目名稱、立項年度、承擔人及所屬單位。本文整合了15年以來的某企業立項文檔作為原始數據,對不同的模板進行了結構化梳理,總結關鍵指標信息:項目名稱、研究目標、研究內容、技術指標、創新點及成果。通過機器學習和人工標注的方式將大量科技項目資料文檔進行解析、抽取存入Elasticsearch數據庫作為知識抽取的依據。
2.2 行業詞庫構建
陶善菊[7]在文獻中提出:行業詞庫就是經過規范化處理的主題詞及其之間的關系所構成的詞典。行業詞庫通常包括兩個部分:詞庫和關系庫,詞庫用于存儲主題詞,關系庫則用于存儲主題詞間的各種關系。主題詞可以是行業的專業詞匯、技術名詞、產品名詞、機構名稱、人名等,關系可以包含同義詞、縮略語、英文簡稱、行業分類等。行業詞庫中描述的主題詞之間的語義關系可以起到知識關聯計算和相似度計算的作用。行業詞庫構建步驟具體如下:
(1)確定行業邊界。對立項文檔進行分類,梳理結構體系,確定行業邊界和領域劃分。
(2)構建新詞發現。通過機器學習的詞向量模型和聚類算法發現行業領域的專業詞匯。
(3)組織專家篩選。組織行業專家對已發現行業詞匯、各維度對應的同義詞和排除詞,進行校正。
2.3 查重模型構建
相似度判別模型一般用于文本查重、文本快速索引構建,用來計算文本之間的語義相似程度。相似度判別模型主要是通過機器學習將文本向量化,計算兩個向量之間相似度從而得出文本相似程度。本文提出的相似度判別模型主要基于行業詞庫預訓練的四類無監督模型和分類模型共同計算并輸出結果。
(1)TF-IDF模型
TF-IDF(詞頻-逆向文件頻率)是一種用于信息檢索與文本挖掘的常用加權統計方法。理論依據為以字、詞在文檔出現的頻率來決定其重要性,但同時隨著它在語料庫中出現的頻率成反比下降。