楊宇亮 周育忠 陶秀杰 韋嶸暉 張自鋒



摘要:科研項目相似性檢測實質上是與歷史庫的智能對比,以審核重復科研項目內容,所以建立科研項目歷史對比庫是科研項目相似檢測的基礎。歷史庫數據來源廣泛,包含了公司百分之九十以上的科研項目資料,有科技部、科研管理系統等處提供的,也有科研項目團隊提供的資料,采集過來的數據加工的程度不一樣,且存在一定冗余內容,給相似性檢測結果帶來一定的干擾。通過建立一套信息管理規范制度,對歷史對比庫的數據采集、數據審核、數據規范、數據存儲、數據輸出、數據安全等進行一定的規范,保證歷史對比庫數據的完整性、針對性和可靠性,從而有效的支撐相似性檢測需求,保證檢測結果的全面性、準確性,同時又能夠最大限度地保護公司的知識資產,規避信息安全風險。
關鍵詞:歷史庫;數據規范;信息管理規范;信息安全
中圖分類號:TF311 文獻標識碼:A
文章編號:1009-3044(2020)14-0052-02
在建設科研項目相似性檢測系統的同時,公司建立了一套信息管理規范制度,保障歷史對比庫的完整性和可靠性,最大程度地保證公司科研項目相似性檢測系統結果的準確性以及系統數據的安全性。信息管理規范制度包含六個部分,分別是數據采集、數據審核、數據規范、數據存儲、數據輸出、數據安全。
1數據采集
數據來源由兩部分組成,包括歷史文檔以及現行文檔。其中歷史文檔主要是科研管理系統中的文檔和科技處等部門的文檔;現行文檔主要是科研團隊提交的文檔。采集的數據主要為指南、可研報告、成果、技術報告以及論文等幾大類。數據采集流程如圖1。
1.1科研管理系統中的文檔
如表1所示,對科研管理系統中以及科技部等部門已經立項和驗收的科技項目資料進行梳理,搜集整合的數據包括科技項目需求建議表、項目申報指南、科技項目可行性研究報告、科技項目任務書及歷史清單、項目技術報告等,分別來源于各項目庫、報告庫、獲獎庫、成果庫。科研管理系統中的數據通過接口抽調或人工批量上傳進入數據加工中心等待處理,處理完的數據主要分為四類,包括項目庫、報告庫、獲獎庫、成果庫。總數量約900萬。
1.2科研團隊文檔
各科研團隊的科研全過程文檔,在相似檢測系統中提供匯總頁面,并支持一鍵上傳功能,由專家評審團隊進行審核,進入到加工中心等待統一處理。
2數據審核
為保證數據的完整性和可靠性,對采集的數據建立審核機制,通過審核的歷史文檔以及現行文檔進人數據規范待處理區域。審核成員組成包括各業務部門、科研項目評審專家團隊負責人、數據錄入團隊、相似檢索系統所屬科研管理部門。數據審核組織架構如圖2所示。
3數據規范
針對進入數據規范待處理區域的數據,根據相似性檢測的需求,設置統一的數據加工規范,對數據進行結構化處理。根據不同的文獻類型,分為項目庫,實施庫、項目成果庫、登記成果等4種類型,查重對比文本選取2012年以后的數據。
項目庫應規范字段為項目ID、項目中文名稱、項目編碼、科技編碼、項目屬性、是否重點項目、項目類型、項目類別、項目來源、預期成果成熟度水平、資金來源、項目負責人、建設單位、申報人、年、摘要、主要研究內容、必要性分析、項目預期成果、Projectstaus、項目區分、項目開始時間、項目結束時間等,其中對摘要、主要研究內容、必要性分析、項目預期成果等內容進行重點的全文比對。
實施庫應規范字段實施庫ID、項目庫ID、項目名稱、項目編碼、科技項目編碼、項目負責人、項目類別、項目建設單位、項目起始日期、項目結束日期、項目性質、項目屬性、項目承擔單位、項目摘要、項目主要研究內容、預期目標及創新點。
獲獎成果應規范字段ID、成果名稱、英文成果名稱、獎勵種類、成果名稱是否可公布、第一完成單位、成果登記號、成果水平、獎勵年度、聯系人、聯系電話、成果分類、學科分類、關鍵詞、立項背景、關鍵技術與創新點、綜合比較、主要完成人員、公司分類(綜合)、獎勵等級、研究起始時間、研究終止時間、成果簡介、研究內容、保密要點、應用情況、待解決問題、授獎級別。
登記成果應規范字段成果ID、登記單位、登記號、成果名稱、主要完成單位、主要完成人員、關鍵詞、成果水平、成果所處階段、轉讓范圍、研究內容、研究形式、關鍵技術與創新點、應用情況、成果分類代碼、研究結束時間、研究起始時間、登記日期。
4數據存儲
根據梳理的分類體系創建相應的數據庫進行數據存儲,對不同類型的數據存儲字段進行定義。
5數據輸出
科研項目團隊輸入論文基本信息,包括論文標題、作者、文獻屬性、文獻專業領域,并提交文獻全文。系統輸出查重報告,查重報告包含以下內容,項目名稱、技術領域、檢測范圍、提報單位、查重時間、摘要、相似比例、詳細報告以及是否通過申報。
6數據安全
查重團隊核心工作為收集梳理歷史資料及制定現行文檔規范,確保查重數據中心資料的齊全,從而保障查重的準確性;為了保證項目的保密性,數據以字段形式碎片化存儲在服務器中,不提供附件存儲。相似查重系統只提供最終的查重對比報告,不提供原文的查看、下載等,確保數據安全。
所有資料存儲在科研項目相似性檢測項目專用服務器,所有操作需通過堡壘機進行,嚴格控制訪問權限,并有據可查;
7總結
信息管理制度規范的建設,有效地保證了數據的一致性和完整性,在保證信息安全的前提下,確保了科研項目相似性檢測結果的準確性,極大地促進了公司科研管理水平。