蒙 杰 楊生舉 施韶亭
(甘肅省科學技術情報研究所甘肅省科技評價監測重點實驗室 甘肅 蘭州 730000)
?
基于文本挖掘的科研項目管理輔助決策系統研究與實現
蒙杰楊生舉施韶亭
(甘肅省科學技術情報研究所甘肅省科技評價監測重點實驗室甘肅 蘭州 730000)
針對科研項目管理中重復申報、重復立項和項目與評審專家匹配性等問題,通過文獻分析法深入分析科研項目管理輔助決策研究現狀,提出一種基于文本挖掘的科研項目管理輔助決策解決方案。采用ICTCLAS分詞技術、改進的TF-IDF算法和余弦相似性算法等綜合技術,確定科研項目之間的相似性、項目和專家之間的匹配性,為科研項目管理提供可靠的決策支持。詳細介紹系統的總體架構、關鍵技術和關鍵步驟。該解決方案在甘肅科技計劃項目管理中的應用,有效解決了科研項目重復申報、重復立項和項目與專家匹配性等問題,提高了科研項目管理水平和科研資金使用效益。
科研項目管理輔助決策系統文本挖掘相似性分析
近年來,國家財政大力支持科技創新,積極實施創新驅動發展戰略,科技事業得到快速發展,涌現出一系列重大科技成果。如:載人航天、嫦娥登月工程、蛟龍號深海載人潛水器、天河系列高性能計算機、雜交水稻技術、人類基因組研究、第四代移動通訊、集成電路裝備、高速鐵路等一批重大技術實現跨越式發展。隨著科技經費投入的持續增加,科研項目的申報數量也大幅增長,隨之而來的問題是,科研項目重復申報、重復立項、相近似研究等現象日趨嚴重。一些科研項目申報單位或申請者缺乏誠信,或者對科研項目的研究現狀和創新性分析不足,以相同或相近似的研究內容重復申報科研項目,嚴重影響了科技資源與經費的合理配置,阻礙了科技進步和社會發展。
近年來,科研項目重復申報、重復立項的問題得到科技管理部門和學術界的關注和重視,國內學者分別從科技評估、分析預警、查新查重等幾個方面對科研項目管理輔助決策手段進行了研究,以輔助科技管理部門科學管理科研項目,從而使高質量高水平的科研項目優先得到資助,有效提高科技投入的效率。文獻[1]提出借鑒美日等發達國家科技評估的成功經驗,引入第三方評估機構,選用合適的評估方法對科研項目進行事前、事中、事后和跟蹤評估,并及時將評估意見反饋給項目申請者,然而科技評估周期長、成本高,對新申報的大批量項目進行事前評估并不可行;文獻[2]以輔助決策模型為研究對象,以項目管理過程中積累的大量科研、財務、人事等基礎數據為依托,提供了數據統計查詢,態勢分析、分析預警等三個級別的決策支持功能,為科技管理部門掌握科研動態、科研活動趨勢提供了支撐,不足之處是不能對項目重復申報、重復立項做出及時有效的監測和預警;文獻[3]提出依靠科技查新結構查重的方式,一定程度上可以減少科研項目的重復立項,但是查新工作量大、時間緊,“查全率”和“查準率”也受到多種因素的影響,難以有效地解決科研項目重復立項和相近似研究等問題。
借鑒國內外現有科研項目管理輔助決策手段的成功經驗,本文運用文本挖掘等相關信息技術,設計和實現了基于文本挖掘的科研項目管理輔助決策系統。通過綜合分析科研項目之間的相似性、項目與評審專家之間的匹配性,為科技管理部門科學管理提供決策支持,有效地提高科研項目的管理水平和實施績效。
該系統以科技計劃管理系統[4]和專家信息管理系統積累的大量半結構化或非結構化科研項目和專家信息為支撐,遵循簡單性、適應性、一致性、可靠性和經濟性的設計原則[5],采用自頂向下、逐步分解的方法,將系統分解為數據抽取、數據分析、數據展示三大子系統。系統功能結構如圖1所示。

圖1 系統功能結構圖
2.1數據抽取子系統
數據抽取子系統主要包括項目文本抽取、分詞和特征項選取三個功能模塊。
文本抽取模塊利用數據庫相關技術,從科技計劃管理系統和專家信息管理系統數據庫中,批量抽取項目名稱、項目簡介、項目研究的科學依據和意義、項目主要研究內容、項目研究方法、項目考核指標、項目關鍵詞、專家簡介、技術職稱、所學專業、熟悉學科、技術領域、專家學術專長和研究方向等文本數據,并采用一定的正則規則對抽取的數據進行清洗和規范處理,形成該系統的基礎數據庫。
文本分詞模塊采用漢語詞法分析系統ICTCLAS(Institute of Computing Technology, Chinese Lexical Analysis System),將從不同角度表達科研項目信息和專家信息的漢字序列,分解成為能夠獨立運用的最小語言單位即詞。
特征項選取模塊首先對文本分詞結果進行去除停用詞處理,然后采用TF-IDF算法分別計算詞在文本中的權重,根據詞在文本中的重要程度,選取一定數量的詞形成一個能準確表達科研項目信息和專家信息的文本特征子集。
2.2數據分析子系統
數據分析子系統包括項目相似性分析、項目分組、項目-專家匹配性分析三個功能模塊。
項目相似性分析模塊運用余弦相似性算法,分別計算一項目與其他項目的項目名稱、簡介、科學依據和意義、主要研究內容、研究方法、考核指標等多個角度的相似性,根據表達項目信息的重要性不同,對其賦予相應的權重進行加權平均,得出該項目與其他項目的綜合相似性。
項目分組模塊依據項目相似性分析結果,將研究方向相近科研項目歸類到同一分組中。在項目評審時,將同一分組的項目分配給同一批評審專家,保證評審結果公平、公正。
項目-專家匹配性分析模塊通過對項目信息和專家信息進行相似性分析,自動遴選出與項目研究內容最相符的評審專家,使項目按照細化專業精確地分配到省內外同行專家手中,提高項目評審的科學性、合理性。
2.3數據展示子系統
數據展示子系統包括項目相似性展示,科研合作關系分析,項目組人員科研動態分析三個功能模塊。
項目相似性展示模塊采用餅狀圖直觀地顯示出一項目與其他項目相似性的大小,點擊餅狀圖可查看相似項目內容的具體比對,并將高相似項目向社會公開,發揮督導警示作用。
科研合作關系分析模塊運用社會網絡圖形象地描繪出項目申請者的科研合作情況,包括合作的科研項目和科研人員,幫助科技管理部門理清科研合作關系,有助于加強科研合作交流,實現科研資源共享。
項目組人員科研動態分析模塊羅列出項目組人員的科研動態,用紅色字體醒目的顯示出項目組人員參與的未按期結題的項目,輔助科技管理部門掌握項目組人員的科研活躍度和科研誠信,在項目立項時合理分配,保證科研任務順利實施。
3.1主題詞表建立
將北京大學計算語言學研究所加工的語料庫和科技計劃管理系統數據庫中的項目關鍵詞結合起來,并加入新術語、含字母詞語等科研領域專業術語[6],形成科研領域專業語料庫,使科研項目信息和評審專家信息的文本分詞更加準確。
3.2文本信息分詞
該系統基于ICTCLAS分詞技術[7]對科研項目信息和評審專家信息進行文本切分。ICTCLAS分詞技術基于層疊隱馬爾可夫模型CHMM(cascaded hidden Markov model),將未登錄詞識別、排歧、分詞等過程有機地融合到一個統一的理論模型當中。應用結果證明ICTCLAS具有良好的分詞效果。
3.3文本特征項選取
系統采用張瑾提出的基于改進TF-IDF算法的情報關鍵詞提取方法[8]對科研項目信息和評審專家信息進行文本特征項選取。首先對文本向量進行粗降維,然后采用TF-IDF的改進算法對每一個特征項進行評估,按照評估分數從高到低排序后,選取評估分數高于設定閾值的特征項,形成項目信息和評審專家信息的文本特征向量。基于TF-IDF的改進加權公式如式(1)所示:
(1)
其中fij為詞語i在文檔f中出現的頻率,N為文檔總數,Ni為文檔中出現詞語i的文檔數,β為一個經驗值,一般取0.01,li表示詞語i出現的段數,L表示總段落數。
算法的迭代過程描述如下:
Step1輸入文檔集D={d1,d2,…,dn}、文檔di對應的文本候選特征集Ti={t1,t2,…,tn};
Step2統計詞語ti在文檔di中出現的頻率fi,并進行歸一化處理,防止偏向長文檔;
Step3計算詞語ti在文檔集D中逆文本頻率idf;

Step5使用式(1)計算詞語ti的TF-IDF權值Wi;

Step7重復Step1-Step6,直到文檔集D中所有文檔的文本特征項選取完畢。
3.4相似度計算

(2)
余弦夾角的取值范圍為[-1,1],由于文本特征項的詞頻不為負,所以兩個文本向量余弦夾角的取值范圍為[0,1]。余弦夾角為1表示兩個文本向量完全匹配,余弦夾角為0表示兩個文本向量相互獨立,在0和1之間表示不同程度的相似。
算法的迭代過程描述如下:
Step1輸入文檔di特征項的詞頻向量Fi={fi1,fi2,…,fin}(詞頻向量經過歸一化處理,防止偏向長文檔)、待比較文檔dj特征項的詞頻向量Fj={fi1,fj2,…,fjn};

Step3重復Step1-Step2,直到文檔di與其他待比較文檔的余弦相似性計算完畢;
Step4重復Step1-Step3,直到文檔集D中所有文檔與其他待比較文檔的余弦相似性計算完畢。
以該系統在甘肅省科技廳科技計劃項目管理中的應用為例,系統對2014年新申報的3443個科研項目進行綜合分析,篩選出高度相似(相似度大于等于60%)的117個項目。其中同一申請者重復申報項目43項,同一申報單位重復申報項目54項,其他重復申報項目20項。高度相似項目主要是項目申請者對本單位或本人已立項的項目稍作改動,進行重復申報,有些項目盡管名稱不同,但項目研究內容和研究方法卻類同或相近似。系統按項目相似性降序排列界面如圖2所示。

圖2 項目相似性降序排列界面效果圖
甘肅省科技廳依據系統的項目相似性分析結果,建立了科研誠信檔案,對重復申報項目的單位或個人進行警告并取消本年度項目申報資格,對其以后年度申報的項目予以重點審查。采取該措施后,2015年度甘肅科研項目重復申報數量大幅減少,極大地提高了科研項目的申報質量。
表1、表2、表3列出了系統對甘肅2014年度新申報科研項目查重分析的部分結果。

表1 同一申請者新申報項目與已立項項目相似性分析結果
表1是同一申請者重復申報已立項項目的案例中5個相似度最高的項目。這5個新申報項目的項目名稱是對已立項項目的項目名稱稍作改動,項目申報書中的內容也基本相同或相近似。

表2 同一申報單位新申報項目與已立項項目相似性分析結果
表2是同一申報單位重復申報已立項項目案例中相似度最高的5個項目。通過對全部新申報項目相似性分析結果統計得知,同一單位重復申報項目占全部重復申報項目的46%,占的比重最大。
表3記錄了除同一申請者和同一單位的重復或相近似項目,這種情況主要是項目申請者對新申報項目的研究現狀或創新性分析不足,而出現與已立項項目研究內容相近似的現象。

表3 新申報項目與已立項項目相似性分析結果(不包括同一申請者和同一單位的項目)
本文在深入研究自然語言處理、文本相似度計算等文本挖掘相關技術的基礎上,設計實現了基于文本挖掘的科研項目管理輔助決策系統,實現了對科研項目申請書相似性綜合分析和項目-評審專家匹配性分析,為科研項目科學立項提供了可靠的決策依據。該系統已在甘肅省科技廳投入運行,有效解決了科研項目重復申報、重復立項和相近似研究等問題,同時極大地減少了人工查重查新的工作量,提高了科研項目管理水平和科研資金使用效益。同時有助于形成嚴謹的科研作風,營造良好的創新環境。
目前系統仍有不足之處,如某些新申報項目是申請者在之前科研項目基礎上做更深層次的研究,若系統對項目文本分詞和文本特征項抽取不精確,則導致新申報項目和已立項項目相似度分析值較高,但實際并非重復申報或相近似研究。而如何進一步提高科研領域文本分詞和文本抽取的準確性,都將成為本文下一步的重點研究工作。
[1] 楊洪濤,左舒文.國外科技評估發展新趨勢及對上海的啟示[J].科技管理研究,2014(22):15-17.
[2] 李建平,及俊川,吳登生,等.科研管理輔助決策模型研究:以ARP為例[J].科技促進發展,2012(10):18-22.
[3] 劉蔭明,張福俊,劉謙.淺析科研管理之避免重復立項[J].科技管理研究,2010(21):198-200.
[4] Shengju Yang, Shaoting Shi, Jie Meng. Research and Safety Design on The Scientific Resarch Project Management System Based on J2EE[J]. Mechanical.Electronic and Information Technology Engineering, 2015, 743:633-640.
[5] 楊生舉,趙昕暉.基于PHP+XML的人才信息管理系統實現與安全設計[J].計算機應用與軟件,2012,29(2):221-223,257.
[6] 姜韶華.科研項目管理中的文本挖掘方法研究及應用[D].大連:大連理工大學,2006:63-68.
[7] 劉群,張華平,俞鴻魁,等.基于層疊隱馬模型的漢語詞法分析[J].計算機研究與發展, 2004,41(8):1421-1428.
[8] 張瑾.基于改進TF-IDF算法的情報關鍵詞提取方法[J].情報雜志, 2014,33(4):153-155.
[9] 施侃晟,劉海濤,白英彩,等.余弦度量和適應度函數改進的聚類方法[J].電子科技大學學報,2013,42(4):621-624.
STUDY AND IMPLEMENTATION OF TEXT MINING-BASED ASSISTANT DECISION SUPPORT SYSTEM FOR SCIENTIFIC RESEARCH PROJECT MANAGEMENT
Meng JieYang ShengjuShi Shaoting
(Institute of Scientific and Technical Information of Gansu,Key Laboratory of Scientific and Technical EvaluationandMonitoringofGansu,Lanzhou730000,Gansu,China)
To solve the problems in scientific research project management including repetitive project declarations and approvals as well as matching the projects and assessment experts, by in-depth analysis of current status quo of assistant decision support for scientific research project management with literature analysis method, we presented a text mining-based solution of assistant decision support for scientific research project management. It adopts the ICTCLAS Chinese partition technology, the improved TF-IDF algorithm and the cosine correlation algorithm to determine the similarity between scientific research projects, the matching between projects and experts, and provides reliable decision support for scientific research project management. The paper introduces in detail the general system framework, key technologies and the system actualisation key steps. The solution has been applied in scientific research project management of Gansu province, and efficiently solves the problems listed above, raises the level of scientific research project management and the benefit of the use of scientific research funds.
Scientific research project managementAssistant decision support systemText miningSimilarity analysing
2015-06-24。甘肅省青年科技基金計劃項目(1308R JYA100);甘肅省科技支撐計劃項目(1304GKCA035)。蒙杰,工程師,主研領域:數據挖掘。楊生舉,副研究員。施韶亭,研究員。
TP315
A
10.3969/j.issn.1000-386x.2016.09.006