陳玉亮,張代華
(江蘇科技大學檔案館,江蘇 鎮江 212003;江蘇科技大學信息中心,江蘇 鎮江 212003)
數據挖掘技術應用于科研檔案的實證研究
陳玉亮,張代華
(江蘇科技大學檔案館,江蘇 鎮江212003;江蘇科技大學信息中心,江蘇 鎮江212003)
隨著數據挖掘技術的發展,其在社會各領域得到了廣泛的應用,并顯現出巨大的價值。本文以江蘇科技大學獲得資助的國家級科研項目為例,分別采用聚類分析法和關聯規則分析法對近五年來獲批的國家級科研項目組數據集進行了數據挖掘,為學校找出科研重點領域,凝練出學科發展特色提供決策依據。
數據挖掘;聚類分析;關聯規則分析
本文著錄格式:陳玉亮,張代華. 數據挖掘技術應用于科研檔案的實證研究[J]. 軟件,2016,37(9):52-54
科研檔案是高等學校科研發展的縮影和真實寫照,是反映高校科學研究和科研管理水平的重要標志,是高校實力的見證。科學研究水平是各高校核心競爭力的關鍵所在,支撐和引領學科建設與發展。隨著高校科技創新競爭的日趨激烈,在科技資源配置方面,高端人才和重點重大項目資助的集中度不斷升級。與各“985”高校、國子頭的科研院所相比,地方普通高校與它們的創新競爭力差距不斷擴大,只有可能在少數優勢學科具有一定競爭力,在面上科研任務競爭中占有一定份額。多年來,高校在科研管理中積累了很多數據,但這些數據只是簡單的以案卷目錄的形式存儲在檔案管理系統中,在高校的科研決策中并沒有得到充分利用,還停留在傳統的管理水平上。如何利用已有的科研檔案信息明確自己的科研優勢,找出科研重點領域,凝練出品牌特色,以應對普通省屬高校發展的嚴峻挑戰,提升自己的核心競爭力,是目前普通省屬高校亟須解決的重大課題。
數據挖掘是一種深層次的數據分析方法, 是從大量的、不完全的、有噪聲的、模糊的、隨機的實際應用數據中,提取隱含在其中的、人們事先不知道的、但又具有潛在價值的數據信息和知識的過程[1]。數據挖掘是一種全新的信息處理技術,其主要特點是對大量數據進行抽取、轉換、分析和其他模型化處理,從中提取輔助決策的關鍵性數據,把人們對數據的應用從低層次的簡單查詢,提升到從數據中挖掘知識,提供決策支持[2]。目前數據挖掘已廣泛應用于商業零售、電信、金融、電力、保險、生物信息學和醫療等行業。
聚類分析是根據數據中發現的描述對象及其關系的信息,將數據對象分組[3],并使得同一個組內的數據對象具有較高的相似度,不同組中的數據對象具有較低的相似度[4]。
關聯規則是數據挖掘的重要工具之一[5],關聯規則分析是用于發現隱藏在大型數據集中的有意義的聯系的過程。關聯規則的強度可以用它的支持度和置信度來度量。支持度是一種重要度量,因為支持度很低的規則可能只是偶然出現;另一方面,對于給定的規則X→Y,置信度越高,Y在包含X的事務中出現的可能性就越大。
2.1應用背景介紹
國家級科研項目[6]是高校及科研院所科研實力及學術水平的一項重要指標,是高校高水平縱向研究課題經費的主要來源。江蘇科技大學作為江蘇省省屬高校,一直以來都非常重視國家級科研項目的申報和管理工作,在獲得批準項目數量與資助金額不斷提升的同時,學校的科研實力和學術水平也躍上了一個新臺階。多年來,我校在科學研究過程中積累了很多數據,但這些數據只是簡單的以案卷目錄的形式存儲在檔案管理系統中,在學校的科研決策中并沒有得到充分利用,本文以江蘇科技大學2011—2015年獲得資助的國家級科研項目為例, 應用數據挖掘技術對參與國家級科研項目的課題組進行了科研績效評估,為學校找出科研重點領域和優勢學科、凝練出品牌特色提供決策依據,同時進一步探討科研績效與科研人員最高學位、職稱、年齡之間的關系,從而實現科研團隊的優化配置。
2.2數據選擇及預處理
2.2.12011至2015年江蘇科技大學國家級科研項目基本情況分析
近五年來,江蘇科技大學所獲自然科學與社會科學國家級項目實現了質與量的飛躍,獲資助項目數逐年遞增,資助經費也實現了穩步增長,獲資助項目數從2011的24項增加到2015年的45項,資助經費從2011年的659萬元增加到2015年的1478萬元(其中2013年葛世倫教授申請的“基于云的管理信息系統再造研究”項目作為重點項目,資助經費為220萬元)。
2.2.2課題組數據集
國家級科研項目相關信息包括項目名稱、申請領域、資助經費、負責人年齡、項目組成員最高學位、專業、職稱、批準年度。基于此,本文構造了課題組數據集,并利用聚類方法對其進行了分析。課題組數據集由項目資助經費、負責人年齡、項目組中博士人數、碩士人數、學士人數、其他人數、教授(正高)人數、副教授(副高)人數、講師(中級)人數、助教(初級)人數、項目中各專業的人數組成。2011—2015年江蘇科技大學共獲批了185個國家級項目,有156個專業共 815名科研人員參與。因此,本文為課題組數據集添加了對應于這156個專業的人數屬性, 以便發現項目組人員專業差別對國家級項目的影響。項目負責人年齡劃分成<=30、31-35、36-40、41-45、46-50、51-55、56-60、61-65、>=66共9個年齡段。
2.3基于數據挖掘的課題組科研績效評估
2.3.1課題組數據集的聚類分析

表1 課題組數據集聚類結果
課題組數據集的聚類結果顯示,簇1中的項目數為45,大部分是面上項目或者重點項目,資助經費額較高、課題組科研能力較強,僅占總項目的24.3%;簇2中的項目數為140,占總項目的75.7%。結合聚類結果的簇中心情況如表1所示,簇1的各項指標都優于簇2,尤其是教授人數和資助經費額。本文還利用決策樹分析聚類結果,發現教授人數、講師人數和資助經費是導致這種項目聚類結果的重要因素。簇1共包含材料學11項、海洋工程10項、機械工程7項、管理科學與工程7項、養蠶學5 項、自動化2項、物理學2項、生物學1項目。這說明了材料學、海洋工程、機械工程、管理科學與工程、養蠶學是江蘇科技大學自然科學的優勢研究學科,自動化、物理學、生物學等學科在快速發展,計算機科學、電子學等其他學科還需要提高。簇2的負責人年齡段指標顯示這些項目申請人比較年輕,絕大多數都小于40歲,正是出科研成果的黃金時期,他們是學校科研隊伍的生力軍;簇1的負責人年齡段指標顯示項目申請人具有豐富的科研經驗,但超過一半以上的人在50歲以上,人才成長有些脫節,年輕教師沒有能夠及時頂上來,不利于學校的長遠發展。
2.3.2課題組數據集的關聯規則分析
本文在聚類分析的基礎上,采用關聯規則分析法來探討科研績效評估結果與科研人員的最高學位、職稱、年齡之間的關系。數據表見表2,其中,表1中簇1欄中項目組人員的評估結果為優,簇2欄中項目組人員的評估結果為良。對科研人員的年齡進行了分段,A1表示科研人員年齡<=30歲,A2表示31-35歲,A3表示36-40歲,A4表示41-45歲,A5表示46-50歲,A6表示51-55歲,A7表示56-60歲,A8表示61-65歲,A9表示>=66歲。

表2 項目組科研人員數據表
通過關聯規則Apriori算法挖掘出項目組科研人員數據表中各個屬性之間的關聯規則,并設定Smin=0.05,Cmin=0.20,得出如下的關聯規則,如表3所示。表3中X表示最高學位和職稱,Y表示評估結果。

表3 關聯規則
從表3中的關聯規則可知:擁有博士或碩士學位的人員科研經驗豐富,評定結果為優的可信度和支持度較高;具有教授或副教授職稱的人員具有豐富的科研經驗,評定結果為優的可信度和支持度較高。從加強學校科研團隊建設目標出發,應該吸收學位低的人員參與科研活動[7],同時要培養職稱低的人員,豐富他們的科研經驗,提高他們的科研能力。
本文對江蘇科技大學2011—2015年間獲批的國家級項目數據集進行了數據挖掘,結果表明材料學、海洋工程、機械工程、管理科學與工程、養蠶學是江蘇科技大學自然科學的優勢研究學科,自動化、物理學、生物學等學科在快速發展,計算機科學、電子學等其他學科還需要提高。同時對項目組科研人員數據信息進行了關聯規則分析,發現了受教育程度和職稱是影響科研人員科研績效的主要因素,從而可以實現科研團隊的優化配置,提高科研能力。通過以上分析,為凝練江蘇科技大學優勢科研領域,確定科研創新團隊、重點項目、標志性成果等的培育對象提供了參考決策依據;為有的放矢地支持重點科研領域建設、提升學校核心競爭力奠定了一定的基礎。
[1] 馮文霞, 王廣安. 數據挖掘在服務成本預測方面的應用研究(SDCF-DM)[J]. 軟件, 2013, 34(4): 46-48
[2] 曾洪周. 數據挖掘在國土資源檔案館中的應用[J]. 蘭臺世界, 2007, (12), 11-12.
[3] Pang-Ning Tan, Michael Steinbach. 數據挖掘導論[M]. 北京: 人民郵電出版社, 2010.
[4] 楊雪霞. 數據挖掘技術在高校圖書館管理系統中的應用研究[J]. 軟件, 2011, 32(4): 16-18.
[5] 刁雅靜, 盧健. 基于權重的關聯模式分析改進在網站優化中的應用[J].江蘇科技大學學報(自然科學版), 2012, 26(3), 305-308.
[6] 徐立波. 高校科研業績積分管理系統研究[J]. 軟件, 2014, 35(2): 10-12.
[7] 秦勤, 段秋紅, 何永強. 科研績效評估中的數據挖掘研究[J]. 河南工程學院學報(自然科學版), 2010, 22(4), 60-62.
Empirical Study of Applying of Data Mining Technology in Scientific Research Archives
CHEN Yu-liang1, ZHANG Dai-hua2
(1. Archives of Jiangsu University of Science and Technology, Jiangsu Zhenjiang, 212003; 2. Information Center of Jiangsu University of Science and Technology, Jiangsu Zhenjiang, 212003)
With the development of data mining technology, it has been widely used in various fields of society and showed great value. This paper take nearly five years State-level scientific research projects of Jiangsu University of Science and Technology as an example and use clustering analysis and association rules analysis to mine the projects data set to provide decision-making basis on finding focus research areas and condensed out of the development characteristics of disciplines.
Data mining; Clustering analysis; Association rules analysis
TP399
A
10.3969/j.issn.1003-6970.2016.09.012
江蘇省現代教育技術研究2014年度立項課題(2014-R-32532)
陳玉亮(1979-),男,江蘇鹽城人,碩士,館員,主要研究方向為檔案信息化;張代華(1973-),男,湖北荊門人,高級實驗師,主要研究方向為高校信息化。