陳小健,宋承繼
(陜西工業職業技術學院 科研處,陜西 咸陽 712000)
高校科研項目管理數據中蘊藏著大量的科研信息資源,科研量化和評價的各項指標是科研項目信息管理的關鍵。常見的量化和評價指標包含:項目級別、項目類型、申請經費等主要信息,有效利用這些指標可以為今后科研項目管理指明工作的重點,但隱藏在大量數據中的關系、趨勢等信息卻無法從項目孤立的指標中獲得。通過數據挖掘的方式對科研量化數據的指標進行深層次挖掘,分析各項指標間隱藏的內在聯系,將科研項目量化與評價作為科研項目管理的基本依據,有利于優化科研項目產業化結構,有利于更加客觀的分析各項量化和評價指標的科學性,從而找出更加豐富和有價值的科研信息,將會為管理決策者提供更為科學有效的理論依據。
數據挖掘(Data Mining),是指從存放在數據庫、數據倉庫或其他信息庫中的大量數據中挖掘有趣知識的過程。該過程包含:數據清理、數據集成、數據選擇、數據變換、數據挖掘、模式評估和知識表示。用戶可以根據這些興趣知識發現數據中潛在的價值和規則,供用戶在決策時有一定的依據可循。關聯規則挖掘是數據挖掘的重要方法之一,關聯規則挖掘的目的就是通過分析數據間的聯系或關系發現給定數據集中項之間的有趣聯系,從而確定不同數據之間的關聯規則[1]。
設I={i1,i2,…,im}是項的集合。設任務相關的數據D是數據庫事務的集合,其中每個事務T是項的集合,使得T?I。每個事務有一個表示符,稱作TID。設A是一個項集,事務T包含A當且僅當A?T。
關聯規則是形如A?B的蘊涵式,其中,并且。關聯規則的強度可以用它的置信度(Confidence)和支持度(Support)進行度量[2]。支持度(Support)是指在事務數據庫D中A∪B的百分比,記為Support(A)。項目集A和B同時出現的頻率即支持度為:Support(A?B)=P(A∪B),支持度應用于發現頻率出現較大的項目集,低支持度的規則是沒有意義的,一般會被刪除。置信度(Confidence)是指在事務數據庫D中包含A的事務同時也包含 B 的百分比:Confidence(A?B)=P(B|A)。 置信度應用于在頻繁項目集中發現頻率較大的關聯規則[3],置信度越高,表示B在包含A的事務中出現的可能性就越大。
AprioriTid算法是在Apriori[4]算法基礎上改進的關聯規則挖掘的經典算法[5]。Apriori算法使用了基于支持度和置信度的逐層搜索迭代方法,通過“連接步”和“剪枝步”找出數據庫中的最大頻繁項集,從而得到符合最小置信度和最小支持度的關聯規則。AprioriTid算法在Apriori算法的基礎上通過一次遍歷數據庫D之后,產生數據集C1,在后續歷次掃描數據集中使用數據集合Ck(k>1)代替數據庫D,在 Ck中的元素表示采用元組(TID,{Xk})表示,其中{Xk}是用TID唯一標識的事務包含的k維頻繁項目集的集合。AprioriTid算法的過程主要包含以下步驟:
第一步根據項目事務數據庫數據條目確定最小置信度mincon及最小支持度minsup[6]。
第二步掃描事務數據庫D得到候選項目集Ck,并對項目集計數,利用Ck中支持度大于等于最小支持度的項目集構造Ck,由Ck統計頻繁k項集Lk,對頻繁k項集Lk中各項目計數,在Lk中去掉出現次數小于迭代次數k的項,則得到Lk′。
第三步將頻繁Lk′項集中集合元素按照連接規則進行連接,迭代產生候選Ck+1項集。計算出其每一項集的支持度,與最小支持度進行比較,使用頻繁項集性質的先驗知識,獲得頻繁Lk+1′項集。通過上述步驟不斷迭代產生新的候選項集和頻繁項集,當獲得最大頻繁項集,最小支持度小于迭代次數時循環終止[7]。
使用AprioriTid算法發掘高校科研項目各項指標之間的關聯規則,需首先確立進行數據挖掘的事務數據庫,并對數據進行有效性清理和轉換,再進行數據挖掘。
評估高校科工作研量化與評價的主要指標通常有:項目級別、類型、經費、成果形式,這些是客觀的評價指標。為了體現出科研成果的優略,本文又加入了專家對成果評測的主觀評價指標,即要求專家對科研項目成果按照“一般”、“良好”、“優秀”和“特別優秀”4個檔次定性判斷科研項目成果的總體評價。
根據科研項目量化和評估的方案設計及指標體系,采用布爾量化的方法,把項目級別分為國家級、省部級、市廳級和學院級四等,分別記為 i1,i2,i3,i4;類型分為自然和社科兩類分別記為 i5,i6;經費(X)分為大于四萬元(X>4W)、一萬元到四萬元之間(1W≤X≤4W)、一萬元以下(X<1W)3個范圍,分別記為 i7,i8,i9;總體定性評價指標分別用 i10(一般),i11(良),i12(優),i13(特別優秀)表示。然后,用 1表示布爾變量的是,0表示布爾變量的非。以某高校當年的科研項目數據為例,從當年的科研管理系統數據庫中任意選取10條項目事務,布爾量化后的項目事務數據庫如表1所示。

表1 項目事務數據庫Tab.1 Projects of transaction database
應用AprioriTid算法進行數據挖掘的過程,就是不斷地連接和剪枝的過程,最后形成滿足要求的最大頻繁項集,設置最小支持數為2,最小置信度為75%。具體操作步驟如下:
第一次掃描事務數據庫,統計每條事務非零的項目,得到事務表 B(見表2);掃描表B,得到候選項目集C1(見表 3),并對項目集計數,利用C1中支持度大于等于最小支持度2的項目集構造C1(見表4);對C1各事務的項集進行重新統計,得到的L1是C1由中支持度大于2的項集組成。因為L1中各項目的計數均大于1,L1如表 5所示。 所以L1′=L1。
第二次掃描事務數據庫,將頻繁L1′項集的元素組成二元組,構造C2,掃描C1對C2中項目集計數,利用C2中支持度大于等于最小支持度2的項目集產生C2。由C2得到L2,對L2中各項目計數,發現所有項目的出現次數均大于2。因此得到L2′=L2。
第三次掃描事務數據庫,將頻繁L2′項集的元素組成三元組,構造C3,掃描C2對C3中的項目集計數,利用C3中支持度大于等于最小支持度2的項目集構造C3。由C3得到L3,對L3中各項目計數,發現3,6項目的出現次數均小于3。因此,在L3刪除包含這兩個項目的項目集,得到的L3′。

表2 事務數據表BTab.2 The transaction database B

表3 候選C1項支持度Tab.3 Candidate C1 support

表4 代替數據庫D的C2Tab.4 C2 instead of the database D

表5 頻繁1項集L 1Tab.5 Frequent 1 item sets L1
第四次掃描事務數據庫,將頻繁L3′項集的元素組成四元組,構造C4(見表6),掃描C3對C4中的項目集計數,利用 C4中支持度大于等于最小支持度2的項目集構造C4(見表7)。由 C4得到 L4,對 L4中各項目計數,發現 2,5,8,12 這 4 個項目的出現次數均小于4,因此在L4刪除包含這4個項目的項目集,得到的 L4′=?,所以推導循環結束,最后結果為 L4(見表8)。

表6 候選項目集C4Tab.6 The candidate item sets C4

表7 代替數據庫D的C4Tab.7 C4 instead of the database D

表8 頻繁4項集L 4Tab.8 Frequent 4 item sets L4
最后得到的關聯規則為:省部級,自然科學類,1萬≤經費≤4萬,優秀。該規則說明省部級、自然學科類、經費在1萬到4萬之間的科研項目占項目總數的三分之一,且該類科研成果在專家總體評測中大多會被評為優秀。通過逐步擴大項目事務庫中的項目事務數,得出的關聯規則基本和L4中得到的關聯規則基本吻合,從而說明該校在科研項目量化評價中省部級自然科學類項目,經費開銷控制在1萬到4萬之間的項目最有可能被專家評價為優秀。
利用關聯規則挖掘的AprioriTid算法對科研項目規律進行挖掘,通過最小支持度和最小置信度,可以分析各項評價指標的相關性,可以挖掘出各項指標之間隱藏的關聯關系。研究表明,利用關聯規則數據挖掘技術對科研項目數據庫進行分析和處理,發現和提取隱藏在數據背后的有效知識,能為高校科研量化與評價提供非常有價值的參考。
[1]HAN J,Kamber M.數據挖掘:概念與技術[M].范明,孟小峰,譯.北京:機械工業出版社,2001.
[2]萬宇文,黃林穎,甘登文.基于權值的關聯規則挖掘改進算法[J].計算機與現代化,2014(4):73-76.WAN Yu-wen,HUANG Lin-yin,GAN Deng-wen.A new weight-based association rules mining algorithm[J].Computer and Modernization,2014(4):73-76.
[3]彭碩,吳昊.基于MDPI的多維關聯規則算法的研究[J].微電子學與計算機,2011,28(1):78-82.PENG Shuo,WU Hao.The research for multidimensional association rules algorithm based on MDPI[J].Microelectronics and Computer,2011,28(1):78-82.
[4]郝曉飛,譚躍生,王靜宇.Hadoop平臺上Apriori算法并行化研究與實現[J].計算機與現代化,2013,1(3):1-4,8.HAO Xiao-fei,TAN Yue-sheng,WANG Jing-yu.Research and implementation of parallel apriori algorithm on hadoop platform[J].Computer and Modernization,2013,1(3):1-4,8.
[5]劉美玲,蘇毅娟.基于Apriori的Web訪問模式挖掘算法[J].計算機與現代化,2013,218(10):1-5.LIU Mei-lin,SU Yi-juan.Apriori-based web traversal pattern mining algorithm[J].Computer And Modernization,2013,218(10):1-5.
[6]詹芹,張幼明.一種改進的動態遺傳Apriori挖掘算法[J].計算機應用研究,2010,27(8):2929-2930.ZHAN Qin,ZHANG You-ming.Improved dynamic genetic apriori mining algorithm[J].Application Research of Computers,2010,27(8):2929-2930.
[7]嚴華,陳文菁.關聯規則在學生成績分析中的應用[J].福建醫科大學學報:社會科學版,2008(1):46-49.YAN Hua,CHEN Wen-jing.As sociat ion rules and applicat ion in analysis of students.grade[J].Journal of Fujian Medical University:Social Science Edition,2008(1):46-49.