摘要:科研能力是高校的核心能力,也是反映高校實力的重要指標。文章在明確高校科研能力內涵的基礎上,分析高校科研能力的構成,提出了高校科研能力評價指標。采用關聯規則Apriori算法對30所高校的科研能力提取評價規則,結果表明,規則具有重要的參考價值。
關鍵詞:高校;科研能力;評價;Apriori算法
一、 引言
科研作為高校職能的重要組成部分,對提高科技水平、提高高等教育質量、開發高層次人才資源和促進社會經濟發展具有重要意義。高校作為國家科研創新體系的重要組成部分,既是科學研究與知識創新的基地,又是科研成果產出的基地。高校科研一直是我國科研工作的重要組成部分,在國家整個科研系統及經濟建設中的地位和作用日漸增長。
科研能力是高校的核心能力,其高低已成為衡量一所高校綜合實力的重要指標。科研能力的高低不僅影響高校自身的發展,對高校所在地區的經濟發展也有重大影響。如何準確評價高校的科研能力已成為擺在政府、企業和高校面前的一個十分重要的問題。影響科研能力的因素很多,且相互交叉、相互滲透和相互影響,無法用確定的數學模型描述。目前,高校科研能力評價方法很多,但普遍存在工作繁瑣、時間滯后等缺點,且人為主觀因素對評價結果有很多的影響。如何快速、準確地對眾多高校的科研能力進行客觀、公正地評價?這是一個目前急需解決的問題。
二、 高校科研能力評價體系的構建
高校科研能力由靜態能力和動態能力合成。高校靜態科研能力是高校開展科學研究活動所固有的、潛在的能力,是開展科研活動的基礎,包括5個方面:科技隊伍,它是構成高校科研勢能的人力因素,是最積極也是最活躍的因素,由人員素質、知識結構和梯隊組織結構構成;科研基地,它包括科研機構、儀器設備、建筑設施等;科技學識深度、廣度及其相應的載體;科研經費,它是構成高校科研勢能的財力因素;科研管理,它是保證科技活動正常順利進行的充分條件。
高校動態科研能力是一種科技顯現能力,包括6個方面:(1)信息接收加工能力。高校必須具有以最快的速度、最科學的方法在浩瀚如海的知識庫中接收、分析和加工各種信息的能力,以及汲取最需要最準確的信息內容的能力,以力求掌握最前沿的科技信息和其他信息,把握科技發展的最新動向。(2)學識積累與技術儲備能力,包括學習新知識新技術的能力和將新知識新技術理論化系統化重新加工的能力。(3)科技創新能力。事物的發展在于創新,科技的發展更需要創新。(4)知識釋放能力。科研是復雜而繁重的腦力勞動,它具有探索性和創造性。在科研中需要深人的鉆研、探索和創新,攻克理論與技術上的難關,創造出新思想、新理論、新技術、新工藝、新材料、新產品、新軟件等,所有這些都存在一個知識釋放的過程。(5)自適應調節能力。高校科研面向社會、面向經濟建設,應與社會和經濟建設緊密聯系,不斷根據社會的發展調整高校的知識結構、科研隊伍結構以及科研主攻方向等。同時,高校內部各學科之間、各科研機構之間和管理部門之間等也存在互相適應和調節的問題。(6)科學決策能力。高校科研的各環節,從科研方向的確定、優勢的發揮、特色的形成、政策的制定,到課題的選擇與實施、科研人員梯隊組成等無一不需要科學決策。這6方面并不相互獨立,而是互相交叉、互相影響。
總之,靜態科研能力是進行科研活動的基礎和條件,必須通過動態科研能力來釋放;動態科研能力是加工本領、實干技巧。兩者相互促進,缺一不可。影響高校科研能力的因素很多,筆者僅以較為重要的11個影響因素作為評價指標:科研隊伍(A)、科研基地(B)、科技學識及其相應的載體(C)、科研經費(D)、科研管理(E)、信息接收加工能力(F)、學識積累與技術儲備能力(G)、科研技術創新能力(H)、知識釋放能力(I)、自適應調節能力(J)、科學決策能力(K)。高校科研能力(L)用5個等級來評價:很強、較強、一般、較差和很差,分別取值5、4、3、2、1。
三、 關聯規則的Apriori算法
關聯規則是要找出在某一時間或數據中會同時出現的東西:如果Item A是某一事件的一部分,則Item B也出現在該事件中的概率為X%。關聯規則將特定的結論與一系列條件聯系在一起。關聯規則算法自動尋找那些可通過可視化技術手段找到的關聯,如WEB節點,其優點是關聯可存在于數據的任何屬性中,它試圖尋找出多條規則,每條規則都可得出一個相應的結論;其缺點是它試圖在一個可能非常龐大的搜索空間中尋找模型,將耗費很長時間。它運用一種生成—檢驗的方法去尋找規則——最初生成簡單的規則,并被數據集證明是有效的。好的規則被存儲,所有的規則都受到不同的制約,然后被專門化。專門化是一個將條件加入規則的過程。這些新規則接著被數據證實是有效的,而后這個過程反復地存儲尋找到的最佳或最有意義的規則。用戶常對規則中可能的前提數目提出一些限制。基于信息論或有效索引機制基礎上的各種技術,常被用于壓縮存在眾多規則的搜索空間。該過程生成的最佳規則由圖展示出來,但這套規則不能直接用于預測,這是因為規則中有許多不同的結論。由關聯算法得到的關聯規則稱為未精煉的模型。
設I={i1,i2,…,im}為所有項目的集合,D為事務數據庫事務T是一個項目子集(T?哿I)。每一個事務具有唯一的事務標識Tid。設A是一個由項目構成的集合,稱為項集。事務T包含項集A,當且僅當A?哿T。最小支持度minsup即用戶規定的關聯規則必須滿足的最小支持度,它表示了一組物品集在統計意義上的需滿足的最低程度。最小置信度minconf即用戶規定的關聯規則必須滿足的最小置信度,它反應了關聯規則的最低可靠度。關聯規則的挖掘就是在事務數據庫D中找出具有用戶給定的最小支持度minsup和最小置信度minconf的關聯規則。如果項集的支持度超過用戶給定的最小支持度閾值(Minsup),就稱該項集是頻繁項集或大項集。關聯規則有兩個步驟:根據最小支持度閾值找出數據集D中所有頻繁項目集;根據頻繁項目集和最小置信度閾值產生所有關聯規則。關聯規則有多種算法。
Apriori算法只可處理字符型自變量和結果變量。由于其只用字符屬性,可利用智能型子集技術加快搜索速度。它提供五種選擇規則的方法,使用一種復雜的指數方案以有效處理大型數據集。在執行節點前,字段類型必須充分實例化。它對可保留規則數量沒有專門的限制,可處理有多達32個前提的規則。Apriori算法使用層次順序搜索的循環方法(又稱作逐層搜索的迭代方法)產生頻繁項集,即用頻繁k-項集探索產生(k+1)-項集。首先,找出長度為1的頻繁項集,記為L1,L1用于產生頻繁2-項集L2的集合,而用于產生頻繁3-項集L3的,如此循環下去,直到不能找到新的頻繁k-項集。找每個Lk需要掃描數據庫一次。利用如下公式來計算所獲關聯規則的置信度。
其中,support_count(A∪B)是包含項集A∪B的交易記錄數目,support_count(A)是包含項集A的交易記錄數目。利用頻繁項集生成規則的算法描述如下:
for all頻繁k項集lk,k?叟2 do begin
H1={lk中規則的后件,該規則的后件中只有一個項目};
Call ap_genrules(lk,H1);
end;
Procedure ap_genrules(lk:頻繁項集,Hm:m個項目的后件的集合)
if(k>m+1)then begin
Hm+1=apriori_gen(Hm)
for all hm+1∈Hm+1 do begin
conf=support(lk)/support(lk-hm+1);
if(conf?叟minconf) then
output規則lk-hm+1→hm+1 with confidence=conf and support=support(lk)。
對于存在大量頻繁模式、長模式或者最小支持度閉值較小時,Apriori算法將面臨以下不足:算法將花費較大的開銷來處理數目特別巨大的候選項集;多次掃描事務數據庫,需要很大的I/O負載。
四、 實證分析
數據來源于某機構對高校科研能力的調查(見表1),每個指標得分越高,說明該項科研能力越強。由表1可知,30所高校中,科研能力很強的7所,較強的6所,一般的6所,較差的5所,很差的5所。由于關聯規則的Apriori算法需要對字符型變量來提取規則,所以需要對原始數據離散化,離散化的標準是將得分劃分為0-19;20-39;40-59;60-79;80-100五等,見表2。采用Apriori算法,令最低支持度為17%,最小規則置信度為80%,最大前項數為1,得到8條關聯規則,見表3。
五、 結論
由規則1可知,高校科學決策能力較差(20-39)時,該高校的科研能力很差(1);由規則2可知,高校知識釋放能力較差(20-39)時,該高校的科研能力很差(1);由規則3可知,高校科研經費較少(20-39)時,該高校的科研能力很差(1);由規則4可知,高校科研隊伍很強(80-90)時,該高校的科研能力很強(5);由規則5可知,高校科學決策能力較強(60-79時,該高校的科研能力一般(3);由規則6可知,高校知識釋放能力較強(60-79)時,該高校的科研能力較強(4);由規則7可知,高校科研基地一般(40-59)時,該高校的科研能力較差(4);由規則8可知,高校科研隊伍較差(20-39)時,該高校的科研能力很差(1)。由此可知,決定高校科研能力的重要因素是:科研隊伍、科研基地、科研經費、知識釋放能力和科學決策能力,各高校應努力提高這些方面的科研能力,以提高其整體科研實力。
參考文獻:
1. 劉薇薇.國防工業高校科研能力趨勢評價研究.價值工程,2010,(3).
2. 朱文藻.高校科研能力評價指標體系的建立及評價.安徽科技工程學院學報,2003,(9).
3. 謝邦昌.數據挖掘Clementine應用實務.北京:機械工業出版社,2008.
4. 彭珍.一種新的關聯規則挖掘方法.計算機工程與應用,2009,(27).
5. 史峰.MATLAB神經網絡30個案例分析.北京:北京航空航天大學出版社,2010.
6. 劉兵,王雪蓮,戴景新,孟憲春.高等學校科研能力評估方法研究.科學學與科學技術管理,2003,(12):85- 87.
7. 馬凌芳.高校科研管理創新之探討.煤炭經濟研究,2003,(7):49.
8. 趙敏,馬衛華.面向技術創新的高校科研管理工作探索及實踐.科技進步與對策,2003,(18):89-91.
9. 金明珠,邢丹英.高校科研管理創新的認識與實踐.科技與管理,2003,(4):143-144.
10. 馬修水,沈徽青.普通高校科研管理值得注意的幾個問題.中國科技論壇,2003,(1):111-112,130.
11. 葉俊黔.以人為本.創新高校科研管理理念.成都理工大學學報(自然科學版),2003,(S1):41-43.
基金項目:教育部人文社科青年基金項目(編號:10YZC790367);北京市教育科學課題(編號:CCA10088)。
作者簡介:張曾蓮,北京科技大學經濟管理學院講師、碩士生導師,管理科學與工程在站博士后,廈門大學會計學博士。
收稿日期:2010-12-18。