劉占波,王立偉,王曉麗
(牡丹江醫學院,黑龍江牡丹江,157011)
大數據環境下基于數據挖掘技術的高校科研管理系統的設計
劉占波,王立偉,王曉麗
(牡丹江醫學院,黑龍江牡丹江,157011)
本文簡要分析了目前高校科研管理現狀;介紹了大數據與數據挖掘技術;給出了大數據環境下高校科研管理系統的設計方案。
科研管理;大數據;數據挖掘
近年來,大數據技術引起了科技界、產業界和政府部門的高度關注。Nature和Science 等國際頂級學術刊物相繼出版專刊來探討對大數據的研究,大數據的開發與利用已經在教育、科研和醫療等行業中展開。
隨著數據量的與日俱增, 科研管理數據庫中蘊藏著大量的信息資源,需要有更先進的技術對海量數據進行挖掘以發揮科研數據潛能,從中迅速提取出有價值的信息以指導和輔助科研管理。因此,有必要在科研管理中引入數據挖掘技術,以提高科研管理的水平和能力。
隨著高校信息化建設的不斷推進, 高校內部運行著的各種系統和各類數據庫,如教務系統、學工系統、人事系統及科研管理系統等。而各個系統間各自為政,數據共享性差,存在嚴重的信息孤島。而科研管理系統通常又包括項目管理系統、經費管理系統和成果管理系統等多個子系統,各子系統數據獨立存儲,無關聯性,嚴重影響了科研數據的挖掘利用。在功能上,科研管理系統主要集中在數據的收集、查詢、管理、導出、打印等單一功能。隨著數據容量的與日俱增,系統對海量數據的分析統計功能簡單、缺少對數據的關聯分析、挖掘利用與決策支持等功能。目前的高校科研管理在一定程度上滯后于科研本身的發展或阻礙著高校科研的發展。
所謂大數據,就是用現有的一般技術難以管理的大量數據的集合。大數據的特征,通常用四個V開頭的關鍵詞來描述,一是Volume(容量),也就是數據體量大;二是Variety(多樣性),即數據類型繁多;三是Velocity(速度),數據產生和更新的頻率快;四是Value(價值),數據價值密度低,即海量的數據可能包含極少量的有價值的信息。所以,如何高效提取這些有價值的信息是關鍵。大數據技術是網絡技術、數據庫技術和人工智能技術的有效結合,是解決數據豐富而知識貧乏的有效途徑,其實質是從數據中提取隱含的、未知的和潛在有用信息的過程,被公認為是數據庫研究中的一個極富應用前景的新領域。
數據挖掘是從大量數據中發掘有趣模式和知識的過程,數據源包括數據庫、數據倉庫、Web、其它信息存儲庫或動態地流入系統的數據。目前,數據倉庫和數據挖掘已成為學術研究、商業應用以及行政管理的熱點。數據挖掘技術在國內外大型商業、金融、工業、郵電和科研等部門得到廣泛應用。在科研管理中引入數據挖掘技術,是解決科研數據豐富而知識貧乏的有效途徑,可為高校科研管理提供決策支持。
4.1數據標準化
近年來,高校科研事業快速健康發展,科研及相關數據容量越來越大,蘊含的信息越來越多,數據挖掘技術的有效利用將成為高校科研發展的關鍵因素。為了更好的實施數據挖掘技術,必需對科研數據進行標準化處理和相關關聯參數的設置。比如:科研項目的項目名稱、立項時間、項目起止時間、經費和關鍵詞等。標準化數據將有利于科研數據的收集、比對、整理、分析及數據挖掘技術的有效應用。
4.2系統的主要功能高校科研管理系統主要劃分成如下模塊:項目申報模塊、項目管理模塊、成果管理模塊、成果獲獎模塊、學術交流模塊、數據挖掘模塊和系統管理模塊等。項目申報模塊:實現校內科研項目的申報、審核、評審、立項等功能。項目管理模塊:實現科研項目信息的錄入、查詢、管理(項目的暫停、中止與結題等)、數據分析與統計和科研經費管理等功能。其中科研經費管理包括科研經費的進帳、提取、支出與結轉四個方面。成果管理模塊:科研成果是高校從事科研活動的主要結果,能夠反映高校的整體科研水平。該模塊主要功能是實現著作、論文、專利與鑒定成果等信息的錄入、查詢、管理與數據分析等。成果獲獎模塊:主要功能是記錄成果報獎信息與成果的獲獎信息,并對相關信息進查詢、管理、統計與分析等。學術交流模塊:該模塊涉及到學術會議(舉辦/參加)、受聘講學(派遣/接受)、訪問考察(派遣/接受)、進修學習(派遣/接受)四個方面。數據挖掘模塊:對科研數據進行不同維度的數據挖掘,為科研管理提供決策支持。系統管理模塊:為系統管理員及部門、科室管理員提供實時監控系統運行的狀態,包括系統相關參數、開關、用戶權限的設置及系統基本信息、用戶數據、系統日志及數據庫的管理與維護等功能。
4.3關鍵技術
系統采用基于Microsoft .NET技術的B/S(瀏覽器/服務器)模式運行,用戶通過瀏覽器就可以實現科研數據的管理與維護;系統前臺web頁面采用Microsoft Visual Studio 2010開發環境進行設計與制作;系統后臺科研與成果數據庫采用Microsoft SQL Server 2008進行數據庫設計與數據的存儲。系統通過數據挖掘技術對數據進行分析、整理,最終形成數據分析報告。
4.4數據挖掘算法
系統擬采用的數據挖掘算法包括:(1)Apriori算法,是一種最有影響的挖掘布爾關聯規則的算法。該關聯規則在分類上屬于單維、單層、布爾關聯規則。(2)C4.5算法,是機器學習算法中的一種分類決策樹算法,機器學習中,決策樹是一個預測模型;它代表的是對象屬性與對象值之間的一種映射關系。(3)貝葉斯分類的基礎是概率推理,就是在各種條件的存在不確定,僅知其出現概率的情況下,如何完成推理和決策任務。通過上述數據挖掘算法實現對科研數據關聯性的分析及數據的深度挖掘,并對高校科研管理工作提供決策支持。
本系統除實現科研管理的基本功能之外,主要實現從不同角度,依據不同參數對科研數據的關聯性等方面的研究。并使用不同的數據挖掘算法對科研數據進行分析與數據挖掘,為高校的科研管理提供決策支持,解決信息孤島等問題。
[1]許哲軍,大數據環境下的高校科研管理信息化探索[J]. 技術與創新管理,2014,2(35):112-114.
[2]郭卜銘,高校科研管理中的數據挖掘技術及應用[J].科技與產業,2007,6(7):38-40.
[3]王鳴,科研管理信息系統的數據挖掘應用探討[J].瓊州學院學報,2014,2(20):152-153.
[4]郭卜銘,高校科研管理中的數據挖掘技術及應用[J].科技與產業,2007,6(7):38-41.
[5]查東輝,數據挖掘在高校教務及科研管理中的應用[J].科技管理研究,2009,4:109-110.
[6]徐守軍,數據挖掘技術在科研管理中應用前景初探[J].中學醫學科研管理雜志,2005,4(18),214-216.
Design of Scientific Research Management System Based on Data Mining Under Big Data Environment
Liu Zhanbo, Wang Liwei, Wang Xiaoli
(Mudanjiang Medical University, Mudanjiang, 157011)
This paper briefly analyzes the present situation of scientific research management in universities, introduces the big data and data mining technology, and presents the design scheme of university scientific research management system under the environment of big data.
Scientific research management; Big data; Data mining
牡丹江市科學技術計劃項目(Z2015g0001);黑龍江省學位與研究生教育教學改革研究項目(JGXM_HLJ_2015136);牡丹江醫學院科學技術研究項目(ZS201503)。