摘要:文章主要介紹了數據挖掘的概念,分析了當前高校科研管理工作的現狀和存在的主要問題,提出應用數據挖掘技術來分析教師的職稱、學歷、科研工作量數據之間潛在的關聯規則,對科研工作安排可以起到輔助決策的作用。
關鍵詞:數據挖掘;關聯規則;科研管理
1.引言
數據挖掘就是從大量的、不完全的、有噪聲的、模糊的、隨機的實際應用數據中,提取隱含在其中的、未知的、非平凡的、極有潛在應用價值的信息或模式的過程。
關聯規則是數據庫中存在的一類重要的可以被發現的知識。若兩個或多個變量的取值之間存在某種規律性,就稱為關聯。關聯分析的目的是找出數據庫中隱藏的關聯網。
2.科研管理的現狀
高等院校的科研管理數據庫中蘊藏著大量的信息資源。這些數據主要是以各級管理部門提供的統計報表和簡單信息查詢方式存在,對這些數據所隱含的價值并沒有充分挖掘利用,需要有新的、更有效的技術對大量數據進行挖掘以發揮其潛能,從中迅速萃取有用的信息以指導和輔助科研管理。因此,有必要在科研管理中引入數據挖掘技術,以提高高校科研管理的水平和能力。
3.數據挖掘技術的應用
(1)總體方案
高校科研數據挖掘系統基于SQL Server來構建數據挖掘模塊。系統主要由學校局域網內部用戶使用,采用C/S結構,將數據挖掘數據源組織存儲在服務器端數據庫,而數據挖掘模塊在客戶端編寫應用程序實現。
①組織數據源
將源數據經過選取、預處理統一有序的存儲到服務器端數據庫中,為數據挖掘做好數據準備工作。
②選擇挖掘算法并在應用程序中實現該算法
③應用程序與服務器上的數據庫進行數據交互。
(2)數據處理
挖掘的源數據來自科研管理系統中與教師學歷、職稱,科研成果統計有關的數據表。
數據處理模塊主要負責對待挖掘的數據源作必要的準備,將挖掘系統要處理的有關科研管理的數據轉化為符合關聯規則挖掘要求的待挖掘數據。數據處理主要包括三個步驟:數據清理、數據集成和數據變換。主要是改正數據中的錯誤、填充空值,將需要的多個數據集成在同一張表中并進行標準化處理;進行數據變換,對需要變換的數值數據離散化,最后形成能夠進行挖掘的有效數據。
①數據清理
高校科研數據挖掘主要是對教學崗位上的教師科研信息進行關聯規則挖掘,行政管理人員、實驗技術人員、專職政工人員的信息與挖掘目的無關,屬于無效記錄,將這些記錄刪除。
部分在職取得碩士學位人員沒有研究生學歷。但他們具有相應的學習經歷,這部分教師的學歷應該取碩士研究生。試用期教師無職稱,他們的職稱屬性是空值。對于這部分教師,如果其學歷是博士,則職稱取講師,其他試用期人員的職稱取助教。
②數據集成
高校科研數據挖掘中用到的教師個人信息、科研成果數據來自不同的數據表。在數據挖掘實施前,把教師的職稱、學歷、科研工作量數據集中存儲在一個科研信息表中,各表中的數據通過關鍵字編號唯一匹配并連接在一起。教師的科研工作量由教師參與的科研項目、發表論文、出版著作情況合并而成,需要對其進行標準化處理,形成一個高質量的數據源,以利于輔助決策分析。根據教師參與項目、發表論文、出版著作的檔次和位次,分別用系數來對教師的科研成果進行換算,利用換算以后系數之和來表示科研工作量。
③數據變換
對于一般的關系型數據庫而言,連續的數值型數據是必須考慮的問題。經過數據集成后的科研信息表中既包含了分類屬性又包含了數值屬性。將科研信息表中的分類和數值屬性離散化,把關系數據表轉換成事務數據表。
(3)數據挖掘
輸入挖掘需要的參數,使用Adapted Apriori算法進行挖掘。這一階段首先產生候選項目集,然后掃描事務數據庫,計算各候選項目的支持度,生成頻繁項目集;由頻繁項目集產生關聯規則,計算規則的可信度和興趣度,產生感興趣的關聯規則。
(4)規則分析
以某職業院校的科研數據為例,選定最小支持度=15%,最小可信度=75%,得到的規則是:
副教授,本科 及格;
助教,碩士 稍差。
①副教授,本科 及格
這部分教師教齡比較長,知識和經驗積累較多。但缺少高層次教育的經歷,接觸科技前沿知識較少和創新能力較弱,學習經歷影響了科研工作。建議學校應積極鼓勵這類教師,攻讀碩士、博士學位。讓其有時間、有條件提高學歷層次,更多地接觸科技前沿知識,培養他們成為科研骨干。
②助教,碩士 稍差
碩士研究生系統地學習了專業內的高層次知識,具備一定的創新能力,但缺少知識的積累和經驗的沉淀。針對這類教師可多給予學術訪問和合作研究的機會,培養和促進這些高學歷教師早日成為學術骨干。
4.總結
開展科研能夠更新和提高教師的業務知識水平,并能及時地應用于理論課堂教學及實驗教學中,從而促進教學質量的提高,對學生、教師個人及對學校整體的發展都將起著積極的推動作用。在科研管理中引入數據挖掘技術,能夠充分利用數據所隱含的價值,為領導者制定決策提供科學的依據,以提高高校科研管理的水平和能力。
參考文獻:
[1]陳京民等,數據倉庫與數據挖掘技術[M].北京:電子工業出版社
[2]安淑芝等.數據倉庫與數據挖掘[M].北京:清華大學出版社
[3]劉同明等.數據挖掘技術及其應用[M].北京:國防工業出版社
作者簡介:
王萌(1981-),男,山東昌邑人,碩士,濰坊學院數學與信息科學學院講師。