摘要:隨著計算機技術的進步,許多高校相繼建立了日益完善的人事信息管理系統,積累了大量的完整數據。本文以教職工信息庫作為基礎信息來處理的,通過對整個院系(或學科)的教職工的個人信息進行加工處理、運用統計方法對每一個學科的院系(或學科)分別進行聚合、挖掘。從而找出影響學科發展的因素及各因素間的關聯關系。
關鍵詞:高等學校;人事管理;數據庫技術;應用研究
中圖分類號:G203文獻標識碼:A文章編號:1009-3044(2008)05-10ppp-0c
1 引言
隨著計算機技術的進步,許多高校相繼建立了日益完善的人事信息管理系統,積累了大量的完整數據。目前,這些數據的主要用途是向各級管理部門提供各類統計報表和信息查詢,但對這些數據所隱藏的價值沒有挖掘利用,十分可惜。借用計算機和數據庫管理手段,實現人事管理目錄信息的計算機化和網絡化管理。它包括建立人事檔案部局域網環境,加強部門內部人員之間的信息溝通和網絡化應用:建立人事管理數據庫,實現人事管理目錄信息的統一管理:實現對人事管理基本信息的增、刪、查、存、轉等操作以及統計、打印等功能:采用條碼技術實現檔案盤點功能:整合現在文件級數據,將單機版數據加載到網絡數據庫中,實現人事管理數據的集中存放和統一模式的管理。本文以高校人事信息庫為對象,研究數據挖掘的方法。以圖“透過現象看本質”,找出有價值的信息,為管理決策者提供參考。
2 高校人事管理數據庫概述
高校人事信息庫是由幾個子庫組成的,這些子庫按照級別分:院系(或學科)信息庫和院系的教職工信息庫。院系(或學科)信息庫稱院系情況信息庫,它由下列字段組成:學科(或系)代號,學科(或系)名稱,學科(或系)在全國的學術排名。建立時間,教職工總數,教學人員編制數,教學人員實有人數。科研人員編制數,科研人員實有數,文獻總量,文獻購置費,儀器設置總值,大型儀器設備臺件數,國家級重點實驗室個數,本科生總數,碩士生總數,博士研究生總數,留學生總數,其他學生數,學科帶頭人年齡,學歷、性別等,是院系(或學科)的基本情況庫。
院系(或學科)的教職工信息庫是由教職工基本情況庫、教職工來源情況庫、工作簡歷情況庫等22個子庫組成,這些情況庫是反映每位教職工的各方面情況的檔案庫。這些庫中有些情況是不會變化的,如:出生年月、性別、民族、出生地等;有些情況變化頻率不高,如部門、室科組、來源情況,婚姻狀況等;有些情況變化頻率較高,如教學工作情況、獎懲情況、發表論著情況等。如果對所有的情況一并對待不利于數據挖掘。本文并未對上述教職工信息庫進行直接挖掘,而是以它作為基礎信息來處理的,通過對整個院系(或學科)的教職工的個人信息進行加工處理、運用統計方法對每一個學科的院系(或學科)分別進行聚合、挖掘目的是:找出影響學科發展的因素及各因素間的關聯關系。
3 用關聯規則發現技術對人事信息庫進行挖掘
關聯規則技術是數據挖掘領域的一個重要方法,其方法和算法近幾年研究較多。所謂關聯規則就是描述數據庫中數據項(屬性,變量)之間所存在的(潛在)關系的規則。根據人事工作戰線上的老同志的經驗,在人事管理中,發現一些平時并不能引起注意的因系(或規則),具有十分重要的意義。設一個項目的集合I為數據庫D中所有的120個項目的集合,每一個記錄中的項都是按字典順序存儲的。數據庫D中的一個記錄T(即T含40個項),T I,T與一個唯一標識符Tid相聯系(即記錄的形式是
關聯規則發現算法的主要問題是通過怎樣的算法找出所有強項集(large item sets),然后找出有效關聯規則。所以挖掘所有有效關聯規則的問題可分為兩個子問題:① 尋找所有的支持度大于最小支持度的項集,即尋找所有的強項集;②用這些強項集去產生想法的規則。第二個問題相對容易解決。
4 算法討論
Agrawal等人幾年前提出了關聯規則的發現算法AIS和SETM,1994年又提出了改進算法Apfiofi和ApnofiTid。AIS和SETM算法都是在將記錄數據讀人數據庫的過程中迅速生成候選數據項集。在讀人新的記錄數據后,就要決定前次過程中的強的數據項集中的哪些應該和這些讀入的記錄數據中的數據組合,以產生新的候選數據項集。這種方法的缺點是導致許多不必要的數據項集的生成和計數。而Apriori和AprioriTid算法只利用前次過程中生成的強的數據項集來生成新的候選數據項集,因此具有k個數據項的候選數據項集可以通過對具有k-1個數據項的強數據項集組合而生成,刪除了那些包含任一k-1子項集不強的數據項集。所產生的候選數據項集要小得多,提高了算法的效率。
文獻給出了多層關聯規則的發現算法ML_T2T1,ML_T1TA,ML_T ML4和ML_T2TA 這幾個算法與Agrawal等人的算法不同在于彩了層次優化技術。而層次算法的缺點是層次是由系統早已定好的。不利于挖掘一些人們從未想到過的有效規則。
Apriofi和AprioriTid算法不考慮數據庫中具體的記錄來生成候選集。僅僅考慮在上一次掃描中發現為強的項集,用它們生成候選項集并在本次掃描中計數。指導思想是任一強項集的子集必定是強的。因此,由k個項組成的候選項集是由k-1個項組成的強項集生成的。并且刪除那些包含任何不強子集的項集。這一過程會導致產生更少數量的候選結果。
Apriori算法中的Apriori-gen函數是一個極優秀的生成候選項函數,它幾乎生成了不可能再少的候選項集,也一直被后來的研究者引用。可以說Apriori-gen函數是Apriori算法的精華,其缺點是掃描數據庫D次數很高,尤其是當數據庫D非常大時,I/O量很大,會引起系統顛簸和性能降低。
AprioriTid算法根據記錄編碼Tid,對掃描數據庫作了一些改進,尤其是當k較大時,生成Ck比原數據庫D要小得多,大大提高了速度,但是當k較小,特別是候選項占所有項目的比較較大,這樣生成的C 就比原數據庫D要大得多,性能就極差,同樣CPU與I/O的開銷也非常大。
后來,A?Sowasere等人提出Paritition算法,這個算法對非常大的數據庫較適合,減少了I/O開銷。Paritition算法與以前的算法根本不同之處是它最多只需要讀取數據庫二次就能生成所有有意義的規則,而以前的處落地掃描數據庫的次數能生成所有有意義的規則,而以前的算法掃描數據庫的次數根本無法先確定,并且這個算法適合構成并行算法。它的基本思想是根據計算機的內存大小和數據庫D本身的某些性能,對數據庫D進行分區。算法一次讀取是一個分區而不是一個記錄,并對每個分區求強項集。然后把每個分區的強項集合在一起作為候選項集,再掃描數據庫D,計算這些候選項集的支持度,確定強項集,它的理論依據是:對整個數據庫D的任一強項集它必定會是至少某個分區的強項集。數據庫D數據量越大,分區算法的優點就越明顯。
Paritition算法的缺點也是很明顯的:①如果數據庫D中的數據性能不好,尤其是對交易數據庫D,因為超市中商品的銷售肯定與季節有關,如果分區方法剛好與某個季節和氣候有關,那么在這個分區里強的項集,在其他分區里很有可能不強,這樣生成的候選項集將是相當大,但對整個數據庫D來說真正強的項集相對這個候選項集來說可能很小。這樣在第二次掃描時將大大增加CPU和I/O的開銷。對人事數據庫也同樣,對進人與退休的高峰期,數據庫性能就不一定好,還有各種原因都不能保證數據性能很好;②大部分強項集在上次掃描時都已經在某些分區中計過數,但在第二次掃描時,這些信息都丟失了。這樣就增加了CPU的開銷;③當支持度較小時,算法的效果較差。
本文吸取了上述算法優點,結合人事數據庫的特點,提出了Tid-optim(optimize algorithm by tidlist)算法。Tid-optim算法的特點是只掃描數據庫D一次,計算所有的強一項集Ll,然后根據這次掃描產生的強項集的tidlist,迅速產生候選項集,并同時計算出它的支持度,從而大大地提高了速度。
掃描數據庫D時,候選項集集合C1為所有的項集I,計算出所有強一項集L1,掃描時,除了對候選項集計數外,同時記下包含該候選項集記錄的TID,存入該候選項集的tidlist中,tidlist中的條目數量就是這個候選項集的支持度。Support=/tidlist/(/tidlist/為tidlist中條目的數量),那么候選k+l項集并剪枝后,對產生這個候選k+l項集的兩個強k項子集的tidlist進行交運算,得到這個候選k+l項集的tidlist。例如,對候選項集(abcd)和tidlist是通過(abc)的tidlist與(abd)的tidhst連接產生的,Tid-option算法如下:
while /Lk-1/≥ do {for-all 11∈lk-1
5 模式解釋
當對所采集和整理的數據進行挖掘時,對于不同的最小支持度(minsup)和最小里信度(minconf)所得到的規則集是不同的。通過對minsup和minconf的調整,使規則逐步聚焦到真正感興趣的關聯上去。通過對所收集的幾十所高校人事數據的實驗,把minsup定為14.3%,minconf定為71.6%。發現所挖掘的關聯規則結果對實際工作具有重要的指導意義。
參考文獻:
[1]周軍,歐陽一鳴,楊保俊,等.安徽省高校教職工信息管理分析系統的開發與應用[J].安慶師范學院學報(自然科學版),2007,13(1): 40-43.
[2]黃梯云,李一軍.管理信息系統(修訂版)[M].北京:高等教育出版社,2000.
[3]周君毅,毛勇峰.上海市高校教職工信息系統的設計[J]. 上海工程技術大學學報, 2000, 14(2):123-131.
[4]吳仕毅,張昌應. 廣東省高校教職工人事管理信息系統設計與實施方案簡介[J]. 中山大學學報論叢,1997(3):131-134.
[5]郭樹東,張偉, 沈永清等. 高等院校科技管理信息系統網絡化的設計與實施[J].北方交通大學學報,2000, 24(3):126-130.
[6]馮玉琳,趙保華.軟件工程——方法、工具和實踐[M].安徽:中國科技大學出版社,1992.
收稿日期:2008-01-12
作者簡介:程國建(1964-),男,陜西西安人,副教授職稱,博士學位,研究方向:人工智能與專家系統;陳華(1978-),女,陜西西安人,學士學位,在讀研究生,研究方向:網絡安全及計算機技術。