葉常青


摘 要:由于各種原因,ERP系統中員工技能等級信息缺失、錯誤較多。借助數據挖掘軟件開展技能等級信息核查,借助CRISP-DM標準的六個數據挖掘環節(業務理解、數據理解、數據準備、建模、評估、部署)進行數據挖掘,依據原勞動和社會保障部印發的《職業技能鑒定考務管理編碼方案》中對職業資格證書編碼的規定,對證書編碼進行邏輯校驗。最后,對核查過程中發現的不符合要求(不完整、不準確)的技能等級信息記錄進行標識,進行重點核查,進而大大減輕工作量、提高準確程度。
關鍵詞:數據挖掘 信息核查 計算機技術 軟件
中圖分類號:TP311 文獻標識碼:A 文章編號:1672-3791(2015)05(b)-0030-02
為提高ERP系統中人員技能等級信息的完整性和準確性,我們借助數據挖掘軟件開展ERP技能等級信息數據核查。在核查過程中,我們借助Clementine軟件,大大提高了工作效率。
Clementine是SPSS公司開發的一款著名且非常實用的數據挖掘軟件,它提供了可視化、功能強大且易用的數據挖掘平臺,將聚類、決策樹、神經網絡、關聯規則等一系列數據處理程序或技術整合成相互獨立的模塊,并集成在可視化圖形界面中。用戶在建立數據挖掘模型過程中只需把不同類型、功能各異的節點按照一定的順序連接在一起即可,簡單易用。由于不需要編程就可以完成數據挖掘模型的建立工作,用戶可以將更多的精力集中在擬具體解決的業務問題上,而不是工具軟件的使用上。
Clementine數據挖掘流程完全支持CRISP-DM標準。CRISP-DM將一個數據挖掘生命周期分成六個階段:業務理解、數據理解、數據準備、建模、評估、部署。
下面,我們按照CRISP-DM標準,逐步開展技能等級信息核查。先通過Clementine選出有疑問的記錄,對具體有疑問的證書信息,再與證書頒發機構發布信息逐一核對。
1 業務理解
開展技能等級信息核查,主要是對ERP系統維護的技能等級信息完整性、準確性進行核查。其中:⑴完整性:主要就所維護的技能等級信息中技能鑒定工種名稱、工種編碼、資格等級、證書編號、批準單位、批準日期等6個信息項是否完整就行判斷;⑵準確性:主要依據原勞動和社會保障部印發的《職業技能鑒定考務管理編碼方案》中對職業資格證書編碼的規定,對2001年以后取得的證書編碼進行證書核發年份、鑒定機構、證書類別(等級)、證書編號是否重復等邏輯校驗;⑶在準確性判斷的基礎上,對個別證書通過與鑒定機構確認,進一步確定其準確性。核查過程中度不符合要求(不完整、不準確)的技能等級信息記錄進行標識,要求證書持有人提供佐證材料進行確認。為便于業務理解,我們對技能等級信息核查流程進行了梳理。詳見圖2
2 數據理解
從ERP系統中導出的人員技能等級信息項有:人員號、人事子范圍、姓名、開始日期、結束日期、申報年度、技能鑒定工種名稱、工種代碼、資格等級、證書編號、批準單位、批準日期、取得方式、是否最高技能等級等字段信息,篩選出技能鑒定工種名稱、工種編碼、資格等級、證書編號、批準單位、批準日期、申報年度等7個信息項進行完整性判斷,再對證書核發年份、鑒定機構、證書類別(等級)等進行證書編碼規則校驗。
3 數據準備
在獲得人員技能等級有關信息數據后,過濾掉人員號、人事子范圍、姓名、開始日期、結束日期、申報年度、取得方式、是否最高技能等級等字段信息,篩選出技能鑒定工種名稱、工種編碼、資格等級、證書編號、批準單位、批準日期、申報年度等7個信息項。為便于比較,需將技能等級字段、證號等字符型字段信息轉換為整數型,同時增加用于保存“是否特有工種”、“證號是否重復”、“結論”等用于保存判斷結果字段,并初始化為空字符。
4 建模
根據技能等級信息核查流程,我們建立了Clementine流文件。
在主流程中,我們使用了兩個超級節點,分別進行證書編號是否重復判斷、批準單位是否準確判斷。在“證書編號是否重復判斷”流程中:首先將字符型字段“證書編號”轉換為整數型字段“新證號”,對“新證號”進行升序排序,判斷前后兩個記錄的“新證號”是否相等(相減是否為零),相等的則在“結論”字段標注“證號重復”;接著再對“新證號”進行降序排序,同樣如果前后兩個記錄的“新證號”相等,也在“結論”字段相應標注“證號重復”。
在“批準單位是否準確”判斷流程中,首先選擇字段“批準單位”為空的記錄,在“結論”字段標注“批準單位為空”;接著,依次選取“批準單位”為“電力行業職業技能鑒定指導中心”(以下簡稱行業指導中心)、“福建省職業技能鑒定指導中心”(以下簡稱省指導中心)、“福建省電力行業職業技能鑒定中心”(以下簡稱鑒定中心)的記錄,進行證號與鑒定機構識別代碼、鑒定機構序號編碼一致性判斷,如不一致,則在“結論”字段標注“批準單位信息有誤”;最后,對批準單位為其它情況的記錄,在“結論”字段標注“批準單位不準確”。
5 評估
在Clementine執行技能等級信息核查流程,以往在Excel中每次需要4、5個小時才能完成核查工作的,Clementine僅用了15秒就生成核查結果,10269條員工技能等級信息記錄中共有5506條記錄不符合核查要求。其中絕大部分為未按要求維護造成,如批準日期為空的記錄就有1802條、申報年度為空的記錄有2262個。
6 部署
從“輸出”表中導出所有記錄到Excel,發給各單位進行核對。
7 結語
從上面的數據挖掘過程可以看出,Clementine數據流對某個數據的處理思路和excel或編程其實是一樣的,不同的是,Clementine將任務流程化,一個節點對應一個處理,數據源或者處理字段有什么變動,只要在界面上修改節點設置即可,而不必去重復一些無謂的操作。如為減少調試時間,提高效率,可以在流程中增加樣本節點,在調試階段僅對10%或20%的記錄進行核查。對于需要多種規則校驗且需要重復開展的工作,使用Clementine可以大大提高運行效率。它要比excel更易用更高效,而且處理方法有重用性,即這次構建的數據流經保存后可在下一個類似任務中稍做修改便可使用,或者一條數據流可以支持相似數據的分析。
參考文獻
[1] Clementinea 12.0 Clementine Users Guide[Z].
[2] 張雪英.國外先進數據挖掘工具的比較分析[J].計算機工程,2003,29(16):1-3.
[3] (加)Jiawei Han,Micheline Kamber.數據挖掘概念與技術[M].北京:機械工業出版社,2006.