數據挖掘在高校資產管理中的應用

2011-01-01 00:00:00袁雋媛

中國管理信息化 2011年5期

［摘要］進行高校資產數據挖掘與分析研究，能更好地為高校管理、高校決策提供科學依據。本文分析了高校資產管理的現狀與特點，構建了高校資產數據倉庫雪花模型，挖掘出高校資產管理指標之間的關聯規則，并對該數據挖掘模型進行評價，在實際應用中取得了良好效果。

［關鍵詞］高校資產；數據倉庫；數據挖掘；雪花模型；關聯規則

doi : 10 . 3969 / j . issn . 1673 - 0194 . 2011 . 05 . 013

［中圖分類號］G475；TP311.131 ［文獻標識碼］A ［文章編號］1673 - 0194（2011）05- 0026- 03

１概述

高校資產信息管理系統中的數據客觀記錄了高校所有資產的歷史情況和現狀，同時也隱含著各種資產的特點，蘊藏著學校的發展規律和趨勢。然而現階段高校各部門一般采用不同的數據庫，數據整合困難，無法實現不同系統跨平臺信息的共享與交互，無法實現面向主題的數據分析，從而無法更多更好地利用數據資源。為了充分利用這些積累的記錄信息，從中發現有用的知識，獲得潛在的規律，為高校資產管理和決策提供科學參考，需要建立一個分析決策系統。而實現分析決策系統的主要技術就是數據倉庫和數據挖掘。

數據挖掘是指從大量數據中提取或發現知識［１］。數據挖掘通過一些模型和智能方法，從大量數據中提取、識別用戶真正感興趣的、新穎的、潛在有用的模式，提供給用戶作為決策的依據和參考。

數據倉庫與數據挖掘技術已被廣泛應用于商業領域，但用于高校資產管理領域的卻很少。本文通過構建高校資產數據倉庫模型，對資產管理指標的相關屬性進行分析，通過數據挖掘得出了資產管理指標之間存在的一些強關聯規則，各規則的信任度均達到７０％以上。

２高校資產數據倉庫邏輯模型

數據倉庫多維數據集能對數據倉庫中的所有數據提供統一的和集成的視圖，可作為傳統報表、聯機分析處理和數據挖掘的基礎。數據倉庫的邏輯模型包括事實表和維度表，事實表描述挖掘主題包涵的多個角度，維度表則從不同角度描述挖掘主題的相關數據［２］。結合高校資產挖掘主題與資產信息數據的特點，高校資產數據倉庫的邏輯模型采用了雪花模型結構，如圖１所示。“資產數據事實表”與“部門表”、“資產編碼表”、“資產分級表”、“時間表”4個主維度表關聯，“部門表”、“資產編碼表”和“資產分級表”還分別有“上級部門表”、“資產類別表”和“資產指標表”3個二級維度表，其中“資產類別表”還有三級維度表“資產大類表”。建立這種多級維度表不但可以降低數據倉庫的數據冗余度，減少數據量，保證數據一致性，還有利于改變數據粒度，實現靈活粒度的數據挖掘。

數據挖掘如果建立在原始數據水平或較低的維層次上，則此時數據粒度小，挖掘速度慢，挖掘得到的規則繁雜，難以理解；如果數據從低維層次抽象到高維層次，對較高維層次數據進行挖掘，則此時數據粒度大，挖掘速度快，得到的規則泛化程度高，便于宏觀理解。因此通常在高維層次上進行挖掘，必要時再進行較低維層次上的挖掘［３］。

３數據屬性歸約及取值

３．１數據屬性歸約

高校的資產數據按教育部規定分為16類，對這些資產進行管理非常繁雜，根據實際我們選取以下4個管理指標以利于資產數據挖掘：

（１）資產購建價值，用Ａ表示。它是購買或建造資產的原值。理論上同類資產價值高的要比價值低的使用壽命長。

（２）資產剩余使用年限率，用Ｂ表示。每種資產都有一定的使用年限，使用中每年提取折舊，當到達規定的使用年限后該資產一般只剩下很少的殘值，原則上也就報廢了。資產剩余使用年限率反映了資產的剩余使用年限，是資產管理的一個重要指標。

（３）資產每年使用率，用Ｃ表示。不同的資產每年的使用率各不相同，有的長年使用，如房屋和家具等；有的一年才使用幾次，如某些實驗儀器設備。同樣的資產使用次數多的肯定比使用次數少的容易壞。

（４）資產質量評估值，用Ｄ表示。每年由相關人員對每種資產進行一次評估，評估該資產當時的性能和好壞程度。

３．２資產管理指標數據的取值

對資產管理的4個指標值采用統一的分級，分為“一級”、“二級”、“三級”、“四級”、“五級”５個等級，分別用１、２、３、４、５表示，對指標數據的取值采取分類轉換。

（１）同一類資產的購建價值會因品牌種類、購建時間、市場行情等因素的影響而不同，一線品牌中的高檔資產購建價值肯定高，定為一級；一線品牌中的中檔資產或二線品牌中的高檔資產定為二級；二線品牌中的中檔資產或非品牌中的高檔資產定為三級；非品牌中的中檔資產定為四級；淘汰產品、試用品或非正規單位生產的產品定為五級。

（２）會計上對資產的使用年限沒有明確規定，資產折舊的年限通常是分大類按稅務規定進行計算的：一般房屋為２０年；生產設備為１０年；工具、家具為５年；電子設備為３年；低值易耗品為１年。這個規定與實際使用年限相比是偏低的，因此將規定使用年限近似平均分成5個區間，其中第五區間包括規定使用年限到期后仍在使用的那段時間。每個區間數按年取整，如不為整則在購建初的第一區間多分配一點時間。資產剩余使用年限率＝（稅務規定使用年限－已使用年限）／稅務規定使用年限。將數值型數據離散化后分區計算資產剩余使用年限率，結果各類資產剩余使用年限率基本近似，各區間取值（１，０．８］，（０．８，０．６］，（０．６，０．４］，（０．４，０．２］，（０．２，０］，依次定為一級、二級、三級、四級、五級，如房屋從新建起使用（０，４］年為一級，（４，８］年為二級，（８，１２］年為三級，（１２，１６］年為四級，＞１６年為五級。

（３）資產每年使用率由使用資產的負責人在每年年中依據使用記錄對每種資產作出評價，平均分成五級，使用最少的為一級，它的使用壽命相應就長；使用最多的為五級，它的使用壽命相應就短。

（４）對資產質量進行評估的相關人員在每年年中時對每種資產的性能和好壞進行一次評估，評估的結果值也分成五級，最好的為一級，最差的為五級，五級意味著不能再使用。

根據以上分析，高校的每種資產可以描述如下：（資產編號，購建價值，剩余使用年限率，每年使用率，資產評估值）。例如：（４１５０１２，Ａ１，Ｂ３，Ｃ１，Ｄ２）表示資產號為４１５０１２的資產，其購建價值一級，剩余使用年限率三級，每年使用率一級，質量評估值二級。

實例：２００８年某學院的實驗室正在使用的計算機有１２６臺，當年各項管理指標分級情況和計算機數量之間的關系如表１所示。

４數據挖掘

本文對高校資產進行關聯規則挖掘，頻繁數據項集的生成采用Ａｐｒｉｏｒｉ算法。

４．１Ａｐｒｉｏｒｉ算法及其特點

關聯規則挖掘是數據挖掘的一個主要研究方向，目的是發現海量數據中數據項集之間存在的潛在關系規則。先識別出頻繁出現的屬性值集，也稱頻繁項集，然后再利用這些頻繁項集創建描述關聯規則［４］。關聯規則中有支持度和信任度兩個重要的度量，為滿足一定的要求，用戶需要指定規則必須滿足最小支持度（ｍｉｎｓｕｐｐｏｒｔ）和最小信任度（ｍｉｎｃｏｎｆｉｄｅｎｃｅ）兩個門限［５］。關聯規則的挖掘分為兩個步驟：①發現頻繁項目集：找出所有大于或等于用戶指定最小支持度的最大頻繁項目集，又稱強項集；②生成關聯規則：根據用戶指定的最小信任度利用頻繁項目集生成關聯規則，該規則是滿足最小支持度和最小信任度的強關聯規則。

Ａｐrｉｏrｉ算法是關聯規則中最典型的算法，它通過對事務數據清單Ｄ的多趟掃描來發現所有的頻繁項目集（強項集）Ｌ：

Ｌ１＝｛ｌａｒｇｅ１－ｉｔｅｍｓｅｔｓ｝；／／頻繁１項目集

ｆｏｒ（ｋ＝２；Ｌｋ－１≠Φ；ｋ＋＋）

｛Ｃｋ＝ａｐｒｉｏｒｉ－ｇｅｎ（Ｌｋ－１，ｍｉｎｓｕｐｐｏｒｔ）；／／Ｃｋ是頻繁ｋ項目候選集

ｆｏｒａｌｌｔｒａｎｓａｃｔｉｏｎｓｔ∈Ｄ

｛Ｃｔ＝ｓｕｂｓｅｔ（Ｃｋ，ｔ）；／／Ｃｔ是從候選集Ｃｋ中提取的包含在事務ｔ中的候選集元素

ｆｏｒａｌｌｃａｎｄｉｄａｔｅｓＣ∈Ｃｔ

Ｃ．ｃｏｕｎｔ＋＋；

｝

Ｌｋ＝｛Ｃ∈Ｃｋ｜Ｃ．ｃｏｕｎｔ≥ｍｉｎｓｕｐｐｏｒｔ｝；

｝

Ｌ＝ＵｋＬｋ；／／求所有頻繁項目集Ｌｋ的和

Ａｐrｉｏrｉ算法中調用了函數ａｐｒｉｏｒｉ－ｇｅｎ（Ｌｋ－１，ｍｉｎｓｕｐｐｏｒｔ），是為了通過頻繁（ｋ－１）項目集產生頻繁ｋ項目候選集，即利用第（ｋ-１）趟掃描得到強項集集合Ｌｋ－１的候選集Ｃｋ。該函數先進行拼接，再剪枝。在拼接生成候選數據項集時，一個項集必須是頻繁數據項集且它的所有子集也都是頻繁數據項集，因此要刪除所有含有非頻繁項目子集的候選元素。如果ｋ項集Ｃ∈Ｃｋ的某（ｋ－１）子集不是（ｋ－１）強項集，則將Ｃ從候選集Ｃｋ中刪除。

Ａrｐｉｏｒｉ算法中如果生成的候選項集太多，則多次掃描會使效率急劇下降，同時過多的候選項集還可能生成大量的規則，影響它的應用。本系統中采用數據屬性歸約，大大減少了生成的候選項集，能快速發現關聯規則，提高使用效率。

４．２采用Ａｐｒｉｏｒｉ算法實現關聯規則挖掘

本系統對建立的某高校資產數據倉庫多維數據集進行數據挖掘，先對原始數據進行整理和特征化變換，設定資產管理指標中的資產質量評估值為規則目標。

采用Ａｐｒｉｏｒｉ算法生成頻繁數據項集。設定最小支持度為３％，最小信任度為７０％，先構造１個屬性的候選集Ｃ１，計算Ｃ１的支持度，去掉Ｃ１中支持度小于３％的屬性，得到頻繁項目集Ｌ１。再根據Ｌ１及２個屬性的組合，構造候選集Ｃ２，計算Ｃ２的支持度，去掉Ｃ２中支持度小于３％的二維屬性，得到頻繁項目集Ｌ２。依次類推重復上述過程，直到所有屬性組合完畢，形成頻繁項集Ｌ＝｛Ｌ１，Ｌ２，…｝。

再研究資產數據間的關聯性，挖掘滿足最小信任度的規則。若Ｘ，Ｙ為項目集，且Ｘ∩Ｙ＝ ?準，蘊涵式Ｘ?圯Ｙ稱為數量關聯規則，Ｘ和Ｙ分別稱為Ｘ?圯Ｙ的前提和結論。項目集（Ｘ∪Ｙ）的支持度稱為關聯規則Ｘ?圯Ｙ的支持度，記作ｓｕｐｐｏｒｔ（Ｘ?圯Ｙ），即ｓｕｐｐｏｒｔ（Ｘ?圯Ｙ）＝ｓｕｐｐｏｒｔ（Ｘ∪Ｙ）。數值關聯規則Ｘ?圯Ｙ的信任度記作ｃｏｎｆｉｄｅｎｃｅ（Ｘ?圯Ｙ）：ｃｏｎｆｉｄｅｎｃｅ（Ｘ?圯Ｙ）＝ｓｕｐｐｏｒｔ（Ｘ∪Ｙ）／ｓｕｐｐｏｒｔ（Ｘ）×１００％。給定用戶的最小支持度ｍｉｎｓｕｐｐｏｒｔ和最小信任度ｍｉｎｃｏｎｆｉｄｅｎｃｅ，如果ｓｕｐｐｏｒｔ（Ｘ?圯Ｙ）≥ｍｉｎｓｕｐｐｏｒｔ，同時ｃｏｎｆｉｄｅｎｃｅ（Ｘ?圯Ｙ）≥ｍｉｎｃｏｎｆｉｄｅｎｃｅ，則稱數量關聯規則Ｘ?圯Ｙ為強規則，即根據用戶指定的最小信任度而生成的關聯規則是滿足最小支持度和最小信任度的強關聯規則。表２是系統數據挖掘的強關聯規則，它反映了資產購建價值、資產剩余使用年限率和資產每年使用率這3個指標與資產質量評估值之間的關聯性。購建價值高，又在購建初期且很少使用的資產其性能變化不大，它的資產質量評估值肯定很高。數據挖掘時如降低最小支持度，會增加系統生成的頻繁項目集數，這樣挖掘出的規則會太多，因而會降低了規則的普遍性和代表性。

５結束語

本文利用數據挖掘技術對高校資產作了深層次研究，通過采用Ａｐｒｉｏｒｉ算法生成頻繁數據項集，進而挖掘出高校資產管理指標之間的關聯規則，各規則的信任度均達到７０％以上，對關聯規則進行分析得出的結論和決策建議在實際應用中取得了良好效果。

主要參考文獻

［１］［加］Jiawei Han，Micheline Kamber.數據挖掘——概念與技術[M].影印版.北京：高等教育出版社，2001.

［２］袁雋媛．試論數據倉庫在高校網絡教育管理中的應用［Ｊ］．發明與創新，２００７（５）：３６－３７．

［３］安利平，張松，仝凌云．基于決策樹的ＯＬＡＭ及其應用研究［Ｊ］．計算機工程與設計，２００８，２９（１５）．

［４］陳安，陳寧，周龍驤．數據挖掘技術及應用［Ｍ］．北京：科學出版社，２００６．

［５］李新良，陳湘．數據挖掘中關聯規則算法的研究［Ｊ］．計算機工程與科學，２００７，２９（１２）.

中國管理信息化2011年5期

中國管理信息化的其它文章: 經濟責任審計存在的問題及對策; 財務戰略管理研究文獻綜述; 基于三角模糊數評價法的集群供應鏈風險評估研究; 商業銀行公允價值會計的運用現狀與完善對策; 企業文化是企業發展的必然要求; 新時期醫院經營管理思考