李碩 周董
[摘 要] 2013年以來,全新的《事業單位會計制度》和《高等學校會計制度》相繼出臺,高校經濟運行體制在新制度指導下,開始由粗放式管理模式逐步轉變為精細化、透明化的管理模式,產生了對高校辦學成本進行分析的要求。在高校預算編制過程中,如何從上年度預算執行情況中獲得對新一年預算編制工作有指導意義的,有利于高校管理層決策的知識,成為當前高校預算管理研究的一個方向。將近年來興起的數據挖掘技術應用于高校的預算管理工作中,是一個不錯的選擇。本文對高校預算工作現狀和數據挖掘技術在預算編制中的應用進行探討。
[關鍵詞] 高校預算;數據挖掘;財務管理;DM;KDD
[中圖分類號] F232;G475 [文獻標識碼] A [文章編號] 1673 - 0194(2014)19- 0034- 03
1 高校預算管理現狀
作為高校運作的經濟命脈和神經中樞,我國高校預算管理的改革正在逐步深化,高校預算管理工作由最初的“資源配置”功能逐步轉化為“資源配置”與“目標控制”并重[1]。“資源配置”是實施預算管理的原始動力,而“目標控制”則是預算管理優良再循環的重要基礎。目前,隨著高校體制改革的推進,高校預算管理工作中的“目標控制(管理)”功能已經愈發得到高校管理層的重視,但是在實際的預算編制中,高校基本上還是采用基數―增長的預算編制方法[2]。這種方法簡便易行,但實質上是預算編制人員在默認上年預算合理的基礎上根據上年財務收支工作中累積的經驗和本年概略的發展目標制訂一個粗糙方案,是一種缺乏科學性、公開性、公平性的非量化的預算編制方法。究其原因,是現有的預算執行體系缺乏一種有效的、可靠的輔助決策機制,難以產生科學可信的可供管理層和預算編制人員參考的預算執行分析報告,預算編制工作的質量只能依賴于本級預算編制人員和下級預算單位相關人員的工作經驗和職業道德,對于高校決策者來說,這樣的預算管理機制是模糊的,不規范的,難以掌控的,不利于高校形成健康的運行體制,也不利于高校制訂長遠的發展規劃。只有通過信息化手段,運用某些特定的方法,從高校預算執行過程中形成的海量數據里,提取和精煉高置信度的關聯數據,對預算編制工作進行強有力的支撐,才能形成科學合理的高可靠性的預算編制方案。
目前,我國高校預算管理和會計核算的職能并沒有分離,同屬于財務部門。高校財務部門普遍應用的商業化財會電算化系統是基于高校一般會計核算需求設計開發的,在《事業單位會計制度》和《高等學校會計制度》的框架內,財會電算化系統圍繞會計核算的基本職能來運作,在提供管理決策支持方面的功能是微弱的,同時由于會計電算化數據相對單一、孤立,豐度低,在記錄高校經濟活動的過程中偏重于合法性,無法全面準確地從成本效益的角度反映高校包括教學、科研、行政、后勤各類機構的運作特征,進而導致無法提供有效的信息來滿足決策層的管理需要。那么,應用數據挖掘技術,對與高校經濟活動相關聯的數據進行科學的分析、處理和展現,是目前比較可行的方案。
2 數據挖掘技術介紹
近年來,信息技術在生產生活中的應用呈指數級增長,各行各業在實際工作中積累了巨量的應用數據,這些數據中蘊含了許多有價值的規律和知識,被稱為“知識金礦”。由于缺乏強有力的數據分析工具,這些寶貴的知識財富只能混雜在大量的冗余數據中,慢慢地流失自己的價值。數據挖掘(Data Mining,DM),也被稱為知識發現(Knowledge Discovery in Database,KDD)技術,就是從大量的、異構的、模糊的、有噪聲的應用數據中發現并提取浸沒在其中的有價值的、可靠的知識信息和模式的數據處理過程。數據挖掘技術是涉及多學科的技術集成,包括數據倉庫技術、統計學、機器學習、高性能計算、模式識別、神經網絡、數據可視化、信息檢索、圖像與信號處理以及空間或時間數據分析[3]。
數據挖掘的過程由數據預處理、數據挖掘、模式評估、知識展現這4個可以互相迭代的步驟來完成,其中數據預處理步驟包括對數據的清洗、集成、選擇、轉換等操作,模式評估質量則依賴于支持度、置信度等客觀度量的選擇和制定,知識展現過程就是使用可視化技術向用戶提供易于理解的知識發現結果。
3 數據挖掘技術在高校預算管理中的應用
基于數據挖掘技術對規律和知識發現的強大能力,將數據挖掘技術和高校的財務預算編制工作結合起來,不僅有利于使財務人員從繁雜的財務數據中解脫出來,減少財務工作人員在高校運作和科研方面知識的短板對預算編制工作的負面影響,同時也給高校管理層提供了清晰、可靠的決策參考。基于數據挖掘技術的預算3.1 預算數據預處理
高校在預算編制過程中涉及的數據種類繁多,在目前高校管理系統暫未進行有效整合的現實環境下,各部門基本按照歸口上級部門的要求,應用縱向體系下安排的MIS系統或者各分屬行業應用自己符合行業標準的通用管理系統,包括教務管理系統、人事管理系統、財務管理系統、科研管理系統、國有資產管理系統、后勤集團下屬各行業管理系統等。這些MIS系統使用各種數據庫管理系統(DBMS)來進行業務支撐,包括ACCESS,MS SQL Server,Oracle,InterBase等,有些數據甚至只是一些表格文檔、Web頁面、平面文件(Flat File)等,這些數據只要和高校預算編制工作有關,就需要通過數據預處理的流程載入預算編制的數據倉庫中。
對于能夠支持某種標準數據接口規范(比如ODBC)的DBMS,我們只需要在數據預處理工具(Extraction-Transformation-Loading,ETL)中指定源數據類型就可以了,一些符合數據格式描述的平面文件,也可以通過安裝平面文件提取插件(Flat-File Extraction Plug-in,FEP)來輔助完成,一些缺乏數據形式但是具有數據意義的平面文件,則需要進行人工處理,至少符合ETL標準后通過ETL工具載入預算數據倉庫。
當然,在各類預算相關數據載入預算倉庫之前,應通過ETL提供的數據清洗工具對數據進行清理,如果不能滿足本校預算編制規則,則可以通過一些易于二次開發的工具,比如Potters Wheel編寫定制的數據清理程序。數據清理的過程主要包括缺失值處理和降噪處理。處理缺失值的方法一般采用回歸、決策樹、或者貝葉斯推理的方法來生成一個最可能的值來填充(需注意空值和缺失值的區別)。降噪處理主要通過分箱、回歸、聚類等方法去除噪聲數據,通過這兩步處理后,待處理數據將變得完整和平滑。
將“光滑”的數據載入預算數據倉庫后,可以根據預算編制的約束條件對數據進行集成、變換、規約、分層等處理。
在數據集成的過程中需要注意到實體識別(比如,不同MIS系統中關于教工編號的表達)和冗余(比如兩個字段,一個是月基本工資,一個是年基本工資,這兩個數據中的一個即為冗余數據)問題。
數據規約操作可以以極為微小損傷的方式高度壓縮數據量,在大大提高數據挖掘效率的同時產生相同(或幾乎相同)的分析結果。主要方法有數據立方體聚集、屬性子集選擇、維度規約、數值規約、離散化和概念分層產生等,譬如,一些預算項目編制時需要參考上年度整年的支出情況,有些預算項目編制時需要根據高校特征(暑假開學、寒假開學、招生季、撥款規律)等,這些預算編制時無需逐月參考上年數據,可以使用數據立方體聚集的方法壓縮數據,有些屬性,比如教工電話號碼等,對預算編制無意義,可以使用屬性子集選擇的方法過濾數據,如果某些數據經過編碼重構之后對信息表達無損的,可以使用維度規約的方法(數學方法)等。
通過數據預處理,將預算編制需要的相關數據轉換成適合挖掘的數據形式后,我們就可以開始從這些數據礦藏中挖掘“知識金礦”了。
3.2 預算數據挖掘
高校預算編制的過程中需要涉及具有多種特性的支出、收入項目,需要根據這些項目的特征選擇合適的數據挖掘方法,主要的數據挖掘方法及其在預算編制中的應用如下。
3.2.1 分類分析
分類分析的方法就是按照預算項目的特征設定分類模式,按照分類模式將待分析數據劃分為不同的種類,在給定這些數據分類標示符之后,按照類別僅進行分析和匯總,從中提取出有價值的規律和知識。
這種方法在預算編制決策中可以應用于不同辦學層次收入分析,不同層次人才的科研經費獲取能力分析,不同專業招生能力分析,不同類別科研項目經費支出分析等。
3.2.2 回歸分析
回歸分析的方法反映了某一事務的屬性值在時間維度上的變化特征,形成一個變量或屬性間的函數關系,主要研究的是隨著時間變化的趨勢,研究這個趨勢可以對未來屬性值的變化進行預測,以及發現時間維度上這些數據之間的關聯關系。
這種方法在預算編制決策中可以應用于專業設置趨勢分析(對于專業設置相對靈活的職業教育類高校的預算編制工作尤其重要),能源耗用分析等。
3.2.3 聚類分析
聚類分析的方法是將一組數據對象分成類(簇,Cluster)的過程,使得同一個簇中的數據具有極高的相似性,而不同的簇之間的數據對象具有高度的相異性。適用于事先沒有已知的類別劃分,需要在分析過程中形成相似數據聚合并得到簇的數量和特征。
這種方法在預算編制決策中可以應用于某些項目核算的科目支出賬的分析,比如差旅費支出特征,專利費支出特征,項目往來賬分析等,從中獲取不同的項目在科目支出方面可能的規律。
3.2.4 關聯規則
關聯規則的分析方法是分析數據項之間存在的關系的方法,即分析某一事務中數據項的出現或者變化與另一事務中某一數據項的出現或者變化是否具有內在聯系的方法。應用這種方法常常能夠找到看似無關的數據之間潛在的有趣的關聯關系。
這種方法在預算編制決策中可以通過對收入和支出數據之間關系的分析,找到其中內在的規律,比如可以試著分析科研經費收入的變化和業務招待支出之間在科研經費預算流程中是否有某種關聯,就業經費支出和學費收入之間在一般收支預算執行過程中是否有內在的聯系等。
3.2.5 變化和偏差分析
變化和偏差分析方法用于分析分類中的反常實例和模式的例外,通過分析實際結果與預測之間的偏差找到潛在有趣的規律,常常用于風險分析。
這種方法在預算編制決策中用于對高校上年度預算執行情況中發生的規則外情形進行分析,比如偶發的大型支出,比如限制或禁止點招之后對學校收入的影響等。
3.3 數據挖掘結果的模式評估
在選擇以上5種方法對合適的數據進行第一次挖掘之后,我們要對挖掘出來的知識進行評估,評價其對預算編制工作是否有用。評價基于4條標準,即是否易于理解,是否能在另一組相似數據上再現,是否具有潛在價值,是否是全新的知識。在模式評估中存在一些模式興趣度的客觀度量,包括支持度和置信度兩種評價方法,定義為:
support(A=>B)=P(A∪B)
confidence(A=>B)=P(A|B)
其中支持度(support)的意義即在事務中A項和B項同時出現的概率,信任度(confidence)即在事務中出現事務B的同時,也出現事務A的概率。
使用支持度和信任度對模式進行評估后還要根據需要人工對挖掘成果進行主觀評價,根據模式評估結果對數據挖掘的有效性進行改善,對數據進行重新挖掘或者改用其他方法進行挖掘。 4 預算數據的數據挖掘舉例
使用分類分析中的決策樹算法對高校不同專業的招生能力進行分析,有利于高校適時靈活地進行專業調整,提高招生指標的完成度,獲取更多的財政撥付資金。
決策樹算法是通過構造決策樹來發現數據中蘊含的規則,一般分兩步來進行:第一步,根據已知領域知識構造決策樹,第二步,根據模式評估效果對決策樹進行修剪。經過這兩步的操作,產生新穎的知識。
專業設置決策樹生成步驟如下:
(1)按已知的招生不足和招生足對數據進行初始分裂
(2)按已知的學科分類比如社會科學類和自然科學類專業進行第二次分裂。
(3)再按專業細分分別對社會科學類和自然科學類專業進行再次分裂。
(4)生成決策樹。
(5)根據模式評估對分類方法進行改進或者對決策樹進行修剪,根據需要從步驟1重新開始。
生成決策樹的例子如圖3 所示。
圖3表明,職業教育型高校專業設置應以實用和就業為導向,減少純理論性專業的設置,提高招生效率,在財政資金撥付以招生人數為基準的情況下,只有這樣才能獲得充足的預算收入,具體的量化指標依賴于對數據的挖掘,需根據興趣度對決策樹進行判斷和修正。
5 結 語
隨著新的《事業單位會計制度》和《高等學校會計制度》的出臺,全面預算和績效預算成為高校預算改革的目標,科學應用數據挖掘的方法,對高校運作過程中產生的海量數據進行多角度、多維度的分析,形成清晰明確的管理決策信息,有利于高校在預算編制工作中做到兼顧公平與效率,使預算更好地服務于高校長遠規劃,為高校的科學發展提供堅實可靠的數據基礎。
主要參考文獻
[1]陸媛.高校預算績效評價的理論研究及績效指標體系設計[J]. 技術經濟與管理研究, 2006(1).
[2]張寬. 我國高校預算管理體系研究[D].湘潭:湘潭大學, 2010.
[3][加]Han J, Kamber M. 數據挖掘概念與技術[M]. 第2版.北京:機械工業出版社,2007.