劉峰
(山西水利職業技術學院 山西省太原市 030006)
在大數據時代降臨后,數據挖掘技術為信息資料的提取與整理提供了新的方向,為進一步提升管理會計的工作效率,則需要探索數據挖掘技術運用的新方向,這也是本文研究的主要目的。
數據挖掘對象主要是根據組織形式的不同,將數據來源分為結構化數據、半結構化數據與非結構化數據三種類型,通過文字、圖像、音頻以及視頻等諸多媒體文件數據完成數據提取。
根據不同企業的生產流程,數據挖掘的數據來源存在明顯差異,以鋼鐵生產企業為例,在一般的鋼鐵企業生產過程中,高爐將原材料以及輔助材料熔煉成高溫鐵水之后,再運轉至煉鋼爐中做進一步處理;根據產品的化學以及物理標準將熔煉好的高溫鋼水通過模鑄等技術手段澆筑成鋼錠;同時企業可以根據訂單的工藝要求,對鋼錠做粗軋、熱軋等一系列處理與深加工等。根據上述流程,管理會計利用數據挖掘技術,所獲得的成本費用主要包括直接材料費用、直接人工費用以及制造費用等,并根據每個費用對應的環節完成數據資料抓取與挖掘,實現了整個技術中數據信息的初步提煉。
在進行數據分析之前,數據挖掘需要對初步提煉的數據進行標準化,只有標準化的數據才能進行數據分析,目前學術界針對上述數據處理流程所采取的方法包括無量綱化處理以及同趨化處理處理等,其中數據同趨化處理主要是用來解決具有不同性質的數據問題,針對不同性質的數據指標進行整合后,根據逆變指標數據實現所有數據的同趨化,此時所獲得的數據可以真實反映出企業的實際問題。數據無量綱化處理方法主要是要解決各類數據之間的可比性問題。在數據處理中,不同處理方法所衍生的數據預處理方法存在差異,本次研究中重點介紹了面向ABC 作業選擇與合并主題的數據預處理方法。該方法的主要特征是實現了重要作業選擇與重要業務合并之間的結合,對于管理會計人員而言,通過上述方法可以快速確定企業日常運營的關鍵數據,并且在考慮到產品生產過程的基礎上,將生產跟蹤表為事實依據,形成了企業日常生產的關鍵技術流程,對于數據挖掘技術的處理過程具有指導意義。以上文介紹的鋼鐵企業為例,在數據預處理中,本文所介紹的方法具體結構如圖1 所示。

圖1:面向ABC 作業選擇與合并主題的數據預處理模式
在圖1 所介紹的數據與處理模式中可以發現,通過該模式可以按照鋼鐵企業生產種類、生產技術等關鍵數據完成重要數據的采集與提取,在技術上來看上述方法具有可行性,可以為管理會計提供相應的支持,
在圖1 所介紹的數據預處理分類后,可以按照歸一化方法對數據做進一步加工,其中的重點包括:(1)線性函數轉換。在線性函數轉化中,其中的表達關系式如公式(1)所示。

在公式(1)中,x 與y 分別代表轉換前與轉換后的數據;MaxValue 與MinValue 分別為樣本的最大值與最小值。
在樣本預處理中,通過對數據做歸一化處理能夠完成樣本的分布的評估,其坐標數據集被控制在{-1,1}中。
(2)對數函數轉換。在預處理環節,對數函數轉換的表達結構如公式(2)所示。

在公式(2)中,各項數據的解釋與公式(1)相同,整個計算過程是以10 為底數的對數函數轉換過程。
通過開展Log 分析,可以將原本絕對化的時間序列做進一步調整,組成了相對時間序列,可以降低排查難度。
1.3.1 挖掘過程
從管理會計的角度來看,數據挖掘是一個連續的過程,整個挖掘是在沒有明確假設的基礎上來發現數據中的關鍵信息,在使用高效、適宜的方法進行挖掘任務之外,確定特定的主題來執行挖掘算法。在上文所闡述的面向ABC 作業選擇與合并主題模式下的數據挖掘方法中,其中的關鍵點就是要辨別大規模數據庫中各類數據的相互關系,在將其進行數據分解之后形成若干個子問題,這些子問題中至少應包括兩點:
(1)生成支持度大于給定最小支持度的頻繁項集;
(2)給定的頻繁項集,從中導出關聯規則。
在數據挖掘中,因為最大繁榮項集中已經包含了頻繁項集的關鍵信息,所以可先選擇最大頻繁項集挖掘方法來獲得企業的重要信息,再依托生成關聯規則的方法提取關鍵資料。但是也有研究認為,目前的最大頻繁項集挖掘算法一直存在效率偏低的問題,所以可針對該方法進行改進,通過圖形數據結構的方法來儲存其中的關鍵項集信息,形成有限圖集的儲存結構以及面向圖集的最大頻繁挖掘算法,以此來提升數據挖掘效率[1]。
1.3.2 挖掘結果的解釋與評估
對挖掘結果的解釋與評估是針對挖掘結果進行的定量與定性評估模式,其根本目的是采集挖掘模式下需要解釋或者評價的問題。根據本文介紹的面向ABC 作業選擇與合并主題模式,在數據挖掘中需要根據關聯規則的方法,通過置信度與支持度兩方面的資料,借助用戶給定閾值來篩選數據挖掘的規則。
目前常見的數據挖掘建模仿真工具包括Weka、Rapid Miner 以及TipDM 等集中類型,在對比之后發現TipDM 因為可以集成十余種預測算法,實現了對主流挖掘系統的覆蓋。該算法的主要優點就是可以完成數據探索,掌握數據的主成分以及相關性等;在數據預處理中,可進行數據屬性判斷、提取數據特征資料以及壞數據處理等。所以在本次研究中本文通過TipDM 數據挖掘在線建模平臺,通過類似算法完成關聯數據挖掘,其中的重點內容包括:
(1)模型輸入。整個模型輸入主要包括兩個維度的內容,其中第一方面為建模樣本的數據輸入,另一方面則是建模參數的數據輸入。在關聯數據分析中,其中的建模參數相關數據如表1 所示。

表1:建模參數的設定
(2)數據仿真的基本過程。在數據仿真過程中,整個處理過程為:①在登錄TipDM 平臺之后,選定管理頁面新建一個方案文件或者打開已經建好的文件。②切換至數據管理頁面,并上傳企業的財務樣本數據文件;③選擇關聯規則挖掘算法進行建模;④計算挖掘數據之間的關聯性規則。
(3)數據結果分析。為更好的判斷支持度等數據對規則數量的影響,在數據挖掘期間還需要借助其他指標完成數據識別,所以為實現該目標,相關技術人員可以選擇將置信度下調為0,作用度上調為1,以此為標準進行運算,將“企業破產”為最后標準,根據這一標準進行運算后,最終的測試結果可以顯示出與企業破產相關財務數據,方便管理會計進行深入的信息核算與數據處理。
在管理會計的數據挖掘中,基于模糊模型的數據處理具有可行性,這是因為任何一個企業的日常生產與經營環境都處于不斷變化發展之中,在市場因素的影響下,企業無法依托單一的數據處理方法來實現數據挖掘,所以為確保數據挖掘效果,需要在現有時間序列以及回歸方法的基礎上,適應不平穩隨機序列的運行模式,借助良好的非線性逼近能力來強化成本管理效果。所以考慮到上述情況,本次研究中選擇在數據挖掘期間引入模糊模型技術,根據模糊模型所提取的信息來進一步完善管理會計模式的功能,最終提升數據挖掘效果。
從現有技術來看,模糊模型主要包括模糊生產器、模糊推理機、知識庫以及反模糊化器四方面內容組成(見圖2)。

圖2:模糊系統結構
(1)模糊生產器可以將數據挖掘的初始資料轉變為模糊值,實現了輸入空間的模糊劃分,常見的方法是聚類法。同時考慮到FCM 模糊聚類算法的特殊性,在將輸入空間進行模糊劃分后可以判斷出模糊規則數。之后借助模糊聚類的方式形成規則。
(2)模糊規則庫中包含了若干條模糊推理規則,參數數據庫中則進一步定義了數據挖掘階段模糊規則的參數。
(3)模糊推理機中包含了“if-then”模糊規則,實現了模糊輸入空間至模糊輸出空間的映射。
(4)反模糊化器可以將模糊值轉變為清晰數值之后完成輸出,是模糊集合到清晰實數之間的映射。
根據管理會計數據挖掘的相關要求,數據挖掘過程中應該針對企業內部管理的關鍵數據進行跟蹤,根據數據跟蹤反饋結果來判斷管理會計所制定的措施是否有效,為滿足該目標,在數據挖掘的模糊處理中,可以借助FCM 聚類算法的模糊劃分輸入空間(c)與模糊規則數(m)進行計算,在確定兩個模糊數據之后,可以引導數據挖掘過程的范圍與時長,最終為管理會計提供必要的支持。
一般在計算過程中,針對模糊劃分輸入空間(c)通常會采用DB 指標、Dunn 指標等計算方法,通過硬聚類等數據快速界定其范圍。在計算模糊規則數(m)中,可以參照相關學者的研究結果,根據相關學者從算法收斂性角度的驗算結果,計算出了m 與樣本數量之間的相關性,證實的取值范圍為1.1 ≤m ≤5,本次研究中則根據這一結果做進一步驗算。
同時為驗證樣本誤差,本文通過誤差函數E 來檢查模糊生產器中的數據變化,該方法的關鍵點就是根據樣本輸出的真實值與模糊模型數據輸出結果計算出模型的結構與數據,其中的關系式表達結果如公式(3)所示。

在按照公式(3)進行樣本處理中,樣本誤差函數E 與聚類數目之間存在相關性,為了更好的提取數據本身的內在聯系,在模糊處理中應盡可能的增加模糊樣本數量,隨著規則數目的增加,則模糊模型所給出的數據與擬合值越接近,可以提升數據處理的精準度。
2.4.1 數據的預處理
為盡可能的判斷模糊模型在管理會計中的運用效果,本文在數據挖掘中運用模擬模型技術,按照特定的時間序列,按照研究現象或問題之間的差異所形成的不同時間序列。在該時間序列的設定上,可以根據分秒,或者日、周月、季度等諸多時間標準進行設定。在管理會計管理中,通常會以周為單位進行數據檢測,并按照月份的財務數據排序方法來測量某一段時間內的成本管理會計數據值。所以在本次研究中,本文以某生產企業2019 年1 月-2019 年12 月間的產品單位成本數據為歷史數據集進行測量,并根據該結果預測2020年的企業生產成本情況,將該數據作為管理會計的重要依據。所以在該案例中,本文采用了x 的空間維度形式,其表達方法為:x=[x1,x2…xn]的表達方法。
根據案例企業所統計的結果,在2019 年1 月-2019 年12 月間,產品的單位成本維持在13396.44 元-16834.67 元之間,整體保持著不斷上升的趨勢。該企業的生產成本以編號為特定的銷售形式,所以在本次研究中選擇某一編號的實例進行成本判斷,最終檢測結果證明,案例商品全年的單位成本維持在3543.73 元-4134.78 元之間。在數據與處理過程中,本文通過FCM 模糊生產器進行數據處理,最終的模擬檢測結果顯示,當聚類數量達到4 時,樣本的誤差函數有明顯下降;當模糊系數值達到1.5 時,則樣本誤差函數抵達了最小極值點。因此在數據處理中,應針對每一成本等級都能確定與之對象的線性函數,形成“if-then”的模糊規則。
根據擬合誤差的大小判斷模型預測值的精準度,本次研究中借助最大相對誤差的方法進行預測性能判斷。根據判斷結果可以發現,優化模糊模型的殘差之更小,這一結果證明該方法的精準度更高,通過以此完成對樣本資料的分析,可以對2020 年的生產成本進行預測,這一功能滿足管理會計的要求。而在對成本數據的應用進行與該企業2020 年的收集生產成本進行對比后,結果顯示基于模型的預測成本與實際成本之間的差異不顯著,體現出模糊模型數據挖掘技術具有合理性。
結合前文的研究結果可知,在面向ABC 作業選擇與合并主題在數據挖掘的管理會計中發揮著重要作用。而作業成本法在實際上是在產品與資源之間引入“作業”機制,在企業生產中,企業的生產會消耗原材料與作業產品,最終導致生產的發生,所以在管理會計數據挖掘期間,應從企業的生產工藝入手,本劇作業成本核算等方法所統計的會計資料進行分析后,通過對逐個作業展開分析,計算出會計項目中所對應的人力、物力以及財力資源。同時因為數據挖掘技術中的關聯規則可以發現頻繁出現的數據,所以本文在使用該方法之后,根據管理會計的重要性原則挖掘重要作業項目之間的依存關系,最終實現有效合并[2]。同時也有研究認為,現階段隨著企業生產系統日益復雜化,管理會計需要跟蹤、記錄的數據可能達到數十萬甚至上百萬條,通過關聯規則算法依然存在數據處理效率偏低的問題,所以需要通過改進關鍵規則的ABC 作業選擇以及合并方法開展工作。
在本文所介紹的方法中,假設一個頻繁項集的F 中存在k 個位數,則每個子集都是頻繁的,此時子集的數量則為2k-1 個;當k 處于較大值時,子集出現的頻率有明顯增加。同時根據頻繁項集的向上閉包性質,最大頻繁項集中包含了大量頻繁項集信息,所以通過數據挖掘可以將完全頻繁項集進行轉變。同時結合企業的實際情況來看,隨著越來越多的數據庫被使用,所以在數據挖掘期間可針對最大頻繁項集的數據變化完成片段。
因此假設I 是所有數據項的結合,相對于一個集合X,則有X∈I,且K=|X|,此時可以認為X 為“k-”項集。相對于數據庫D,本文所定義的X 支持度為D 中包含X 的事務數量,則可以記錄為sup(X)。此時當sup(X)≥MinValue 時,則可以認為X 是D 中的最大頻繁項集,此時再對該項集進行數據挖掘,則可以顯著提升數據挖掘效果。
在數據處理中所需要處理的數據規模存在明顯差異,此時在數據挖掘中需要訪問的數據量級更大,為提升算法的運行效率,需要設計一個更有效的數據結構,并通過該方法進行挖掘計算,所以本文認為可通過圖論數據結構的方法來表達數據[3]。
3.3.1 有向項集圖
有向項集圖G=(V,E)的定義為:
(1)在有向項集圖中,所設定的結點集V 定義為數據庫中所有“1-頻繁項”的結合,此時每個節點中均包括三方面的特征內容,即頻繁項的名稱、頻繁項的支持數量、支持頻繁項的事務列表。
(2)在有向項集圖E 中存在若干個具有不同表達的特殊頻繁集,上述頻繁集與企業的生產與經營情況有關。
3.3.2 有向項集圖算法
在傳統算法下,針對數據挖掘的一般要求主要是通過橫向數據集的形式實現的,而為了進一步減少數據庫掃描的次數,在本次研究中決定采用縱向數據集的分析方法,即(Item,Tidlist);并借助二進制編碼技術,設定的數據Tidlist 的長度與事務總數L 之間是相同的,通過L 個二進制位,最終以“L/8”個字節來表達Tidlist。此時假設每個字節的取值結果為“0”或者“1”,分別對應了數據集中對應事務的支持或者不支持情況。所以在估算候選數據集支持度時,只需要執行Tidlist 的二進制邏輯預算模式,則可以進一步提升數據運算效率。
3.3.3 挖掘算法的改進
在實現有項圖集構建之后,在關聯規則中最大頻繁項集在數據挖掘過程中可以進行完全轉換,并實現項集的遍歷。所以整個數據挖掘過程可以按照下列流程進行:在選擇首節點為數據挖掘的起始點之后,開始訪問其他鄰接點,之后從該鄰接點出發進行類似的方位,直至訪問至末鄰接點,由此形成最大頻繁項集集合中;同時回退上一層的節點并進行類似訪問工作,若后續生成的頻繁項集中已經存在最大子集,則不會歸結到集合中;相反則會進行自我保存。通過持續進行上述過程,實現了數據挖掘中不同數據的訪問,知識挖掘出最大頻繁的項集即可。
為判斷上文所介紹方案的可行性,本文選擇某鋼鐵企業做進一步分析。
3.4.1 數據預處理
在數據預處理中,考慮到鋼鐵企業的種類繁多,為更好的判斷該方法在管理會計中的應用情況,本文僅以企業鋼鐵線材、棒材產品的管理會計工作展開分析,在數據挖掘期間,共挖掘出生產資料約3.6 萬條。
3.4.2 數據挖掘
(1)選擇重要作業內容。從作業鏈的角度來看,重要作業的概念強調了企業在生產經營管理中,管理會計所能提取到的關鍵信息。所以借助本文所采用的改良版的數據挖掘算法可以通過最小支持度以及置信度實現關聯數據的挖掘,最終獲得管理會計需要運算、分析的數據資料。所以在案例企業的管理會計數據挖掘中,通過該方法所獲得的最大頻繁項集為:{鋼坯加熱,鋼錠加熱,鑄錠,軋制線材,退火,精整}等,每個最大頻繁項集所包含的項集都是數據挖掘中的一個重要依據,在重要作業的基礎上對數據挖掘中的同質化數據進行合并,最終形成一個完整的作業。例如在本次數據挖掘中,針對其中的重要作業內容可以將回火、正火以及退火等工序進行整合。
根據數據挖掘結果可以發現,鋼鐵線材產品與棒材產品在生產經營中主要依托鑄錠工藝實現的,但是電渣錠工藝、連鑄工藝等也是影響產品性能的重要指標,所以根據這一數據挖掘結果,管理會計最終得出結論,鋼鐵企業還應該重視制造設備的更新換代,除了要保證正常的鑄錠工藝之外,電渣錠工藝、連鑄工藝等對應的生產設備也是提升企業生產經營水平的重要組成部分,由此確定了該企業未來一段時間內的設備更新方向,充分發揮了管理會計的功能。
(2)重要作業的合并。在本節所介紹的技術中,在數據挖掘期間可在不設定最小置信度閾值時通過窮舉方法羅列出其中的關聯規則,并形成置信度,此時當所設定的閾值達到90%時,則可以獲得更加精簡的關聯規則,例如鋼鐵精整→中心室檢驗、鋼錠加熱→鋼坯加熱等。為滿足數據挖掘對效率的要求,可以在同質作業的基礎上,根據作業項目之間的關聯度來進行整合,對于管理會計而言,這種數據處理模式最顯著的優點,就是可以判斷出不同工作項目之間的內在關系,使管理會計可以從全局入手對作業項目內容進行全局性分析,并評估各個因素之間的內在聯系問題,提高了管理會計的處理效果。
所以基于上述要求,在對企業重要作業內容進行合并之后,可以將管理會計數據挖掘過程精準到鑄錠作業中心、鋼坯修磨作業中心、軋制棒材作業中心等數個方面,管理會計可在此基礎上進行下一階段的會計管理,了解管理動因、成本動因等,有效分配各類管理資源,對于管理會計人員而言,通過上述方法可以實現資源成本的重新分配計算,掌握核心資料。
從效果來看,通過上述方法可以不斷減少管理會計的數據挖掘過程,在將各種影響企業經營績效的因素進行合并后,使會計管理人員可以更好的分辨工作的車重點,成為優化企業經營管理決策的重要組成部分。
在管理會計工作中,數據挖掘技術具有廣闊的應用前景,而考慮到企業經營管理的復雜性,管理會計的數據挖掘技術會發生明顯變化,所以相關人員應掌握其中的數據要點,不斷對數據挖掘過程進行改進與創新,這樣可以獲得更加翔實的企業經營管理數據,使管理會計能夠充分優化經營管理對策,使數據挖掘可以在企業管理中發揮更大的作用。