[摘 要] 本文從數據挖掘系統原型架構出發,結合財務數據的特點分析、財務數據挖掘的一般過程和XBRL技術,設計出一種基于XBRL的財務數據挖掘系統模型,為進一步深入研究財務數據挖掘提供了一種較好的方法。
[關鍵詞] XBRL;財務;數據挖掘
[中圖分類號]F232;F275[文獻標識碼]A[文章編號]1673-0194(2008)18-0012-04
0 引 言
隨著信息技術、網絡技術和通信技術的發展,企業信息化程度越來越高,越來越多的企業應用了電子商務和ERP系統,在越來越廉價的存儲設備配合下,產生了大量的財務數據。但與之相配合的數據分析和知識提取技術的發展卻相對緩慢,使得存儲的大量財務數據得不到充分利用,不能轉化成指導生產的“知識”, 數據挖掘技術正是在這樣的背景下產生并迅速興起的。數據挖掘(Data Mining,DM)也稱為數據庫知識發現(Knowledge Discovery in Databases,KDD),就是將高級智能計算技術應用于大量數據中,讓計算機在有人或無人指導的情況下從海量數據中發現潛在的、有用的模式(也叫知識)。數據挖掘不但能夠學習已有的知識,而且能夠發現未知的知識,得到的知識是“顯式”的,既能為人所理解,又便于存儲和應用,因此一出現就得到各方面的重視。
數據挖掘與傳統的數據分析(如查詢、報表、聯機應用分析等)的本質區別是:數據挖掘是在沒有明確假設的前提下去挖掘信息、發現知識的。數據挖掘所得到的信息應具有先前未知、有效和實用3個特征。先前未知的信息是指該信息是預先未曾預料到的,挖掘出的信息越是出乎意料,就可能越有價值。
到目前為止,大多數數據挖掘是借用人工智能的各種方法來挖掘數據中存在的知識。但是,正如人工智能本身的發展研究現狀一樣,數據挖掘還不能很好地理解數據中存在的知識。XML技術的出現,不僅為互聯網上的電子數據交換提供了一個標準,而且XML技術從數據的角度提供了一個可以更好地表示數據內容以及數據所代表意義的手段。可擴展商業報告語言(eXtensible Business Reporting Language,XBRL)作為XML在網絡財務報告語言上的應用,對財務數據的表示提供了統一的規范和標準,從而為在大量的財務數據中挖掘有用的知識和模式提供了技術基礎。
1 數據挖掘系統原型架構
1. 1數據挖掘的一般過程
數據挖掘(Data Mining,DM)是從大量的、不完全的、有噪聲的、模糊的和隨機的數據集中識別有效的、新穎的和潛在有用的,以及最終可理解的模式的過程。數據挖掘是一種涉及面很廣的技術手段,包括機器學習、數理統計、神經網絡、數據庫、模式識別、粗糙集和模糊數學等相關技術。
數據挖掘的一般過程可劃分為3個階段:數據準備(Date Preparation)、數據挖掘以及結果的解釋評估(Interpretation and Evaluation),如圖1所示。

數據挖掘的一般過程具體包括7個步驟:①問題的定義;②數據集成;③數據凈化;④數據抽取;⑤運行數據挖掘算法;⑥評估結果;⑦知識表達。以上步驟可以進一步歸入3個階段中:①~③為數據挖掘預處理,主要進行數據挖掘前的準備工作;④~⑤進行具體的數據挖掘;⑥~⑦則稱為數據挖掘后的處理,即結果的解釋評估。
在數據挖掘的3個階段中,數據準備包括數據集成、數據凈化和數據抽取。在數據準備階段,首先要確定挖掘任務的操作對象,即目標數據;再對所處理的數據進行消除噪聲、消除重復記錄、完成數據抽取等預處理工作,然后進行降低數據維數等數據變換。在數據挖掘階段,要確定挖掘的任務,決定采用的挖掘算法和具體的數據挖掘操作。在結果解釋和評估階段,要根據數據挖掘階段挖掘出來的模式,經過用戶或機器的評價,發現存在的冗余或無關的模式并將其剔除;判斷是否滿足用戶要求,如果不滿足用戶要求,需要重新挖掘,若滿足要求,將其表達出來,反饋給用戶。
數據挖掘就是從已有的大量數據中發現數據的模式和關系,進而形成知識以供決策時使用。
1. 2通用數據挖掘系統原型架構
根據以上對數據挖掘過程的論述,現提出一個通用數據挖掘系統原型架構,如圖2所示。

系統分為用戶接口模塊和控制實現模塊。其中,用戶接口模塊是用戶使用的接口,通過它控制數據挖掘流程;控制實現模塊主要用來完成數據處理。系統工作過程首先從用戶提出的要求開始,用戶選擇要發現的知識模式,并輸入參數,選擇數據挖掘要使用的數據集;然后,系統自動選擇算法進行數據挖掘;最后,系統將挖掘得到的知識經知識表示模塊轉換為用戶能夠識別的形式并表現出來。
在上述數據挖掘系統原型中,用戶模塊要求數據挖掘系統的用戶接口必須簡單易用;數據預處理模塊是為數據挖掘模塊提供干凈、準確、簡化的數據,以減少數據噪聲,提高知識發現的準確性;挖掘內核模塊是進行實際數據挖掘的模塊,從預處理完的數據中發現模式、規則;模式表達與解釋模塊的主要功能是把挖掘模塊得到的知識轉換為普通用戶能夠理解或識別的形式;用戶接口模塊是用戶與系統交互的接口,用戶通過此模塊,控制整個挖掘流程,直至最后完成挖掘任務。
2 財務數據挖掘系統分析與設計
2. 1財務數據特點分析
2. 1. 1數據規范性強
財務數據處理需采用世界通用的會計記賬方法——復式記賬法,并滿足以下基本處理原則:
(1)有借必有貸,借貸必相等;
(2)資產=負債+所有者權益;
(3)總賬余額/發生額必須等于其所屬明細賬余額/發生額之和。
盡管不同的單位由于業務量不同,而選擇的會計核算程序不同,但最終產生的財務數據的格式和內容基本相同。
2. 1. 2數據綜合性強
財務數據是企業最主要的信息流,產生于企業資源計劃(Enterprise Resource Planning,ERP)的財務子系統。相對于ERP其他子系統產生的業務數據,財務數據具有很強的綜合性和概括性。財務數據以貨幣為主要計量單位,從價值的視角綜合、全面、系統地反映企業供產銷和人財物的信息。
2. 1. 3數據實時性強
財務數據是企業物流和資金流的動態反映,財務信息的使用者需要隨時通過財務數據這一信息流來了解企業的財務狀況和經營成果。如果財務數據提供不及時,勢必影響其使用效果。
2. 1. 4數據準確性要求高
財務信息要提供給投資者、債權人、管理人員、財政部門、稅務部門和銀行等,因此,必須保證財務數據處理的正確性,保證財務結果的真實性。否則,虛假的財務信息定會誤導有關部門和人員的決策。
2. 1. 5財務數據量大
隨著企業會計電算化工作的深入開展,電子商務和ERP系統的廣泛應用,企業的會計核算工作越來越細,這使企業在管理過程中積累了大量的財務數據。要使這些財務數據的價值真正得以發揮,依靠手工或簡單的數據處理工具是做不到的,必須借助于數據挖掘工具,才能在大量的財務數據中,挖掘出財務信息“金塊”。
2. 2財務數據挖掘系統設計
2. 2. 1財務數據挖掘的一般過程
財務數據挖掘的一般過程如圖3所示,主要包括財務數據源、財務數據的集成和變換、財務數據倉庫、財務數據挖掘以及知識表達等部分。

各部分的功能與實現過程如下:
(1)財務數據源。財務數據的來源可以有多種,可以是本地財務數據,也可以是互聯網上的財務數據。財務數據也可以有多種表現形式,可以是傳統的關系數據庫、文本形式的數據、面向對象的數據庫以及Web數據庫等。
(2)財務數據集成和變換。所有各種形式的財務數據經過集成和變換,去除冗余,即可轉換成符合一定格式的數據,并準備裝入財務數據倉庫。
(3)財務數據倉庫。財務數據倉庫是一個面向主題的、集成的、相對穩定的、反映歷史變化的財務數據集合,用于支持管理決策。
(4)財務數據挖掘。財務數據挖掘是整個過程的核心部分,其目的是從大量的財務數據中挖掘出潛在的、有用的知識或模式。
(5)知識表達。財務數據挖掘的根本目的是從財務數據中發現有用的知識或模式,而知識的表示始終是人工智能領域中一個重要的、尚未得到很好解決的研究課題。
2. 2. 2基于XBRL的財務數據挖掘系統模型設計
XBRL(eXtensible Business Reporting Language,可擴展商業報告語言),是基于XML(eXtensible Markup Language,可擴展標記語言)框架,專為公司發布財務報告而開發的語言,目前已有越來越多的公司采用XBRL發布財務報告。由于XBRL在所有的軟件格式和輸出通道之間提供了更大的互用性,從而使人們能夠進行更有效的分析并更快地發現問題。XBRL使用的標簽以標準化的會計業內定義為基礎,以描述和識別財務數據的每一個項目。它為每個財務數據項目定義標簽,這使財務報告標準趨向統一,而這正是目前的財務報告所缺乏的。憑借出色的搜索性能,XBRL使財務數據更加一致,更易理解,而且無需公司改變他們發布財務報告的方式。
在XBRL格式的文件中,所有數據都有相對應的標記,這些標記不僅對顯示格式進行描述,還對所要表現的數據賦予特定含義,并且相關數據呈現結構性,把有關的信息互相連接。例如,固定資產與資產負債表及折舊相連,搜索工具能立刻指向用戶所需的特定目標數據。

XBRL不僅能及時提供準確的財務數據,而且增強了使用者在不同應用程序之間交換電子數據的能力。XBRL更具有良好的動態分析功能,當搜索引擎找到所需的信息時,它能進一步追蹤下去找到數據的最初來源及其他與該信息有關的資料。例如,用XBRL標記的財務報告通過適當運用搜索工具,信息使用者可以向下挖掘數據源直至相關的支持這些數據的文件。正是這種動態分析功能,實現了財務數據的可下載性、可移植性、可分析性和可追蹤性。基于XBRL的財務數據挖掘可以從不同系統中收集財務數據,進行組織和分析,從而使財務信息得到更有效的利用。
基于XBRL的財務數據挖掘模型如圖4所示,主要包括財務數據獲取模塊、XBRL隧道、財務數據挖掘以及基于XBRL描述的知識庫。各部分之間的信息流動和數據交換都是基于XBRL進行的。
(1)數據獲取模塊。數據獲取模塊的主要功能是獲取財務數據源,財務數據的來源可以有多種,可以是本地數據也可以是互聯網上的數據。財務數據又可以有多種表現形式,可以是傳統的關系型數據庫、文本形式的數據、電子表格、會計信息系統報表格式數據、面向對象數據庫以及Web數據庫等;從數據組織形式上看,可以將財務數據分為基于XBRL描述的財務數據源與非XBRL描述的財務數據源。所有財務數據經過XBRL隧道的預處理,轉換為符合XBRL規范的財務數據。
對于數據挖掘過程來說,可以處理各種可能組織形式的數據源,但從數據挖掘的意義角度看,對基于XBRL描述的財務數據挖掘與對非XBRL描述的財務數據挖掘是不可能在同一個層次上進行的。因為基于XBRL描述的財務數據本身就含有一定的描述數據自身意義的信息,而一般的財務數據沒有這種能力。XBRL已經是一種規范化的網絡財務報告語言,包括Specification (規范),Taxonomies(標準)、Instance Documents(實例文檔)、Style Sheets(樣式單)等。因此對一般財務數據進行挖掘,應先作相應的處理,將其變為以XBRL描述的財務數據。
(2)XBRL隧道。基于XBRL的財務數據挖掘,其數據源是符合XBRL規范的財務數據,因此在進行財務數據挖掘之前,所有財務數據都要經過預處理,轉換成符合XBRL規范的形式,這一過程需要通過XBRL隧道來實現。根據數據的組織形式,XBRL隧道的主要功能分為兩個部分:一是對XBRL描述的財務數據源進行規范性檢測;二是對非XBRL描述的財務數據進行XBRL封裝。
(3)基于XBRL的財務數據挖掘模塊。此模塊是財務數據挖掘的核心部分,通過采用聚類分析、統計方法、關聯規則、決策樹方法、神經網絡等數據挖掘方法,從大量的具有統一XBRL格式的財務數據中挖掘出潛在的、有用的知識或模式。這一部分的功能主要涉及兩個方面:一方面是數據處理機制,由于所處理的財務數據源來自XBRL隧道,所有的財務數據格式從表示形式上看具有統一的XBRL格式,處理這種數據可以采用文檔對象模型技術,即Dom處理技術,然后在Dom基礎上進行下面的財務數據挖掘過程;另一方面是基于XBRL的財務數據挖掘過程,既然數據源是符合XBRL規范的財務數據,因此在財務數據挖掘的過程中,所使用的處理技術也是符合XBRL規范的,其中XBRL本身的Specification(規范)和Taxonomies(標準)為此提供了很好的基礎。
(4)基于XBRL的知識表達模塊。知識表達模塊的主要功能是對在數據挖掘模塊中發現的知識進行可視化的表示,以便于非專業管理人員理解。財務數據挖掘的根本目的是從財務數據中發現有用的知識或模式,在知識的表示形式上,目前較好的且應用較多的有專家系統知識規則、決策樹規則和在數據挖掘中的關聯規則以及分類規則等。財務數據挖掘結果不僅要有利于人的理解,而且更主要的是要有利于計算機的理解,因此在數據挖掘完成之后,要將所得到的知識,形成符合XBRL規范的知識庫。
3 結束語
本文從數據挖掘系統原型架構出發,結合財務數據的特點分析、財務數據挖掘的一般過程和XBRL技術,設計出一種基于XBRL的財務數據挖掘系統模型,為進一步深入研究財務數據挖掘提供了一種較好的方法。當然XBRL技術本身還在不斷發展過程中,數據挖掘也是一項復雜的技術,基于XBRL的財務數據挖掘系統的實現還有一定困難。但隨著信息技術的飛速發展以及新的規范和方法的不斷運用,這一經濟而實用的財務數據挖掘系統一定能夠實現。
主要參考文獻
[1] 安海忠,劉寧,鄭鏈. 數據挖掘系統原形架構的研究[J]. 無線電工程,2005(1):56-57.
[2] 衛金茂,王石,伊衛國. 基于XML的數據挖掘[J]. 計算機工程與設計,2003,24(10):106-108.
[3] 曹露燕,孟凡榮,蔣曉云. 煤礦系統數據挖掘模型的研究與設計[J]. 計算機工程與設計,2006,24(12):4547-4550.
[4] 許淵. 面向XBRL的數據挖掘[J]. 中國管理信息化,2005(10):45-46.
[5] 劉靜. 淺談XBRL與財務信息數據挖掘[J]. 湖南財經高等專科學校學報,2004,20(6):53-55.