曹 騫 許 磊
(1巢湖學院計算機系,安徽 巢湖,238000)
(2中國科技大學計算機學院,安徽 合肥,230000)
(3巢湖學院物理系,安徽 巢湖,238000)
數據挖掘技術在稅務系統數據分析上的應用
曹 騫1,2許 磊3
(1巢湖學院計算機系,安徽 巢湖,238000)
(2中國科技大學計算機學院,安徽 合肥,230000)
(3巢湖學院物理系,安徽 巢湖,238000)
本文主要介紹了巢湖市地稅局稅務系統的系統結構和關鍵技術。該系統主要運用數據倉庫、ETL、數據挖掘等關鍵技術。
數據分析系統;數據倉庫;ETL
巢湖市地稅局稅務系統管理中心以稅務處理系統為基礎,開發了一系列的增值業務。隨著稅務系統的運行,納稅企業稅單越來越多,系統累積的各種數據規模越來越大,累積的數據中包含著豐富的有價值信息,能夠幫助巢湖市地稅局更好的處理稅務的征收,與稅務的稽查。因此,在管理中心的日常業務中,對稅務系統中各種數據的各種分析需求已經逐漸顯露出來。
目前解決分析需求的辦法是,需要有專門的技術人員對最底層的核心數據庫進行手工操作,,用手工導出大量的相關的用戶數據,稅務記錄數據,然后通過相應的工具軟件制作相應的報表。這樣是能找出大量的數據,但是無法對取得的數據進行全面深入的分析,很難在海量的數據中找到潛在的有價值的信息,同時操作復雜繁瑣,數據間的相關性很難找到,響應時間長,報表制作周期長,容易出錯,而且由于直接對底層數據庫進行操作,對于數據的安全性和系統的安全性是一種潛在的威脅。怎樣解決目前的問題呢?方法是稅務系統的基礎上,構建一個能提供多種對數據深入分析方法,擴展當前系統使之具有靈活簡單的報表定制功能,同時為系統平臺的安全性提供完整的解決方案,為數據建立綜合的稅務分析平臺。找出相關的數據的邏輯性,與關聯性,為稅務的核查,提供相應的幫助,本文主要從總體設計、數據倉庫建模、ETL、系統功能等方面來論述,將系統建設重點放在內層數據倉庫建設,并在數據倉庫分離分析和業務環境的基礎上,建立一個基于Web的B/S架構的企業級數據分析框架,滿足本稅務征收和稅務稽查等部門的工作業務分析需求。
2.1 體系結構
稅務系統綜合數據分析平臺采用了基于瀏覽器的三層結構(B/S架構),體系結構如圖1所示。系統需要定期(每周/月/季度/年)從業務系統(稅務系統、稅務部門網站服務器、系統日志等)里抽取分析平臺所需要的分析數據,增量式地更新稅務系統綜合數據倉庫SMMAIL-DW,這部分抽取工作對底層的原始數據的視圖進行操作。保護了原始數據的安全性。SMMAIL-DW存儲了以客戶為中心的特征數據和行為數據,以網頁為中心的web訪問數據等,應用服務器定期(每周/日/年)對這些數據進行處理(匯總、聚合、統計、分類等),同時應用服務器提供還提供相應的查詢和分析的接口,對分析結果數據提供基于WEB的展示的接口,最后應用服務器定期(每周/日/年)生成各類數據分析報表。WEB服務器端通過ASP.Net程序調用應用服務器的各種功能,用戶通過瀏覽器直接訪問本系統。

圖1
2.2 系統組成
根據上述體系結構,的整個系統組成如下所示:
1)ETL:包括原始數據 ETL、參數設置、系統檢錯等功能;
2)業務邏輯:包括數據處理、查詢分析、數據挖掘建模、結果顯示等功能;
3)前端應用:包括納稅企業分析、稅務分析、Web分析、系統運行分析、系統管理等功能。
3.1 數據倉庫設計
數據倉庫總體結構如圖2:

圖2
原始稅務業務數據視圖通過ETL程序自動導入到數據倉庫中的事實表中。除了事實表,數據倉庫中還包括了企業信息、稅單信息,賬單信息等維表。在數據倉庫的基礎上,為了滿足各種數據分析需求,再為不同的分析主題中建立相應的數據集市。
對于數據倉庫中的按月匯總的明細事實數據,由于其數據量會非常大,可以按照保持一個時間周期(比如一年)之后自動按上一級時間粒度匯總的策略來保存歷史數據,這樣在明細表中就可以始終保持一個時間周期的細節數據。如圖3所示:

圖3
4.1 ETL高層設計
ETL高層設計是指將數據倉庫中的數據模型與其涉及到的OLTP系統中的相關數據表建立起對應關系,設計表級數據的初始導入及增量導入規則,將訂納稅企業信息、稅單的處理、企業的地理信息、系統日志、、網站內容訪問數據等以視圖的方式導入。
4.2 聚合策略設計
聚合是指在某一周期(如一個月,一年等)對事實表中的數據做按照一定規則的匯總,以減小數據量,提高絕大部分查詢的速度;同時將歷史數據中最能體現信息,最有保存價值的數據做保留,提高數據庫的使用效率。
在聚合維度的選取上我們要遵循的原則:維度頻度頻繁訪問原則:只有那些被經常需要使用到的維度,才有做聚合的意義;可選度小原則:指維度中可選用的值較少,只有這樣,聚合后才可能大規模的減小數據量。
具體實施中,我們將用軟件對各個事實表的數據量進行一個大致的計數,然后根據以上原則自動調用事先寫好的聚合的相應具體算法策略。
4.3 ETL異常處理機制
當ETL執行過程中發生異常時,ETL程序要記錄發生異常的詳細錯誤信息,發生錯誤的文件,錯誤的SQL語句,錯誤數據所在的行和列和發生錯誤的時間,同時根據數據的類型,根據提前指定的軟件糾錯機制,程序自動執行相應的操作,保證系統的運行,對于沒有預測到的錯誤,系統會將錯誤記錄分別歸類成異常數據文件,異常數據文件按照不同的數據類別進行分類存放。這樣用戶就可以快速的定位到有錯誤的數據,同時制定相應的解決方案,使之方便對異常數據文件進行集中處理。
在定位到錯誤位置并找出錯誤原因以后,通過修改源數據,增加糾錯程序方案,再次通過ETL程序增量導入到數據倉庫中。
4.4 ETL流程設計
ETL流程包括初始化導入和增量導入。初始化導入包括手工維護維度裝載、緩慢變化維表數據裝載、事實表數據裝載。增量導入包括緩慢變化維表數據裝載、事實表數據裝載階段、數據匯總和聚合以及異常情況處理。
5.1 納稅企業分析
首先要提供一個統一的納稅企業數據視圖,通過這個視圖,可以對一個那納稅企業的多個層次信息同時進行反映,包括基本信息、企業相關的各種賬務報表信息。
在統一的納稅企業數據視圖基礎上,平臺能夠提供多種可視化查詢和多維分析手段,對納稅企業數據進行查詢、切片、旋轉、鉆取等操作,從多個不同的角度查看數據。
在查詢和多位分析的基礎上,平臺提供更深入的數據挖掘技術對納稅企業進行深入分析,包括根據企業基本信息和稅單信息進行企業細分,需要稽查的潛在企業分析,根據企業財務報表信息進行企業分析。有分析數據作出企業大致的經營情況為稅務的稽查,提供一定的范圍的幫助。
所有統計、查詢和數據挖掘分析的結果都能夠生成基于Web的報表,包括固定格式報表和用戶自定義報表兩種形式。
5.2 權限管理
本平臺的用戶基本分為三個層次:稅務管理層面;稅務和稽查局長;技術部工程師,不同層次的用戶具有不同的操作權限。因此系統要提供完整的“操作許可(Permission)-角色(Role)-用戶(User)-機構(Group)”的四層權限模型。 首先提供用戶管理功能,可以增加、刪除、修改用戶信息;其次建立所有的操作許可;然后在操作許可上建立不同的角色,一個角色可以有多個不同的操作許可;最后將角色分配給用戶。保障系統原始數據的安全與保密性。
5.3 系統監控
從實時系統運行日志和網絡設備日志數據中采集標志性數據,從而反映整個系統運行的情況,比如所有納稅企業、當前以納稅企業,需要納稅企業,減稅企業等等。系統提供用戶可定制的基于Web的系統監控報表;
在系統運行數據采集和查詢的基礎上,需要進一步對系統運行狀態進行預測分析,即根據采集到的系統日志、網絡設備日志等數據,對系統的運行狀態建立預測模型,從而在檢查系統運行狀態的同時,能夠對系統下一步可能出現的情況進行預測分析。對于所有的預測模型,平臺能夠自動定時的根據采集的日志數據進行重新訓練和優化,從而不斷提升模型精度。
巢湖市地稅局稅務分析系統根據上述系統框架,基于數據挖掘等關鍵技術開發而成。數據倉庫設計采用PowerDesigner 6.0,構件技術采用基于COM的標準,數據分析采用了復旦德門DMiner智能分析平臺提供的二次開發函數DMiner SDK,開發語言采用ASP.Net1.1。
目前該系統已經在巢湖市地稅局正式上線運行,運行狀態良好,稅務工作人員通過該信息分析平臺獲得很多有用的信息。
[1]王志海等譯.數據倉庫[M].北京:機械工業出版社,2000.
[2]Jiawei Han,Micheline Kamber著,Data Mining Concepts and Techniques[M].北京:機械工業出版社,2006.
[3]Kim J.Iterated grid search on unimodal criteria[D].PhD dissertation,Department of Statistics,Virginia Tech,1997.
[4]Keogh E,Chakrabarti K,Pazzani M&Mehrotra.Dimenslonality reduction for fast similarity search in large time series databases[J].Journal of Knowledge and Information Systems,2000:263-286.
THE APPLICATION OF DATA MINING ON THE INFORMATION ANALYSIS OF CHAOHU BUREAU IN THE TAX SYSTEM
CAO Qian1,2XU Lei3
(1 Department of Computer,Chaohu University,Anhui Chaohu 238000)
(2 School of Computer,University of Science and Technology of China,Anhui Hefei 230000)
(3 Department of Physics,Chaohu University,Anhui Chaohu 238000)
This article mainly introduced the system of tax bureau chaohu system structure and key technology of this system is mainly used.Data warehouse and data mining,the ETL key technology.
Data Analysis System;Data Warehouse;ETL
TP311
A
1672-2868(2010)06-0017-04
2010-08-20
巢湖學院自然科學研究資助項目(XLY-201012)
曹騫(1981-),男,安徽安慶人。巢湖學院計算機系教師,研究方向:數據挖掘。
責任編輯:陳 侃