汪東起 王 珂
?
稅務大數據分析的技術和典型應用
汪東起 王 珂
浪潮軟件集團有限公司,山東 濟南 250101
主要說明了如何搭建適合于稅務業務應用的大數據分析平臺,并進一步分析了運用大數據開展業務應用的過程、建模方法和數據處理方法。通過對比大數據與傳統信息化建設方式的差異,說明了大數據將為稅務機關的信息化建設帶來全新的突破,提供更為有力的業務創新手段。
稅務;大數據;技術架構;數據分析
稅務機關是我國信息化建設起步較早的領域,特別是隨著以“金稅工程”為代表的信息系統的實施,各省稅務機關基本上都實現了業務信息化的全覆蓋,積累了龐大的數據資源。以云計算、大數據、移動互聯網為代表的新一代信息技術,提供了全新的技術、渠道和方法。通過與傳統業務的融合創新,正在給世界帶來巨大變化。這些新技術也為優化稅務業務帶來了新的發展機遇。
傳統的信息技術主要是輔助業務,而大數據已經遠遠超出了技術領域,其力量體現在與業務相結合,優化現有的業務,甚至進行顛覆性的創新[1]。這樣的案例每天都在各個領域發生。稅務機構同樣可以利用大數據預知未來的發展動態,推動業務的轉型升級,優化管理和服務模式。大數據平臺的總體框架分為:數據源層、數據處理層、應用支撐層、業務應用層。
大數據分析不僅需要稅務機關內部的業務系統數據,而且需要豐富多彩的外部機構數據,這些數據有助于解決更為廣泛的業務問題。
稅務機關內部的數據通過數據同步/抽取工具匯集到數據中心;外部機構的數據通過對應的采集工具,交換到稅務機關內部的數據中心。為了應對呈指數增長的非結構化數據,在云平臺上搭建NoSQL數據庫,用于存儲和處理龐大的數據。
按照業務分析的要求,建立相應的數據模型,在平臺中封裝了各種分析算法組件和展示模板;為支撐不同的業務應用場景,提供基礎的分析工具(如數據挖掘、網絡分析、可視化等),提供統一的管理工具(如基礎數據管理、數學模型管理、標簽管理、運行維護等)。
針對具體的業務場景,建立眾多基于大數據平臺的“小應用”,解決具體的業務問題;各個“小應用”具有各自的分析功能和展示界面,甚至與社會服務渠道相融合,針對不同的用戶對象提供相應的功能。
隨著“金稅工程”的不斷深入,稅務數據資源的種類不斷豐富,數據量快速增長,特別是近年來飛速增長的電子票據、視頻、網頁等非結構化數據,已經超出了目前的處理能力。如何采集、存儲和利用龐大的涉稅數據,進而從海量的數據中挖掘有價值的信息,已然成為稅收信息化面臨的一個重大課題。從結構化數據轉向大數據是下一步發展的必然選擇。稅務機關在選擇大數據平臺時,主要應考慮與具體業務應用場景相關的一些因素,具體情況如下:
大部分廠商的大數據平臺都是建立在Hadoop之上的發行版,附加了一些工具和服務支持。不同于結構化數據庫,大數據工具的選擇取決于要處理哪種數據,不可幻想有一個大數據平臺能夠適應各種應用場景。另外,政府機構還必須把是否國產軟件列入考慮因素。
很多大數據平臺非常適合非結構化數據處理,但是在結構化數據處理方面卻遠遜于傳統的結構化數據庫[2]。目前稅務機構的業務數據主要是海量結構化數據,對結構化數據的處理效率是必須關注的一個重點問題。
稅務領域的業務應用場景非常廣泛,涉及的數據類型和來源也非常豐富,因此對數據的加工處理、分析挖掘能力的要求也比較高。
稅務領域的數據源非常廣泛,很多應用場景需要進行實時分析,但是數據源經常會發生變化,直接影響采集的數據質量,因而需要有工具監測數據源和采集數據的異常情況,及時采取糾正措施。
經過20多年的信息化建設,某省稅務局目前正在使用的應用系統超過100個,主要的系統有金三系統、社保系統、發票在線、自助終端、12366服務熱線等,基本覆蓋了稅務管理各方面的工作內容[3]。其中,金三系統、社保系統等每天都會產生數百萬筆業務數據。另外,稅務業務還涉及工商、質監、交易中心等政府部門的共享數據以及來自移動互聯網、網絡社交媒體等方面的外部數據。數據格式覆蓋了文件、地理信息、日志、圖片、流媒體等多種形態。豐富的數據源,為開展大數據分析奠定了堅實的基礎,而眾多五花八門、來源各異的數據源,也帶來了非常復雜的數據清洗工作。信息化建設較為發達的省級稅務局一般都建立了數據中心,實時將業務系統的數據(大部分是結構化數據)同步到數據中心,大部分非結構化數據則存儲在原業務系統中,局外的數據通過數據交換接口傳輸到內網,集中存儲到數據中心。具體的業務分析應用,通過數據接口將涉及的數據從省級數據中心抽取出來,對這些多源、異構、海量的原始業務數據進行清洗、轉換、對碰等預處理,將數據存儲到大數據庫,形成針對不同業務分析的數據集。
大數據與稅務業務相融合,應用的范圍和發揮的作用都遠超以往信息化建設的成果,成為帶動稅務深化改革的利器。例如,納稅人涉稅風險評估、稅收政策效果測度、面向納稅人的精準服務、辦稅流程優化等。以前很多情況都是憑借經驗做出決策,而采用大數據技術和方法,就可以根據積累的數據,分析得出采取某項措施后可能帶來的影響。在某省稅務局的大數據分析項目中,利用大數據技術和方法小試牛刀,在采集整合各業務系統、各辦稅服務渠道和外部機構數據的基礎上,構建能夠實時、全程、多元反映納稅服務運行狀態的業務模型,完成了政策影響分析、辦稅事項業務量預測、面向納稅人的精準服務等應用場景,取得了非常好的效果。
綜上所述,大數據在稅務領域的應用,目前還處于起步階段,在項目中只是在大數據分析方面做了很小的嘗試,還有非常豐富的業務場景有待發掘。
[1]于眾.大數據環境下稅收數據深度利用探索[J].經濟研究導刊,2016(13):78-79.
[2]維克托·邁爾,舍恩伯格,肯尼斯·庫克耶.大數據時代——生活、工作與思維的大變革[M].盛楊燕,周濤,譯.杭州:浙江人民出版社,2012.
[3]孫懿.大數據時代對稅務工作的挑戰與對策[J].學術交流,2015(6):133-139.
Technology and Typical Application of Big Data Analysis
Wang Dongqi Wang Ke
Inspur Software Group Co., Ltd., Shandong Jinan 250101
The paper mainly explains how to build big data analysis platform suitable for tax business application, and further analyzes the process, modeling method and data processing method of using big data to carry out business application. By comparing the difference between big data and traditional information construction mode, it shows that big data will bring new breakthroughs to information construction of tax authorities, and provide more effective means of business innovation.
tax; big data; technical architecture; data analysis
F812.42;TP311.13
A
1009-6434(2017)12-0080-02