999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于大數據算法的納稅遵從風險識別以及影響因子分析

2015-01-01 03:16:02孫存一趙瑜
現代財經-天津財經大學學報 2015年11期
關鍵詞:關聯規則

孫存一 趙瑜

(中國人民大學 金融財政學院,北京100872)

一、引 言

伴隨知識社會的來臨,驅動當今社會變革的不僅僅是無所不在的網絡,還有無所不在的計算、無所不在的數據、無所不在的知識。互聯網、大數據、云計算、機器學習等洶涌來襲,這不僅僅是信息技術領域的革命,更是啟動創新、引領變革的利器,“大數據戰略”給稅務工作帶來了新的機遇,稅收數據的分析正面臨著新一輪的改革和優化。不可否認,稅務部門經過30多年的信息化建設,數據已初具規模,龐大的稅收數據帶來了可供深度挖掘和細致分析的潛在價值,同時又具有分散多樣、價值密度低等特征,如何基于復雜的數據進行分析、整合,從而發現新知識、創造新價值?這值得全社會、尤其是數據分析者思考、研究和關注。

在經濟稅收領域,大多文獻所介紹的模型對數據有一定的要求或假定,而且模型本身也可以有較明確的數學形式,關于模型或擬合的優劣,大都根據對數據的分布假定得到的檢驗來判斷。但是,在大數據時代下,人們根本無法對真實的稅收數據的分布做任何假定,同時,也很難想象復雜的現實世界能夠用有限的數學公式來描述。之前“假定分布=>用明確的數學模型來擬合=>假設檢驗=>P值”的經典過程,似乎難以滿足大數據時代分析需求。決策將越來越多地由數據來驅動,而不是由傳統的理論或經驗來驅動。如何選用代表大數據分析方法、又能和稅收業務相結合的分析方法,精確制導稅收業務應是下一步研究的方向和重點。

眾所周知,不斷變化與發展的經濟稅源狀況給傳統的稅收征管方式帶來了新挑戰,經過幾年的實踐,稅收風險識別成為風險管理在稅務管理應用的基礎和軟肋。在風險管理中,納稅遵從風險是稅務工作的核心問題,圍繞納稅遵從風險的研究很多,一直以來,房地產業納稅遵從風險識別難度極大,房地產業周期較長,受經濟波動、政策因素等影響大,同時再加上房地產業的產業鏈條多、財稅核算復雜等因素,其涉稅行為難以描述。房地產業納稅遵從有多大?主要風險指標如何刻畫?提高房地產業納稅遵從度應該如何入手?等等問題懸而未決,以機器學習為基礎的大數據分析技術便成了破局之選。本文基于實證分析,運用新手段、新技術、新理念、新方法,并將其應用于房地產納稅遵從識別,為我國建立以大數據分析為支撐、以風險管理為導向、以分類分級管理為基礎的現代房地產稅源專業化管理方法,提供了科學依據和技術支撐,同時也對其他領域、其他行業、其他主題的大數據分析具有參考價值。

二、文獻綜述

公開文獻顯示,我國對納稅遵從的測度是在借鑒國外的理論體系框架,結合我國征管實際的基礎之上進行的,在計量方法體系上比較有代表性的有:夏南新(2000)運用現金比率模型對我國1979-1998年的進行了測試。梁朋(2001)、郝春虹(2004)等對我國地下經濟以及相關的稅收流失缺口規模進行了估算。賈紹華(2002)以國家公布的統計資料為數據來源,測算了我國1995-2000年間的稅收收入流失情況。譚榮華,梁季(2005)通過對1999-2002年增值稅收入能力的估算,通過征管力度得出由于征管努力程度不足導致的稅收流失,通過比對實際征收數,得出稅收流失率,進而得出稅收遵從度。童疆明(2009)將實驗的方法引入到對納稅人稅收遵從主要影響因素的分析中,結果表明下列因素有助于提高納稅人的稅收遵從度:較高的稅收檢查概率、較多的公共物品和服務、罰款率、較全面的“第三方報告的收入”信息。總而言之,當前國內理論界的學者、稅收實務部門的工作者對稅收遵從進行了較為廣泛的研究,既有宏觀層次的源于不遵從導致的稅收流失規模的估算,也有從經典理論出發的稅收遵從理論探索,但相當多的研究仍屬于跟蹤應用,使用宏觀數據或者是單指標等分析手段,暴露出的問題有:(1)模型美觀、易解釋、好理解,學術味很濃,但應用起來效果相差甚遠;(2)建模手段單一,選取幾個代表性的變量,難以全面地考慮問題,不能更好地擬合現實數據;(3)挖掘深度不夠,無法揭示出隱含在數據背后更有潛在價值的信息;(4)假設條件嚴格,精確度不高,實踐指導意義大打折扣。所以,上述方法在納稅遵從風險的識別上難以滿足實際工作需求,導致了諸多研究對稅收征管、納稅評估等稅務工作一線的指導意義并不大。

本文從大數據的理念出發,采用適合面向復雜數據分析的“機器學習+關聯規則”方法,選用中國S省房地產行業的涉稅全樣本、全變量數據建立納稅遵從風險模型,深度解析數據規律,推算出稅收流失額、識別出納稅人的風險等級,運用關聯規則算法,將企業的納稅遵從風險等級與收入、成本和費用等指標進行相關性分析,推導出影響納稅遵從風險的關鍵指標,為稅務機關進行納稅遵從風險分析提供實踐性較強的方法與依據。主要貢獻是:(1)所提出的方法是基于多年稅收數據分析實踐的基礎之上,經過反復實踐檢驗出來的“算法模型”,算法模型符合大數據時代的要求,支持規模超大、關系錯綜復雜的數據信息,符合我國稅收征管數據現狀;(2)選用了代表大數據分析方法、又能和稅收業務相結合的模型,成功地將“機器學習+關聯規則”算法進行有效組合,精確識別了房地產業納稅人的納稅遵從風險,分析了影響納稅遵從風險的主要因子;(3)建立了一個比較系統、完整、可操作的房地產稅收風險識別方案,精確制導了稅收風險管理,為加強稅源監控、風險管控、保障稅收收入平穩增長創造了良好的條件。

三、理論基礎

(一)基本思路

OECD基于對稅收遵從風險十多年的研究歷史,將納稅遵從風險分為四類:未正確登記納稅人數、未按規定提交納稅文件、未正確申報應納稅款和未按期繳納稅款,根據OECD的調查,其中80%以上的風險為未正確申報應納稅款和未按期繳納稅款的風險,所以本文所指的納稅遵從風險指的是納稅人未正確申報應納稅款和未按期繳納稅款的行為。2008年12月,OECD在報告中給出了稅收遵從風險模型的步驟:第一步是識別風險,第二步是評估和對風險分級,第三步是分析遵從行為(包括原因和應對措施選項),第四步是確定處理戰略,第五步是計劃和執行戰略?;谝陨喜襟E,本文的基本思路:以全樣本數據為基礎,運用機器學習法測算出單戶納稅人的稅收流失額度,按照流失的額度將納稅人劃分出風險等級,以風險等級為結果目標,運用關聯規則,尋找出影響的風險因子①風險因子,風險因子可根據專家經驗進行設置(單指標、多指標)??紤]到房地產企業的財務狀況,本文僅列舉了營業收入、營業成本、營業費用、管理費用、財務費用5個核心指標,以證明方法的有效性。(如圖1所示)。

圖1 基本思路圖

(二)算法選擇

在大數據時代,以經濟理論為導向構建的模型在經濟預測中常常失效,于是很多經濟學家、計量學家開始轉向以數據為導向的模型研究,以數據為導向的算法很多,不同的算法適用不同的場景,其表現出的優勢也有差異,所以選擇恰當的算法組合應用到不同的主題是非常重要的。考慮到S省稅收數據的情況以及分析主題的目標,本文組合使用了機器學習、關聯規則兩種算法。

1.機器學習。

機器學習的算法有很多,諸如:神經網絡、決策樹、支持向量機、聚類分析等。本文選擇以決策樹為主體的算法。決策樹中的分類回歸樹(Classification and Regression Tree,簡 稱CART)是Breiman等于1984年提出來的一種非參數方法。CART方法可以分為分類決策樹和回歸決策樹兩種,由于本文因變量(企業所得稅稅收流失額,下文會有交代)是數值變量(連續變量),故而使用的是回歸決策樹。其基本原理:假定隨機向量Xn×m(X1,…,Xm)為自變量(屬性或稱輸入變量),Xi可以是離散變量,也可以是連續變量,設其定義域為Dom(Xi)。隨機變量Y為因變量,如果Y為分類變量,設其定義域為Dom(Y)={1,…,J},則構建的決策樹是分類樹;如果Y為連續變量,Dom(Y)∈R,則構建的決策樹為回歸樹。對于回歸問題,回歸R函數:Dom(X1)×…×Dom(Xm)→Dom(Y)。假如令Ω= Dom(X1)×…×Dom(Xm)×Dom(Y),則可以定義Ω空間上的概率測度P。利用這樣的概率測度和一些損失函數L(比如均方損失函數L(a,x)=║a-x║2),在此定義回歸誤差為Rp(R)=Ep[L(Y,R(X1,…,Xm))],其中Ep是關于概率測度P的期望?;貧w樹的構建類似于分類樹的構建,就是從訓練集D中,隨機抽取N個獨立同分布的樣本中尋找函數R使回歸誤差Rp(R)最小,CART回歸樹分割選擇的測度為

選擇方差作為不純度的度量是因為在一個節點中最優常數自變量是對應的測試樣本的預測變量均值,所以方差是預測變量的均方誤,回歸樹樹葉的數值就是該模型的預測值①決策樹能夠產生過擬合的問題,處理的辦法是進行剪枝(限于篇幅,不再贅述),或者組合的方法(比如,隨機森林)。過擬合:給定一個假設決策樹模型H,如果在假設空間上存在另一個假設決策樹模型H*,H的訓練誤差率小于H*,而H的測試誤差率大于H*,則稱H對訓練數據過擬合。。

以上N個獨立同分布樣本是以P從空間抽取的,CART由上到下的遞歸算法可表示為:構建樹(Ti,Di,v)(T為節點,D為數據集分割,v為變量屬性分割方法)。(1)在節點T應用v對數據集D訓中分割變量(屬性)X;(2)假設n為節點T的子節點數;(3)If(T分割);(4)把數據集D分割為D1,D2,…,Dn,并對分割變量X標記上T;(5)構建子節點T的節點T1,T2,…,Tn,并記edge(T,Ti),對應預測值記為q(T,Ti);(6)For eachi∈ {1,…,n};(7)構建樹(Ti,Di,v);(8)End for each;(9)否則;(10)數據集D的多數分類標簽記上T;(11)End if。由此可見,分來回歸樹是遍歷可能的貪婪算法,在每個節點選取能對樣本做最好分類的屬性,直到決策樹能完美地分類訓練樣本為止,或所有的變量(屬性)均已被使用過。需要說明的是,分類回歸樹構建模型時,需要對原始數據集隨機分成訓練集和測試集,對訓練集利用CART算法進行建模,得到分類規則,然后利用測試集對所得的分類規則的性能進行評估,直到模型有效為止。

2.關聯規則

眾所周知的 “啤酒和尿布”的例子,就是將啤酒、尿布有效關聯的典型例子,實際上關聯規則的算法也有很多,諸如APPIORI、ECLAT算法等。本文選擇使用比較經典的APPIORI算法,該算法是Agrawal和Srikant于1994年提出的一種廣度優先的逐層搜索算法,通過對事務計數找出頻繁項集,然后再從中推導出關聯規則,關聯規則的形式為A=>B,A與B是互斥的項集,分別位于規則的左側(Lhs)和右側(Rhs),本文所選取的B項集為{風險等級高}。

1)關聯規則挖掘的第一階段是從原始資料集合中(即,下文表3數據),找出所有高頻項目組(Large Itemsets)。高頻的意思是指某一項目組出現的頻率相對于所有記錄而言,必須達到某一水平,稱為支持度(Support),若支持度大于等于所設定的最小支持度(Minimum Support)門檻值時,則{A,B}稱為高頻項目組。支持度的表達式為

其中:TA表示包含項目X的事務,TB表示包含項目Y的事務,N表示事務數總和(下同)。

(2)關聯規則挖掘的第二階段是要產生關聯規則(Association Rules)。A出現時,B是否也會出現或有多大概率出現,為此稱之為信賴度。信賴度的表達式為

(3)在關聯規則分析中,僅有支持度和信賴度,還不能證明是一條有效的關聯規則,(2)中A?B的信賴度應該大于總體樣本對B的支持度,即提升度。提升度的表達式為

由此可見,如果A、B相互獨立,則lift(提升度)=1表示A、B不相關,是否有A對于B的出現不存在相關性,而lift<1表示A、B負相關,只有lift>1才表示A、B正相關。由此可見,lift越大說明關聯規則越有效。

值得注意的是,考慮到關聯規則挖掘的效率和產生信息的價值,其中的支持度、信賴度和提升度闕值需要人根據專業知識進行有效設定。另外,在所生成的關聯規則中,其中部分規則與其他規則相比只提供了很少的額外的信息,或者說一條規則是另一條規則的超集時,兩者的提升度相等,或者是前者的提升度更小,應該認定為冗余規則,此事需要進行冗余修剪處理,不再贅述。

從以上兩種算法的介紹可以看出,機器學習、關聯規則支持全樣本、全變量數據分析,注重的是數據本身的隨機特征,分析與主題相關的、能夠獲取到的所有數據,可以挖掘出事先未預料的信息。但以數據為導向的算法模型經濟含義不是很明顯,需要做進一步的認知和解釋。

四、研究設計

(一)樣本選擇

基于不同的分析主題,理清稅收大數據分析的邊界是首要問題。一般來講,同一時間、同一地區、同一行業的企業會具有相似的經營條件、業務范圍、財務狀況、稅收政策等,其所體現出的經濟行為才具有同質性。本文的分析主題是“房地產業納稅遵從風險識別”,于是選用了2012年度、S省某市、房地產業的稅收征管數據作為樣本(如表1所示)。

表1 數據總體概況

從表1的數據可以看出,數據涵蓋了能反映納稅人經濟性質、行業類型、地域范圍重要維度的基礎數據、有納稅人業務活動、繳納稅費、盈虧彌補、稅收優惠等情況的申報征收數據、有反映納稅人經營狀況的財務數據等等,另有納稅人房地產行業特征的第三方信息,以上數據來源真實可靠、信息充分,預計能夠達到研究所期望的目標。

(二)數據預處理

在數據分析中,無論是小數據、中數據還是大數據,數據預處理是不可繞過的一關。數據的清洗與整備是非常繁瑣的過程,除了有通用的規則之外,還要針對具體的數據情況進行深入分析,理論上來講,本文經過長期的摸索實踐總結出了“七步治數法”,簡單介紹如下。

第一步,取數與存儲。將取得的S省數據統一整理成數據庫格式,以方便檢索、加工、處理等。

第二步,初篩。以分析主題為導向,生成有針對性的數據集。比如,稅務登記信息篩選順序為:納稅人狀態(正常戶)→國標行業大類(房地產業)→行業分類(房地產開發經營)。

第三步,稅務登記為基礎,將各稅種申報征收信息、財務報表信息、采集信息,按一戶式歸集整理成二維表。經過整理后的數據格式及數據項(如表2、圖2所示)。

表2 一戶式表結構

圖2 一戶式表零空值情況

表2、圖2可以看出,經過整理之后的一戶式數據集,其中的申報征收信息、財務報表信息等部分會有大量的零空值,因為不同的企業繳納稅目的不同,且業務的發生因企業不同而有所差異,數據的稀疏性,在數據,特別在大數據中是難以避免的。

第四步,業務邏輯校驗。對表內、表間明顯不符合業務邏輯的納稅人進行剔除①比如,從會計的角度流動資產+非流動資產=總資產,而數據中流動資產/總資產>1等等不符合業務邏輯的情況。。

第五步,以整理好的一戶式信息為基礎,將零散的數據項歸類匯總合計處理。

第六步,對第五步新形成的數據集做異常值、偏離值、缺失值等的數據統計并處理,形成有利于模型識別的分析數據庫(統計情況如表3所示)。

從表3中可以看出,樣本數據集的數值變量、分類變量的分布也是具有一定的復雜性。從以上標注的圖形看,JJLX分類變量很不均衡、YYSR數值變量也不屬于標準正態分布。在此說明了真實數據一般是難以滿足傳統統計分析方法的假設條件,即正態分布、信息對稱問題,引入大數據分析技術勢在必行。

第七步,對依然成型的分析數據庫做有利于數據分析的調整。

(三)變量選擇

變量選擇上區分為機器學習、關聯規則分析兩部分,如下

1.機器學習

因變量:企業所得稅流失額②考慮到企業所得稅財務關系比較明確,且在各稅種中占有很大的比例,選取"企業所得稅"流失額作為測算對象。。計算企業所得稅有直接法、間接法,在此我們在預測中采用的是“間接法”,即:應納稅所得額=會計利潤+納稅調整增加額-納稅調整減少額;應納所得稅額=應納稅所得額*適用稅率-減免稅額-抵免稅額;企業所得稅流失額=預測應納所得稅額-實際繳納所得稅額。

自變量:稅務登記信息(考慮到分類變量過多會有噪聲干擾,分類變量包含注冊登記類型、行業分類、主管稅務機關大類,數值變量包含從業人數、注冊資產總額等)、申報征收信息(大多是數值變量,原則上予以保留)、財務報表信息(大多是數值變量,原則上予以保留)①機器學習支持全樣本、全變量參與,符合大數據分析的需求。如果選用恰當的機器學習算法,會對異常值、偏離值的容忍度比較高,一般不需要做大幅度的處理,否則就失去了樣本的原始屬性,但是對于缺失值是非常有必要進行處理的,通常來講有以下幾種方法:一是可以從業務邏輯的角度或其他數據源進行推導,以彌補其"缺失";二是用平均值、中間值、最大值、最小值或概率統計函數值來代替零空值;三是通過模型自動彌補缺失,或人工輸入可接受的某值,不再贅述。關聯規則分析支持全樣本、全變量參與,但僅支持分類變量,需要將數值變量進行處理,后邊會提到。。

表3 一戶式寬表統計分布情況表

附加變量:會計利潤。會計利潤=收入-成本-期間費用(營業費用、管理費用、財務費用)②考慮到企業所得稅預測的復雜性,本次預測僅預測會計利潤,企業所得稅流失額=預測會計利潤+納稅調整增加額-納稅調整減少額-實際繳納所得稅額(如果報表勾稽關系正確的話,實際繳納所得稅額=申報會計利潤+納稅調整增加額-納稅調整減少額)。。為避免收入、成本和期間費用的多重共線性,本文將會計利潤作為附加變量進行預測,不再單獨預測收入、成本以及期間費用,同時對會計利潤進行預測更能體現出房地產業的共性,因為納稅調整增加(減少)額是針對個別房地產業、個別業務而執行的稅收政策。

2.關聯規則

因變量:{風險等級高}。對于風險管理來講,通常主要關注的是風險程度較高的企業。

自變量:營業收入、營業成本、營業費用、管理費用和財務費用五個核心指標。實際上,關聯規則分析不受指標數量的限制,同時我們也可以根據專業知識選擇組合指標,比如流動資產占總資產比例(流動資產平均總額/資產平均總額)、營業成本管理費用率(管理費用/營業成本)等等,限于篇幅難以枚舉。

五、模型構造過程

(一)變量分析

在大數據分析中,變量分析是重要的一步。本文分析參與的變量較多,對樣本數據中的變量的分布、相關性等進行分析也是非常重要的,其主要目的是對模型的參數等進行合理調整,以為構建真實、合理的模型奠定基礎。由于設計的變量較多,本文僅列舉重要變量(即:稅務機關、行業、經濟類型、營業收入、營業成本、營業費用、管理費用、財務費用)做如下可視化(如圖3所示):

圖3 重要變量散布圖

圖3中,對角線處分別為:稅務機關、行業、經濟類型、營業收入、營業成本、營業費用、管理費用、財務費用,上圖反映了各變量之間的相關性及其分布狀態等,我們可以依據散布圖的輔助做模型參數的調整,不同的模型對參數的調整要求區別很大,不再贅述。

(二)模型構造

1.機器學習

(1)構造過程。決策樹算法具有易理解、易解釋的特點,基于以上原理、利用全樣本數據,構建決策樹的過程比較清晰。

也可以進一步將算法轉化為樹狀,以更清晰地了解決策樹的分析過程(如圖4所示)。

從圖4可以看出,決策樹經過多次遞歸選擇了以YYLR中的8 899 340為分界線開始分類,繼而在YYLR、LRZE等中計入第二次分類,各分類下的P值(即回歸誤差)非常小。從業務屬性上看,決策樹上層所選擇的變量屬性與測算的目標(企業所得稅流失額)關聯度比較密切,這是符合業務常識的。

(2)誤差檢驗。機器學習法不需要對數據做先驗假設,產生的結果用交叉驗證(Cross validation)的方法判斷?;驹恚嚎梢韵仍谝粋€子集上做分析,而其它子集則用來做后續對此分析的確認及驗證。一開始的子集被稱為訓練集。而其它的子集則被稱為驗證集或測試集。交叉驗證是一種評估統計分析、機器學習算法對獨立于訓練數據的數據集的泛化能力(Generalize)(交叉驗證結果如表4所示)。

圖4 決策樹構造過程簡圖

表4 交叉檢驗情況表

表4中,訓練集誤差率一般都很小,這說明機器學習法逼近數據相關性的能力很強,但外推性是我們更為關心的,從測試集看誤差率<1,且小的多,這是非常理想的效果,說明所構造的模型可靠性很高。

2.關聯規則

關聯規則的分析過程,從原理上已經比較清楚,對于關聯規則來講,不同的支持度、信賴度會對時間的開銷影響比較大,本文設置支持度=0.01、信賴度=0.6,基于0.01的支持度每一條規則至少有0.01*N(N,表示觀測值的個數)個正例。(頻繁項集如圖6所示)

從關聯規則構建過程看,由于樣本量、設置闕值等原因,本文所構建的關聯規則過程時間開銷不是很大,我們可以從關聯規則的構造過程中看到其運行的過程(關聯規則構造過程簡表如表5所示)。

表5 關聯規則構造過程簡表

圖5 關聯規則頻繁項集圖

表5可以看出,由于所選取的樣本量、各闕值的設置相對合理,系統在關聯規則構造過程中所用的時間開銷很小。在此說明,在關聯規則挖掘中,常見的問題是挖掘出來的規則中有很多是沒有意義的,為此必須要在左側(Lhs)和右側(Rhs)中設置感興趣的條件,以避免不必要的結論,以爭取更多的時間成本,另外也可以設置關聯規則的最大長度(Maxlen),或者根據提升度進行降序排列等設置。

六、實證結果與分析

(一)風險識別

風險識別是風險管理的第一步,也是風險管理的基礎。本文通過機器學習構建了理想的稅收經濟關系模型,預測出企業的應納所得稅額,推導出稅收流失額,根據流失額進行風險排序和風險等級劃分,在此基礎上進行納稅遵從風險識別(風險識別結果如表6所示)。

表6 風險識別結果簡表 單位:元

表5中,流失額是所測算出的稅收流失額,風險排序以流失額大小進行的排序,按照流失額大小將風險等級為:高、偏高、中、偏低、低、無風險六個層級,考慮到存在納稅人稅收流失額為0(包含少量稅收流失額<0)的情況,將其單獨作為 “無風險”等級,對稅收流失額>0的納稅人按照五分位進行劃分。由此可見,完成了OECD的前兩步,即第一步是識別風險,第二步是評估和對風險分級。從表6可以看出,運用機器學習法推算出了分戶的稅收流失金額,這無疑是一個巨大的進步,為后續按不同維度、不同視角進行分析奠定了基礎。

(二)因子分析

大數據分析,要求創新和精準。風險識別將不同風險程度的納稅人進行了劃分,接下來還要對形成風險的原因進行分析。在此,我們以風險等級高的納稅人作為目標,以營業收入、營業成本、營業費用、管理費用和財務費用為影響因子,運用關聯規則原理將造成該結果的原因進行推導(推導結果如表7所示)。

表7是基于支持度>=0.01、信賴度>=0.6且按照提升度由大到小排序所形成的結果,其中的“rf_pre_jg”表示 “風險等級”。從提升度可以看出,以上列舉的5條規則(實際規則條數太多,不再一一列舉)都是有效的。下面來解讀以上關聯規則,比如規則1提供的信息是:在總體樣本中有0.01(1%)的數據支持A、B同時出現,且 A=>B的可信度為0.7(70%),結論為經濟類型為有限責任公司,所申報的營業費用高、管理費用高、財務費用小于等于零(估計是利息費用所致),具備以上特征的房地產企業納稅遵從風險程度高。從而,該結論反映出其他有限責任公司房地產業往往通過多報營業費用、管理費用等手段來達到偷漏稅的目的,對此應引起高度關注。

表7 關聯規則推導結果簡表

(三)可視化處理

大數據分析可視化形式很多,也在不斷地發展之中,數據可視化是大數據的基本要求之一。

1.風險識別

以風險識別表6為例,以相關性為視角做可視化分析(如圖6所示)。

圖6是列舉的比較前沿的可視化展示方法。圖6左表示標準化之后的營業收入、營業成本、稅收流失額之間的相關性,從圖6左可以看出,稅收流失額與營業收入、營業成本之間存在高度的相關性,這一點符合業務常識,當然也可以做其他指標的分析;圖6右,是按序號選取了1-10戶納稅人的營業收入、營業成本、營業費用、管理費用、財務費用、稅收流失額之間的相關性。從圖6可以看出,基于機器學習之后所形成的表5為傳統的分析、復雜的統計分析提供了極大的便利性。

2.關聯規則

關聯規則推導結果簡表為例,做進一步可視化處理,以方便解讀(如圖7所示)。

圖6 基于相關性視角的簡單分析

圖7 關聯規則推導結果簡圖

關聯規則的可視化有很多,僅列舉兩個,可視化不同,思考過程也不盡相同。圖7左是平行坐標圖,從線路1可以看出,營業費用(高)+財務費用(小于等于零)+經濟類型(其他有限責任公司)+管理費用(高)→風險等級(高);圖7右是有向圖,起點屬于影響因子,各影響因子所指向的中間圓圈表示的是“共同指向”(圓圈的大小表示置信度、顏色的深度表示提升度),共同指向的下一步指向(即箭頭終點)是結論。從圖7可以看出,運用關聯規則可視化技術,有利于形象地理解問題,同時更有助于實踐工作。如此,已經完成了OECD所確立的五步中的三步,對下兩步的確定處理戰略和計劃執行戰略奠定了實質性的基礎。

實際上,最終導致房地產業納稅遵從風險等級高的原因會有很多,不同的行業影響因子會有很大的不同,在面向某一個行業的影響因子分析中,也應該將所有的風險因子及其因子組合全部放進模型中進行推斷,以找出影響納稅遵從風險的各種原因所在,在大數據分析中也是可以做到的。由于篇幅所限,本文僅提供技術上的可行性,在后續的文章中會繼續探討。

七、結論與展望

通過以上稅收大數據的實踐探索,以規范的技術流程、既定的業務規范系統地完成了納稅遵從風險識別以及影響因子分析,證明了“機器學習+關聯規則”組合算法技術的可行性,為大數據時代稅收數據的應用奠定基礎。結果表明:(1)機器學習可以有效地用于納稅遵從風險識別,為稅收風險等級劃分以及納稅信用等級評定奠定基礎;(2)關聯規則算法可以推斷影響房地產業企業納稅風險的影響因素,為找出納稅遵從風險存在的根本原因提供了科學依據;(3)恰當的算法組合,可以形成面向不同視角、不同主題的分析數據庫以及可視化的形式,為我國建立以大數據分析為支撐的現代稅源專業化管理,提供了強大的技術保障。

當然,從大數據分析利用來講,僅僅是“拋磚引玉”。本文所采用數據量體上遠沒有達到大數據的要求,僅從涉稅數據來講,還要引入工商管理局、房地產管理局第三方信息的數據,甚至是影音、圖像等非結構化數據,數據處理分析的技術、規則等的難度、復雜度也終將呈級數增長,當然,大數據分析技術也會在實踐中日臻成熟。在數據可得的條件下,作者將進一步做深入研究。大數據時代給了我們更多可以應用數據的機會,與此同時我們也看到現實的挑戰,數據要發揮更遠的價值目標,需要我們不斷地尋求和探索。據了解,國外許多機構已經投入了大量人力、物力和財力進行相應研發,而我國將機器學習為核心的算法模型應用到系統平臺實例并不多,對此應引起高度重視。本文的建議如下。

一是要深入研究并構建大數據供應體系。確保稅收征管數據的表內、表間邏輯性檢驗,同時對以往的存量數據做徹底清洗和規整。在這基礎上,再著手第三方信息采集和應用,優先考慮政府內部數據,再考慮互聯網數據。

二是理清稅收大數據分析的邊界。在稅收大數據分析中,稅收征管數據是稅收業務的核心,進行稅收數據分析,不能舍棄或背離這個核心,更不能眉毛胡子一把抓,要在求精的基礎上逐步推進、延伸,才有利于稅收實踐和指導稅收工作。

三是稅收大數據分析從小問題開始。大數據概念在商業上已經被炒的像一個神話,其實也很少人知道應該怎么去做,經常我們得到一些需求都是特別宏觀、特別大的,其實都不太容易落地,從實際落地的角度來看,大數據要有效的落地還是要從解決小問題開始。

四是要深入研究并建立強大有效的大數據技術體系。稅務大數據應用是難以想象的復雜工程,它是硬件、軟件、網絡、應用系統、標準、安全、運維、工程、制度、業務、技術、流程、組織、管理、資金、人員的有機結合與團隊的聯合作戰,放縱單打獨斗必全局大亂。稅務機關應借鑒市場上大數據搞的比較好的企業經驗,比如互聯網金融的大數據分析技術經驗。

五是要加強大數據人才培養。大數據分析,是一個相對全新的領域,很多時候是摸著石頭過河,對專業人才的要求極高。做好大數據分析,相關人員應該具有計算機、統計學、經濟學等復合知識背景。當然,總局《全國稅務領軍人才培養規劃》正可為大數據的人才培養創造契機。

[1]Nicolai,Meinshausen.Quantile Regression Forests[J].Journal of Machine Learning Research.2006,7:980-999.

[2]Nolan D,Speed T.Stat Labs:Mathematical statistics through Applications[J].Springer.2000.

[3]http://baike.baidu.com/link?url=t6EFwZBtEeeP VdQsfdPOpc2t-O6rGqM8EdtP7vaq1F2GGvS7RIw NjGbdcRA8x219HRnzqBFWDF-omCrvUzMfla.中國百度網,2015.

[4]Yanchang.R and Data Mining:Examples and Case Studies[M].Singapore:Academic Press:2012.

[5]陳赤軍.稅務評估審計概論[M].機械工業出版社,北京:2010.

[6]方匡南.隨機森林組合預測理論及其在金融中的應用[M].廈門大學出版社,廈門:2012.

[7]譚榮華,焦瑞進.關于大數據在稅收工作中應用的幾點認識[J].稅務研究,2014(9).

[8]涂子沛.The Big Data Revolution[M].廣西師范大學出版社,桂林:2013.

[9]吳喜之.復雜數據統計方法——基于R的應用(第二版)[M].中國人民大學出版社,北京:2013.

猜你喜歡
關聯規則
撐竿跳規則的制定
不懼于新,不困于形——一道函數“關聯”題的剖析與拓展
“苦”的關聯
當代陜西(2021年17期)2021-11-06 03:21:36
數獨的規則和演變
“一帶一路”遞進,關聯民生更緊
當代陜西(2019年15期)2019-09-02 01:52:00
規則的正確打開方式
幸福(2018年33期)2018-12-05 05:22:42
奇趣搭配
讓規則不規則
Coco薇(2017年11期)2018-01-03 20:59:57
智趣
讀者(2017年5期)2017-02-15 18:04:18
TPP反腐敗規則對我國的啟示
主站蜘蛛池模板: 国产精品丝袜在线| 男人天堂亚洲天堂| 亚洲人成电影在线播放| 国产成人午夜福利免费无码r| 国产真实乱子伦精品视手机观看 | 国产jizz| 2021天堂在线亚洲精品专区| 性69交片免费看| 久久综合成人| 毛片在线播放网址| A级毛片高清免费视频就| 综合色天天| 91口爆吞精国产对白第三集| 日韩无码黄色| 一区二区影院| 尤物国产在线| 四虎永久免费地址| 亚洲无码A视频在线| 国产xxxxx免费视频| 国内精自线i品一区202| 在线看国产精品| 91视频精品| 六月婷婷激情综合| 亚洲人成网址| 美女被狂躁www在线观看| 中国国产一级毛片| 国产精品视频白浆免费视频| 欧美日韩在线第一页| 欧美亚洲香蕉| 亚洲精品第一页不卡| 午夜成人在线视频| 国产乱人视频免费观看| 欧美视频免费一区二区三区| 一本一本大道香蕉久在线播放| 亚洲精品天堂自在久久77| 91精品国产综合久久香蕉922 | 91精品国产91欠久久久久| 成人在线综合| 3D动漫精品啪啪一区二区下载| 国产一级毛片高清完整视频版| 欧美国产成人在线| 人妻无码一区二区视频| 制服丝袜一区二区三区在线| 国产办公室秘书无码精品| 久久美女精品国产精品亚洲| 在线观看亚洲人成网站| 国产精品欧美激情| 国产91九色在线播放| yjizz国产在线视频网| 国产日韩AV高潮在线| 色香蕉网站| 另类专区亚洲| 日韩无码视频播放| 欧美午夜小视频| 久久99国产乱子伦精品免| 国产区91| 久久99精品国产麻豆宅宅| 国产精品美人久久久久久AV| 国产高清在线精品一区二区三区 | 国产精品 欧美激情 在线播放| 国产精品三级专区| 久久九九热视频| 国产成人亚洲无吗淙合青草| 亚洲国产成人超福利久久精品| 伊人久久大香线蕉综合影视| 欧美日韩在线亚洲国产人| 高h视频在线| 欧美一区精品| 在线看国产精品| 毛片在线区| 亚洲黄色视频在线观看一区| 全免费a级毛片免费看不卡| 国产午夜精品一区二区三区软件| 亚洲第七页| 91国内外精品自在线播放| 九九久久精品免费观看| 制服丝袜国产精品| 九色视频一区| 成人夜夜嗨| 97国产成人无码精品久久久| 四虎在线高清无码| 国内老司机精品视频在线播出|