謝波峰(中國人民大學中國財政金融政策研究中心 北京 100872)
面向大數據的稅務管理應用模式及政策建議*
謝波峰(中國人民大學中國財政金融政策研究中心 北京 100872)
本文在總結各國稅務機關大數據應用經驗的基礎上,提煉了大數據應用的三大特征,歸納了新的應用模式,并從理念、實施路徑和成果應用三個方面提出了相應的政策建議,以期為我國稅務機關應用大數據提供有益參考。
稅收大數據 稅務管理 數據分析與應用
從頂級科研期刊Science、Nature提出大數據這一研究領域以來,包括我國在內的各國稅務機關便紛紛開始嘗試大數據在稅務管理中的應用,試圖發現更多規律,進一步提升管理效率。本文梳理了各國稅務機關大數據應用經驗,分析了大數據應用的特征,歸納了面向大數據稅務管理應用的主要模式,并對我國稅務機關進一步發展大數據應用提出了相應的政策建議。
事實上,在大數據這一概念風靡之前,不少國家就開始探索如何發揮稅收征管中積累的海量數據的應用價值。例如,美國國稅局(IRS)早在2004年左右就嘗試通過關系型挖掘技術來發現海量納稅人數據中的遵從信息,IRS針對高收入人群非法利用避稅方法的現象,應用支持向量機的數據挖掘方法,使用2000-2003年納稅年度數據建立的模型識別了不少高收入納稅人不遵從的稅收案例,每個案例都涉及上百萬美元的偷逃稅額。近年來,隨著具有“4V”特征①4V是指Volume、Velocity、Variety、Value.的大數據技術的進一步應用和推廣,各國在應用大數據的場景方面更加豐富(OECD,2016),出現不少值得借鑒的經驗。
(一)嘗試引入更多方法
在豐富的大數據面前,以前受制于數據的方法選擇空間更大。以逃稅分析為例,各國稅務機關除了應用傳統的計量統計模型外,還嘗試了不少新方法。愛爾蘭、荷蘭、新西蘭、新加坡等國通過社會網絡分析(SNA)幫助發現增值稅輪盤詐騙(Carousel fraud),SNA方法將大量交易數據進行關系分析,推測出可疑群體的聯系,并進行形象化展示。澳大利亞和愛爾蘭在識別不正確扣除申報和未申報收入的應用中,探索了無監督學習模型(unsupervised learning methods)的使用。無監督學習模型針對事先不確定的不遵從納稅人和遵從納稅人的混合樣本群,自行發現數據內在的性質和規律,從而實現混合數據的自動分類,該方法充分體現了“讓數據說話”的應用原則。與偏重于理論及經驗指導的傳統監督學習型模型相比,其更容易發現以往不知道的數據模式,通過此方法,澳大利亞稅務局和愛爾蘭稅務局發現了不少以前未知的稅收風險特征。
(二)進一步拓展分析對象
大數據可以將稅務管理中的分析對象從單個納稅人拓展到相關的各種主體。SNA就是將分析對象從單個納稅人拓寬到一組納稅人,幫助稅務管理部門分析團伙稅收犯罪情況,此類案件僅分析單個企業往往無法發現可疑之處。通過SNA方法理清各企業之間的關系,包括各公司高層之間的關系、銀行賬戶往來、共享的辦公電話等,便于稅務風險管理人員在集團范圍內發現風險。分析對象的拓展還可以通過業務流、現金收入流等關系進行。例如,IRS通過模型將交易分析拓展到現金流中的相關納稅人,從而發現低申報的不遵從現象。除此之外,澳大利亞稅務局將同一稅務中介的納稅人歸類在同一個模型中進行分析,形成了針對統一稅務中介層面的不同納稅人風險檢測。
(三)應用場景更加豐富
近年來,稅務機關收集的大數據除了征收管理方面的信息之外,還包括納稅人溝通情況、調查問卷、政府其他部門的公民管理數據、銀行部門信用記錄等數據,使得潛在的應用場景更加豐富,可以進一步在納稅服務、欠稅管理等領域應用。例如,新加坡稅務局(IRAS)從2014年開始,通過分析各種數據在改進涉稅事項通知設計、自助納稅工具等方向進行了拓展。值得一提的是,IRAS將來自于納稅人的文體信息抽取、清洗、結構化,通過交互式流程使分析團隊和業務人員之間形成緊密合作,讓文體分析流程和結果更加符合為納稅人服務的語境。例如,在一項稅收政策發生變化之后,分析發現納稅人經常關心的問題也發生了變化,IRAS在網站及時更新納稅指南,并且主動推送給相應的納稅人,從而減少納稅人的咨詢次數。新西蘭稅務局則以客戶為中心,整合顧客調查結果和風險管理數據,得到更全面的納稅人數據,然后進行情感分析和問題抽取,推出針對遵從納稅人和不遵從納稅人抱怨的個性化應對措施。
(四)與管理行為改進聯系更緊密
通過大數據分析與實驗經濟學等其他相關領域的綜合應用,各國稅務機關在管理行為改進方面更加積極主動。例如,挪威稅務局通過實驗經濟學方法,進行處理組和控制組的效應分析,獲取不同的告知方式對納稅人申報境外收入的不同反應,然后針對不同類型的納稅人采取更有效的告知方式,提高境外收入的申報效率。英國稅務局借助“助推理論”②助推理論(nudge theory):一種行為經濟學和社會心理學的混合理論,解釋該理論最通俗易懂的例子就是設置一串可愛的腳印來指引方向,而不是常規的指路牌,形成垃圾入桶等更好的生活習慣。,通過模型預測不同類型納稅人的申報風險,然后通過控制實驗分析不同類型風險納稅人的行為反應模式,采取最有效的信息提示和引導方式,幫助和推動納稅人自我遵從稅收法律。
(一)應用特征
大數據在稅務機關的應用,除了各領域普遍具有的“4V”特征之外,還有以下三大特征。
1.“大”體現在范圍上,是通過稅務部門以外的大范圍數據來源,將不同部門、不同業務,甚至不同表現形式的數據匯集成一個新的集合。
2.這種來源于不同部門的新數據集合,所形成的規模是我們以前沒有處理過的,大到接近能夠擁有的總體數據,以至于不能稱之為樣本數據。
3.這種近乎總體的數據集,在各項工作方法和手段中取得了首要地位,現狀分析、形勢判斷、工作規劃等各項事務都要將大數據的應用和地位排在第一位。
通過以上三個遞進的特征, “大范圍數據、數據大規模、數據地位高”等與“大”直接掛接的特點,進一步定位了大數據的來源、規模和地位等重要問題。在把握大數據特征的基礎上,我們可以探索其在稅務管理中的應用模式。
(二)應用模式探索
一定的應用模式有利于迅速定位大數據利用的方向,不斷的形成數據應用積累,從國內外實踐情況和理論研究來看,主要有以下幾種模式可供選擇。
1.在分析中使用更長、更寬、更活的變量序列
(1)變量變“長”。通過收集更長時間的變量序列,可以追溯到更遠的過去,在一個更長的時間序列中,觀察變量的長期變化規律。由于時間拉長,剔除短期內波動的干擾,往往比較短時空中呈現的微弱變化更加明顯,增強了我們的識別能力。
(2)變量變“寬”。所謂變量變“寬”,實際上是指納入若干以往傳統分析中沒有考慮的新變量,新變量一方面來源于大數據環境下對以往擁有變量價值的重新認識;另一方面來源于數據變“大”之后擁有的新變量。在數據變“寬”方面,特別值得注意的是,來自于互聯網收集的納稅人數據經過整理對接之后,分類、標準化、指數化之后所形成的可用數據變化。許多基于大數據的研究將變量選擇視野拓寬到傳統領域之外,提出不少新穎的變量,取得了不錯的應用效果。
(3)粒度變“活”。這方面的應用主要指宏觀數據與微觀數據之間的銜接對應,過去由于樣本數據的原因,宏觀數據分析與微觀數據之間的分析結論往往存在著一些不匹配的狀態,從全局的總量分析到進一步的結構分析往往打不通,得不到進一步的結論。這一狀況在大數據時代或許有所改觀,我們可以探索宏觀數據和微觀數據的混搭應用,建立多個不同數據顆粒度下的分析,以便在不同粒度下獲得更多的了解和發現。
2.采用新的分析方法和模型
正如國內外稅務管理大數據應用的實踐所指出的方向一樣,無論是在原有數據的基礎上,還是新形成的大數據環境中,采用新的分析方法和模型也是一種值得嘗試的模式。新的分析方法和模型的應用大概分為兩類。
(1)加強不同模型的組合應用。根據數據對象和分析任務的不同,用分類模型將數據分組,通過不同的分析模型得到分析結果。以風險分析為例,這種不同的分析結果既包括推測風險概率,又涉及具體風險指向的分析。這種組合應用還包括針對不同分析對象模型的相互鏈接。
(2)引入新的分析方法和模型。近年來,在不斷涌現的新分析方法和模型中,最引入注目的莫過于機器學習方法,各國稅務機關和研究機構都在探索機器學習在稅務管理中的應用。與通過理論和經驗選擇模型的計量經濟學方法相比,許多機器學習方法是通過算法程序的交叉檢驗,根據一定的約束條件選擇模型,即機器學習是反復在部分數據上估計模型,再在另一部分數據上檢驗模型,最后通過復雜性懲罰項(penalty term)來找到最合適的模型。該特點被概括為施加約束性(regularization)和系統性的模型選擇(systematic model selection),在更長序列、更寬變量、更多粒度選擇的大數據分析環境下,或許將會成為稅務管理數據分析的標配。
3.在新理論指導下的應用
在新數據、新方法的支持下,在指導數據分析的經濟和管理理論方面,或許會有一些新的發現,類似應用“助推理論”,結合實驗經濟學的方法,設計管理行為納入分析框架中。可預期的理論除了上述提及的行為經濟學和社會心理學方面的理論,還會來自于不斷完善的稅收遵從理論。例如,近年來基于經典的A-S模型拓展形成的遵從坡面模型(S-S模型),進一步全面分析促進遵從的強制力、信任度等因素。這些新理論的引入,使以往數據分析側重于現有模式的挖掘之外,還開始在稅務管理方法的效果分析、行為設計等主動分析方面開啟新的窗口。
更值得一提的是,以上基于大數據的稅務管理數據分析的三種模式:新的變量、新的方法和新的理論之間存在著互相推進的齒輪聯動有機關系,在某一方面的推進,必將推動其他兩方面的進展。
在分析和借鑒國外應用經驗的基礎上,結合我國稅務機關大數據應用現狀,建議推進我國稅務管理大數據應用從以下方面著力:
第一,在應用理念上,擺正大數據應用的地位,既不神秘化,也不標簽化。目前有些應用存在一個誤區:一方面認為大數據無所不能;另一方面將所有的數據應用工作都貼上大數據標簽。認為大數據無所不能,會由于現實的數據質量、應用能力等方面的差距,容易造成理想的應用設想和現實的應用結果落差太大,從而失去對大數據應用的信心。將所有的數據應用工作都認為是大數據應用,則會容易停留在現有的數據應用水平,而無法邁向真正的大數據應用。一定要恰如其分地認識到大數據應用的效果,客觀地分析所處的階段,在具有大數據、可以推行大應用、能夠期望大價值的場景勇于創新,不具備條件和能力的時候實事求是,積極準備和落實大數據應用條件,爭取早日達到應用大數據的成熟階段。
第二,把握好“從小到大,從局部到全面”的大數據應用實施路徑。從講求實效的大數據應用做法來看,一條較為實用的路徑應該是從小到大,重視小數據的應用、局部領域的應用,在小應用中發現問題,積累經驗,將成熟的小應用轉化成大數據環境下的大應用,在大數據中進一步驗證和擴大效果。要辯證把握大數據應用和小數據應用的關系,大部分情況下大數據應用需要小數據的探索,甚至在數據分析理論中,小數據的探索性分析往往是大數據應用的第一步,然而在需要大數據才能縱覽全局的情況下,也要果斷上馬大數據應用項目。在這一路徑中,要充分鼓勵基層的創新應用,研究稅務總局和省級稅務局集中式的高級分析團隊與基層分析小組的混合分布式布局,做到既有統籌管理,又有各地的發揮空間。
第三,尊重數據應用規律,注重反饋,重視成效。重視大數據分析結果與實踐應用的對比反饋,敢于分析和面對大數據應用的功過,不擴大數據分析的效果,也不回避實踐工作暴露出的分析過程中存在的問題,一定要避免大數據分析和實踐工作的“兩張皮”現象。提升大數據分析的針對性和準確性,提高大數據分析對實踐工作的指導作用,真正做到“用數據說話”。同時,在應用導向的基礎上,借鑒快捷開發理念,固定和推廣成熟的分析模塊,并且逐步總結通用功能和模塊,形成和完善大數據分析平臺。
[1] DeBarr,MITRE& Maury Harwood.Relational Mining for Compliance Risk[R]. Washington: Internal Revenue Service,June, 2004.
[2] OECD. Advanced Analytics for Better Tax Administration: Putting Data to Work[R]. Paris:OECD Publishing,2016.
[3] Varian H R. Big Data: New Tricks for Econometrics[J]. Journal of Economic Perspectives, 2014, 28(2): 3-28.
[4] 謝波峰.“互聯網+”時代的稅收風險管理[J].中國稅務, 2015,(08):34-35.
[5] 謝波峰.大數據時代稅收微觀數據體系的構建[J].稅務研究, 2015,(01):92-95.
責任編輯:高仲芳
Big Data Application Models and Policy Suggestions In Tax Administration
Bofeng Xie
On the basis of summarizing the experiences of big data application by tax authorities in many countries, the paper refines into three distinctive characteristics in big data application, and generates a new application model, and then presents several policy suggestions from theory, implementation path and result application so as to provide some helpful reference for China’s tax authorities in the application of big data.
Big data Tax administration Data analysis and application
F810.42
A
2095-6126(2017)04-0011-04
* 本文是國家自然科學基金項目“面向大數據的稅收微觀數據體系構建與政策效應分析應用”(項目編號:71373267)資助研究成果。