鄭捷 李一軍






摘 要:目前稅收遵從風險的研究大多聚焦于企業自身的風險狀態,忽視了廣泛存在的風險關聯傳導現象。本文通過挖掘整合多源數據,構建了企業稅收遵從風險相關的知識圖譜,研究了以欠稅風險為代表的稅收遵從風險在企業內外部的關聯傳導問題。結果表明:同一企業,不同稅收遵從風險傳導特征較為明顯,稅收遵從風險與失信風險因政府監管而呈現負相關特征;不同企業,具有相同法人代表、相同聯系方式的情形下,稅收遵從風險的關聯度顯著提升,其與失信風險的關聯度也隨之提高。本研究擴展了稅收遵從風險的理論研究視野,并為稅收管理實踐提供了新的理念和思路。
關鍵詞:稅收遵從風險;知識圖譜;風險關聯
中圖分類號:C931.6 文獻標識碼:A 文章編號:2097-0145(2022)01-0048-08 doi:10.11847/fj.41.1.48
Abstract:Most of existing research on tax compliance risk only focused on a single enterprise, ignored the widespread phenomenon of risk correlation transmission. This paper integrates multi-source data to construct a knowledge graph of enterprise tax compliance risk. Based on the knowledge graph, the correlation of tax compliance risks inside and outside enterprises are studied from multiple perspectives. Research shows that tax compliance risk does not exist in isolation. Within the enterprise, the tax compliance risk conduction characteristic is obvious. Externally, the same legal representative and contact method can improve the correlation of tax compliance risks among different enterprises, and also improve the correlation between tax compliance risk and trust-breaking risk. This study expands the theoretical research field of tax compliance risk, even provides new ideas for tax management practice.
Key words:tax compliance risk; knowledge graph; risk correlation
1 引言
稅收是國家公共財政最主要的收入來源和形式,其本質是國家憑借公共權力參與國民收入分配的一種特殊分配關系,對于調節經濟利益、維護國家權益、促進社會發展有著極其重要的意義。
稅收遵從(Tax Compliance)是與稅收緊密相關的一個概念,經濟合作組織OECD將其定義為納稅人遵守其所在國家稅收法規的程度,例如,納稅人及時申報和繳納稅款。稅收遵從風險是指納稅人受各種負面的不確定因素的影響,未依法履行納稅義務或者未服從稅務機關及稅務人員合法合規管理,而造成的國家稅收流失風險和納稅人利益損失風險。企業欠稅行為就是一種典型的稅收不遵從行為,也是稅收遵從風險的典型表現形式,在全世界普遍存在且影響重大[1,2]。
當前國內外學者對稅收遵從風險的研究主要從企業的個體狀況切入,基于企業各項財務指標,研究企業自身的經營狀況與稅收遵從風險之間的關系。Hglund[3]針對芬蘭的欠稅現象,構建了一類能夠分析欠稅的通用決策支持模型,綜合考慮企業的償債能力、流動性、付款周期等多方面信息,對企業潛在的欠稅行為進行識別。Su等[4]構建了集成學習模型,通過營業利潤、投資額、經營成本、凈利潤等多項財務指標對企業的欠稅行為進行了分析。
根據稅收契約理論,稅收在本質上是所有納稅人與政府之間建立的一種契約,稅收不遵從行為具有明顯的違約行為特征,因此稅收遵從風險也是一種廣義的違約風險[5,6]。實證研究表明,企業的違約行為可能導致其關聯的企業以更大的概率發生同類風險[7]。例如,美國銀行業、汽車業和房地產業間存在著明顯的違約風險傳染現象[8]。陳作華[9]基于2212個我國上市企業樣本研究了企業關聯與避稅行為之間的關系,結果表明異常關聯交易是控股股東和上市公司掏空國家稅收的重要途徑,是公司避稅的重要手段。在稅收遵從風險的實踐監管過程中,各種稅收違法事件之間也體現出不同形式的關聯,例如,2021年查處的湖南“1·23”增值稅發票虛開案中,5名犯罪嫌疑人通過控制22家相關聯的空殼公司虛開發票金額6億元;杭州稅務局在2020年通過某商貿公司的重大發票虛開疑點,一舉查處62家違法關聯企業。由此可知,包括稅收遵從風險在內的違約風險能夠在企業間關聯傳導,當前對于企業稅收遵從風險的單點研究模式已不能充分反映風險的特征和變化規律。
因此對于稅收遵從風險的研究,還需引入新的理念和工具方法,更加全面地分析不同主體之間的關聯影響。知識圖譜概念與方法的提出,恰好能夠為稅收遵從風險研究提供新的途徑。本文基于網絡數據建立稅收遵從風險相關的知識圖譜,并從群體關系角度研究企業稅收遵從風險的內外部關聯。研究試圖達到以下目標:(1)引入先進的大數據分析理論與技術,豐富稅收遵從風險研究的方法體系。(2)擴展稅收遵從風險相關的研究框架,實現從單點研究向關聯關系研究的延伸。(3)將稅收遵從風險與其他類型的風險進行協同研究,在更廣闊的研究視野下探討不同風險之間的關聯傳導。
2 研究對象界定
稅收遵從風險有基于企業和監管兩個角度,本文主要針對后一種進行研究。從監管的角度出發,OECD將納稅遵從風險分為四類:(1)未正確登記納稅人數;(2)未按規定提交納稅文件;(3)未正確申報應納稅款;(4)未按期繳納稅款。根據OECD的調查,80%以上的風險為第三類和第四類風險,因此理論和實踐上對這兩類風險的關注程度也相對集中。
其中第三類風險更為隱性和復雜。對于這類風險的識別和研究,主要依據企業申報的財務數據及其他相關信息,結合一定的評價指標體系和算法,估算出企業的應納稅額,并將其與企業實際申報的納稅額進行比較,從而判斷是否存在可能的稅收遵從風險。此類研究存在以下困難:一是數據的真實性,企業提交虛假財務數據申報稅款是逃稅的主要手段之一,因此依據財務數據進行稅收遵從風險分析結果可靠性較低。二是數據的可獲得性,非上市公司的財務報表由企業自愿公開,工商、稅務等政府部門中備案的企業財務報表也很難隨意獲取,因此在不具有大量合法授權的財務數據的情況下,第三類風險的相關研究很難開展。
第四類風險則更為直觀和顯性。一方面,欠稅行為具有“發生即可感知”的明顯特征,一經發生即可100%識別。另一方面,企業的欠稅信息具有良好的可獲得性和真實性,根據國家稅務總局《欠稅公告辦法》,稅務機關將按季度公告欠稅企業的名稱、納稅人識別號、法定代表人或負責人姓名、證件號碼、經營地點、欠稅稅種、欠稅余額和當期新發生的欠稅金額,數據來源可靠,能夠為第四類風險的研究提供充分的支撐。
綜上分析,本文將從監管的角度,聚焦欠稅行為對應的稅收遵從風險,對企業間的欠稅風險關聯傳導,及欠稅風險和失信風險之間的關聯傳導進行分析。
3 稅收遵從風險知識圖譜構建
知識圖譜(Knowledge Graph)通過圖的形式來描述人、事物、概念等實體以及這些實體之間的關系。由于其同時包含了圖的屬性信息和結構信息,知識圖譜對于現實世界中的復雜關系能夠提供相對更好的表現方式[10]。在具體的知識圖譜構建過程中,主要涉及模式圖與數據圖設計、知識抽取、知識圖譜存儲等環節[11,12]。
3.1 模式圖與數據圖設計
構建知識圖譜有自頂向下和自底向上兩種模式。自頂向下是通用知識圖譜的主要模式,即先定義本體與數據模式,再將相應的實體加入圖譜。自底向上是行業知識圖譜的主要模式,即先從數據中提取實體,再進一步構建頂層的本體[13,14]。本文所要構建的知識圖譜主要關注稅收遵從風險,具有行業知識圖譜的特征,因此選擇自底向上的模式。
“相同法人”既包括了不同企業擁有相同法人,也包括同一企業擁有“相同法人”兩種情形。同理,“相同聯系電話”既包括了不同企業擁有相同聯系電話,也包括同一企業擁有“相同聯系電話”;“相同電子郵件”既包括了不同企業擁有相同電子郵件,也包括同一企業擁有“相同電子郵件”。為了避免混亂,后續將“相同法人”、“相同聯系電話”、“相同電子郵件”均限定為不同企業間的關系,而對于上述同一企業擁有“相同法人”、“相同聯系電話”、“相同電子郵件”的情形統一歸為“相同企業”。此時式將變成如下形式
3.2 知識抽取
本文數據主要包括企業基本信息、風險事件信息、企業內外關聯信息等,有直接的一級數據來源和間接的二級數據來源。其中一級數據來源主要為半結構化網頁數據,涉及全國企業信用信息公示、中國裁判文書網、中國執行信息公開網、企業欠稅信息公告等。二級數據來源主要為企查查、天眼查等數據服務商,他們對企業部分信息已進行較為系統的收集、清洗和整合,可以顯著提高數據獲取效率,但由于各廠商業務重點不同,數據往往不能覆蓋全部研究需求。鑒于此,本文將采用一二級整合的數據采集方式:首先從天眼查、企查查等二級數據源采集已結構化或半結構化的數據,進一步從一級數據源抽取更為直接的原始數據作為補充,最終形成研究樣本數據集合。
在數據獲取技術方面,通常情況下優先考慮通過爬蟲程序從網頁上提取所需數據。對于允許自由爬取的非商業性的公開數據源(例如企業欠稅公告、失信被執行案件信息等),方法成熟,不做進一步討論。問題的難點是二級數據源知識抽取,數據服務商提供的企業信用報告為PDF格式,信息主要以表格的形式體現。但在PDF文件規范中并沒有明確的內部表格表示方式,這為提取PDF的表格信息造成了技術障礙[17]。針對不同類型的PDF文件,研究者提出了多種表格提取方法[18,19],開發了多種表格識別工具,camelot是其中具有代表性的一種[20]。
然而開源工具camelot對于PDF中跨多個頁面的較大表格,只能識別出表格首頁信息。而批量獲取的企業信用報告中,大量的信息以跨頁表格的形態呈現,camelot并未提供有效的處理方法。因此,需要對camelot算法做出進一步的改進與優化。方法要點如下:
(1)分析所要提取表格的具體特征,利用章節標題對表格進行定位。例如,對于失信被執行人的列表,將其所在章節標題“失信被執行人”作為表格開始標記,將其后續章節標題“限制高消費”作為表格終止標記。(2)明確表格定位算法之后,采用如下方法逐頁識別表格:對于第i頁文件,先在頁面中搜索表格起始標記(本例中為“失信被執行人”字段),如果發現該標記,則獲得表格起始頁碼page_start和表格在該頁的定位坐標。繼續向后搜索表格結束標記(本例中為“限制高消費”字段),如果發現該標記,則獲得表格結束頁碼page_end和表格在該頁的定位坐標,并結束搜索。(3)基于NumPy的開源Python庫Pandas對數據進行分析,并用Pandas的DataFram儲存獲取的表格內容數據,采用Pandas庫中的cancat方法進行合并。
基于上述要點,可以給出算法優化關鍵流程,具體如圖2所示。
3.3 知識圖譜的存儲
知識圖譜常用的存儲方式有關系型數據庫和圖數據庫。選用關系型數據庫時,需要將數據中的關系分解為多個三元組形式,并將三元組與關系表進行映射,然后將關系表存儲在關系型數據庫中。具體可以采用三元組表、整合存儲、分割存儲等映射存儲方式,但這些方式會導致查詢時運算請求的大幅增長,及后期更新和維護難度的增加[10]。
圖數據庫是一種以節點和關系(連接節點的邊)為基礎結構的數據庫,基于圖的結構數據存儲實體以及實體間的關系[21]。不同于關系型數據庫,圖數據庫節點之間的關系無需通過大量連接查詢關聯節點“計算”,而是直接“讀取”出來的,效率大幅提升。本文采用圖數據庫Neo4j實現知識圖譜的存儲與查詢。基于圖結構,Neo4j只需從起始節點開始,遍歷節點的鄰邊就能夠實現對所有關聯節點的訪問。最終形成的知識圖譜可視化效果如圖3和圖4所示。
鑒于所構建的知識圖譜規模較大,本文選擇部分子圖進行展示。圖3為包含392個企業節點的圖譜以及其中四個節點構成的子圖。圖4為包含2000個風險事件節點的圖譜以及其中三個節點構成的子圖。
4 基于知識圖譜的稅收遵從風險關聯數值分析
4.1 風險關聯判定指標計算
從企業特征設定角度,研究涉及的企業基本信息包括20余項,其中能較為直接地作為企業之間關系的包括納稅人識別號、企業名稱、法定代表人、所屬省市地區、聯系電話、電子郵件地址、企業類型、所屬行業、企業地址、經營范圍等10項。通過所屬省市地區、企業類型、所屬行業所建立起的企業關聯過于寬泛,導致圖譜的復雜性大幅增加,但實質上有價值的關聯信息卻未得到明顯體現。企業地址、經營范圍信息條目中的內容較為復雜,不同企業間能夠相互匹配的情形很少,構建出的關系數量不足以支撐研究。因此,研究主要選取納稅人識別號、企業名稱、法定代表人、聯系電話、電子郵件地址等信息,構建“相同企業”、“相同法人”、“相同聯系電話”、“相同電子郵件”等關系,作為研究的主要關注點。
從時間范圍設定角度,一方面,理論研究表明,不同企業之間風險的關聯存在不同程度的潛伏期[22];另一方面,從實踐數據來看,能夠相互關聯傳導的違約風險,90%的傳導潛伏期都不超過12個月[23]。因此將欠稅事件與欠稅事件、欠稅事件與失信被執行事件之間的關聯傳導潛伏期限定在12個月(365天)以內(即|Δt|365天)。
根據上述方法,對知識圖譜中的數量關系進行實際計算。從一二級數據源獲取2014年1月1日至2021年6月30日,黑龍江省所有發生欠稅、失信被執行的企業信息,以及對應的欠稅、失信被執行事件信息,對原始數據進行清洗加工后,最終得到符合本文研究需求的企業信息共計20862條、事件信息共計177668條,其中欠稅企業信息11851條、失信被執行企業信息9011條,欠稅事件信息154717條、失信被執行事件信息22951條。基于這些基礎數據,采用neo4j圖數據庫工具生成各類企業節點間的關系共計46832條、各類事件節點間的關系共計17388935條,如表1所示。
基于1700余萬條事件之間的關系,分別計算欠稅事件之間、欠稅事件和失信被執行事件之間共16條關聯規則的置信度和提升度。
最終得出的各項指標數值如表2所示。
4.2 風險關聯程度分析
(1)“欠稅事件——欠稅事件”的關聯
這一組別中,提升度最大的是A1B1,提升度為1.373。意味著節點之間存在“相同企業”關系時,欠稅風險關聯傳導的潛在發生概率提升了37.3%。這一結果可以解釋為:欠稅風險更容易在企業內部產生關聯傳導,已經欠稅的企業更容易在1年內再次欠稅。
該組別其他關聯規則提升度均超過1.2,“相同法人”、“相同聯系電話”、“相同電子郵件”中的任意一個或多個關系的存在,皆使欠稅風險在不同企業之間關聯傳導概率增加20%以上,且多個關系的組合比單一關系對關聯傳導的提升更為顯著。
以上結論與已有“會計欺詐風險關聯”的研究結論類似[25]。“相同企業”、“相同法人”、“相同聯系電話”、“相同電子郵件”對欠稅風險在企業內部或者企業之間的關聯傳導具有較為明顯的解釋能力或支持作用。
(2)“欠稅事件——失信被執行事件”的關聯
這一組別中,最小和最大的提升度分別為0.960和1.459,對應的關聯規則分別是A1B1和(A2,A3,A4)B1。
A1B1提升度小于1意味著已經欠稅的企業發生失信被執行事件的概率更小,這一結論似乎有悖于常情。然而政府監管力量使得該現象在現實中卻是成立的。我國對稅收違法行為實施了系統的、廣泛的聯合懲戒措施,對欠稅企業的經營、投融資、銀行授信、進出口審批、工程招投標、參加政府采購、申請生產許可等多方面活動進行了不同程度的限制,由此減少了相關失信事件的發生。監管力量的介入在不同程度上切斷了欠稅風險與失信風險在企業內部的關聯傳導,最終使得企業欠稅后失信事件發生概率反而降低。
綜合分析該組別除A1B1以外的其他7條關聯規則,我國在對欠稅、失信等事件進行監管懲戒時,其范圍大多覆蓋了欠稅、失信企業本身以及法定代表人,較少牽涉到法定代表人名下的其他企業。即對于欠稅、失信等事件,政府等外部監管力量并不會通過“相同法人”、“相同聯系電話”、“相同電子郵件”等關系進行延伸。“相同法人”、“相同聯系電話”、“相同電子郵件”均能提升欠稅風險和失信風險在不同企業間的關聯概率。但單一的關系對于關聯的影響較弱,兩種或兩種以上關系組合提升效果較為明顯,尤其是三個關系同時存在時,欠稅風險和失信風險在不同企業間關聯概率的提升幅度最大,高達45.9%。
5 結論與啟示
本文通過挖掘整合多源數據,構建了企業稅收遵從風險的知識圖譜,并通過這一圖譜研究了以欠稅風險為代表的稅收遵從風險在企業內外部的關聯傳導問題,得到如下結論:(1)稅收遵從風險并不孤立存在,在不同企業之間,稅收遵從風險與其他類型風險(失信風險)之間都表現出不同程度的關聯傳導特征。(2)同一企業內,不同稅收遵從風險之間關聯傳導特征較為明顯,發生過欠稅事件的企業更容易再次欠稅。企業發生欠稅行為后,以稅收違法聯合懲戒為典型代表的外部監管力量的介入,使企業的銀行授信、參與招投標等經營活動受到不同程度的限制,從而減小了失信行為的發生概率。因此稅收遵從風險與失信風險之間存在負向關聯的特征。(3)不同企業間,相同法人代表、相同聯系方式(電話、電子郵件)均能在不同程度上提升企業間稅收遵從風險的關聯傳導程度,同時也能提升企業間稅收遵從風險和失信風險的關聯傳導程度。企業間的關系數量越多,關聯傳導的提升程度越大。
本文研究的政策啟示:稅收遵從風險在不同企業之間,稅收遵從風險與其他類型風險之間皆存在關聯傳導可能性,稅務機關對市場主體監督管理時需要對這一現象進行關注并采取相應措施。在擁有充分數據支持的前提下,監管部門可利用知識圖譜等工具充分挖掘企業之間的各類關系,從孤立的企業稅收遵從風險防范推進為相關風險的全局把控,有助于實現保障國家財政收入、提高稅收征管水平、降低稅收監管成本等多方面的稅收遵從風險管理目標。
參 考 文 獻:
[1] 李曉曼.稅收遵從風險管理[M].北京:電子工業出版社,2016.7-10.
[2] Alm J, Bahl R, Murray M N. Tax structure and tax compliance[J]. The Review of Economics and Statistics, 1990, 72(4): 603-613.
[3] Hglund H. Tax payment default prediction using genetic algorithm-based variable selection[J]. Expert Systems with Applications, 2017, 88: 368-375.
[4] Su A, He Z, Su J, et al.. Detection of tax arrears based on ensemble learning model[A]. Proceedings of the 2018 International Conference on Wavelet Analysis and Pattern Recognition[C]. Piscataway, NJ, 2018. 270-274.
[5] Lukason O, Abdresson A. Tax arrears versus financial ratios in bankruptcy prediction[J]. Journal of Risk and Financial Management, 2019, 12(4): 187-200.
[6] 蔡昌.稅收原理[M].北京:清華大學出版社,2010.256-259.
[7] 李永奎,周宗放.基于小世界網絡的企業間的關聯信用風險傳染延遲效應[J].系統工程,2015,33(9):74-79.
[8] 趙微,劉玉濤,周勇.金融風險中違約傳染效應的研究[J].數理統計與管理,2014,33(6):983-990.
[9] 陳作華.關聯交易與公司避稅——來自中國上市公司的經驗數據[J].證券市場導報,2017,(5):21-31.
[10] 黃恒琪,于娟,廖曉,等.知識圖譜研究綜述[J].計算機系統應用,2019,28(6):1-12.
[11] 陳曉軍,向陽.企業風險知識圖譜的構建及應用[J].計算機科學,2020,47(11):237-243.
[12] Song D, Schilder F, Hertz S, et al.. Building and querying an enterprise knowledge graph[J]. IEEE Transactions on Services Computing, 2019, 12(3): 356-369.
[13] 徐增林,盛泳潘,賀麗榮,等.知識圖譜技術綜述[J].電子科技大學學報,2016,45(4):589-606.
[14] 楊玉基,許斌,胡家威,等.一種準確而高效的領域知識圖譜構建方法[J].軟件學報,2018,29(10):2931-2947.
[15] Ruan T, Xue L, Wang H, et al.. Building and exploring an enterprise knowledge graph for investment analysis[A]. International Semantic Web Conference 2016[C]. Springer, Cham, 2016. 418-436.
[16] Lee J, Park J. An approach to constructing a knowledge graph based on Korean open-government data[J]. Applied Sciences, 2019, 9: 1-12.
[17] Zanibbi R, Blostein D, Gordy J R. A survey of table recognition: models, observations, transformations, and inferences[J]. Document Analysis and Recognition, 2004, 7(1): 1-16.
[18] Khusro S, Latif A, Vllah I. On methods and tools of table detection, extraction and annotation in PDF documents[J]. Journal of Information Science, 2015, 11(1): 41-57.
[19] Shigarov A, Mikhailov A, Altaar A. Configurable table structure recognition in untagged PDF documents[A]. 2016 ACM Symposium on Document Engineering[C]. Association for Computing Machinery, New York, 2016. 119-122.
[20] Fayyaz N, Khusro S, Ullah S. Accessibility of tables in PDF documents[J]. Information Technology and Libraries, 2021, 40(3): 1-20.
[21] Angles R, Gutierrez C. Survey of graph database models[J]. ACM Computing Surveys, 2008, 40(1): 1-39.
[22] 徐凱,周宗放,錢茜.考慮潛伏期的關聯信用風險傳染機理研究[J].運籌與管理,2020,29(3):190-197.
[23] 薛銀.基于關聯關系的企業風險模型[J].金融電子化,2021,(4):74-76.
[24] Han J, Kamber M, Pei J. Data mining concepts and techniques[M]. San Francisco: Morgan Kaufmann, 2012. 243-247.
[25] 陳強,代仕婭.基于金融知識圖譜的會計欺詐風險識別方法[J].大數據,2021,7(3):116-129.
3741500338290