夏會 程平 張礫
【摘要】目前的稅收風險管控模型通常是基于稅務人員的先驗知識構建的,在海量數據環境下模型的實用性、可擴展性和精確性都有較大的局限。為解決這一問題,提出改進的K-means聚類算法。該方法是無監督學習模型,可以在無先驗知識的前提下構建指標,快速且精確地對實例進行聚類,將出現明顯異常的小類識別為異常,判定其存在稅收風險。基于該模型對房地產類企業股權轉讓中的稅收風險進行分析和評估,發現稅收風險等級高的企業及其風險疑點,驗證了本方法的有效性。
【關鍵詞】稅收風險;K-means聚類算法;大數據;股權轉讓
【中圖分類號】F812.42【文獻標識碼】A【文章編號】1004-0994(2019)21-0143-4
【基金項目】重慶市教育委員會科學技術項目“大數據背景下考慮行為‘畫像的納稅信用等級動態評估模型研究”(項目編號:KJQN201801103);重慶市社會科學規劃項目“高質量發展下基于大數據的稅收政策實施智能化支持機制研究”(項目編號:2018BS68)
隨著“互聯網+稅務”的日益深入,以電子稅務局為媒介,各省市稅務機關收集了大量的納稅人相關數據。金稅三期平臺的成功上線和不斷完善,進一步統籌了稅務部門和相關涉稅機構,使涉稅數據呈現指數級的增長[1]。面對海量的涉稅數據,依賴于先驗知識的稅收風險管控工作已經無法發揮優勢,需要基于機器學習、數據挖掘等智能化模型對數據進行科學化、精細化分析,以及時發現納稅疑點,輔助稅收征管工作。因此,研究如何應用未標注數據集構建高精度、可擴展、實用的稅收風險識別模型,發現納稅疑點,實現對稅收風險的有效管控具有重要的現實意義和價值。
一、文獻綜述
當前基于大數據對稅收風險的研究主要集中在構建稅收風險管理相關平臺的系統和模型上。徐壁[2]從數據的角度出發,基于大數據技術,構建了稅收風險管理系統,主要包括涉稅大數據的采集和存儲及相應的標準體系,涉稅風險防控體系及相應的指標模型,以及涉稅大數據分析與挖掘平臺。劉小瑜等[3]則提出了針對高新技術企業的稅收風險預警模型構想,并在模型中引入了智能優化算法以增強稅收風險識別的精度。但由于缺乏足夠的已標注的數據,該模型的實施效果有待進一步的驗證。劉尚希等[4]基于某區2012年和2013年納稅申報數據和財務報表數據,提取指標,構建人工神經網絡模型對納稅風險等級進行識別。該模型具有較高的準確性,但對于已標注的數據量有較高的要求,且模型的普遍適用性和可解釋性有待進一步提升。趙長江等[5]基于某市欠稅公告數據進行多維關聯規則挖掘以發現偷逃稅納稅人的特征,為后續稅收風險防范提供了有效數據支撐,但該模型也要求有足夠的已標注數據才能進行挖掘。胡國慶[6]基于實務工作進行總結,認為當前稅收風險識別模型存在指標精準度不高、行業針對性不強、特定復雜事項稅收風險識別度低、各稅種稅收風險識別有效性不一等問題。
綜上,當前基于大數據對稅收風險的研究大都停留在理論或構想層面,在實際業務中的應用相對薄弱。而聚類作為一種重要的無監督式數據挖掘方法,能夠在無先驗知識的前提下,結合稅收風險管控業務,選擇合適的稅收風險指標,自主發現稅收風險疑點。在稅收風險疑點發現過程中,聚類不僅可以實現對海量數據的整體分析,而且可以輔助稅務人員精確定位稅收風險,增加稅收風控經驗。鑒于此,本文擬提出一種改進的K-means聚類算法并將其用于稅收風險疑點識別?;谀车貐^房地產類企業的股權轉讓業務驗證發現,該方法可以在無先驗知識的前提下,更有效地發現異常的企業實例。該模型準確度高,可擴展性強,更具有實用性。
二、改進K-means聚類算法
聚類算法作為無監督學習方法的一種,能夠在未標注的實例集中發現實例之間的相似性,并將其分為若干個類。同一類中的實例盡可能相似,不同類中的實例盡可能相異。由此,包含實例較少的小類由于其特征與其他多數實例存在較大的差異,通常被視為可疑實例。聚類的這種特征構成了稅收風險疑點發現的理論基礎。K-means聚類算法因其典型的基于劃分的思想,具有簡單易懂、收斂速度快、擴展性強等優勢,被廣泛應用于各類領域。該算法雖然可以將實例分配到不同的類,但在初始化時不能決定究竟要分幾個類以及每個類的中心。因此,使用Kmeans算法時最好能了解數據的分布,以便確認初始的類別數和質心。然而在稅收風險疑點的發現過程中,面對海量高維的企業數據,很難具象化地獲取數據的分布情況。這直接影響了聚類的結果和運行時間。
鑒于此,本文針對初始化問題提出一種改進的K-means聚類算法,該方法基于局部的密度信息和全局的相異性信息來確定初始的中心和聚類數目,可以有效提高聚類性能。首先基于實例的最近鄰計算各個實例的局部密度,其中密度高的實例被認為更可能成為聚類的中心;然后基于全局的相異性,篩選出彼此相似性最低的實例并將其作為初始聚類的質心;最后基于K-means算法分配實例至各個簇,直至簇中心不再變化為止。具體流程如下:

三、基于改進K-means聚類算法的稅收風險識別案例
本文以股權轉讓中的稅收風險識別為例,采用改進的K-means聚類算法對稅收風險進行識別。
1.問題定位、指標選取和數據準備。股權轉讓可分為個人股權轉讓和企業股權轉讓,其中轉讓方為個人時,涉及稅種為印花稅、個人所得稅,當轉讓方為企業時,涉及稅種為印花稅、企業所得稅、契稅等。本文就某地區房地產類企業的個人股權轉讓情況進行分析。根據房地產類企業業務和涉稅的特點,擬構建包括財務分析類、稅種分析類等27種指標,詳見表1。3B9D63FC-2534-44F2-AEF8-A170F434ADAA
從工商部門獲得某地區2015年427家(其中房地產類企業為23家)企業股權轉讓的數據,數據包含的主要字段為:統一社會信用代碼、注冊號、注冊資本、生產經營所在區、公司名稱、企業類型、股東名稱、認繳出資額、認繳出資日期、認繳出資比例、認繳出資方式、住所、主體身份證號碼和變更序號等。比對認繳出資金額發現,98%以上的股權變更為平價或低價轉讓,因此,需要稅務部門對變更企業進行稅收風險評估,以檢測其是否存在不合法的避稅行為。
為了保證評估結果的準確性,特從金稅三期系統中采集房地產類企業的財務數據和納稅數據作為研究樣本。為了保證評估過程的合理性,特提取該區63家房地產類企業2015年1月1日~ 2015年12月31日的財務報表和納稅數據進行聚類分析。通常企業要按月、季和年填寫財務報表,并進行納稅申報。然而,在數據采集時發現部分企業的財務報表項目存在空缺(可能是企業零申報的原因),因此需要根據已有的數據對其進行填充,若缺失的信息太多則只能剔除。最終得到的有效實例數為51。
2.稅收風險疑點分析。基于財務報表數據和納稅數據計算51家企業的27項稅收風險指標,采用改進K-means聚類算法對企業進行分析,聚類結果見表2。
由表2可知,51家房地產類企業共形成了14個類,其中有12個類只包含一個實例,這意味著這12個類的部分指標偏差較大,相應的實例可能存在異常。進一步分析各類的收入變動率、費用變動率、成本變動率、利潤率和利潤變動率五大特征。其中,費用率是財務費用率、管理費用率和營業費用率的均值,費用變動率是財務費用變動率、管理費用變動率和營業費用變動率的均值。聚類情況如圖所示。

由圖可知,類1作為大類,其特征表現為五大指標分布比較均衡,這表明在當前環境下,大多數企業的收入、費用、成本和利潤變化情況是相對穩定的,可認為該類企業的稅收風險較低。類2、6、8、9、10和11這六類的收入、成本、費用和利潤變化雖然各不均衡,但是基本匹配,也可斷定這六類中企業的稅收風險較低。類12和14的收入、費用、成本和利潤四項變化幅度都不大,未被歸為類1的原因是應付賬款或預收賬款出現大幅上漲(類12為18.54倍,類14為1.42倍),可能存在虛構專票、未及時確認收入等涉稅問題。此外,類4的收入、成本和費用都出現了一定幅度的增加,利潤也相應地上漲。與之相類似,類13的收入、成本和費用都出現了大幅的增加,利潤也相應地大幅上漲。不同的是,類4的應付賬款上漲了36.9倍,可能存在虛構專票等涉稅問題;類13的應收賬款短期內上漲了14.88倍,可能存在對外虛開票據、對外融資等涉稅問題。
值得一提的是,類3的利潤出現大幅下滑,而收入和成本、費用相對變化不大,與利潤變化不相匹配,稅收疑點很明顯。類5的費用大幅上漲,利潤下降,可能存在多計費用、少計收入的稅收風險。類7的利潤出現一定幅度的下滑,而收入和成本、費用幾乎沒有變化,與利潤變化不相匹配,稅收疑點明顯。
3.稅收風險疑點驗證。由上述分析可知,類3、5和7中的企業(對應第9、14和21號企業)存在明顯的稅收風險,其中第9類中的企業在2015年發生了股權轉讓,并且其轉讓形式為平價轉讓,轉讓情況見表3。

該企業創立于2007年,注冊資金為16億元。2015年自然人股東A將其全部股份轉讓給自然人股東B。稅務人員通過爬取并分析企業官網的相關信息,基于聚類結果并結合初步的取證分析,發現該企業在股權轉讓第一環節凈資產評估中存在明顯稅收風險;基于網上的公司介紹,粗略估計其實際總資產在2014年就已上漲了10.19倍,所有者權益達近9億元。因此,2015年股權平價轉讓形式不合理。為此,稅收工作人員多次約談企業負責人和相關財務人員,并進一步調查和精確評估了其股權交易時的企業凈資產,測算其應補繳個人所得稅近5千萬元。
值得注意的是,基于聚類的方式挖掘出的小類并不一定都存在問題,需要稅務人員對可疑企業進行進一步分析排查。聚類結果作為一種導向,可幫助稅務人員快速定位可疑企業,縮小排查范圍。
四、結語
本文以房地產類企業的財稅數據為實驗樣本,結合網絡爬取數據,驗證了改進K-means聚類方法在稅收疑點發現上的有效性。基于改進K-means聚類方法的稅收風險識別兼顧了對大數據的總體分析,可發現與總體差異較大的異常實例,有效地提高了稅務風險監控效率。雖然該方法下稅務人員不需要先驗知識就可進行風險識別,但在判定企業是否存在高風險時仍需要與其經驗判斷相結合。
主要參考文獻:
[1]朱丹..“金稅三期”背后的稅收風險管理探討[J]..現代商貿工業,2018(20):109~110..
[2]徐壁..基于大數據的稅收風險管理研究與應用[J]..信息與電腦(理論版),2018(23):102~103..
[3]劉小瑜,溫有棟,江炳官..“互聯網+”背景下高新技術企業的稅收風險預警——基于智能優化算法的研究[J]..稅務研究,2018(6):82~88..
[4]劉尚希,孫靜..大數據思維:在稅收風險管理中的應用[J]..經濟研究參考,2016(9):19~26..
[5]趙長江,吳樂云..多維關聯規則挖掘在欠稅管理中的應用[J]..科技廣場,2015(12):29~33..
[6]胡國慶..稅收風險識別模型建設存在的問題及對策[J]..現代經濟信息,2016(23):173~174..
作者單位:1.重慶理工大學會計學院,重慶400054;2.重慶市渝北區稅務局,重慶4011203B9D63FC-2534-44F2-AEF8-A170F434ADAA