999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于隨機森林的偷漏稅行為自動識別

2018-10-29 11:09:14吳超羅璟
軟件導刊 2018年8期
關鍵詞:自動識別分類模型

吳超 羅璟

摘要:企業偷漏稅手段呈多樣化、專業化、普遍化、隱蔽化趨勢。為更好地識別企業是否存在偷漏稅行為,基于Python語言,在Anaconda集成開發環境下通過機器學習的Scikit-Learn包構建隨機森林模型,通過交叉驗證算法選擇最優模型。對汽車銷售行業納稅人是否存在偷漏稅行為進行自動識別。結果表明,基于隨機森林模型的偷漏稅行為自動識別相對于其它常見的分類模型(k-近鄰算法、邏輯回歸模型、決策樹模型和Adaboost算法),具有較高的準確率,分類性能更好,可以滿足偷漏稅行為的自動識別需求。

關鍵詞:

隨機森林;機器學習;偷漏稅行為;分類算法

DOIDOI:10.11907/rjdk.181865

中圖分類號:TP312

文獻標識碼:A 文章編號文章編號:1672-7800(2018)008-0013-04

英文摘要Abstract:In recent years, tax evasion has become a diversification, specialization, universalization and concealment. Therefore, in order to better identify whether the company has tax evasion behavior, it builds a random forest model based on Python language in the Anaconda integrated development environment through the Scikit-Learn package of Machine learning, selects the optimal model through cross validation algorithm, and then sells the automobile. Whether the industry taxpayer has tax evasion and conduct automatic identification. The results show that the automatic identification of tax evasion behavior based on random forest model has better accuracy than other common classification models (k-nearest neighbor algorithm, logistic regression model, decision tree model and Adaboost algorithm) and has more Good classification performance can satisfy the automatic identification of tax evasion behavior. Based on this, it will automatically identify 15 taxpayers in the automobile sales industry for tax evasion.

In view of the diversified, specialized, universal, and concealed development trend of corporate tax evasion in recent years, in order to better identify whether the company has tax evasion, A random forest model is constructed by the Scikit-Learn package through machine learning in the Anaconda integrated development environment and the optimal model is selected by a cross-validation algorithm. Whether the taxpayers in the automobile sales industry are automatically identified for tax evasion. The results show that the automatic identification of tax evasion behavior based on random forest model has higher accuracy than other common classification models (k-nearest neighbor, logistic regression model, decision tree model and Adaboost algorithm), and the classification performance is better so that the automatic identification of tax evasion is successfully conducted.

英文關鍵詞Key Words:random forest;machine learning;tax evasion behavior;classification algorithm

0 引言

稅收是國家賴以生存的物質基礎,與國家興衰息息相關,然而稅收涉及的兩個主體:征稅人和納稅人之間永遠存在“博弈”關系[1]。近年來,企業偷漏稅現象屢見不鮮,給國家造成了很大的經濟損失和不良的社會影響[2]。稅務稽查對打擊偷逃騙稅等違法活動,增強納稅人守法意識發揮著重要作用。傳統的稽查選案以舉報信息為依據,主要依靠專業稽查人員的經驗和直覺識別偷漏稅行為[3]。但企業偷漏稅手段已呈多樣化、專業化、普遍化、隱蔽化的趨勢[4]。機器學習模型和算法應用于稅務稽查效果明顯。相關研究有:李亙[5]利用決策樹模型和SLIQ算法進行簡單分類,然后對稅務稽查進行計算機選案。劉鵬[6]在決策樹模型分類的基礎上進行聚類分析,驗證了基于劃分的分析方法在實際稅務稽查工作中存在一定的問題。所以,決策樹模型對于偷漏稅行為的識別并非最佳。

隨機森林是基于Bagging實現的一種機器學習模型,是以決策樹算法為機器學習的集成學習模型。隨機森林模型在醫學、水利工程、電力工程、企業決策等不同領域有很好的應用,能取得很高的預測準確率[7-13]。汽車產業存在偷漏稅現象[14-15],汽車銷售行業在稅收上存在少開發票金額、少計收入,上牌、按揭、保險等一條龍服務不入賬,不及時確認保修索賠等情況,造成大量稅收流失[16-17]。本文將隨機森林模型應用于稅務稽查的計算機選案,針對汽車銷售行業進行偷漏稅行為自動識別。通過收集汽車銷售行業的部分經營數據,基于機器學習方法,結合汽車銷售行業納稅人屬性,衡量納稅人經營特征,利用隨機森林算法建立偷漏稅行為識別模型,對納稅人進行識別。

1 CART決策樹與隨機森林算法

1.1 CART決策樹

決策樹(Decision Tree, DT)是一種集成學習算法,屬于一種描述分類的樹形結構,由節點和向邊組成,根據遞歸特征對數據集進行分割,使子數據集有一個最好的分類過程。這個過程是對特征空間的劃分,也是對決策樹的構建。

分類與回歸(classification and regression tree,CART)算法由Breiman等在1984年提出,是一種決策樹學習方法。CART決策樹的生成是遞歸構建二叉決策樹過程,分類樹用基尼指數(Gini index)最小化準則選擇最優特征,同時決定該特征的最優二值切分點。

CART決策樹的生成通過計算基尼指數,使基尼指數最小作為特征選擇的準則。從根節點開始,遞歸產生決策樹,將訓練集分割為基本正確分類的子集。

1.2 隨機森林算法

Bagging是一種并行式集成學習框架,基于自助采樣法(bootstrap sampling)。給定包含m個樣本的數據集,先隨機取出一個樣本放入采樣集,再把該樣本放回到初始數據集,保證下次該樣本仍有可能被選中,這樣m次隨機采樣得到包含m個樣本的采樣集。然后采樣出T個含m個訓練樣本的采樣集,基于每個采樣集訓練出一個基學習器,再將這些基學習器結合。在對預測輸出進行結合時,Bagging通常采用簡單投票法。

隨機森林(Random Forest,RF)是基于Bagging 實現的,以決策樹算法為基學習器,在構建Bagging采樣基礎上,進一步在決策樹訓練中引入隨機屬性。

隨機森林算法實現步驟:①采用自助采樣法(bootstrap sampling)從樣本集中選取n個樣本作為一個訓練集;②用抽樣得到的樣本集生成一棵決策樹。在生成的每一個節點隨機不重復地選擇d個特征,然后利用這d個特征分別對樣本集進行劃分,找到最佳的劃分特征(使用基尼指數最小作為特征選擇的準則);③重復步驟①、步驟②共k次,k為隨機森林中決策樹的個數;④用訓練得到的隨機森林對測試樣本進行預測,并用票選法決定預測結果。

2 自動識別模型建立與評價

2.1 樣本和指標選取

偷漏稅指納稅人以不繳或少繳稅款為目的,采取各種不公開手段,隱瞞真實情況,欺騙稅務機關的行為。本文參照稅務稽查指標,針對汽車銷售行業選擇12個指標作為偷漏稅行為自動識別模型的預測指標,包括汽車銷售平均毛利(x1)、維修毛利(x2)、企業維修收入占銷售收入比重(x3)、增值稅稅負(x4)、存貨周轉率(x5)、成本費用利潤率(x6)、整體理論稅負(x7)、整體稅負控制數(x8)、辦牌率(x9)、單臺辦牌手續費收入(x10)、代辦保險率(x11)和保費返還率(x12)。

根據這12個指標,選擇汽車銷售行業124個納稅人的124組數據作為樣本,各企業銷售模式包括4S店、多品牌經營店、一級代理商、二級及二級以下代理商和其它類型。其中124個納稅人中有55個存在偷漏稅行為,69個不存在偷漏稅行為。樣本數據中,輸出為“正常”和“異常”,分別用“1”代表“正常”,表示不存在偷漏稅行為,“0”代表“異常”,表示存在偷漏稅行為。

基于上述12個指標,本文采用Python的集成開發環境Anaconda,借助機器學習的Scikit-Learn包構建基于隨機森林的偷漏稅行為自動識別模型。

2.2 數據預處理

2.2.1 缺失值處理

在原始數據中發現存在數據缺失現象,如果刪除這組數據將會影響最終的計算結果。因此,為了達到較好的建模效果,需要對缺失值進行處理,本文采用拉格朗日插值法對缺失值進行插補。

其中,x為缺失值對應的下標序號,Ln(x)為插值結果,xi為非缺失值yi的下標序號。

2.2.2 規范化

2.3 模型構建

2.3.1 數據劃分

對樣本數據隨機選取20%作為測試樣本,剩下的80%作為訓練數據,用訓練集樣本在各種條件下(不同的參數)訓練模型,從而得到不同的模型。在測試集上評價各個模型,然后選出最優模型。

2.3.2 交叉驗證

“k折交叉驗證”是將數據D劃分為k個大小相似的子集,且D=D1∪D1∪…∪Dk,Di∩Dj=φ(i≠j),子集Di保持數據分布的一致性。選擇k-1個子集的并集作為訓練集,剩下的那個子集作為測試集進行k次訓練和測試,最終選擇最優的模型和參數。

預測結果如圖1所示,其中Training score表示驗證集上的準確率,n_estimators表示決策樹的數量。從圖中可以看出,當決策樹數量(n_estimators)比較小時(小于150),隨著決策樹數目的增加,模型預測精度會有一定提升;當決策樹數量達到一定數目時(大于150),隨機森林模型的預測精度基本保持不變,穩定在88.90%,這說明RF模型具有良好的不易過擬合性質。因此,隨機森林預測中n_estimators屬性值選擇150。

另外,針對同樣的訓練集和測試集樣本,利用k-近鄰算法(KNN)、邏輯回歸模型(LR)、決策樹模型(DT)和Adaboost算法進行預測,與隨機森林算法預測結果進行比較,預測結果見表1。從表中可以看出,KNN模型和RF模型的預測準確率都達到了80%以上,具有較好的分類效果。但相比KNN、LR和DT這樣的單一機器學習模型,集成學習模型(AdaBoost和RF)訓練耗時較大。另外,DT模型在驗證集有較好的訓練得分,但在測試集上訓練準確率相對較低,模型可能存在過擬合現象,不適合作為本文的分類器。

2.3.3 模型評價

5個模型分類準確率相差不大,特別是KNN模型和RF模型。為了進一步評估模型性能,采用其它評價指標進行評價。

對于二分類問題,可將數據集按真實類別和分類器預測類別組合劃分為真正例(TP)、假正例(FP)、真反例(TN)和假反例(FN)4種情況,其中,TP表示將正類預測為正類數, FN表示將正類預測為負類數,FP表示將負類預測為正類數,TN表示將負類預測為負類數。評價二分類問題性能的指標包括精確率(P)和召回率(R),單獨使用這兩個指標進行評價是不全面的。實際上,F1值可以反映精確率和召回率的整體性能,F1定義為精確率和召回率的調和平均,即:

為了更好地比較不同模型的預測性能,采用ROC曲線進行評價,通過比較ROC曲線下的面積(AUC值)大小,分別計算出不同模型對應的精確率、召回率、F1值和AUC值,詳細結果如表2所示。

從表2可以看出,不同模型的F1值相差不大,不能很好地說明RF模型具有顯著的分類性能。但是,比較5種模型的AUC值,RF模型的AUC值達到了0.831,相比其它模型更加顯著,因此RF模型分類性能較好,可以應用于汽車銷售行業的偷漏稅自動識別。

2.3.4 自動識別結果

選擇15個汽車銷售行業納稅人的12個指標數據,經過數據處理得到模型輸入數據,利用構建的偷漏稅行為自動識別模型計算偷漏稅行為識別結果,并與實際結果對比,如表3所示。其中,x1-x12是12個特征指標,y是實際輸出值,y_pred是預測輸出值,“*”表示預測結果錯誤的納稅人。從表中可以看出,總的汽車銷售行業納稅人有15個,正確識別出偷漏稅行為的納稅人有13個,偷漏稅行為識別錯誤的納稅人有2個,預測準確率達到86.67%,整體上顯示自動識別偷漏稅行為準確率較高。

3 結語

本文基于Python語言,在Anaconda集成開發環境下,通過機器學習的Scikit-Learn包構建隨機森林模型,通過交叉驗證算法選擇最優模型,對汽車銷售行業納稅人是否存在偷漏稅行為進行自動識別。結果表明,基于隨機森林模型的偷漏稅行為自動識別相對于其它模型(k-近鄰算法、邏輯回歸模型、決策樹模型和Adaboost算法)具有較高的準確率。為了進一步評價模型的分類性能,計算出隨機森林模型的AUC值為0.831,高于其它常見的分類模型,表示隨機森林模型對于偷漏稅行為的識別具有較高的準確率,而且具有更好的分類性能,可以滿足偷漏稅行為自動識別需求。

參考文獻:

[1] 齊鑫鑫.識別偷稅的稅務稽查方法研究[D].長春:吉林大學,2010.

[2] 魯華軍.企業偷漏稅的識別[J].湖北財稅:理論版,2000(10):35-36.

[3] 陳仕鴻,張英明.二分類Logistic回歸分析在稅務稽查中的應用[J].華南金融電腦,2009(6):48-49.

[4] 王真華.淺析企業偷漏稅原因及防范措施[J].時代經貿,2010(23):78-79.

[5] 李亙.數據挖掘技術在稅務稽查選案中的應用[J].電腦知識與技術:學術交流,2007(23):1224-1225,1377.

[6] 劉鵬.數據挖掘技術在稅務稽查中的研究與實現[D].西安:西安電子科技大學,2011.

[7] 王宇燕,王杜娟,王延章,等.改進隨機森林的集成分類方法預測結直腸癌存活性[J].管理科學,2017(1):95-106.

[8] 胡添翼,戴波,何啟,等.基于隨機森林分類算法的邊坡穩定預測模型[J].人民黃河,2017(5):115-118.

[9] 盛夏,李斌,張迪.基于數據挖掘的上市公司信用評級變動預測[J].統計與決策,2016(15):159-162.

[10] 孫菲菲,曹卓,肖曉雷.基于隨機森林的分類器在犯罪預測中的應用研究[J].情報雜志,2014,33(10):148-152.

[11] 賀建章,王海波,季知祥,等.基于隨機森林理論的配電變壓器重過載預測[J].電網技術,2017,41(8):593-597.

[12] 李偉,陳海波.急傾斜煤層頂煤可放性隨機森林模型分類預測及應用[J].黑龍江科技大學報,2016,26(4):373-377.

[13] 沈晶磊,虞慧群,范貴生,等.基于隨機森林算法的推薦系統的設計與實現[J].計算機學報,2017,44(11):164-167,186.

[14] 劉宗巍,王悅,郝瀚,等.中國汽車產業稅收分配機制及改革策略[J].稅務與經濟,2016(2):1-9.

[15] 劉錦君.JL汽車公司核心稅種的稅務籌劃研究[D].沈陽:遼寧大學,2016.

[16] 張霏佳,陸偉強.完善汽車銷售行業稅收征管[J].浙江經濟,2011(18):44-45.

[17] 饒瑤瑤.關于汽車4S店稅務風險管理的調研報告[D].杭州:浙江財經大學,2016.

[18] 周志華.機器學習[M].北京:清華大學出版社,2016:173-178.

[19] 李航.統計學習方法[M].北京:清華大學出版社,2012:58-72.

[20] 張良均.Python數據分析與挖掘實戰[M].北京:機械工業出版社,2015:33-37.

(責任編輯:杜能鋼)

猜你喜歡
自動識別分類模型
一半模型
分類算一算
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
分類討論求坐標
自動識別系統
特別健康(2018年3期)2018-07-04 00:40:18
數據分析中的分類討論
教你一招:數的分類
3D打印中的模型分割與打包
金屬垃圾自動識別回收箱
主站蜘蛛池模板: 成人国产小视频| 精品夜恋影院亚洲欧洲| 六月婷婷激情综合| 国产免费a级片| 免费99精品国产自在现线| 色偷偷男人的天堂亚洲av| 国产成人欧美| 中文字幕伦视频| 亚洲三级电影在线播放| 亚洲国产一区在线观看| 亚洲第一黄片大全| 波多野结衣一区二区三区四区视频| 久久香蕉国产线看精品| 婷婷亚洲最大| 亚洲国产中文综合专区在| 婷婷六月激情综合一区| 欧美中文一区| 大香伊人久久| 日韩欧美中文字幕在线韩免费| 国产成人啪视频一区二区三区| 2022国产无码在线| 亚洲精品片911| 国产99热| 欧美亚洲网| 久久这里只有精品66| 成年人国产网站| 欧美一级高清免费a| 97人人模人人爽人人喊小说| 美女无遮挡免费网站| 91精选国产大片| 国产色伊人| 99精品视频在线观看免费播放| 亚洲嫩模喷白浆| 国产精品熟女亚洲AV麻豆| 狼友视频国产精品首页| 无码人中文字幕| 日韩高清中文字幕| 91午夜福利在线观看| 久久这里只有精品8| 国产成人亚洲综合a∨婷婷| 99久视频| 中文字幕伦视频| 99re免费视频| 丁香婷婷综合激情| 亚洲精品亚洲人成在线| 午夜视频在线观看免费网站| 亚洲A∨无码精品午夜在线观看| 国产精品区网红主播在线观看| 黄片一区二区三区| 成人在线视频一区| 久久国语对白| 日本精品αv中文字幕| 天堂成人在线| 999国产精品永久免费视频精品久久| 天天综合网色| 婷婷开心中文字幕| 免费国产高清精品一区在线| 狠狠综合久久久久综| 91久草视频| 欧美有码在线观看| а∨天堂一区中文字幕| 亚洲AV人人澡人人双人| 婷婷综合在线观看丁香| 亚洲欧美天堂网| 国产亚洲成AⅤ人片在线观看| 国产乱人伦精品一区二区| 在线高清亚洲精品二区| 亚洲国产91人成在线| 亚洲日本一本dvd高清| 亚洲av无码人妻| 大乳丰满人妻中文字幕日本| 国产在线一二三区| 亚洲国产综合精品一区| 免费久久一级欧美特大黄| 一级黄色网站在线免费看| 福利在线免费视频| 亚洲高清在线天堂精品| 亚洲第一天堂无码专区| 国产香蕉一区二区在线网站| 四虎在线观看视频高清无码| 国产精品深爱在线| 久久99精品久久久久纯品|