999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

中小企業稅務稽查投影尋蹤建模與實證分析

2015-06-06 15:01:40樓文高樓際通宋雷娟王浪慶
經濟數學 2015年4期
關鍵詞:分類模型企業

樓文高,樓際通,宋雷娟,王浪慶

(1. 上海商學院 財經學院,上海 200235;2. 北卡羅來納大學教堂山分校, NC 27514 )

?

中小企業稅務稽查投影尋蹤建模與實證分析

樓文高1,樓際通2,宋雷娟1,王浪慶1

(1. 上海商學院 財經學院,上海 200235;2. 北卡羅來納大學教堂山分校, NC 27514 )

從上海市某區386家中小企業申報的15項稅收指標數據中篩選出對判定企業納稅情況具有重要影響的10個評價指標,并將全部386個樣本分成性質相似的建模樣本和測試樣本(其中測試樣本個數占45%),建立了基于投影尋蹤分類(PPC)技術的稅務稽查評價模型.與多元線性回歸(MLR)、判別分析(MDA)、Logistic和支持向量機(SVM)模型相比,PPC模型的識別錯誤率最低,建模樣本和測試樣本的平均分類錯誤率低于6%,改進型PPC模型包含的評價指標少,兩類錯誤率很接近,非常適用于實際企業的稅務稽查評估研究和實踐.對339家待判斷企業納稅情況的判定結果研究表明,建立的改進型PPC模型具有很好的泛化能力和魯棒性.

稅務稽查;投影尋蹤分類技術;分類錯誤率;樣本分組

1 引 言

中小企業在國家創新經濟發展模式和解決就業問題中占有越來越重要的位置,量大面廣,給基層稅務稽查和納稅評估工作帶來了很大的風險.因此,建立實用性強和可靠的稅務稽查評價模型,既能幫助企業提高涉稅風險的防控能力,又能幫助稅務部門足額征收稅款,日益受到政府有關部門(稅務局等)和學界的重視[1,2].樓文高等[3]對Tobit模型、層次分析法(AHP)、主成分法(PCA)、判別分析(MDA)、Logistic模型和多元線性回歸(MLR)等傳統統計模型以及新興的多層感知器神經網絡(BPNN)、概率神經網絡(PNN)、支持向量機(SVM)、自組織神經網絡(SOM)等數據挖掘技術與傳統統計模型的組合模型[1-2, 4-8]的優缺點、適用情況以及現有文獻存在的問題等進行了詳細的評述,并應用廣義回歸神經網絡(GRNN)和多重交叉檢驗法,建立了適用于小樣本情況的稅務稽查GRNN模型,分類錯誤率10%左右,明顯低于傳統統計模型和SVM模型,取得了較好的效果.但是,由于GRNN建模過程中確定合理的光滑因子值是相當繁瑣的,而且GRNN模型是隱性模型[3, 9-10],無法顯性地直接揭示出企業納稅情況與各個評價指標之間的非線性關系,給后續的稅務稽查工作(判定、研究企業納稅情況)以及企業如何制定合理的納稅策略、降低涉稅風險帶來不便.

另一方面,投影尋蹤分類(Projection Pursuit Clustering,簡稱PPC)技術是一種適用于高維、非線性、非正態分布數據處理的新興統計建模方法[11-14],不僅數學意義清晰,而且是顯性模型,便于對樣本和評價指標的重要性進行排序和分類研究.本文首次將PPC技術引入到企業稅務稽查研究中,212個建模樣本和174個測試樣本(占45%)的平均分類錯誤率低于6.00%,低于MLR、MDA、Logistic等傳統統計模型和SVM模型,建立了更加簡潔、實用、可靠和有效的稅務稽查模型,應優先用于中小企業的稅務稽查研究和實踐中.

2 建立中小企業稅務稽查評價指標體系

本課題組選取上海某區稅務局管轄的木制家具制造中小企業增值稅納稅情況進行研究,共有2 000多家企業,考慮到數據的真實可靠性,選取一般納稅人作為研究對象.在2010~2012年度有較完整財務數據和增值稅納稅申報數據的正常經營企業有725家(次),成立時間短則1年多,長則16年多.筆者查閱了40多篇有關稅務稽查(納稅評估等)的文獻和文件,先后被采用過的評價指標有180多個.在比較研究的基礎上,筆者根據現有企業財務數據和增值稅納稅申報表可獲得數據兩個方面,建立了由如下15個指標組成的企業增值稅稅務稽查評價指標體系:全部收入稅負率(x1)、成本費用稅負率(x2)、銷售毛利率(x3)、成本費用利潤率(x4)、銷售利潤率(x5)、總資產收益率(x6)、銷售費用率(x7)、管理費用率(x8)、財務費用率(x9)、流動資產周轉率(x10)、總資產周轉率(x11)、流動比率(x12)、速動比率(x13)、現金比率(x14)和資產負債率(x15).經區稅務局多位經驗豐富的同志和課題組稅務學方面專家共同研究和認真、仔細的甄別,在上述725家企業中,判定211家企業進行了誠實納稅,175家企業沒有誠實納稅,對其他339家企業的納稅情況進行初步判定,希望借助本課題組建立的模型進行輔助稽查判斷.

3 投影尋蹤分類(PPC)建模原理

Friedman等[11]于1974年提出了一種適用于非線性、高維和非正態分布數據處理的新興統計建模方法——投影尋蹤分類(PPC)模型,即把高維數據投影到低維(1~3維)子空間上,通過分析低維子空間上的數據規律以達到揭示高維數據特征的目的.由于在常用的一維PPC模型建模過程中須確定合理的窗口半徑R值,而如何確定合理、有效的R值,迄今還缺乏理論依據和指導[11-14],并且不同的R值,往往得到不同的建模結果.因此,為避免出現PPC模型結果的不確定性和非唯一性,消除R值對建模結果的不利影響,本文采用另一種投影尋蹤目標函數型式.

根據稅務專家的先驗知識和經驗,已經事先判定了部分企業的納稅情況y(i)(即誠實納稅或非誠實納稅).因此,根據要使所有樣本點盡可能形成若干個團(類)(誠實納稅類或非誠實納稅類),類與類之間盡可能分散和類內樣本點盡可能密集的要求,可以構建如下投影尋蹤目標函數[12]:

(1)

4 建立中小企業稅務稽查PPC模型

4.1 輸入數據歸一化預處理和模型輸出期望值的設定

為了消除各指標量綱不同對建模結果的不利影響,應對各評價指標的輸入數據進行線性歸一化預處理,轉化為 [0, 1]區間內的值.考慮到分類要求的對稱性,筆者設定誠實納稅和非誠實納稅樣本的模型理論期望輸出值分別為-0.5和0.5.

4.2 篩選出對稅務稽查具有重要影響的評價指標

大量研究表明,如果模型中包含不重要的(或者稱為不相關的)指標,不僅不能提高模型的精度(性能),反而會降低模型的精度,并無畏增加建模和收集樣本數據的成本,可以說是有害無益的[1, 3,4,6 , 15,16].本文采用簡單、實用和有效的靈敏度分析法來篩選重要評價指標[6, 15,16],借助于Statsoft公司出品的商品化軟件STATISTICA Neural Network (以下簡稱SNN)軟件GRNN模型的靈敏度分析功能[6, 9],刪除了x13、x8、x9、x12和x14共五個指標,即從15個指標中篩選出了對稅務稽查具有重要影響的10個評價指標.

4.3 把樣本數據進行合理分組提高模型的泛化能力和魯棒性

建立的模型是否可靠和有效,必須用非建模樣本(或稱測試樣本)的性能(精度和有效性)來衡量,因此,必須把樣本數據分成建模樣本和測試樣本.如果樣本數量足夠多,無論采用什么方法,隨機抽取就能確保各組樣本具有相似(同)的性質(即均值和方差基本相等),但如果樣本數量不是很多,隨機分組就可能出現偏差,這樣建立的模型很可能就是無效和不可靠的.因此,國外文獻早在1960年代就開始研究如何分組才能確保各組樣本具有相似的性質,其中SOM方法分組效果較好,也便于實現[6,15,16].為此,本課題組選用SNN的SOM方法進行樣本分組.一般地,模型的內插性能總是好于外插性能,即要求建模樣本必須包含每個指標的最大值和最小值(包括誠實納稅和非誠實納稅兩種情況).對于本例,包含10個誠實納稅樣本和10個非誠實納稅樣本.據此,將上述386個樣本分成了具有相似性質的建模樣本和測試樣本(174個,約占45%),數據特征值如表1所示.

表1 用SOM方法進行分組的兩類樣本的均值和標準差

*注:“1”和“2”分別表示誠實納稅和非誠實納稅樣本,Tr和Te分別指建模樣本和測試樣本;誠實納稅樣本211個,其中Tr和Te分別為117和94個,非誠實納稅樣本175個,其中Tr和Te分別為95和80個.

4.4 建立中小企業稅務稽查PPC模型

(2)

再次調用筆者編制的最優化程序,求得全局最優解,目標函數值Q(b)=16.378 6,b1=1.233 1,b2=-6.229 3.

5 結果與分析

5.1 PPC建模結果及其樣本屬性的判定(誠實納稅或非誠實納稅)

PPC模型每個樣本的輸出值是一個實數,因此,必須采用某種規則來判定每個樣本究竟屬于誠實納稅還是非誠實納稅.對于結果基本服從(右半支)正態分布N(μ1,σ1)(誠實納稅樣本),和(左半支)正態分布N(μ2,σ2)(非誠實納稅樣本)的兩類樣本來說,區分他們的分界值μF可用下式確定[12]:

(3)

因此,如果模型輸出值小于分界值μF,就可判定該樣本為誠實納稅,離分界值越遠,誠實納稅的概率就越大,反之為非誠實納稅.根據上述判斷準則,可以判定本例212個建模樣本和174個測試樣本屬性,其I類、II類和平均分類錯誤率如表2所示.

表2 不同建模方法得到的兩類樣本的分類錯誤率

注:*I類錯誤率是指把誠實納稅的樣本判定為非誠實納稅的百分率,反之是II類錯誤率;**采用MDA、MLR和Logistic建模時,刪除了共線性變量x1、x3、x7、x10和x15;&為改進型PPC模型的結果.

從PPC模型建模樣本和測試樣本的I類和II類錯誤率可以看出,本例的樣本分組是合理和有效的.如果分組不合理,就會導致建模樣本和測試樣本的分類錯誤率相差很大,從而導致模型沒有泛化能力和實用價值.

5.2 與MLR、MDA、Logistic和SVM等模型計算結果的對比

針對上述兩類樣本數據,筆者也建立了MDA、MLR、Logistic和SVM模型,其I類、II類和平均分類錯誤率也列于表2中.

由表2可知, PPC模型的分類錯誤率最低,MDA、MLR和SVM模型的分類錯誤率都出現了大于10%的情況,尤其是MDA和SVM模型的II類錯誤率較高,危害更大.PPC模型的分類錯誤率與Logistic模型基本相當.但從原理上講,MDA、MLR、Logistic和SVM模型只有對服從正態分布規律數據的建模結果才具有較好的可靠性,否則可靠性難以保證.顯然,本例的各個評價指標數據都不服從正態分布,因此,這些傳統統計模型是否能用于企業實際納稅情況的判定,還有待進一步研究分析.

犯II類錯誤的危害性(即把非誠實納稅企業判定為誠實納稅,將導致稅收流失)遠遠大于犯I類錯誤.因此,II類錯誤率低于I類錯誤率的模型較為合理.

5.3 其他339家木制家具制造企業納稅情況的判定

根據前述,另有339家企業的納稅情況還有待判定.339家企業各個指標的均值和方差如表3所示,作為對比,上述212個建模樣本及其誠實納稅樣本與非誠實納稅樣本的均值和方差也列于表3中.顯然,這339家企業的均值與建模樣本中誠實納稅樣本和非誠實納稅樣本的均值都相差較大,說明這339家企業中肯定既有誠實納稅的,也有非誠實納稅的.為此,把上述339家企業10個評價指標的歸一化數據導入上述建立的PPC模型,得到了PPC模型的輸出值,其中190家企業的輸出值小于分界值μF(-0.096 2),這些企業被判定為誠實納稅,另外149家企業被判定為非誠實納稅.為了進一步驗證PPC模型的有效性、泛化能力和魯棒性,表3也列出了339家企業中被判定為誠實納稅和非誠實納稅企業的各個指標的均值和標準差.從表3可以看出,對于指標x1、x2、x7和x15來講,339家企業與212個建模樣本的性質是矛盾的(如339家企業中,誠實納稅樣本x1的均值顯著大于非誠實納稅樣本,而212個建模樣本的情況,則正好相反).

5.4 建立稅務稽查改進型PPC模型

表3 建模樣本和339家企業及其被PPC模型判定為誠實納稅、非誠實納稅樣本各個評價指標的均值和標準差

表4 建模樣本和339家企業及其被改進型PPC模型判定為誠實納稅、非誠實納稅樣本指標的均值和標準差

5.5 各個評價指標的重要性排序和分類

從公式(1)和(2)可知,權重越大的指標對納稅情況的影響就越顯著,在這六個指標中,x11最重要,其次是x10,然后依次是x4、x3、x5,x6最不重要,這些指標的數值越大,改進型PPC模型的輸出值越大,即企業存在非誠實納稅的可能性也越高.因此,在判斷研究企業納稅情況時,首先要重點考察其總資產周轉率數據是否過高,其次是考察流動資產周轉率數據是否過高,然后是依次考察成本費用利潤率、銷售成本率、銷售利潤率及其總資產收益率等指標數據是否過高.根據各個指標的權重大小,也可以對他們的重要性進行分類,由于x11和x10的權重大于0.50,其屬性可以歸為“最重要”一類,x4、x3和x5的權重在[0.3, 0.4]范圍內,其屬性可以歸為“重要”一類,x6的權重小于0.30,其屬性可以歸為“次重要”一類.

6 結束語

針對上海市某區386家木制家具制造企業納稅申報的15項指標數據,首先采用靈敏度分析方法篩選出對企業納稅情況具有重要影響的10個指標,再采用SOM方法把樣本分成具有相似性質的建模樣本和測試樣本(174個,約占45%),以確保后續建模的魯棒性和泛化能力.

采用可用于非線性、高維、非正態分布數據處理的投影尋蹤分類(PPC)技術,針對212個建模樣本,建立了求得真正全局最優解的PPC模型,建模樣本和測試樣本的平均分類錯誤率僅為4.72%和4.60%,均低于MLR、MDA、SVM等模型.同時發現,對339家實際企業納稅情況的判定表明,有4個指標的性質是相互矛盾的,為此建立了刪除該四個指標后僅包含六個指標的改進型PPC模型,建模樣本和測試樣本的平均分類錯誤率分別為6.13%和4.60%,而且與339家實際企業誠實納稅和非誠實納稅樣本的評價指標性質完全一致,說明建立的改進型PPC模型具有很高的精度、泛化能力和魯棒性,而且模型包含的評價指標更少,實用性更強,可用于實際企業納稅情況的判定.

采用MLR、MDA和SVM方法建模,不僅模型的平均識別錯誤率高于PPC模型,而且兩類錯誤率差異也較大,說明模型存在一定的偏態性,再者,從原理上講,在數據不服從正態分布規律時,無法保證這些模型的可靠性和魯棒性.

PPC模型采用一維連續實數輸出方式,便于研究兩類不同樣本輸出值的分布規律,從而為分析、判定真實樣本屬性提供便利,可同時完成樣本的分類和排序研究.改進型PPC模型建模過程簡捷,意義清晰,無須人為確定某些參數的合理值,可最大程度規避人為因素的影響.

[1]RSWU,CSOU,HYLIN,etal. Using data mining technique to enhance tax evasion detection performance [J]. Expert Systems with Applications, 2012, 39(10): 8769-8777.

[2] 何輝, 侯偉. 我國納稅評估存在的問題與路徑選擇[J]. 稅務研究, 2013,29(2):75-77.

[3] 樓文高, 婁元英, 尹淑平. 基于廣義回歸神經網絡的稅務稽查選案實證研究[J]. 廣東商學院學報, 2013, 28(6):74-80.

[4] J ALM. Measuring, explaining, and controlling tax evasion: lessons from theory, experiments, and field studies [J]. International Tax Public Finance, 2012, 19(1):54-77.

[5] 葉藝勇. 基于支持向量機和領域知識的納稅評估預警模型[J]. 數學的實踐與認識, 2014, 44(1):72-77.

[6] P C GONZALEZ, G D VELASQUEZ. Characterization and detection of taxpayers with false invoices using data mining techniques [J]. Expert Systems with Applications, 2013, 40(5):1427-1436.

[7] C LIN, I LIN, C WU,etal. The application of decision tree and artificial neural network to income tax audit: the examples of profit-seeking enterprise income tax and individual income tax in Taiwan [J]. Journal of the Chinese Institute of Engineers, 2012, 35(4):401-411.

[8] 夏輝, 李仁發. 基于SVM與SOM的稅務稽查選案模型研究[J]. 科學技術與工程, 2009, 9(11):4027-4031.

[9] STATSOFT Inc. Electronic Statistics Textbook [EB/OL].Tulsa ( http://www.statsoft.com/textbook ) , 2011.

[10]D F SPECHT. A generalized regression neural network [J]. IEEE Transactions on Neural Networks, 1991, 2(6):568-576.

[11]J H FRIEDMAN, J W TUKEY. A projection pursuit algorithm for exploratory data analysis [J]. IEEE Transactions on Computers, 1974, 23(9):881-890.

[12]樓際通, 樓文高, 于秀榮. 商業銀行個人信用風險評價的投影尋蹤建模及其實證研究[J]. 經濟數學, 2013, 30(4):27-33.

[13]H CAUSSINUSS, A RUIZ-GAZEN,G GOVAERT. Exploratory projection Pursuit [C]// G GOVAERT.Data Analysis,London: ISTE Ltd,2009:67-92.

[14]樓文高, 喬龍. 投影尋蹤聚類建模理論的新探索與實證研究[J]. 數理統計與管理, 2015, 34(1):47-58.

[15]W WU, R J MAY, H R MAIER,etal. A benchmarking approach for comparing data splitting methods for modeling water resources parameters using artificial neural networks [J]. Water Resources Research, 2013, 49(11):7598-7614.

[16]R J MAY, H R MAIER, G C DANDY. Data splitting for artificial neural networks using SOM-based stratified sampling [J]. Neural Networks, 2010, 23(2):283-294.

Tax-Checking Assessment of Small and Medium-Sized Enterprises Applying Projection Pursuit Clustering Technique and Its Positive Research

LOU Wen-gao1,LOU Ji-tong2,SONG Lei-juan1, WANG Lang-qing1

(1.Faculty of Fiscal and Financial, Shanghai Business School, Shanghai 200235,China; 2. The University of North Carolina at Chapel Hill, NC 27514,USA)

Based on the 15 variables’ (indexes’ ) tax-reporting data of 386 wooden-furniture manufacturing small- and medium-sized enterprises (WFMSMEs) located in some districts of Shanghai city, the ten variables mainly influencing the tax-checking situation (tax evasion or compliance) of the 386 WFMSMEs were obtained by applying sensitivity analysis method (SAM) for selecting input variables. The modelling set data and testing set data (about taking up 45%) with similar characteristics - similar mean values and variance-were divided using self-organizing map (SOM) approach. The practical, feasible and effective projection pursuit clustering (PPC) model for tax-checking assessment was thus established. Compared with the multivariate linear regression (MLR), the multivariate discriminant analysis (MDA), Logistic and the support vector machine (SVM), the established PPC model possesses the most accurate and the lowest classification-error percentage (CEP) of the models. The mean CEP of modelling set data and the testing set data is lower than 6%. The improved PPC model including fewer variables is thus suitable to tax-checking assessment and research. The tax-checking situation of the other 339 WFMEs was also assessed and judged, and the results show that the established improved PPC model possesses high generalization and robustness.

tax-checking assessment; projection pursuit clustering (PPC) model; classification-error percentage; samples splitting

2015-07-02

上海高校知識服務平臺“上海商貿服務業知識服務中心”建設子項目“稅收風險管理信息系統設計及開發”(ZF1226);上海地方本科院校“十二五”內涵建設上海商學院重點學科專業建設“金融學人才培養模式改革與創新”;2013年國家大學生創新創業訓練計劃項目(CXGJ-13-002)資助

樓文高(1964—), 男,教授,博士

E-mail: wglou@sbs.edu.cn;wlou64@126.com

TV139.1; N945.12

A

猜你喜歡
分類模型企業
一半模型
企業
當代水產(2022年5期)2022-06-05 07:55:06
企業
當代水產(2022年3期)2022-04-26 14:27:04
企業
當代水產(2022年2期)2022-04-26 14:25:10
分類算一算
重要模型『一線三等角』
敢為人先的企業——超惠投不動產
云南畫報(2020年9期)2020-10-27 02:03:26
重尾非線性自回歸模型自加權M-估計的漸近分布
分類討論求坐標
數據分析中的分類討論
主站蜘蛛池模板: 狠狠综合久久久久综| 日韩毛片免费| 搞黄网站免费观看| 亚洲精品自产拍在线观看APP| 亚洲天堂2014| 国产欧美性爱网| 不卡无码h在线观看| 天天做天天爱夜夜爽毛片毛片| 日本亚洲国产一区二区三区| 久久精品人妻中文系列| 爆操波多野结衣| 色综合网址| 国产凹凸一区在线观看视频| 国产真实乱子伦精品视手机观看| 日韩大乳视频中文字幕| 香蕉久久国产超碰青草| 国产精品香蕉| 亚洲AⅤ综合在线欧美一区| 一区二区三区四区精品视频 | 免费A级毛片无码免费视频| 亚洲IV视频免费在线光看| 亚洲色图狠狠干| 99视频全部免费| 国产综合日韩另类一区二区| 一本大道香蕉中文日本不卡高清二区| 999国内精品视频免费| 超薄丝袜足j国产在线视频| 亚洲成人动漫在线| 国产91高跟丝袜| 日韩第一页在线| 国产精品部在线观看| 蜜桃视频一区| 日韩天堂在线观看| 欧美日韩国产一级| 日韩国产欧美精品在线| 国内精品久久人妻无码大片高| 色网站在线免费观看| 日韩 欧美 小说 综合网 另类| 中文字幕久久精品波多野结| 国产黄色视频综合| 精品福利国产| 国产美女精品一区二区| 911亚洲精品| 亚洲一区二区三区香蕉| 国产精品视频免费网站| 99视频只有精品| 91欧洲国产日韩在线人成| 久久久久青草线综合超碰| www.99精品视频在线播放| 欧美自拍另类欧美综合图区| 亚洲日韩国产精品无码专区| 2020亚洲精品无码| 亚洲高清在线天堂精品| 亚洲综合婷婷激情| 蜜桃视频一区二区| 国产高清毛片| 亚洲大学生视频在线播放| 欧美在线视频不卡第一页| 欧美成人午夜视频| 亚洲无线观看| 中文无码精品a∨在线观看| 成人免费网站久久久| 毛片久久网站小视频| 午夜视频免费一区二区在线看| 免费看美女毛片| 亚洲二区视频| 在线精品亚洲一区二区古装| 无码中文字幕精品推荐| 亚洲黄网视频| 久久精品国产亚洲AV忘忧草18| 久久精品丝袜| 久久国产亚洲偷自| 91毛片网| 波多野结衣一二三| 无码日韩人妻精品久久蜜桃| 操国产美女| 女人av社区男人的天堂| 丰满人妻中出白浆| 97狠狠操| 真人高潮娇喘嗯啊在线观看| 久久无码av三级| 免费全部高H视频无码无遮掩|