999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于SVM的稅務(wù)稽查選案自動識別方法研究

2016-05-30 10:48:04趙嶺峰
江蘇理工學(xué)院學(xué)報 2016年2期
關(guān)鍵詞:機器學(xué)習(xí)

趙嶺峰

摘要:支持向量機是20世紀90年代中期發(fā)展起來的機器學(xué)習(xí)技術(shù),在眾多分類算法中,支持向量機因其出色的學(xué)習(xí)能力,成為機器學(xué)習(xí)界的研究熱點。著重于介紹支持向量機,先把采集來的企業(yè)申報數(shù)據(jù)隨機分為訓(xùn)練樣本和測試樣本,然后通過臺灣大學(xué)林智仁(Lin Chih-Jen)副教授開發(fā)設(shè)計的支持向量機工具LIBSVM,用訓(xùn)練樣本獲得SVM模型,并用這個SVM模型預(yù)測測試樣本企業(yè)是否有問題,通過已知結(jié)果得到模型預(yù)測的準確率。實驗結(jié)果說明該方法是一種有效的方法,完全可以作為稅務(wù)稽查選案的參考。

關(guān)鍵詞:稅務(wù)稽查選案;支持向量機;機器學(xué)習(xí)

中圖分類號:F810.42 文獻標識碼:A 文章編號:2095-7394(2016)02-0022-04

稅務(wù)稽查選案,即通過計算機、人工或兩者相結(jié)合的方法,對各類稅務(wù)信息進行歸集分類處理,在眾多納稅人、扣繳義務(wù)人中選定最有可能有問題的對象。稅務(wù)稽查選案目前廣泛應(yīng)用方法是以信息化手段調(diào)取指標偏差厲害的納稅人,然后逐戶分析可能存在的問題,通過人工篩選,依靠以往的稽查和征管工作經(jīng)驗,確定檢查方向和檢查對象。

在本文中我們將嘗試使用另一種方法(20世紀90年代中期發(fā)展起來的機器學(xué)習(xí)技術(shù)——支持向量機),來分析判斷企業(yè)是否存在問題。支持向量機是一種機器學(xué)習(xí)的方法,它從訓(xùn)練資料中學(xué)習(xí)并建立一個模型,并通過此模型推測新的實例,可以廣泛地應(yīng)用于統(tǒng)計分類以及回歸分析。目前,這一機器學(xué)習(xí)方法已在多個方向上得到應(yīng)用,如人臉檢測,汽輪發(fā)電機組的故障診斷,文本挖掘,手寫體相似字識別,巖爆預(yù)測的支持向量機等。

1 SVM簡介

支持向量機(Support Vector Machine,SVM)是Corinna Cortes和Vapnik8等于1995年首先提出的,它通過尋求結(jié)構(gòu)化風(fēng)險最小來提高學(xué)習(xí)機泛化能力,實現(xiàn)經(jīng)驗風(fēng)險和置信范圍的最小化,從而達到在統(tǒng)計樣本量較少的情況下,亦能獲得良好統(tǒng)計規(guī)律的目的。因為它在解決小樣本、非線性及高維模式識別中表現(xiàn)出的許多特有的優(yōu)勢,所以研究發(fā)展迅速,現(xiàn)在已經(jīng)在許多領(lǐng)域(生物信息學(xué),文本和手寫識別等)都取得了成功的應(yīng)用。

支持向量機是一種機器學(xué)習(xí)的方法,它從訓(xùn)練資料中學(xué)習(xí)并建立一個模型,并通過此模型預(yù)測任何可能出現(xiàn)的輸入的值的輸出。訓(xùn)練資料是由輸入(如企業(yè)申報數(shù)據(jù))和預(yù)期輸出(如稽查結(jié)果,有無問題)所組成。

SVM的主要思想可以概括為兩點:它是針對線性可分情況進行分析,對于線性不可分的情況,通過使用非線性映射算法將低維輸入空間線性不可分的樣本轉(zhuǎn)化為高維特征空間使其線性可分,從而使得高維特征空間采用線性算法對樣本的非線性特征進行線性分析成為可能。它基于結(jié)構(gòu)風(fēng)險最小化理論之上在特征空間中建構(gòu)最優(yōu)分割超平面,使得學(xué)習(xí)器得到全局最優(yōu)化,并且在整個樣本空間的期望風(fēng)險以某個概率滿足一定上界。

SVM是一種有堅實理論基礎(chǔ)的新穎的小樣本學(xué)習(xí)方法。它基本上不涉及概率測度及大數(shù)定律等,因此不同于現(xiàn)有的統(tǒng)計方法。從本質(zhì)上看,它避開了從歸納到演繹的傳統(tǒng)過程,實現(xiàn)了高效的從訓(xùn)練樣本到預(yù)報樣本的“轉(zhuǎn)導(dǎo)推理”,大大簡化了通常的分類和回歸等問題。

SVM的最終決策函數(shù)只由少數(shù)的支持向量所確定,計算的復(fù)雜性取決于支持向量的數(shù)目,而不是樣本空間的維數(shù),這在某種意義上避免了“維數(shù)災(zāi)難”。而少數(shù)支持向量決定了最終結(jié)果,這不但可以幫助我們抓住關(guān)鍵樣本、“剔除”大量冗余樣本,而且注定了該方法不但算法簡單,而且具有較強的健壯性。例如增、刪非支持向量樣本對模型幾乎沒有影響,下面我們的實驗也會體現(xiàn)這一點。

2 實驗分析

2.1 實驗?zāi)康?/p>

驗證通過svm分類算法建立的企業(yè)模型,對未知企業(yè)是否有問題的預(yù)測準確性。

2.2 樣本來源

筆者通過便利條件,直接從數(shù)據(jù)庫按年抽取了某市2009到2012年所有稽查過的制造業(yè)企業(yè),同時匹配一些相關(guān)年度申報數(shù)據(jù)(如銷售收入,應(yīng)納增值稅稅額,存貨平均數(shù),主營業(yè)務(wù)利潤等),然后在這些企業(yè)中通過excel隨機函數(shù),隨機抽取了2000戶作為實驗樣本。實驗樣本數(shù)據(jù)如表1。

2.3 實驗涉及的工具說明

采用臺灣大學(xué)林智仁(Lin Chih-Jen)副教授等開發(fā)設(shè)計的軟件包LIBSVM,該軟件包提供了簡單易用和快速有效的SVM模式識別與回歸方法,這使得我們不必要花費大量的時間理解SVM算法的深奧數(shù)學(xué)原理和計算機程序設(shè)計。該軟件包可以在http://www.csie.ntu.edu.tw/-cjlin/免費獲得。

2.4 詳細實驗步驟

2.4.1 產(chǎn)生符合軟件要求的數(shù)據(jù)文件

將樣本隨機劃分為1500戶企業(yè)的訓(xùn)練樣本和500戶企業(yè)的測試樣本,并按照LIBSVM軟件要求將訓(xùn)練樣本和驗證樣本分別格式化成文件train和文件test。

按照LIBSVM軟件要求,將文件格式化成如下格式:

0 1:14 871 030.39,2:27 256.24。3:2 965 841.805.4:1 532 128.27

1 1:950 897.44,2:57 423.99,3:30 925.5,4:2 546.66

0 1:210 508 744.31.2:5454 538.9,3:15 784 275.23.4:1 130 826.74

1 1:2 802 448.68,2:102 103.41,3:86 128,4:136 084.47

0 1:21 472 084.19.2:1 101 170.56.3:3 204 356.755.4:118 902.49

0 1:6 275 138 578.79。2:-372 343 321.62,3:461 957 600.77.4:993 078 657.52

1 1:1 577 484.9,2:40 859.68,3:101 973.92,4:33 422.62

0 1:301 643 912.2,2:2 690 974.51,3:4 500 019.87.4:5 520 681.07

其中第一個數(shù)字,表示該稽查下來是否有問題,1代表有問題0,代表無問題。

冒號前的1,2,3,4代表序號,可以是不連續(xù)的。

1,2,3,4冒號后的值分別代表銷售收入,應(yīng)納增值稅稅額,存貨平均數(shù),主營業(yè)務(wù)利潤。

2.4.2 對數(shù)據(jù)文件進行縮放

為了避免一些特征值范圍過大而另一些特征值范圍過小,以及避免在訓(xùn)練時為了計算核函數(shù)而計算內(nèi)積的時候引起數(shù)值計算的困難,因此通常將數(shù)據(jù)縮放到[-1,1]或者是[0,1]之間。

本步驟通過svm-scale.exe訓(xùn)練樣本train自動產(chǎn)生縮放規(guī)則range和縮放后的訓(xùn)練樣本train.scale,然后通過縮放規(guī)則range產(chǎn)生縮放后的驗證文件test.scale。以下為實例命令:

svm-scale.exe-s range train>train.scale

svm-scale.exe-r range test>test.scale

2.4.3 獲得SVM模型

本步驟通過svm-train.exe實現(xiàn)對縮放后的訓(xùn)練樣本train.scale的訓(xùn)練,獲得SVM模型model。

svm-train.exe train.scale model

2.4.4 驗證模型預(yù)測的準確率

本步驟通過svm-predict.exe根據(jù)訓(xùn)練獲得的模型model,對縮放后的驗證樣本test.scale進行分析,生成結(jié)果集result。

svm-predict.exe test.scale model resuh

程序返回:Accuracy=81.2%f406/5001(classi-fication)

說明我們預(yù)測的準確率為81.2%。

2.5 實驗分析

在1 500戶企業(yè)的訓(xùn)練樣本和500戶企業(yè)的測試樣本下測試改變屬性值數(shù)量對分類的影響,4個屬性值時,反饋預(yù)測準確率81.2%,6個屬性值時,反饋預(yù)測準確率81%,8個屬性值時,反饋預(yù)測準確率81.2%,10個屬性值時,反饋預(yù)測準確率81.2%,可見屬性數(shù)量的增加確實會影響預(yù)測準確性,但是影響不大。數(shù)據(jù)分類屬性越多,問題的復(fù)雜程度就越厲害,SVM引入了核函數(shù)來應(yīng)付樣本的屬性數(shù),使得樣本的屬性可以很多,而且效率上面并沒有多大變化。

改變樣本數(shù)量,在測試樣本均為500企業(yè)情況下,訓(xùn)練樣本為300企業(yè),反饋預(yù)測準確率81.2%,訓(xùn)練樣本為600企業(yè),反饋預(yù)測準確率81.2%,訓(xùn)練樣本為1000企業(yè),反饋預(yù)測準確率81.2%,訓(xùn)練樣本為1500企業(yè),反饋預(yù)測準確率81.2%,實驗結(jié)果驗證了SVM的健壯性,增、刪非支持向量樣本對模型幾乎沒有影響,小樣本數(shù)據(jù)即可取得很好的效果。

3 結(jié)語

隨著信息化的快速發(fā)展,稅收分析在稅收工作中越來越重要。新技術(shù)的學(xué)習(xí)和使用是提高分析水平的重要途徑和手段之一,本文拋磚引玉,提出使用機器學(xué)習(xí)方法,利用支持向量機來分析判斷企業(yè)是否有問題,實驗結(jié)果表明識別準確率達到81.2%,完全可以作為稅務(wù)稽查選案的又一參考。

責(zé)任編輯 祁秀春

猜你喜歡
機器學(xué)習(xí)
基于詞典與機器學(xué)習(xí)的中文微博情感分析
基于網(wǎng)絡(luò)搜索數(shù)據(jù)的平遙旅游客流量預(yù)測分析
時代金融(2016年27期)2016-11-25 17:51:36
前綴字母為特征在維吾爾語文本情感分類中的研究
下一代廣播電視網(wǎng)中“人工智能”的應(yīng)用
活力(2016年8期)2016-11-12 17:30:08
基于支持向量機的金融數(shù)據(jù)分析研究
基于Spark的大數(shù)據(jù)計算模型
基于樸素貝葉斯算法的垃圾短信智能識別系統(tǒng)
基于圖的半監(jiān)督學(xué)習(xí)方法綜述
機器學(xué)習(xí)理論在高中自主學(xué)習(xí)中的應(yīng)用
極限學(xué)習(xí)機在圖像分割中的應(yīng)用
主站蜘蛛池模板: 国产区网址| 日a本亚洲中文在线观看| 无码综合天天久久综合网| 免费一级毛片在线观看| 日韩视频精品在线| 亚洲精品中文字幕无乱码| 日本日韩欧美| 欧美成人综合视频| 国产另类视频| 久久久久亚洲AV成人人电影软件 | 99热这里只有精品久久免费| 亚洲综合经典在线一区二区| 久久视精品| 亚洲国产综合自在线另类| 国产精品成人观看视频国产 | 久久免费精品琪琪| 久热re国产手机在线观看| 国产高颜值露脸在线观看| yy6080理论大片一级久久| 91久久国产成人免费观看| 在线观看欧美国产| 日韩精品久久无码中文字幕色欲| 国产丝袜一区二区三区视频免下载| 亚洲欧美色中文字幕| 日韩国产高清无码| 极品私人尤物在线精品首页 | 99热这里只有精品国产99| 久久天天躁夜夜躁狠狠| 丰满人妻久久中文字幕| 九色国产在线| 国产人人射| 国产亚洲精品97在线观看| 91极品美女高潮叫床在线观看| 色噜噜综合网| 91色国产在线| 国产精品久久自在自2021| аv天堂最新中文在线| 亚洲欧洲一区二区三区| 日本午夜三级| 激情在线网| 欧美亚洲香蕉| 国产人人乐人人爱| 好紧太爽了视频免费无码| 波多野结衣爽到高潮漏水大喷| 伊人婷婷色香五月综合缴缴情| 国产尹人香蕉综合在线电影| 无码视频国产精品一区二区| 亚洲国产成人麻豆精品| 国产精品视频久| 日韩a级毛片| 四虎精品黑人视频| 国产无码网站在线观看| 日韩123欧美字幕| 四虎永久免费地址在线网站| 999国内精品视频免费| 国产xxxxx免费视频| 亚洲中文久久精品无玛| 国产91透明丝袜美腿在线| 国产成人亚洲精品无码电影| 性视频久久| 一级毛片在线播放| 91视频精品| 亚洲精品第一在线观看视频| 国产精品3p视频| 国产资源站| 中国国语毛片免费观看视频| 欧美日本激情| 亚洲三级a| 婷婷亚洲视频| 国产精品久久久久久久久| 国产精品一区二区在线播放| 色首页AV在线| 亚洲天堂视频网站| 青青草原国产| 91精品国产91久无码网站| 韩日午夜在线资源一区二区| 久久国产亚洲偷自| 中文字幕不卡免费高清视频| 97狠狠操| 久久免费观看视频| 色欲综合久久中文字幕网| 亚洲色成人www在线观看|