張春瑜(陜西財經(jīng)職業(yè)技術(shù)學(xué)院,咸陽,712000)
基于數(shù)據(jù)挖掘技術(shù)的中小企業(yè)納稅評估模型構(gòu)建
張春瑜
(陜西財經(jīng)職業(yè)技術(shù)學(xué)院,咸陽,712000)
本文構(gòu)建了基于數(shù)據(jù)挖掘技術(shù)的中小企業(yè)納稅評估模型,解決對中小企業(yè)納稅問題的研究。
數(shù)據(jù)挖掘;納稅 ;評估模型
中小企業(yè)由于其自身規(guī)模與政策的限制,一般都不能保持長期穩(wěn)定的發(fā)展?fàn)顟B(tài),這將會對投資人投資回報率的穩(wěn)定性造成直接影響,所以,納稅人的生產(chǎn)經(jīng)營情況在很大程度上影響著納稅人的決策。除此之外,納稅人多存在偷稅、漏稅的僥幸心理也是影響納稅決策的重要內(nèi)因。
從納稅本身來講,它屬于一種對納稅人財產(chǎn)所有權(quán)進(jìn)行強(qiáng)制轉(zhuǎn)移的一種行為,從表面上看似乎不是一種利益對等的行為,因此納稅人從自身利益出發(fā),希望能夠減少稅負(fù)或者是表現(xiàn)出納稅不遵從的行為。在這種情況下,通過對中小企業(yè)的生產(chǎn)經(jīng)營數(shù)據(jù)進(jìn)行分析,并以此來預(yù)測納稅人納稅遵從行為是合理的,通過對納稅人“稅收遵從”或“稅收不遵從”的分類屬性進(jìn)行分析,以此來提高納稅評估模型的準(zhǔn)確度和納稅評估工作的效率。
納稅評估從稅務(wù)登記、發(fā)票管理、申報征收、行政審批環(huán)節(jié)及外部信息庫取得相關(guān)數(shù)據(jù),并以此為依據(jù)來確定評估對象, 對納稅人扣繳義務(wù)人一定時期內(nèi)申報繳納稅款的情況進(jìn)行綜合評價并進(jìn)行相應(yīng)處理。主要工作流程包含四步,即確定評估對象工作流程,實(shí)施評估工作流程,評估結(jié)果處理工作流程和評估反饋工作流程。
隨著數(shù)據(jù)采集與存儲技術(shù)的不斷進(jìn)步,人們擁有的數(shù)據(jù)量也在逐漸增加,透過這些數(shù)據(jù)為人們的決策提供了更多的參考,但是在越來越多的大量數(shù)據(jù)中如何尋找對決策具有決定性意義的數(shù)據(jù)是人們目前普遍關(guān)注的重點(diǎn),數(shù)據(jù)挖掘技術(shù)的應(yīng)用恰恰解決了這一難題,數(shù)據(jù)挖掘技術(shù)借助于數(shù)據(jù)倉庫,通過數(shù)據(jù)源的集成和選擇,將大量模糊、隨機(jī)的數(shù)據(jù)轉(zhuǎn)變?yōu)橛行虻臄?shù)據(jù),并通過對目標(biāo)數(shù)據(jù)的多次處理和分析,產(chǎn)生知識模式,并最終表現(xiàn)為有價值的信息。納稅評估對象的選定過程本質(zhì)上就是對納稅人的涉稅數(shù)據(jù)進(jìn)行分析,進(jìn)而得到納稅人分類,二者的總體邏輯框架是一致的,因此,運(yùn)用數(shù)據(jù)挖掘技術(shù)優(yōu)化納稅評估模型是完全可行的。
3.1 中小企業(yè)納稅評估數(shù)據(jù)倉庫的構(gòu)建
納稅評估數(shù)據(jù)倉庫是數(shù)據(jù)挖掘?qū)崿F(xiàn)的數(shù)據(jù)平臺,應(yīng)該包含定性、定量分析過程中涉及的各類涉稅數(shù)據(jù),數(shù)據(jù)倉庫體系結(jié)構(gòu)如圖1所示。

圖1 數(shù)據(jù)倉庫結(jié)構(gòu)
按照數(shù)據(jù)的覆蓋范圍可以分為集中式數(shù)據(jù)倉庫和數(shù)據(jù)集市。運(yùn)用元數(shù)據(jù)和其它管理工具對數(shù)據(jù)倉庫進(jìn)行組織和管理。
OLAP 服務(wù)器:對分析需要的數(shù)據(jù)進(jìn)行有效集成,按多維模型予以組織,以便進(jìn)行多角度、多層次的分析,并發(fā)現(xiàn)趨勢。
前端工具:主要包括各種報表工具、查詢工具、數(shù)據(jù)分析工具、數(shù)據(jù)挖掘工具以及各種基于數(shù)據(jù)倉庫或數(shù)據(jù)集市的應(yīng)用開發(fā)工具。
數(shù)據(jù)倉庫的設(shè)計(jì)主要包括兩個部分:與操作型系統(tǒng)接口的設(shè)計(jì)和數(shù)據(jù)倉庫本身的設(shè)計(jì)。前者的設(shè)計(jì)主要指ETL 組件的設(shè)計(jì),ETL 組件通過對操作型數(shù)據(jù)進(jìn)行清洗、轉(zhuǎn)換、加載,把事務(wù)數(shù)據(jù)轉(zhuǎn)換成數(shù)據(jù)倉庫中的數(shù)據(jù);后者的主要設(shè)計(jì)問題是:粒度、分區(qū)和適當(dāng)設(shè)計(jì)。粒度問題是設(shè)計(jì)數(shù)據(jù)倉庫的最重要的方面,因?yàn)樗鼤羁逃绊懘娣旁跀?shù)據(jù)倉庫中的數(shù)據(jù)量的大小以及數(shù)據(jù)倉庫所能回答的查詢類型,要在數(shù)據(jù)量大小和所能回答查詢的細(xì)節(jié)級別間做出權(quán)衡,為此,擁有海量數(shù)據(jù)的企業(yè)往往采用多粒度級的設(shè)計(jì)。
3.2 數(shù)據(jù)挖掘技術(shù)的應(yīng)用過程
數(shù)據(jù)挖掘技術(shù)的應(yīng)用過程一般包括以下四步:
第一步,確定業(yè)務(wù)對象:在開始數(shù)據(jù)挖掘之前最基礎(chǔ)的工作就是理解數(shù)據(jù)和實(shí)際業(yè)務(wù)問題,在這個基礎(chǔ)上提出問題,并對目標(biāo)進(jìn)行明確的定義。認(rèn)清數(shù)據(jù)挖掘的目的是數(shù)據(jù)挖掘的重要一步,因此必須清晰的定義出業(yè)務(wù)范圍。數(shù)據(jù)挖掘的最后結(jié)構(gòu)是不可測的,但應(yīng)對要探索的問題有預(yù)見性,為了數(shù)據(jù)挖掘而數(shù)據(jù)挖掘則帶有盲目性,一般不會成功。
第二步,數(shù)據(jù)準(zhǔn)備:這一步是保證數(shù)據(jù)挖掘得以成功的先決條件,數(shù)據(jù)準(zhǔn)備在整個數(shù)據(jù)挖掘過程中占的比重最大,大約是整個數(shù)據(jù)挖掘工作量的60%,數(shù)據(jù)準(zhǔn)備包括數(shù)據(jù)選擇、數(shù)據(jù)預(yù)處理和數(shù)據(jù)轉(zhuǎn)換。
其中,數(shù)據(jù)選取的目的是確定發(fā)現(xiàn)任務(wù)的操作對象,即目標(biāo)數(shù)據(jù),是根據(jù)用戶的需要從原始數(shù)據(jù)庫中抽取的一組數(shù)據(jù)。數(shù)據(jù)預(yù)處理一般可能包括消除噪聲、推導(dǎo)計(jì)算缺值數(shù)據(jù)、消除重復(fù)記錄、完成數(shù)據(jù)類型轉(zhuǎn)換。當(dāng)數(shù)據(jù)挖掘的對象是數(shù)據(jù)倉庫時,一般來說,數(shù)據(jù)預(yù)處理己經(jīng)在生成數(shù)據(jù)倉庫時完成了。數(shù)據(jù)變換的主要目的是消減數(shù)據(jù)維數(shù)或降維,即從初始特征中找出真正有用的特征以減少數(shù)據(jù)挖掘時要考慮的特征或變量個數(shù)。
第三步,數(shù)據(jù)挖掘:數(shù)據(jù)挖掘就是對所得到的經(jīng)過轉(zhuǎn)換的數(shù)據(jù)進(jìn)行挖掘,除了選擇合適的挖掘方法外,其余工作可自動地完成。
第四步,結(jié)果分析與知識的同化:對挖掘結(jié)果進(jìn)行解釋并評估。數(shù)據(jù)挖掘階段發(fā)現(xiàn)出來的模式,經(jīng)過評估,可能存在冗余或無關(guān)的模式,這時需要將其剔除。也有可能模式不滿足用戶要求,這時則需要整個挖掘過程回退到前續(xù)階段,如重新選取數(shù)據(jù)、采用新的數(shù)據(jù)變換方法、設(shè)定新的參數(shù)值,甚至換一種算法等等。另外,由于數(shù)據(jù)挖掘最終是面向人類用戶的,因此可能要對發(fā)現(xiàn)的模式進(jìn)行可視化,或者把結(jié)果轉(zhuǎn)換為用戶容易理解的其它表示形式,如把分類決策樹轉(zhuǎn)換為“if…then…”規(guī)則。知識的同化就是將分析做得到的知識集成到業(yè)務(wù)系統(tǒng)的制度結(jié)構(gòu)中去。
4.1 選取訓(xùn)練樣本集
為了評估模型的準(zhǔn)確性,盡量避免納稅評估過程中評估人員的主觀經(jīng)驗(yàn)判斷,本文認(rèn)為應(yīng)該從已知納稅人的分類屬性中挑選訓(xùn)練樣本集,以訓(xùn)練樣本集的邏輯判斷驗(yàn)證測試樣本集的分類屬性。因此,構(gòu)建納稅評估模型首先應(yīng)該選擇訓(xùn)練樣本集,樣本集中的每一個元素都已知其分類屬性,且樣本中所含元素越多越好,樣本集合應(yīng)包括如表1所示的內(nèi)容。

表1 中小企業(yè)納稅評估模型樣本集
在表1中, 0l、02是對7項(xiàng)業(yè)務(wù)指標(biāo)屬性和樣本元素分類屬性的定量表示。其中,業(yè)務(wù)指標(biāo)若為01,表示業(yè)務(wù)指標(biāo)“正常”,02表示“異常”;樣本元素的分類屬性D若為01,表示納稅人“稅收遵從”,若為02,則表示“稅收不遵從”。
4.2 計(jì)算兩種分類的先驗(yàn)概率
對訓(xùn)練樣本集中的“分類屬性”進(jìn)行統(tǒng)計(jì),得到分類屬性為O1的樣本總數(shù)C-D1和屬性為02的樣本總數(shù)C-D2,并計(jì)算“稅收遵從”和“稅收不遵從”的先驗(yàn)概率P(D1)=C-D1/(C-D1+C-D2),
P(D2)=C-D2/(C-D1+C-D2)
4.3 計(jì)算業(yè)務(wù)指標(biāo)的條件概率
以分類屬性為界限,再次對訓(xùn)練樣本集的業(yè)務(wù)指標(biāo)進(jìn)行樣本數(shù)統(tǒng)計(jì),得到分類屬性D為“納稅遵從”情況下稅負(fù)率差異幅度Z1“正常”的樣本數(shù)C-Z1-N1-D1、“異常”樣本數(shù)C-Z1-N2-D1,分類屬性D為“納稅不遵從”情況下稅負(fù)率差異幅度Z1“正常”的樣本數(shù)C-Z1-N1-D2、“異常”的樣本數(shù)C-Z1-N2-D2,并據(jù)此得到所有業(yè)務(wù)指標(biāo)的相關(guān)信息。
判定完納稅人的分類屬性之后,稅務(wù)機(jī)關(guān)可挑選“納稅不遵從”對象,利用評估分析、詢問核實(shí)、評定處理等一系列程序,完成納稅評估工作。
綜上所述,本文在對數(shù)據(jù)挖掘技術(shù)進(jìn)行分析的基礎(chǔ)上,運(yùn)用數(shù)據(jù)挖掘技術(shù)優(yōu)化納稅評估模型,構(gòu)建了基于數(shù)據(jù)挖掘技術(shù)的中小企業(yè)納稅評估模型,將納稅評估的對象選定工作置于科學(xué)的邏輯框架下,以提升納稅評估的效率。
胡艷容.中小企業(yè)納稅遵從成本影響因素研究[D].江西農(nóng)業(yè)大學(xué),2013.
張春瑜,女,1982—,河北南宮人,講師,研究方向:稅收、會計(jì)、金融
Construction of SME tax assessment model based on data mining technology
Zhang Chunyu
(Shaanxi Vocational College of Finance and Economics,Xianyang,712000)
This paper constructs a data mining technology based small and medium enterprises tax assessment model, to solve the problem of the research on small and medium-sized enterprise tax.
data mining;tax;assessment model