999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

關聯規則在稅收征管中的應用

2012-04-29 00:44:03劉以堂張述成
科技創新導報 2012年17期
關鍵詞:數據挖掘關聯規則

劉以堂 張述成

摘 要:本文介紹了數據倉庫、數據挖掘以及知識發現的概念,詳細分析了關聯規則算法,對納稅人特定屬性與納稅人異常行為之間的關聯關系進行了分析研究。

關鍵詞:知識發現數據挖掘關聯規則算法稅收征管

中圖分類號:F 文獻標識碼:A 文章編號:1674-098X(2012)06(b)-0027-02

近年來,稅務系統信息化水平迅速提升,核心征管系統的數據實現了省級大集中,經過多年的應用積淀,信息系統中積累了海量的涉稅數據。如何從這些海量的數據中尋找有用的信息,并將信息轉化為情報,用于識別、分析納稅人的涉稅風險點,促進稅收征管質量和效率的提高已成為當前稅務部門急需破解的難題,數據倉庫和數據挖掘技術的出現,可較好地滿足這一應用需求。

1 數據倉庫

數據倉庫概念創始人W.H.Inmon在《建立數據倉庫》一書中對數據倉庫的定義是:數據倉庫就是面向主題的、集成的、相對穩定的、隨時間不斷變化(不同時間)的數據集合,用以支持經營管理中的決策制定過程。數據倉庫中的數據面向主題,與傳統數據庫面向應用相對應。主題是一個在較高層次上將數據歸類的標準,每一個主題對應一個宏觀的分析領域;數據倉庫的集成特性是指在數據進入數據倉庫之前,必須經過數據加工和集成,這是建立數據倉庫的關鍵步驟,首先要統一原始數據中的矛盾之處,還要將原始數據結構做一個從面向應用向面向主題的轉變;數據倉庫的穩定性是指數據倉庫反映的是歷史數據,而不是日常事務處理產生的數據,數據經加工和集成進入數據倉庫后是極少或根本不修改的;數據倉庫是不同時間的數據集合,它要求數據倉庫中的數據保存時限能滿足進行決策分析的需要,而且數據倉庫中的數據都要標明該數據的歷史時期。

數據倉庫是一個計算機存儲系統,但更是一種管理技術,是一個動態的、工程的概念[1],它通過各種方法從聯機事務處理(OLTP)的數據庫中抽取細節數據,并進行綜合、集成和再加工,以適當的數據結構組織存儲,從海量數據中提取出有用的信息,服務于企業和組織的決策支持和數據分析。

數據倉庫支持多維數據分析,通過對實體多個維度(屬性)的分析,從不同的角度進行比較和理解,是數據挖掘技術的基礎。

1.1 數據挖掘

數據挖掘DM(Data Mining)是整個知識發現過程的一個步驟,是知識發現的深層次過程,它在可接受的計算效率的限制條件下,從大量數據中發現潛在的數據模式,生成關于模式的表達[2]。

數據挖掘通過分析每個數據,從大量數據中尋找其規律的技術,主要有數據準備、規律尋找和規律表示3個步驟。數據準備是從相關的數據源中選取所需的數據并整合成用于數據挖掘的數據集;規律尋找是用某種方法將數據集所含的規律找出來;規律表示是盡可能以用戶可理解的方式(如可視化)將找出的規律表示出來。

1.2 知識發現

基于數據庫的知識發現KDD(Knowledge Discovery in Databases)表示將低層數據轉換為高層知識的整個過程[3]。可以將KDD簡單定義為:KDD是確定數據中有效的、新穎的、潛在有用的、基本可理解的模式的特定過程。知識發現過程包括以下步驟:問題的理解和定義、相關數據收集和提取、數據探索和清理、數據工程、算法選擇、運行數據挖掘算法、結果的評價。

2 關聯規則

數據挖掘采用的主要分析方法有7種: 分類(Classification)、估值(Estimation)、預言(Prediction)、相關性分組或關聯規則(Affinity grouping or association rules)、聚集(Clustering)、描述和可視化(Description and Visualization)、復雜數據類型挖掘(Text,Web,圖形圖像,視頻,音頻等)。

下面重點介紹關聯分析算法。

在描述有關關聯規則的一些細節之前,我們先來看一個有趣的故事:“尿布與啤酒”的故事。美國沃爾瑪超市擁有世界上最大的數據倉庫系統,它集中了其各門店的詳細原始交易數據。為了能夠準確了解顧客在其門店的購買習慣,沃爾瑪對其顧客的購物行為進行購物籃分析,想知道顧客經常一起購買的商品有哪些。利用數據挖掘方法對這些數據進行分析和挖掘,意外的發現:“跟尿布一起購買最多的商品竟是啤酒!”再經過大量實際調查和分析,揭示了一個隱藏在“尿布與啤酒”背后的美國人的一種行為模式:在美國,一些年輕的父親下班后經常要到超市去買嬰兒尿布,而他們中有30%~40%的人同時也為自己買一些啤酒。產生這一現象的原因是:美國的太太們常叮囑她們的丈夫下班后為小孩買尿布,而丈夫們在買尿布后又隨手帶回了他們喜歡的啤酒。

按常規思維,尿布與啤酒風馬牛不相及,若不是借助數據挖掘技術對大量交易數據進行挖掘分析,沃爾瑪是不可能發現數據內在這一有價值的規律的。關聯規則可以挖掘發現大量數據中項集之間有趣的關聯或相關聯系。

數據關聯是數據庫中存在的一類重要的可被發現的知識。若兩個或多個變量的取值之間存在某種規律性,就稱為關聯。關聯分析是為了挖掘出隱藏在數據之間的相互關系,找出所有能把一組事件或數據項與另一組事件或數據項聯系起來的規則。

一般用三個參數來描述一個關聯規則的屬性:支持度、可信度、作用度。

設是一組物品集,W是一組事務集。W中的每個事務T是一組物品,TR。假設有一個物品集A,一個事務T,如果AT,則稱事務T支持物品集A。關聯規則是如下形式的一種蘊含:A→B,其中A、B是兩組物品,AI,BI,且A∩B=。

用P(A)表示事務中出現物品集A的概率,P(B|A)表示在出現物品集A的事務中,出現物品集B的概率,則以上三個參數可用公式表示,如表1。

可信度是對關聯規則的準確度的衡量,支持度是對關聯規則重要性的衡量。

支持度說明這條規則在所有事務中有多大的代表性,顯然支持度越大,關聯規則越重要。有些關聯規則可信度雖然很高,但支持度卻很低,說明該關聯規則實用的機會很小,因此也不重要。

作用度描述了物品集A對物品集B的影響力的大小。作用度越大,說明物品集B受物品集A的影響越大。一般情況,有用的關聯規則的作用度都應該大于1,只有關聯規則的可信度大于期望可信度,才說明A的出現對B的出現有促進作用,也說明了它們之間某種程度的相關性,如果作用度不大于1,則此關聯規則也就沒有意義了。

就沃爾馬案例而言,使用關聯規則挖掘技術,對交易資料庫中的紀錄進行資料挖掘,首先必須要設定最小支持度與最小可信度兩個門檻值,在此假設最小支持度min_support=5%且最小可信度min_confidence=70%。因此符合此該超市需求的關聯規則將必須同時滿足以上兩個條件。若經過挖掘過程所找到的關聯規則「尿布,啤酒」,滿足下列條件,將可接受「尿布,啤酒」的關聯規則。用公式可以描述Support(尿布,啤酒)>=5%且Confidence(尿布,啤酒)>=70%。其中,Support(尿布,啤酒)>=5%于此應用范例中的意義為:在所有的交易紀錄資料中,至少有5%的交易呈現尿布與啤酒這兩項商品被同時購買的交易行為。Confidence(尿布,啤酒)>=70%于此應用范例中的意義為:在所有包含尿布的交易紀錄資料中,至少有70%的交易會同時購買啤酒。因此,今后若有某消費者出現購買尿布的行為,超市將可推薦該消費者同時購買啤酒。這個商品推薦的行為則是根據“尿布,啤酒”關聯規則,因為就該超市過去的交易紀錄而言,支持了“大部份購買尿布的交易,會同時購買啤酒”的消費行為。

3 數據挖掘在納稅異常行為分析中的應用

在日常的稅收管理中,納稅人可以根據不同的標準被分類成若干靜態的屬性,同時也會發生很多種動態的異常納稅行為,我們想尋求的是:哪些具有靜態屬性的納稅人更易于發生動態的異常納稅行為,受到沃爾瑪超市“尿布與啤酒”故事的啟發,我們將納稅人視為“顧客”,將納稅人的靜態屬性和動態行為視為“購物事務”,從龐雜的稅務信息系統的數據中去發現這些屬性和行為之間的關聯規則。

首先,我們把納稅人按照行業、地區、企業類型、規模、注冊資本等標準將納稅人分成不同的類別,其次,將納稅人曾被查補、自查、加收滯納金、被移送稽查、發生發票違章處理、連續三個月零負申報等六種行為歸并成納稅異常行為。把一個納稅人在一個納稅期限內的納稅行為作為一個事務,相當于一個超市購物者的購物行為。我們對近兩年的納稅數據進行遷移、清洗,建立數據倉庫。分析當某個納稅人屬于某個分類時,具有納稅異常行為之間的關聯規則,即對每一個類別,計算出可信度、支持度和作用度,以期發現兩者之間的關聯度。

以按照企業類型分類為例,納稅人是國有企業的,有納稅異常行為的作為事務,根據關聯規則相關屬性的定義可得出以下的等式:

可信度=國有企業納稅人納稅異常行為數/國有企業全部的納稅行為數

支持度=國有企業納稅人納稅異常行為數/全部企業的納稅行為數

作用度=(國有企業納稅人納稅異常行為數/國有企業全部的納稅行為數)/(全部納稅人納稅異常行為數/全部企業的納稅行為數)

其中納稅異常行為數就是在兩年的納稅期間發生上述六種異常行為的數量,納稅行為數就是在兩年共24個納稅期間內納稅人的納稅行為總和,即∑24*6*(納稅人數量)。

通過對數據的清洗、加工和計算,得出如下結果。

同樣,可以計算分地區、規模、注冊資本等不同口徑下的納稅人與異常行為的關聯指標,得出他們之間的關聯模式。以上兩表為例,從表2可以看出,國有與集體聯營企業在近兩年的納稅行為中發生異常的概率是總體納稅人的納稅異常行為發生概率的3.8倍;從表3可以看出,行業為煙草制品業的企業發生稅務異常行為的概率是全部納稅人發生納稅異常行為概率的27.44倍。有了這些“挖掘”的信息,業務部門可以通過進一步分析這些指標,從中發現某些規律性,并指導稅源管理部門對這些“高風險”的企業有針對性的加強管理。

4 結語

隨著數據倉庫技術和商務智能技術的發展,關聯規則等數據挖掘分析方法在稅務信息化建設中將得到更為廣泛的應用,對稅收管理的決策支持作用將更加凸顯。

參考文獻

[1] 胡彥.基于數據倉庫的決策支持工具的比較研究.計算機應用[J],2000.

[2] 宋興彬、徐力、王剛.數據挖掘技術在稅務系統中的應用.網絡與計算機技術應用[J],2001.

[3] MBA智庫.百科.

猜你喜歡
數據挖掘關聯規則
撐竿跳規則的制定
“苦”的關聯
當代陜西(2021年17期)2021-11-06 03:21:36
數獨的規則和演變
探討人工智能與數據挖掘發展趨勢
奇趣搭配
讓規則不規則
Coco薇(2017年11期)2018-01-03 20:59:57
基于并行計算的大數據挖掘在電網中的應用
電力與能源(2017年6期)2017-05-14 06:19:37
智趣
讀者(2017年5期)2017-02-15 18:04:18
TPP反腐敗規則對我國的啟示
一種基于Hadoop的大數據挖掘云服務及應用
主站蜘蛛池模板: 欧美日韩中文国产| 国产农村妇女精品一二区| 国产十八禁在线观看免费| 亚洲三级影院| 成人免费一区二区三区| 日本影院一区| 欧美中文字幕在线播放| 女同国产精品一区二区| 国产一区二区精品高清在线观看| 欧美国产日本高清不卡| 午夜福利免费视频| 少妇精品网站| 国产午夜福利在线小视频| 啪啪永久免费av| 国产极品美女在线播放| 欧美视频在线第一页| 亚洲中文字幕久久精品无码一区| 国内精品小视频福利网址| 九九线精品视频在线观看| 国产免费久久精品99re不卡 | 国产丝袜一区二区三区视频免下载| 亚洲人成色在线观看| 97国产在线视频| 欧美综合激情| 精品色综合| 国内毛片视频| 国产精品人人做人人爽人人添| 在线观看精品自拍视频| 一级香蕉人体视频| 国产自在线播放| 国产精品极品美女自在线| 制服丝袜国产精品| 亚洲黄网视频| 国产又大又粗又猛又爽的视频| 日韩国产一区二区三区无码| 97精品伊人久久大香线蕉| 亚洲日韩高清在线亚洲专区| 美女被操黄色视频网站| 亚洲经典在线中文字幕| 国产亚洲精品在天天在线麻豆| 国产成人资源| 亚洲精品天堂自在久久77| 欧美性久久久久| 99re热精品视频国产免费| 国产视频a| 亚洲成AV人手机在线观看网站| 午夜无码一区二区三区在线app| 亚洲精品视频免费| 91在线精品免费免费播放| 久久国产毛片| 最新国产你懂的在线网址| AV不卡无码免费一区二区三区| 无码精油按摩潮喷在线播放| 999国产精品| 爱色欧美亚洲综合图区| AⅤ色综合久久天堂AV色综合| 精品一区国产精品| 欧美v在线| 亚洲男人的天堂在线| 2021精品国产自在现线看| 少妇露出福利视频| 毛片免费在线| 黄色网在线| 91国语视频| 成人毛片免费观看| 国产在线无码一区二区三区| 激情综合激情| 欧美日韩资源| 91精品国产综合久久香蕉922| 黑人巨大精品欧美一区二区区| 波多野结衣一区二区三视频| 国产成人亚洲欧美激情| 欧美a√在线| 色吊丝av中文字幕| 亚洲国产成人综合精品2020| 99热亚洲精品6码| 嫩草影院在线观看精品视频| 亚洲欧美在线精品一区二区| 高清无码一本到东京热| 1769国产精品免费视频| 亚洲天堂啪啪| 伊人色在线视频|