深度學習技術作為人工智能領域機器學習算法的一個分支,近年來越來越受到大數據學界和政府、企業等實踐部門的重視。信息化時代,稅務部門不僅是大數據的擁有者,工作屬性使其天然具有納稅人及納稅信息的海量數據,而且是大數據的應用者,執法屬性要求其對這些海量數據進行歸集、整理、保護、防控。在這些過程中,深度學習技術將能發揮重要的作用。
對于大數據時代浩如煙海的數據量,我們需要及時對信息進行分析并正確處理,挖掘其自身的固有價值,數據挖掘技術由此誕生。數據挖掘技術就是通過統計、分析、機器學習等算法從大數據中搜索隱藏在數據中的信息,其中機器學習算法效果較好,而深度學習是機器學習的一個分支,自2006年此算法被正式提出后,經過不斷的發展和改進,在最近十幾年得到了快速發展,目前已經成為人工智能領域最重要的技術之一。
深度學習算法起源于人工神經網絡技術,該技術是模擬人腦神經元決定過程的一種抽象網絡。深度學習的基本模型分為3類:多層感知機模型、深度神經網絡模型和遞歸神經網絡模型。其代表分別是深度信念網絡、卷積神經網絡、遞歸神經網絡。深度學習技術的核心是采用一系列非線性變換從數據中提取多層特征,具有很強的泛化能力,因此被廣泛地應用于各種預測方面。
大數據是指無法在一定時間范圍內用常規軟件工具進行捕捉、管理和處理的數據集合,是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力的海量、高增長率和多樣化的信息資產。麥肯錫全球研究所給出的定義是:一種規模大到在獲取、存儲、管理、分析方面大大超出了傳統數據庫軟件工具能力范圍的數據集合,具有海量的數據規模、快速的數據流轉、多樣的數據類型和價值密度低四大特征。
IBM提出,大數據有5V的特點,即:Volume(大量)、Velocity(高速)、Variety(多樣)、Value(低價值密度)、Veracity(真實性)。大數據技術的戰略意義不在于掌握龐大的數據信息,而在于對這些含有意義的數據進行專業化處理。換而言之,如果把大數據比作一種產業,那么這種產業實現盈利的關鍵,在于提高對數據的“加工能力”,通過“加工”實現數據的“增值”。
1.技術層面。主要體現在以下七個方面:
(1)訪問數據。大數據技術應用的第一項工作是獲取所需的海量數據,可以包括關系數據庫、文檔和電子郵件、社交媒體、第三方數據、日志文件、機器傳感器、公共云、私有云等。
(2)集成數據。大數據技術應用的最難工作是整理各種數據結構和格式。為了持續實施分析,需要建立一個用來集成和規范所有這些數據的流程。
(3)清洗數據。為了保證數據分析的可靠性,必須清洗數據,刪除重復數據、錯誤數據、不準確數據和不完整數據。集成的數據越多,保持較高的數據質量就越重要。
(4)保護數據安全。處理的不同數據集往往具有不同的安全規定和要求,海量數據會分散在數百個數據存儲中,需要熟悉敏感數據所在的位置,并通過加密來確保其數據源的安全性,然后對有權訪問該數據的人員加以控制。
(5)分析數據。分析流程取決于分析師、分析工具以及業務要求。這一流程應隨著時間和經驗的累積變得速度更快、成本更低,更具有可擴展性。
(6)分析業務需求。這項工作非常關鍵,但幾乎總被忽視。我們需要建立一個明確的流程來分析業務需求。如果把握不準業務的脈搏,努力就會付諸東流。
(7)運用分析結論,實現持續改進。我們需要清楚地認識大數據項目會產生哪些業務影響,并將其傳遞到最需要它們的業務中去,利用大數據分析出的結論指導相關業務部署,將數據分析的成果落到實處,并通過修正數據收集模式,收集范圍,分析和應用,持續改進大數據技術應用。
2.實踐層面。目前的大數據技術主要有Apache-Hadoop、R語言 、 Cascading、 Scribe、 Elastic-Search、 ApacheHBase、 ApacheCassandra、 MongoDB、ApacheCouchDB等9種,這些大數據技術涵蓋數據收集、存儲、處理、分析、展現等各個方面,被廣泛應用于各種互聯網或電信公司,同時政府也掌握了海量的信息,不少國家都積極投身到大數據的時代熱潮里,利用手中的海量信息優化政府服務、提升行政效率。
2017年12月8日國家主席習近平提出:實施國家大數據戰略,加快建設數字中國。大數據已然成為了新時代不可或缺的關鍵詞,悄然改變著我們的工作方式、生活方式和思維方式。在稅收方面,大數據也逐漸體現出不可替代的作用來。稅務機關可以依靠海量涉稅信息,建立數據倉庫,強化稅源監控、減少稅收流失,使稅收征管效率得以大大提高。稅收數據范圍從稅源的“樣本數據”到稅源的“全體數據”;稅收數據的收集從過去過度地追求精確性,轉變為較寬容地接受數據的紛繁復雜性;稅收數據分析從“因果關系”分析逐漸轉換為“相關關系”分析。為了發揮數據資源的價值,更加有效的識別納稅人風險、發現納稅人之間的各類關系,更加便捷的支撐各級稅務人員對稅源深入管理,提升管理質量,深入挖掘大數據以服務稅收勢在必行。
目前,我國稅收數據從總體來看,有數據量增長迅速、數據結構多樣性、數據關系邏輯復雜化、數據計算量巨大四個特點。從總量上看累積納稅人記錄數1.9億條,自然人記錄數16億條,申報記錄數80多億條,發票記錄數102億條,生產系統結構化數據每月以T級增長。數據結構包括核心征管數據,保留系統數據等結構化數據,電子檔案等非結構化數據,互聯網數據,實名認證圖片數據,視頻數據等。數據邏輯關系包含了70家原國地稅單位核心征管的2771個表單,7多萬數據項,4仟多張數據表,3萬多個字段,1萬多種數據關聯。而數據計算包括統計分析、信用評定、風險掃描、預測分析等。我國稅務機關依托現代化信息技術建立的,由政府為主導、以政務信息共享平臺為依托的全社會基礎數據統一交換平臺于2016年9月啟動建設,截止目前已經開發完成了十多個應用系統以及算法模型的設計和開發。
目前的風險管理中,推送的風險都沿用了原有的基礎數據階段的“數據—指標—風險信息”模式,根據有限的,孤立的采集數據,依據業務邏輯設計一些指標,然后判斷可能的風險進行推送。稅收風險管理系統通過收集整理數據,然后根據提前設定的指標、模型篩選出符合條件的企業,逐條分析每個企業的涉稅數據,并按照風險分值的大小從高到低排序,再指派相應的風險人員進行處理,最后再對數據進行評估反饋。
這是相對初級的一種數據利用方式,每批推送的都是某個納稅人孤立的風險點,發票是發票風險、增值稅是增值稅的風險,房產稅是房產稅的風險等等,同一納稅人的風險分幾次推送,不僅增加了基層的工作量,也增加了對納稅人打擾。
其中的難點就在于,與稅收風險相關聯的數據采集來源范疇很廣,要全面收集每個企業的征信、交易信息有一定難度,而風險判斷和識別這一步驟則大量需要有豐富工作經驗的稅務干部結合相關規章制度和征管規范進行比對和判斷,對稅務干部的工作經驗和判斷能力都有較高要求。

圖1 風險應對流程
其中,數據收集難度高的問題可以依托正在建設的大數據云平臺與外部門進行交互聯動來解決。而在稅收風險分析中,如果面臨的工作量比較大,就有可能變成抽樣的模式,這樣也會與實際的情況存在一定的差異,但是在應用人工智能技術之后,可以有效地克服審計工作量大的缺陷,實現將抽樣檢測變為全面檢測的模式。在未來的發展過程中有可能在人工智能技術的沖擊下,出現大規模的記賬中心。通過這些記賬中心的運轉,能夠實現對眾多企業財務風險工作的同時進行,做好資源調配,切實以稅收風險管理來幫助社會更好地進步,維護金融領域的健康發展。
目前國內將大數據在稅務工作中的運用尚處于初級階段,平臺架構還不成熟,我們的工作主要著眼于數據入口的收集工作,即如何與外部門及時聯動、互通有無。而稅收風險防控和其他需要深度學習的工作,更多的依托傳統數據收集模式和分析模型,對海量數據的挖掘和使用部分存在一定的技術空白。
針對稅收風險防控里的數據收集和數據分析問題,大數據與深度學習恰好能完全匹配這兩個問題。正在建設的互通有無的云平臺能夠有效收集和整理財政、金融、環保、國土資源等系統中涉及納稅人的信息,并通過深度學習,由機器自主進行數據清理、數據集成、數據選擇、數據變換、數據挖掘和模式評估等環節,最終以納稅人風險等級分級表或實時風險分布圖的方式輸出評估結果。廣州市稅務局就借助爬蟲技術,海量抓去互聯網涉稅數據,拓展第三方數據資源,切實解決了征納信息不對稱問題。在分析中,可以多運用語義分析系統、終端傳感采集、移動應用數據等技術多渠道采集網絡輿情或中介報告中存在的風險疑點指向明確、時效性強的第三方數據。
從人工智能在稅收領域的具體實踐看,其已經有了較成體系的應用。世界上首個應用于稅收領域的人工智能“沃森(Watson)”誕生于美國的IBM公司,沃森是一個多領域應用的認知技術,目前美國布洛克稅務公司已經雇傭了沃森并利用其強大的人工智能系統幫助其準備納稅申報等相關工作。沃森的智能性主要體現在:它能通過學習消化美聯邦的稅收代碼,吸收布洛克稅務公司的稅務人員與客戶之間的對話,通過分析會話模式以確定納稅人客戶是否可能失去節稅機會,并在稅務師通過文書與客戶進行交流時隨時跟進,同時檢測是否有潛在的扣除項目或信用喪失的風險從而及時提醒,以實現為納稅人提供更為合理的納稅方式的目的。
而風控領域數據挖掘同樣是一個循環迭代的過程,只要我們在前期將大量征管規則和規則以及對已有納稅人案例的分析結果輸入系統,在人工智能成功進行深度學習后,就能夠自主選擇更合適的風險模型對納稅人進行分析評估。有效做到加強事前預測,避免事發之后才開始控制,同時進行事后總結,防微杜漸,防患于未然。
當然,機器分析的結果還是要為人服務。我們應當正確對待模型分析的結果與專家經驗之間的關系。計算機決策不能替代人腦決策,一些分析結果可能受制于數據或分析工具等得不出合理的結果,這些都需要專家的檢驗判斷作為輔助,只有將二者有機結合才能得到相對科學合理的結論,從而有效地輔助決策,提升稅收征管質量。