王明 賈希強(qiáng) 邵徽欽



摘? 要:“一帶一路”國(guó)家在稅務(wù)信息化的發(fā)展過(guò)程中,產(chǎn)生了海量的涉稅數(shù)據(jù),如何從海量數(shù)據(jù)中分析挖掘納稅主體的風(fēng)險(xiǎn)行為,為稅務(wù)決策制定提供量化支撐,是“一帶一路”國(guó)家稅務(wù)信息化未來(lái)研究的重要方向。文章結(jié)合目標(biāo)國(guó)家稅務(wù)信息化建設(shè)的需求和數(shù)據(jù)特征,基于大數(shù)據(jù)存算分離架構(gòu),采用Flink實(shí)時(shí)計(jì)算與離線計(jì)算相結(jié)合的方法構(gòu)建多種數(shù)據(jù)分析模型,實(shí)現(xiàn)了以企業(yè)發(fā)票數(shù)據(jù)分析為著手點(diǎn),以企業(yè)風(fēng)險(xiǎn)識(shí)別為目標(biāo)的分析預(yù)警系統(tǒng)。
關(guān)鍵詞:一帶一路;涉稅數(shù)據(jù);Flink;實(shí)時(shí)計(jì)算
中圖分類號(hào):TP311? ? 文獻(xiàn)標(biāo)識(shí)碼:A? ? 文章編號(hào):2096-4706(2023)03-0041-04
Research and Application of “The Belt and Road Initiative” National Tax-related Data Analysis Architecture Technology
WANG Ming, JIA Xiqiang, SHAO Huiqin
(Aisino Corporation, Beijing? 100195, China)
Abstract: During the development of tax informatization of the “the Belt and Road Initiative” countries, a large amount of tax-related data has been generated. How to analyze and mine the risk behaviors of taxpayers from the huge amount of data and provide quantitative support for tax decision-making is an important direction for the future research of tax informatization of “the Belt and Road Initiative” countries. This paper combines the needs and data characteristics of the target country's tax informatization construction, based on the big data storage and calculation separation architecture, uses the method of combining Flink real-time calculation and offline calculation to build a variety of data analysis models, and realizes the analysis and early warning system with the enterprise invoice data analysis as the starting point and the enterprise risk identification as the goal.
Keywords: the Belt and Road Initiative; tax-related data; Flink; real-time calculation
0? 引? 言
我國(guó)稅收征管經(jīng)歷了“經(jīng)驗(yàn)管稅”和“以票管稅”兩個(gè)時(shí)期,現(xiàn)如今逐漸進(jìn)入“以數(shù)治稅”階段[1,2],而“一帶一路”沿線國(guó)家(地區(qū))在經(jīng)濟(jì)發(fā)展水平、稅務(wù)管理能力等方面均存在較大差異[3],異常納稅及異常開(kāi)票等問(wèn)題在各個(gè)國(guó)家普遍存在。隨著信息化技術(shù)的發(fā)展,如何應(yīng)用大數(shù)據(jù)技術(shù)構(gòu)建數(shù)據(jù)分析架構(gòu),有效識(shí)別企業(yè)納稅行為風(fēng)險(xiǎn),促進(jìn)稅務(wù)部門(mén)征管能力和納稅服務(wù)水平,幫助建立并完善區(qū)域法治環(huán)境[4],是“一帶一路”沿線國(guó)家稅務(wù)信息化建設(shè)面臨的主要問(wèn)題。
稅務(wù)數(shù)據(jù)處理的難點(diǎn)在于,首先稅務(wù)數(shù)據(jù)的數(shù)據(jù)量非常大,以我方稅務(wù)系統(tǒng)投入運(yùn)營(yíng)的某中等國(guó)家為例,稅務(wù)信息化系統(tǒng)上線運(yùn)營(yíng)僅兩年,月開(kāi)發(fā)票數(shù)量已超千萬(wàn)級(jí)。其次,數(shù)據(jù)結(jié)構(gòu)較為復(fù)雜,主要體現(xiàn)在數(shù)據(jù)來(lái)源多樣、數(shù)據(jù)結(jié)構(gòu)行業(yè)特征化突出,因此存在大量同源異構(gòu)、異源異構(gòu)數(shù)據(jù)。采用傳統(tǒng)分析方式直接對(duì)原始數(shù)據(jù)進(jìn)行處理,效率極低,資源占用嚴(yán)重。
為解決上述問(wèn)題,文章提出的分析架構(gòu),采用大數(shù)據(jù)存算分離技術(shù)、實(shí)時(shí)計(jì)算與離線計(jì)算相結(jié)合的方式,解決了傳統(tǒng)應(yīng)用架構(gòu)數(shù)據(jù)統(tǒng)計(jì)時(shí)重復(fù)計(jì)算和資源無(wú)效等待等弊端,提高了數(shù)據(jù)分析的時(shí)效性和資源利用效率。稅務(wù)數(shù)據(jù)分析預(yù)警平臺(tái)的構(gòu)建,遵循國(guó)內(nèi)“以票控稅、大數(shù)據(jù)管稅”的原則,通過(guò)對(duì)目標(biāo)國(guó)家納稅主體涉稅數(shù)據(jù)的有效分析和行為預(yù)警檢測(cè),為稅務(wù)機(jī)關(guān)制定決策提供了可量化的數(shù)據(jù)支撐。
1? 總體架構(gòu)與功能設(shè)計(jì)
1.1? 總體架構(gòu)
系統(tǒng)總體架構(gòu)如圖1所示。
平臺(tái)的結(jié)構(gòu)包括源數(shù)據(jù)層、數(shù)據(jù)采集層、數(shù)據(jù)處理層、業(yè)務(wù)數(shù)據(jù)層、應(yīng)用層??傮w的構(gòu)建使用了大數(shù)據(jù)集群存算分離模式,利用Spark計(jì)算引擎進(jìn)行海量數(shù)據(jù)的計(jì)算和分析,避免了大量計(jì)算對(duì)系統(tǒng)資源的占用影響上層業(yè)務(wù)的問(wèn)題。對(duì)于實(shí)時(shí)需求的業(yè)務(wù),采用實(shí)時(shí)計(jì)算與離線計(jì)算相結(jié)合的方式,保證平臺(tái)統(tǒng)計(jì)分析結(jié)果的及時(shí)性和可靠性。另外,通過(guò)使用可視化調(diào)度工具和實(shí)時(shí)監(jiān)控工具,確保了平臺(tái)系統(tǒng)的資源規(guī)劃和運(yùn)行狀況更加清晰和易維護(hù)。其特點(diǎn)主要體現(xiàn)在:
(1)在數(shù)據(jù)處理層中,采用Kafka與Flink技術(shù)相結(jié)合的方式實(shí)現(xiàn)在線數(shù)據(jù)實(shí)時(shí)處理和傳輸功能。其中,Kafka是Apache軟件基金會(huì)的一個(gè)開(kāi)源流處理平臺(tái),主要由Scala和Java編寫(xiě),是Hadoop生態(tài)系統(tǒng)中的一個(gè)重要工具[5]。與傳統(tǒng)的消息系統(tǒng)相比Kafka消息隊(duì)列有著流量削峰、緩沖、系統(tǒng)解耦、異步通信、可恢復(fù)性和可擴(kuò)展性等特點(diǎn),并且還具有其他消息中間件難以實(shí)現(xiàn)的消息順序性保障和回溯消費(fèi)等功能。而Apache Flink也是由Apache軟件基金會(huì)開(kāi)發(fā)的開(kāi)源流處理框架,其核心是用Java和Scala編寫(xiě)的分布式數(shù)據(jù)流引擎,可用于對(duì)無(wú)界和有界數(shù)據(jù)流進(jìn)行有狀態(tài)計(jì)算[6]。它主要包括三個(gè)重要特點(diǎn):事件驅(qū)動(dòng)型、流與批的世界觀、分層API。由于Flink能在單獨(dú)集群中運(yùn)行、適用于具有不可靠數(shù)據(jù)源、海量數(shù)據(jù)處理等場(chǎng)景中的三項(xiàng)重要特點(diǎn)[7],非常契合欠發(fā)達(dá)地區(qū)涉稅數(shù)據(jù)的處理,因此系統(tǒng)選用Flink結(jié)合Kafka消息隊(duì)列為不同類型的數(shù)據(jù)實(shí)時(shí)計(jì)算和傳輸提供支撐。
(2)在數(shù)據(jù)調(diào)度環(huán)節(jié),有很多成熟的開(kāi)源工具可以用于解決數(shù)據(jù)抽取、轉(zhuǎn)換、加載等流程中錯(cuò)綜復(fù)雜的依賴關(guān)系,能使調(diào)度系統(tǒng)在數(shù)據(jù)處理流程中開(kāi)箱即用[8],如Azkaban、Oozie、DolphinScheduler、Quartz、air-flow、XXL-Job等。文章選用的Apache DolphinScheduler大數(shù)據(jù)工作流任務(wù)調(diào)度平臺(tái),其去中心化的多Master和多Worker服務(wù)對(duì)等架構(gòu),能夠有效地避免單Master壓力過(guò)大問(wèn)題,在執(zhí)行時(shí)利用任務(wù)緩沖隊(duì)列來(lái)避免過(guò)載機(jī)制,也提供了高可靠性。它所提供的DAG監(jiān)控界面所有流程定義都可視化,通過(guò)拖拽任務(wù)即可完成定制DAG,通過(guò)API方式與第三方系統(tǒng)集成,支持一鍵部署簡(jiǎn)單易用。目前能夠支持Spark、Hive、M/R、Python、Shell等近20種任務(wù)類型,緊密貼合大數(shù)據(jù)生態(tài)。另外,其調(diào)度器使用分布式調(diào)度,調(diào)度能力隨集群線性增長(zhǎng),依靠Master和Worker支持動(dòng)態(tài)上下線的能力,保證了可擴(kuò)展性。
1.2? 系統(tǒng)功能
系統(tǒng)功能如圖2所示。
系統(tǒng)主要包括五大功能:
Invoice分析:主要實(shí)現(xiàn)發(fā)票數(shù)據(jù)的匯總、統(tǒng)計(jì)、分析和展示,子項(xiàng)功能均圍繞invoice數(shù)據(jù)進(jìn)行。
Taxpayer分析:該功能項(xiàng)為納稅主體畫(huà)像,主要用于對(duì)重點(diǎn)關(guān)注納稅主體和模型鎖定的潛在風(fēng)險(xiǎn)納稅主體進(jìn)行全面的信息展示。
Receipt分析:主要是納稅主體非稅憑證票據(jù)的統(tǒng)計(jì)分析展示,用以揭示納稅主體的納稅潛力,在一定程度上提供了非稅業(yè)務(wù)可轉(zhuǎn)化納稅業(yè)務(wù)的一種量化,也可認(rèn)為是潛在可轉(zhuǎn)化納稅主體情況的展示。
Risk Assessment:系統(tǒng)核心研判功能,在應(yīng)用標(biāo)準(zhǔn)存算分離技術(shù)的情況下,基于各項(xiàng)數(shù)據(jù)的分析和挖掘,結(jié)合稅務(wù)數(shù)據(jù)特征維度篩選,構(gòu)建了七種風(fēng)險(xiǎn)識(shí)別模型,通過(guò)機(jī)器學(xué)習(xí)綜合研判納稅主體是否存有風(fēng)險(xiǎn),并能夠根據(jù)政策的改變進(jìn)行策略調(diào)整和學(xué)習(xí)進(jìn)化。
Commodity分析:該項(xiàng)功能主要從區(qū)域的支柱型產(chǎn)業(yè)/商品分析角度出發(fā),對(duì)企業(yè)交易行為,上下游關(guān)系進(jìn)行深度挖掘和分析,以主營(yíng)商品的角度去展示企業(yè)涉稅行為。
2? 關(guān)鍵技術(shù)應(yīng)用及效果
2.1? 存算分離架構(gòu)
系統(tǒng)架構(gòu)選用Kafka消息隊(duì)列用于傳輸涉稅數(shù)據(jù),為數(shù)據(jù)分析模型提供數(shù)據(jù)支撐。因其與Flink、Spark等大數(shù)據(jù)組件能夠無(wú)縫集成,易于構(gòu)建數(shù)據(jù)流的傳輸通道[9]。同時(shí)Kafka通過(guò)Hadoop的并行加載機(jī)制可以統(tǒng)一線上和離線的消息處理。通過(guò)Kafka消息隊(duì)列的傳輸能夠?qū)⒃紨?shù)據(jù)安全可靠的同步到大數(shù)據(jù)集群中存儲(chǔ)和管理,再以消息通知的形式,對(duì)已存儲(chǔ)的原始數(shù)據(jù)定期分析和計(jì)算,并將計(jì)算結(jié)果存儲(chǔ)至業(yè)務(wù)數(shù)據(jù)庫(kù)(MySQL)中備用。保證上層應(yīng)用系統(tǒng)可以隨時(shí)讀取業(yè)務(wù)數(shù)據(jù)進(jìn)行展示,有效保證海量稅務(wù)數(shù)據(jù)的查詢時(shí)效性,同時(shí)極大地減輕了系統(tǒng)實(shí)時(shí)運(yùn)算壓力。
采用存算分離架構(gòu)的好處還在于,在應(yīng)對(duì)由于政策變化、規(guī)則更改等因素導(dǎo)致的數(shù)據(jù)統(tǒng)計(jì)方式修改和計(jì)算模型更新的情況時(shí),只需要將分析計(jì)算的腳本進(jìn)行更新即可,不會(huì)出現(xiàn)傳統(tǒng)架構(gòu)更新時(shí)影響系統(tǒng)功能的情況。
2.2? Flink實(shí)時(shí)計(jì)算
對(duì)于實(shí)時(shí)數(shù)據(jù)的分析展示,系統(tǒng)采用實(shí)時(shí)計(jì)算與離線計(jì)算相結(jié)合的實(shí)現(xiàn)方式。
如圖3所示,對(duì)已存儲(chǔ)的原始數(shù)據(jù),使用大數(shù)據(jù)集群中離線計(jì)算的結(jié)果,而數(shù)據(jù)的實(shí)時(shí)增量部分采用Kafka消息隊(duì)列方式進(jìn)行增量采集,并通過(guò)Flink并行實(shí)時(shí)計(jì)算后將計(jì)算結(jié)果與歷史結(jié)果信息融合,進(jìn)而得到符合需求的展示信息。這一處理架構(gòu)有效地避免了對(duì)同一數(shù)據(jù)的重復(fù)計(jì)算,減少了計(jì)算資源的浪費(fèi),同時(shí)也保證了功能數(shù)據(jù)的完整性和準(zhǔn)確性。
2.3? 分布式任務(wù)調(diào)度系統(tǒng)
系統(tǒng)應(yīng)用DolphinScheduler分布式調(diào)度平臺(tái)技術(shù),分別對(duì)數(shù)據(jù)的采集、清洗、運(yùn)算腳本進(jìn)行了獨(dú)立編寫(xiě)、調(diào)度和執(zhí)行,通過(guò)定期對(duì)海量涉稅數(shù)據(jù)進(jìn)行包含全量數(shù)據(jù)計(jì)算、增量數(shù)據(jù)累加計(jì)算、機(jī)器學(xué)習(xí)算法模型運(yùn)算等的分析方式進(jìn)行數(shù)據(jù)處理運(yùn)算。在以上涉稅數(shù)據(jù)特征分析的基礎(chǔ)上,構(gòu)建了企業(yè)多維風(fēng)險(xiǎn)識(shí)別模型并分別建立獨(dú)立的Spark計(jì)算任務(wù),實(shí)現(xiàn)企業(yè)稅務(wù)業(yè)務(wù)的風(fēng)險(xiǎn)識(shí)別。系統(tǒng)中使用的DolphinScheduler核心架構(gòu)如圖4所示。
2.4? 應(yīng)用效果
涉稅數(shù)據(jù)風(fēng)險(xiǎn)預(yù)警平臺(tái)是結(jié)合“一帶一路”沿線國(guó)家對(duì)涉稅領(lǐng)域管控的需求,借鑒吸收中國(guó)先進(jìn)稅收體系理念而提出的綜合企業(yè)風(fēng)險(xiǎn)管控系統(tǒng)。通過(guò)對(duì)涉稅數(shù)據(jù)以及相關(guān)稅法的深入解讀,系統(tǒng)從數(shù)據(jù)的多個(gè)維度出發(fā)構(gòu)建了七種算法模型,實(shí)現(xiàn)了綜合識(shí)別和判斷納稅主體風(fēng)險(xiǎn)的目的。樣本數(shù)據(jù)分析效果如圖5所示,該項(xiàng)功能是構(gòu)建算法模型中以納稅主體開(kāi)具發(fā)票的時(shí)間為主維度的分析執(zhí)行情況。
依托DolphinScheduler分布式調(diào)度平臺(tái),模型全部部署為獨(dú)立調(diào)度任務(wù),根據(jù)不同模型的具體算法要求,能夠分別設(shè)定各自的運(yùn)行周期和算法邊界條件。
在實(shí)際應(yīng)用中,目標(biāo)數(shù)據(jù)經(jīng)過(guò)系統(tǒng)分析處理后,呈現(xiàn)出如下特征:納稅主體分布情況不均勻,大部分納稅主體歸屬于少部分稅務(wù)機(jī)關(guān),總體呈泊松分布;納稅主體開(kāi)票數(shù)量和開(kāi)票金額,與原始數(shù)據(jù)的分布情況保持一致,呈現(xiàn)18%的企業(yè)開(kāi)具了占比83.23%的發(fā)票數(shù)據(jù),另23%的企業(yè)開(kāi)了占比16.27%的少量發(fā)票,剩余大量的企業(yè)僅采集到很少的數(shù)據(jù)甚至無(wú)法采集到有效開(kāi)票數(shù)據(jù)。這一特征非常符合項(xiàng)目所在地的稅務(wù)信息化水平較低,納稅遵從度主要集中在較發(fā)達(dá)的大城市和大型企業(yè)中的現(xiàn)實(shí)情況。
3? 結(jié)? 論
經(jīng)實(shí)際數(shù)據(jù)驗(yàn)證,該系統(tǒng)架構(gòu)在稅務(wù)體系仍不完善的地區(qū),能夠有效地解決因稅制稅法變更導(dǎo)致的數(shù)據(jù)結(jié)構(gòu)頻繁修改和來(lái)源多變等問(wèn)題,給目標(biāo)地區(qū)稅務(wù)信息化的推進(jìn)和涉稅決策提供了量化數(shù)據(jù)支撐。另外,在進(jìn)行不同國(guó)家的涉稅數(shù)據(jù)的分析過(guò)程中,通過(guò)對(duì)文檔、代碼復(fù)用率(包括UI、算法等)的實(shí)證分析,該架構(gòu)體系對(duì)其中跨平臺(tái)、多類型、多渠道的異構(gòu)數(shù)據(jù)的采集、分析和融合處理復(fù)用率達(dá)到78%。最后,在應(yīng)對(duì)大多數(shù)統(tǒng)計(jì)方式和計(jì)算規(guī)則變更時(shí)不需要整個(gè)系統(tǒng)的重新部署,僅需將獨(dú)立運(yùn)行的腳本任務(wù)單獨(dú)更新即可。因此,該架構(gòu)能夠有效地節(jié)省項(xiàng)目資源投入,減少海量數(shù)據(jù)重復(fù)處理的資源消耗,在實(shí)際效益上具有很高的現(xiàn)實(shí)應(yīng)用價(jià)值。
目前此架構(gòu)經(jīng)過(guò)了兩個(gè)不同國(guó)家樣本數(shù)據(jù)的驗(yàn)證,但對(duì)更多涉稅數(shù)據(jù)的有效性仍需進(jìn)一步觀察和研究。因此未來(lái)應(yīng)更加深入的理解“一帶一路”國(guó)家稅法稅制用以改進(jìn)技術(shù)架構(gòu),同時(shí)也需進(jìn)一步研究整套架構(gòu)的限制條件和應(yīng)用邊界。
參考文獻(xiàn):
[1] 謝佳音.“以數(shù)治稅”背景下涉稅信息共享機(jī)制的轉(zhuǎn)型構(gòu)建 [J].財(cái)會(huì)研究,2022(3):15-20.
[2] 王一帆,劉紫斌.“以數(shù)治稅”背景下稅收征管現(xiàn)代化的若干問(wèn)題研究 [J].財(cái)政監(jiān)督,2022(7):75-81.
[3] 張翠芬,李旭紅,許思遠(yuǎn).數(shù)字化稅務(wù)管理在“一帶一路”沿線國(guó)家和地區(qū)的應(yīng)用研究 [J].國(guó)際稅收,2022(1):74-79.
[4] 漆彤.“一帶一路”戰(zhàn)略的國(guó)際稅法思考 [J].稅務(wù)研究,2015(6):31-35.
[5] 王勇,張躍.Kafka與HBase在健康監(jiān)測(cè)大數(shù)據(jù)平臺(tái)中的應(yīng)用研究 [J].軟件導(dǎo)刊,2021,20(4):188-193.
[6] 姜來(lái).基于Flink平臺(tái)的成都市網(wǎng)約車(chē)數(shù)據(jù)時(shí)空分析及系統(tǒng)開(kāi)發(fā) [D].大連:遼寧師范大學(xué),2021.
[7] 趙潤(rùn)發(fā),婁淵勝,葉楓,等.基于Flink的工業(yè)大數(shù)據(jù)平臺(tái)研究與應(yīng)用 [J].計(jì)算機(jī)工程與設(shè)計(jì),2022,43(3):886-894.
[8] 張新興,楊志剛,龐弘燊,等.科學(xué)數(shù)據(jù)集成體系及最新進(jìn)展研究 [J].情報(bào)理論與實(shí)踐,2022,45(6):199-206.
[9] 車(chē)思陽(yáng).基于Kafka的大容量實(shí)時(shí)預(yù)警數(shù)據(jù)匯集分發(fā)技術(shù)研究 [D].成都:電子科技大學(xué),2021.
作者簡(jiǎn)介:王明(1985—),男,滿族,河北秦皇島人,高級(jí)工程師,本科,研究方向:稅務(wù)信息化。
收稿日期:2022-09-26