999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

數據挖掘技術在發掘審計規律中的應用研究

2022-02-22 01:38:54劉洋田富軍
經濟師 2022年1期

劉洋 田富軍

摘 要:習近平總書記在中央審計委員會第一次會議上指出:要堅持科技強審,加強審計信息化建設。為探索實現審計方法由“數據驗證型”向“數據挖掘型”轉變,審計目標從“查糾錯弊”向“風險控制”轉變,文章以主題網絡爬蟲和數據可視化分析技術為基礎,設計了審計大數據采集分析框架,而后以軍隊采購網為對象進行實例分析,挖掘軍隊招標采購中易發、頻發問題的規律,為今后審計工作實現“精確制導”提供有力支撐,充分展示大數據信息技術在提升審計效率,助力審計高質量創新發展具有重要意義。

關鍵詞:大數據審計 網絡爬蟲 數據可視化 審計規律

中圖分類號:F239.1

文獻標識碼:A

文章編號:1004-4914(2022)01-115-02

大數據審計的總體思路是“總體分析、系統研究、發現疑點、分散核實、精確打擊”,目前,利用大數據技術搜尋審計證據、確定審計事實的“分散核實”研究較多,但是利用大數據技術發掘審計問題規律,提供方向指引的“總體分析、系統研究”卻很少,實例應用研究更是少見。因此,研究運用大數據信息技術打破“信息孤島、數據繭房”桎梏,推動大數據審計由“數據驗證型”向“數據挖掘型”轉變具有重要研究意義和現實意義。

一、技術背景

1.主題網絡爬蟲。網絡爬蟲技術是一種面向萬維網,通過運行預設的程序或腳本,實現客戶端(瀏覽器)和服務端(服務器)之間自動交互,完成對萬維網特定網頁特定內容自動、精準、大范圍抓取的一種技術。網絡爬蟲主要有通用型、主題(聚集)型、優先型、增量型、深層型等不同類型。有別于通用網絡爬蟲,主題網絡爬蟲不是漫無目的地在網絡上爬取足夠多的頁面,而是根據設定目標,根據網頁中標題、關鍵詞、文本內容等具有代表性的信息,結合適當的網頁篩選策略,過濾掉與主題無關的網頁,將與主題相關的鏈接存入待爬取的URL隊列進行爬取。運用PageRank、HillTop等搜索策略,使爬蟲有次序、有目的地搜索,保證主題爬蟲選擇更合理的爬行路徑,高效地完成網頁爬取任務。獲取到網頁源文件后,根據需求篩選網頁上有效數據,結合數據處理的難易程序,選擇適當的格式存儲數據,常見的存儲格式有CSV、Excel、Html等。實現網絡爬蟲的工具主要有兩類:可編程的工具,如R、Python等;另一類是現成的爬蟲工具,如:八爪魚。

2.數據可視化。象形文字的出現表明:通過圖形圖像獲取信息是人類獲取信息最原始、最直觀、最高效的方式,常言道:一圖勝千言。大數據可視化分析技術是從人作為分析主體和需求的視角出發,強調基于人機交互的、符合人的認知規律的分析方法,目的是將人所具備的、機器并不擅長的認知能力融入數據分析過程中。大數據可視化分析技術包括文本可視化技術、多維數據可視化技術、網絡可視化技術、時空可視化技術等,其主要表現方式有標簽云、柱狀圖、折線圖、散點圖、氣泡圖、熱力圖、雷達圖等。常用的大數據可視化分析工具主要有兩類:一類是開源的、可編程的工具,如R、Python等;另一類是商業化軟件分析工具,如Tableau、SAS等。

二、審計數據采集分析框架構建

審計數據采集分析框架主要包含:審計數據采集模塊、審計數據可視化展示、審計規律分析三個模塊。

1.審計數據采集模塊。審計數據采集前,需要以審計計劃、審計目標需求為牽引,對需要采集的目標數據進行預定義,確定采集方向,以確保采集數據準確有效,避免浪費人力物力。比如,在審計中需要核實參與軍隊采購投標人的資質是否符合要求,就需要從工商、稅務、行政處罰等數據為目標進行采集。在確定了采集的目標后,需尋找能夠完成審計目標的可靠數據來源,如:官方發布的可靠數據,軍隊、政府部門的公開網站(如:工商、稅務、政府、軍隊行政處罰等),民間有公信力的數據提供方(如:天眼查、企查查),企業的官方網站等。確定了數據來源之后,需要對目標網站的結構特征進行分析,根據網站的個性,編寫爬蟲程序,然后根據網頁的特點,結合審計需求,抓取有效數據。最后,將所獲取的數據根據下步使用需要,采取不同的方式進行存儲。

2.審計數據可視化展示模塊。大數據環境下,采集來的審計數據在數量和復雜程度上都對審計數據分析帶來巨大挑戰,如何從包含大量干擾因素的數據中提煉有效信息,揭示未知的或驗證已知的規律,為審計人員做出審計決策提供數據支持,實現“精確制導”下的“精確打擊”,是大數據時代背景下審計工作必須解決的問題。數據可視化技術助于審計人員探索分析和解釋復雜的海量數據,將采集到的審計數據轉化為圖形和圖像后,審計人員可結合自身的審計知識和實踐經驗,通過直觀感知,進而從總體上系統理解和分析所獲取的審計數據的內涵特征。此外,審計人員還可交互地改變可視化軟件的設置,輸出不同類別的圖形、圖像,多角度地分析審計數據。

3.審計規律分析模塊。在經過采集數據的可視化展示后,根據數據分析展示的結果的直觀感受結合自身的審計知識與審計實踐經驗,從中分析出數據所蘊含其中的規律,從而根據發現的規律把握今后審計工作的方向,有力提升審計效率,指導審計實踐。

三、基于軍隊采購網實例運用

“軍隊采購網”是中央軍委后勤保障部針對部隊集中采購量大、采購需求分散等難題,專門建立的網上采購平臺,該平臺堅持“公正公開,陽光透明,服務部隊,保障打贏”的原則,為提升部隊戰斗力發揮積極作用,通過幾年的運行,軍隊采購網積累了相當數量的數據,具備了大數據分析基礎。在實際運行中,少部分無良供應商采用違規手段非法獲取訂單,給部隊戰斗力提升帶來不利影響,為此主管部門主動作為,懲處了采購活動中的違法失信行為,并在“軍隊采購失信名單”欄目公示了近幾年來所有的違法失信行為查處情況。若能對近幾年所有違法失信行為進行“總體分析、系統研究”,發掘具有傾向性的高發、頻發違法失信行為,并以分析結果為錨定問題線索,將為“精確打擊”提供有效指引。下面以Python語言為工具,運用審計數據采集分析框架來實現預期目標。

1.審計數據采集。根據審計目標需求,以軍隊采購網為目標網站,以“軍隊采購失信名單”網頁數據為目標數據,分析違法失信行為,發掘具有傾向性的問題規律,確定初始URL為:https://www.plap.cn/supplierCr/common/list.html。通過對該網頁進行分析發現該網頁設置了反爬措施,無法直接獲取相關數據,本次數據獲取需采用偽裝成真實用戶訪問網頁的方式獲取數據。通過調用request.post方法獲取網頁源文本并實現自動翻頁,而后調用BeatifulSoup來解析獲取到的源文本,根據網頁數據排列特征,篩選出<tr>標簽下的信息,最后將獲取數據按Excel格式存儲。

2.審計數據可視化分析展示。(1)文本可視化。經綜合考量,本次實例分析采用文本可視化技術最為合適。大數據環境下,大量的文本數據使審計人員進行分析的難度越來越大,傳統的瀏覽和篩選等方法無法滿足大數據環境下非結構化數據審計的需要。將文本的內容或規律以視覺符號的形式展示給審計人員,有助于審計人員利用視覺感知的優勢來快速獲取大數據中蘊含的重要信息,從而發現審計線索。文本可視化技術的意義在于能夠將文中中蘊含的語義特征(如詞頻、重要程度、動態演化規律、邏輯結構等)直觀地展示出來。標簽云(tag cloud)是一種典型的文本可視化技術,可以將關鍵詞根據詞頻或其他規則進行排序,按照一定的規律進行布局排列,用字體大小、顏色深淺等易于視覺感知的圖形屬性對關鍵詞進行可視化展示,進而快速直觀地掌握文本的要點,發現審計線索。(2)設置停用詞庫。在實際的分析展示中發現,直接以源文本生成標簽云詞圖,部分詞頻較高,卻無法體現具體的違法失信行為的無效詞會出現在云詞圖中,干擾標簽云詞圖展示效果,致使真正違法失信具體行為被掩蓋,如:“根據”“公司”“依據”“違規違紀”“相互”“提供”等詞。為此,為實現分析目的,本次分析建立了無效詞集合的停用詞庫,在分析中統計詞頻時屏蔽停用詞庫內的詞語,排除無效詞干擾,得到更加精準有效的展示效果,實現預期分析目標。(3)生成標簽去詞圖。以獲取到的“嚴重違法失信行為的具體情形”為源文本,調用jieba分詞庫,把源文本的句子全部切分為單獨的詞語,形成一個由詞語組成的文件,而后統計詞頻。根據分詞及詞頻統計結果,調用wordcloud庫生成標簽云詞圖。

3.審計規律分析。(1)通過爬蟲得到采集數據結果,可以看出,主題爬蟲腳本成功實現了目標數據獲取,得到軍隊采購失信名單欄目數據,為下步分析,提供數據支撐。同時,獲取的失信公司名稱,處罰結果等數據對于審計工作也有較大現實意義,比如:在審計中若對參加的投標人、投標公司是否因曾經受過處理或在處罰影響期內違規參加采購招標活動有疑問,可快速檢索比對實現,進而發現是否違規。(2)通過生成的標簽云詞圖,可以直觀明了地發現:“虛假”“串通”“圍標”“串標”這幾個詞語明顯大于其他詞語,色彩鮮艷,對比度高,直入眼簾,表明:在軍隊招投標采購中使用虛假文件,投標人之間圍標、串標,招標人與投標人相互串通是最主要、最普遍、最易發、高發的違規失信行為,在今后的招標采購審計中可以上述幾個問題重要錨點進行審計,重點關注此類的問題。其次,“核減”“工程造價”“上限”“轉包”“虛高”等詞語也較為突出,表明在工程造價超上限,違規轉包,價格虛高等問題還一定程度存在,在今后的審計中也應該關注此類情形。(3)通過數據分析展示,得到了可靠的結果,較好地貫徹了大數據審計“總體分析、系統研究、發現疑點、分散核實、精確打擊”的思路。實現了審計方向從依靠審計人員依靠長期審計實踐小樣本經驗的“經驗導向型”審計向依托大數據分析發掘規律的“數據支撐型”審計的轉變,拓寬了大數據信息技術的在審計實踐中的應用邊界,有力驗證了審計數據采集分析框架的有效性。

四、總結與展望

隨著大數據時代的深入發展,審計必將從“查糾錯弊式的回頭看”向“風險預警式的提前管”發展,這些發展必將以高質量的數據采集分析為基礎。“工欲善其事,必先利其器”,大數據信息技術就是這樣一把“利器”。面對現實中更加復雜的審計實踐,還需大力推進人工智能、5G、物聯網、量子科技、區塊鏈、高性能計算等信息技術與審計深度融合賦能,向前沿信息技術要審計戰斗力,解決當前審計面臨的矛盾和痛點,開創智能化主導、融合式聚變新局面,不斷推進新時代審計高質量發展。

參考文獻:

[1] 徐超.大數據背景下審計數據采集技術與方法研究[J].會計之友,2020(19):114-119.

[2] 吳則建.主題網絡爬蟲在商業銀行內部審計中的應用[J].中國內部審計,2019(11):50-53.

[3] 陳偉.基于大數據可視化技術的信息系統AC審計[J].會計之友,2020(1):120-121.

[4] 陳偉,居江寧.基于大數據可視化技術的審計線索特征挖掘方法研究[J].審計研究,2018(1):16-21.

[5] 孟兵,李杰臣.零基礎學Python爬蟲、數據分析與可視化從入門到精通[M].機械工業出版社,2020:1-200.

[6] 張寶剛.基于Python的網絡爬蟲與反爬蟲技術的研究[J].電子世界,2021(4):86-87.

(作者單位:中國人民解放軍陸軍勤務學院 重慶 400000)

(責編:賈偉)

主站蜘蛛池模板: av性天堂网| 亚洲V日韩V无码一区二区| 99精品热视频这里只有精品7| 萌白酱国产一区二区| 亚洲一区国色天香| 色成人亚洲| 四虎亚洲精品| 中文字幕第4页| 国产精品无码AⅤ在线观看播放| 亚洲第一页在线观看| 久久中文字幕av不卡一区二区| www.youjizz.com久久| 毛片在线看网站| 永久在线播放| 精品人妻系列无码专区久久| 伊人成人在线| 国产麻豆福利av在线播放 | 精品欧美日韩国产日漫一区不卡| 国产在线高清一级毛片| 精品人妻无码区在线视频| 欧美va亚洲va香蕉在线| 国产一区二区福利| 免费观看无遮挡www的小视频| 全午夜免费一级毛片| 亚洲国产精品日韩欧美一区| 激情网址在线观看| 亚洲精品无码av中文字幕| 国产午夜精品一区二区三区软件| 国产成人亚洲精品无码电影| 国产在线观看人成激情视频| 免费看黄片一区二区三区| 91色在线观看| 国产91透明丝袜美腿在线| 视频一区亚洲| 久久永久视频| 国产人免费人成免费视频| 亚洲欧洲日本在线| 亚洲天堂网站在线| 国产夜色视频| 一级毛片在线播放免费观看| 四虎永久在线| 国产精品一区二区在线播放| 99在线国产| 亚洲中文字幕在线精品一区| 中文字幕精品一区二区三区视频| 国产AV毛片| 男女猛烈无遮挡午夜视频| 99这里只有精品免费视频| 成人伊人色一区二区三区| 99久久无色码中文字幕| 无码网站免费观看| 91在线丝袜| 久久精品日日躁夜夜躁欧美| 亚洲成A人V欧美综合| 午夜毛片福利| 亚洲 欧美 日韩综合一区| 免费日韩在线视频| 91口爆吞精国产对白第三集| 999国产精品永久免费视频精品久久| 午夜福利视频一区| 久久semm亚洲国产| 久久精品aⅴ无码中文字幕| 国产成人一级| 一区二区影院| 日韩小视频在线播放| 丁香婷婷激情网| 精品黑人一区二区三区| 午夜天堂视频| 美女一区二区在线观看| 一本综合久久| 婷婷综合在线观看丁香| 91成人试看福利体验区| 国产办公室秘书无码精品| 啊嗯不日本网站| 精品视频第一页| 欧美激情网址| 亚洲视频影院| 在线无码av一区二区三区| 亚洲一区二区三区国产精华液| a毛片在线播放| 亚洲国产成人无码AV在线影院L| 久久精品人人做人人|