


摘 ?要:在電力企業運營大數據環境中,企業財務數據在公司審計工作中發揮著重要作用。財務數據是企業進行有效財務審計的基礎,因此,確保企業財務數據的完整性、有效性和準確性,是財務管理工作的關鍵。文章基于企業財務審計工作的特點,利用網絡爬蟲技術,提出了企業大數據采集系統的設計方案。該系統的設計從數據獲取角度出發,從互聯網中獲取有效數據,完成數據整合清洗,幫助企業在審計工作中及時發現漏洞,防止出現財務風險等問題。
關鍵詞:財務審計;大數據;爬蟲技術;數據采集
中圖分類號:TP311 ? 文獻標識碼:A 文章編號:2096-4706(2021)12-0083-04
Abstract: In the big data environment of power enterprise operation, enterprise financial data plays an important role in company audit. Financial data is the basis for enterprises realizing effective financial audit. Therefore, ensuring the integrity, effectiveness and accuracy of enterprise financial data is the key to financial management. Based on the characteristics of enterprise financial audit, this paper puts forward the design scheme of enterprise big data acquisition system by using web crawler technology. From the perspective of data acquisition, the system is designed to obtain effective data from the internet, completes data integration and cleaning, helps enterprises find loopholes in time in audit work, and prevents financial risks and other problems.
Keywords: financial audit; big data; crawler technology; data acquisition
0 ?引 ?言
現代科學技術的不斷進步,使人工智能、大數據、區塊鏈等一些創新技術應運而生。信息化的快速發展與企業財務數據有效采集之間的矛盾日益凸顯,如果無法采集到真實、完整、有效的財務數據,勢必會對企業審計工作造成一定障礙[1]。通常情況下,企業審計工作的數據獲取主要來源于兩個方面:一是企業主動向審計部門提供的數據,數據的完整性和真實性難以保證;二是從企業上級主管部門、企業公開信息、企業合作方獲取的數據等。但企業審計工作中經常會忽略這些網絡數據,這些互聯網數據中隱藏的信息在企業審計工作中發揮著不可替代的作用,甚至會改變企業的審計結果。尤其是在經濟市場領域信息化建設的不斷深入過程中,企業審計工作中對財務數據的需求量越來越大,僅憑企業主動提供的財務數據很難發現潛在的漏洞和問題,因此,需要不斷創新工作方式,主動對互聯網數據、企業內外部數據進行采集,分析這些數據之間內在的關聯性,這樣才能盡早發現問題,尋找問題線索。綜上所述,只有通過大數據采集系統,才能獲取完整有效的企業財務數據,提高企業審計工作的效率。在信息時代、人工智能時代,為有效應對海量數據帶來的調整,本文提出的基于網絡爬蟲技術的大數據采集系統能夠有效地應用于企業財務審計工作中,防止企業出現財務風險,及時糾正和指導企業違法違規行為,提高企業財務風險防控的有效性[2,3]。
1 ?網絡爬蟲技術及原理
1.1 ?網絡爬蟲技術
網絡爬蟲技術(Web Crawler)又稱為網絡機器人,屬于一種按照設計的規則自動獲取互聯網數據的腳本或程序。網絡爬蟲技術可以對整個萬維網的連接進行遍歷,實現自動檢索和定位。網絡爬蟲技術可以從某一個網頁頁面開始,對該網頁中的內容進行讀取,獲取網頁中包含的網絡鏈接,再從這些鏈接中讀取并得到其他鏈接,如此循環往復,直到抓取完全部網頁信息[4]。一般情況下,網絡爬蟲技術的爬行會沿著某一個方向進行遍歷[5],網絡爬蟲流程如圖1所示。
1.2 ?Scrapy網絡爬蟲框架
Scrapy框架能夠從海量網絡資源中獲取有效數據(包括網頁資源、歷史資源等),是一種強大的數據挖掘應用程序。數據采集系統中應用Scrapy框架的案例比較多,主要是由于Scrapy框架可以從網頁中獲取大量非結構化數據,再將這些數據結構化;Scrapy框架的代碼結構比較簡單,易于維護。因此,Scrapy框架已經廣泛應用于招聘網站、購物網站運營,以及數據挖掘領域[6]。
Scrapy框架是基于Twisted編程模型的數據處理框架,是通過Python編程語言實現的網絡爬蟲框架。Scrapy框架結構分明,擴展性強,各層次之間的耦合性比較低。Scrapy框架可以快速從網頁中獲取數據,爬蟲效率高,可配置性強。Scrapy框架在提取結構性數據的同時具有反爬取功能,是目前應用最多的網絡爬蟲框架[7,8]。
2 ?系統設計
互聯網中有價值的數據非常多,對于公司財務審計工作來說,只需獲取與審計項目相關的數據即可。但是,采用網絡爬蟲技術的目的是盡可能擴大網頁爬取范圍,以全面獲取結構化數據。然而,如果該過程沒有明確的目標主題,會造成網絡資源和網絡帶寬的巨大浪費,所獲取的數據也無法為具體工作帶來實際用處。因此,文章選用聚焦網絡爬蟲技術對數據采集系統進行設計,聚焦網絡爬蟲技術可以預先設定主題,按照主題對網頁中的鏈接進行分析,準確獲取所需內容,進而避免獲取與主題無關的網頁數據。
2.1 ?聚焦網絡爬蟲步驟
本文基于聚焦網絡爬蟲技術進行研究,從企業財務審計角度出發,以審計項目相關信息為主題,所設計的聚焦網絡爬蟲的具體流程為:(1)通過網絡爬蟲模塊獲取互聯網中的網頁;(2)分析財務審計項目主題,以及網絡爬蟲模塊與財務審計項目主題之間的關聯性;(3)網絡爬蟲模塊根據統計分析結果進行數據處理;(4)按照網頁權重設計網絡爬蟲隊列;(5)網絡爬蟲模塊主動獲取每一個等待執行的URL,如此循環往復;(6)循環爬行,直到網絡爬行隊列為空。
由此可見,聚焦網絡爬蟲技術是根據事先設定好的具體主題完成數據獲取,再對非結構化數據進行匯總。聚焦網絡爬蟲技術所獲取的網頁信息具有較強的相關性。通過對爬取主題的設定,可以大大節約網絡資源和網絡帶寬,獲取到的數據關聯性也更強,有利于下一步具體工作對數據的高效利用。
2.2 ?網頁搜索策略
聚焦網絡爬蟲技術的搜索策略是最佳優先搜索策略,該策略采用性能優良的算法,選擇與設定主題相關的網頁鏈接進行遍歷,同時還可以提前設定優先級別,以先對優先級別高的網頁鏈接進行爬取。因此,聚焦網絡最佳優先搜索可以視為一種優先廣度搜索,在進行網絡爬取的過程中,其自動優先選擇對主題“有用”的網頁,最大限度減少與主題無關的網頁。然而,聚焦網絡最佳優先搜索策略也存在一定的弊端,致使無法爬取部分有效的網頁數據。
2.3 ?判斷主題相似度
為了有效地節約時間成本,避免過度浪費網絡資源和網絡帶寬,在使用聚焦網絡爬蟲技術的過程中要提前設定主題,以達到從網頁中獲取有效數據的目的。本文選擇了聚焦網絡最佳優先搜索策略,預先設定主題,在網絡爬取的過程中優先獲取最具價值的URL,將聚焦網絡爬行主題關鍵字的權重表示為TF·IDF。TF指的是網絡爬取過程中詞匯出現的頻率,將TF進行定義得到式(1):
在進行聚焦網絡爬取的過程中,根據情況設定閾值r。當cos〈α,β〉≥r時,判斷為該網頁頁面與主題相關。
2.4 ?關鍵字多模匹配
Aho算法(Aho-Corasick automaton)于1975年在諾貝爾實驗室提出,屬于一種自動機搜索算法。Aho算法可以為待匹配的所有關鍵字創建一個狀態機,只需對文本進行一次掃描,即可完成關鍵字匹配工作。一般情況下,在每次計算時字符串算法需要重新退回到原始起點位置,因此字符串算法的執行效率非常低。但Aho算法可以避免因退回而產生的資源浪費。本文大數據采集系統設計采用的是Aho算法,用于對關鍵字進行匹配。算法執行代碼為:
q:= INIT_ STATE;// root
for i:=1 to m do
while g(q, T[i])=Φdo
q:= f(q);// follow a fail
q= g(q, T[i]);// follow a goto
nodes= q;
while node ≠ root do
if flag(node)≠Φthen print i,out(node);
node:=f(node);// backtracking
end for;
以上代碼在執行過程中主要實現三個函數,分別是Goto函數、Output函數和Fail函數。T為目標字符串,目標字符串的長度設為m,q為節點指針,g為返回節點到路徑目標的下一個節點指針,f為回溯節點指針,flag為標志節點。
2.5 ?主題爬取步驟
本文基于聚焦網絡爬蟲技術的大數據采集系統對主題的爬取流程為:
(1)系統初始化,對主題集合、URL集合、閾值、網絡爬取深度、爬取數量進行定義。
(2)當爬取隊列中不為空時,將URL置于Scrapy框架中進行解析,獲取超文本標記語言。
(3)從URL集合中獲取全部超鏈接目標,對URL進行歸一化處理,放置于爬取隊列中。
(4)對URL集合中的網頁頁面進行一系列處理,包括解碼、降噪、清洗等,得到提取文本。
(5)對爬取到的文本與主題進行關聯性判斷,對有關聯的網頁頁面數據進行存儲。
(6)對新爬取網頁中的URL進行處理后置于爬取隊列中,按照優先級對爬取隊列進行排序。
(7)重復以上步驟,直到獲得的爬取隊列為空,或者爬取到的數量已經達到所需數量。
3 ?基于聚焦網絡爬蟲的大數據采集系統框架設計
文章基于聚焦網絡爬蟲技術,構建了大數據采集系統框架,如圖2所示。
具體的爬蟲流程為:
(1)針對企業財務審計實際工作需求,確定大數據采集來源,對企業官網、合作伙伴官網、政府公開信息和各大門戶網站進行大數據采集。
(2)構建初始URL,將其置于爬取隊列中。
(3)利用Scrapy框架,通過網絡搜索引擎調度器下載網頁超鏈接文本,再根據超鏈接文本中包含的主題內容,在Scrapy框架中獲取鏈接并加重網頁頁面。對于真實的網絡鏈接,采用聚焦網絡爬蟲技術Scrapy框架進行爬取;對于渲染網頁頁面,則采用模擬瀏覽器的方式獲取數據。
(4)對超鏈接語言文本進行鏈接抽取,進行與主題關聯度的計算,如果是符合主題要求的鏈接,則將其置于URL種子隊列中進行網絡爬取。
(5)對于抽取得到的文本數據,在對其進行降噪、清洗和核對后存儲到系統數據庫中。
(6)對系統數據庫中的數據進行分析,以提高企業財務審計工作效率。
4 ?基于聚焦網絡爬蟲的大數據采集系統的應用
天眼查是收錄2億條社會實體企業信息的商業數據庫應用,本文將基于聚焦網絡爬蟲技術的大數據采集系統應用于電力企業節能環保專項資金審計項目,主要是利用爬蟲技術對天眼查中上千家企業市場監管數據進行采集和分析,如圖3所示。
本文通過基于聚焦網絡爬蟲技術的大數據采集系統,從天眼查應用中獲取上千家企業工商數據信息,通過數據統計分析,對電力企業節能環保專項資金中是否存在騙補、偽經營進行有效查處,輔助審計工作人員進行審計判斷,具有良好的實踐應用效果。
5 ?結 ?論
綜上所述,本文以電力企業財務審計工作為背景,對網絡爬蟲技術和相關理論知識進行了研究,提出了基于聚焦網絡爬蟲技術的大數據采集系統構建方案,對網絡爬蟲技術應用的具體步驟、網頁優先搜索策略、主題關聯性判斷、關鍵字匹配和主題爬取流程進行了詳細分析,設計了基于聚焦網絡爬蟲技術的大數據采集系統框架,以期能夠為企業的財務審計工作提供完整、高效、可靠的數據資源。網絡爬蟲技術的應用不應該是簡單的數據獲取,而是應該將網絡爬蟲技術與算法模型、數據挖掘方法相結合,在大數據、人工智能背景下,充分利用關聯規則數據挖掘、分類挖掘、網頁異常檢測等方法,主動發現企業財務審計工作中存在的問題和風險點。同時,還可以利用機器人規則和AI交互技術等,對網絡進行深度遍歷,分析網絡社交特征等,從分散的非結構化數據中獲取有用的數據信息,并對這些數據資源進行分類存儲,在下一步的工作中不斷挖掘數據資源之間的聯系,預判數據資源的發展方向。
參考文獻:
[1] 肖新鳳,張絳麗,鄧祖民.基于Python的爬蟲技術的網站設計與實現 [J].現代信息科技,2020,4(14):73-75+78.
[2]趙北庚.基于Flask與爬蟲技術的可視化深度學習數據標注系統 [J].電子制作,2020(20):36-37.
[3] 鐘機靈.基于Python網絡爬蟲技術的數據采集系統研究 [J].信息通信,2020(4):96-98.
[4] 張澤吾.大數據法律保護模式的比較分析——以全國首例利用網絡爬蟲技術非法獲取計算機信息系統數據案為例 [J].法制與經濟,2020(3):5-6.
[5] 宋小滿,黃鑫,王懷相.基于ASP.NET網絡爬蟲技術的公路貨運價格數據采集方法研究 [J].鐵道貨運,2018,36(12):54-58.
[6] 劉貴平,劉娜,段紅義.基于聚焦網絡爬蟲技術的人才招聘數據采集 [J].電腦編程技巧與維護,2018(5):69-70+75.
[7] 卞偉瑋,王永超,崔立真,等.基于網絡爬蟲技術的健康醫療大數據采集整理系統 [J].山東大學學報(醫學版),2017,55(6):47-55.
[8] 張明杰.基于網絡爬蟲技術的輿情數據采集系統設計與實現 [J].現代計算機(專業版),2015(18):72-75.
作者簡介:閻澤群(1989—),女,漢族,山東淄博人,助理專業師Ⅱ級,碩士研究生,研究方向:多媒體應用系統類交互式界面設計與實施。