陳 虎(博士),劉雅瓊
DT(Data Technology,數據技術)時代下,一方面,由于面對海量、復雜的數據,企業為了更長遠的發展需要精進管理,對財務部門提出了更高的發展要求,財務部門的職能發生著變化,已經由被動的事后核算型逐漸向主動的事前預測型與事中管理型轉變;另一方面,隨著“大智移云物區”新興技術的蓬勃發展,及時、廣泛地采集數據已經得以實現。財務部門需要重視數據采集,準確、高效地采集內外部、多樣化、多層次的數據,把控數據質量,發揮數據價值。
本文關注DT時代下財務對數據的采集范圍及采集能力,研究適宜的采集工具與技術,推動財務應用數據發揮更大的價值,為企業經營與戰略決策提供支持,助力企業財務轉型。
科學全面的數據采集工作能夠驅動數據高效發揮價值,為此,數據源成為數據采集關注的核心。數據源即數據的來源,是指提供數據的原始器件或媒介。梳理數據源是做好數據采集工作的前提。對企業而言,數據源可以按照分布的范圍分類,也可以按照數據的采集路徑分類。
數據源的分布范圍按照企業信息體系的邊界分為企業內部數據源和企業外部數據源。對不同分布范圍的數據源進行數據采集,需要調用的資源是不一樣的。
企業內部數據源主要包括企業的業務系統、財務管理系統、人力資源管理系統、日志采集系統、線下保存數據的辦公軟件以及企業生產環節的溫度傳感器等。企業內部數據源承載并提供了絕大部分企業營運管理所需的數據。通常,這部分數據可通過數據庫和系統日志等工具進行調取、采集,或運用API(Application Program Interface,應用程序接口)實現開放系統間集成及數據傳輸。但由于大部分企業內部存在信息孤島,在面對更廣泛的數據采集需求時,建立數據倉庫和數據中臺則更能發揮優勢。
企業外部數據源包括政府、高校、機構、行業協會的開放型數據庫以及網頁與應用程序等。企業通過采集外部數據打通與客戶、供應商、競爭對手、政府、相關機構等外部因素的聯系,增強了敏覺性。相對于企業內部數據源,外部數據源大多分布廣泛且分散,企業通常根據適配性對數據進行篩選,并采用網絡爬蟲和API的方式采集,從而提高采集的效率和質量。
數據的采集路徑可分為兩類:一類是將存在于物理世界的數據復刻至數字世界中;另一類是將本身存在于數字世界的數據搬運至企業的數據倉庫、數據平臺或者數據中臺。據此,可將數據源分為物理世界中的數據源和數字世界中的數據源。
物理世界中的數據源是以物理實體為載體,借助物理設備進行數據采集,實現從物理世界向數字世界的轉化。企業的經營環境中存在著大量物理世界中的數據源,包括條形碼、二維碼、傳感器、工控設備等。針對物理世界中數據的不同形態,有對應的采集方式及技術。典型的采集技術包括OCR(Optical Character Recognition,光學字符識別)以及ICR(Intelligent Character Recognition,智能字符識別)技術、ASR(Automatic Speech Recognition,自動語音識別)技術、RFID(Radio Frequency Identification,無線射頻識別)技術等。這些技術可以幫助企業實現數據轉換,打造企業級的數字世界。
數字世界是通過對物理世界的感知,借助數字技術、互聯網、云技術等科技力量逐步構建起的對物理世界的映射[1]。數字世界中的數據源存在于各種軟件、系統或程序中。這些數據雖存在于數字世界,但也并非是自然相通的,需要借用技術與工具將數據采集、匯聚至企業的數據倉庫、數據平臺、數據中臺中,為下一步數據的抽取、清洗、裝載做好準備。常見的數據采集工具包括系統日志、數據庫、網絡爬蟲、API等。
聚焦財務領域,財務數據源也需要隨著財務職能的轉變進一步擴展。傳統財務部門圍繞著九大業務流程(費用報銷、采購付款、訂單收款、存貨成本、固定資產、總賬報表、會計檔案、資金管理、稅務管理),此時,“票賬表錢稅”背后的數據是財務人員關注的重點,其實質可歸類為結果數據。結果數據是企業經營過程中,處理交易時所產生、接收的憑證上承載的數據,以及在會計科目體系下對這些數據進行的提煉,包括發票金額、差旅行程、付款明細等數據。與之相對應,承載這些數據的發票、行程單、火車票、銀行回執單、合同等都是傳統財務數據源。
隨著企業的轉型發展和數字技術的賦能,財務職能正向著支持企業經營管理轉型變革,財務所關注的數據不再僅局限于前文提到的結果數據,財務數據源也因此得到擴展。除了需要采集結果數據,財務還需要采集交易數據、過程數據、行為數據、環境數據(見圖1),實現對這些數據全方位的采集匯聚,支持和驅動財務發揮經營管理、價值創造的職能。

圖1 從傳統財務數據采集到數據全面采集
交易數據是在企業與外部利益相關者進行交易時產生的數據,包括交付產品參數、客戶評價、交易頻率等數據,其中交易對象、交易金額等這一類數據在交易完成后將轉化為結果數據;過程數據是企業與外部利益相關者在交互過程中產生或獲取到的除交易數據外的其他數據,包括項目進度、供應商工商信息等數據;行為數據是企業經營過程中可通過觀測工具獲取到的觀測對象行為的記錄數據,包括用戶行為日志、物流追蹤等數據;環境數據是企業所處行業市場情況、國家宏觀經濟形勢及全球經濟變化等外部數據,包括市場份額、價格指數、經濟運行指標等數據。
在此基礎上,財務數據源得到了重新定義與擴展,除了傳統的賬表、憑證,企業內部各類業務系統、財務管理系統,以及外部的網頁、應用程序、開放型數據庫、外部開放型平臺等,都成為全新的財務數據源。
擴展后的財務數據源為財務更好地向管理職能轉變奠定了更加全面的數據基礎,可以劃分為三個層次(見圖2)。財務依此開展相應的數據采集工作,從而進行核算、控制、預測、管理、決策等活動,實現財務職能的轉型變革。

圖2 財務數據源及數據采集的“三大層次”
1.第一層:財務數據載體及其結構化。財務數據載體是承載業務處理過程中所形成的各結果數據的單據或票證等。財務數據載體作為交易發生的“證據”,是財務部門開展財務核算工作的重要依據,按照來源可以劃分為兩類。一是外部載體,包括發票、行程單、火車票、汽車票、銀行結算憑證、完稅憑證等由外部開具的材料,可直接作為賬務處理的憑證;二是內部載體,包括業務、財務處理以及財務管理過程中生成的內部材料,例如記賬憑證、報賬單、采購申請單、驗收單、入庫單、成本控制單等。
另外,財務數據載體按照數據類型還可以劃分為原始憑證、單據、憑證、賬表四類載體(見表1)。

表1 財務數據載體
2.第二層:對內部信息系統的全面采集。在第一層的基礎上,財務部門若想支持企業控制、預測、管理活動的開展,需要對研發、采購、生產、銷售等業務環節進行全景測繪,不斷擴展數據的采集觸點。為此,企業需要實現銷售、采購、人力資源等各類信息系統的廣泛連通,在線采集全系統中的結構化數據,集成企業內部的數據資源,在高效推進業務處理與財務管理的同時,為企業沉淀數據基礎。
3.第三層:對其他外部數據源的全面采集。企業要想從數據中獲得洞見支持決策,就需要建立更為廣泛的數據連接,因此企業還需要面向外部數據源,比如網頁、應用程序、開放型數據庫等,采集企業信息體系范圍外的其他數據,包括客情、競情、行情、國情等,比如潛在客戶與商機轉化數據、客戶畫像數據、競爭對手最新產品數據、國家相關政策數據、國家GDP數據等。內外部數據網絡的建立可以置企業于實際的市場、行業、國情之中,從微觀視角看經營狀況,從宏觀視角把握發展動向。
財務數據源及數據采集的“三大層次”逐步推動財務部門從小數據集向大數據轉變,最終發展成為覆蓋企業內外部全數據采集情境下的數字神經網絡,包括物理世界及數字世界的數據采集、結構化與非結構化數據采集、內部與外部數據采集等多種不同情境。
財務數據源分為三大層次,各層次數據采集有針對性的采集工具與方法。當財務部門面對不同數據的采集情境時,數據源與數據采集要求都各不相同(見表2)。根據不同情境選擇適配度最高的采集工具和方法是提升數據采集效率和質量,保障數據安全、有序的關鍵。

表2 不同情境下的數據采集
描述客觀事物的數據可使用感知工具與技術進行采集,并且這種感知技術被廣泛應用。常見的感知工具與技術包括OCR技術、信息傳感器、射頻識別技術、全球定位系統、紅外感應器、激光掃描器等。
在典型的財務工作中,存在大量文本格式標準化程度高的財務數據載體,包括銀行結算單、行程單、發票、火車票等,可借助于高效穩健的OCR技術,運用光學設備(掃描儀、數碼相機等)將紙質文檔上的文字轉化為圖像,再利用算法把圖像信息翻譯成可編輯的計算機文字。其本質是利用光學設備去捕獲圖像并識別文字,將人眼的能力延伸到機器上。
在智能采集方面,基于切分分類引擎的OCR智能識別技術可以實現各類發票及通用票據的精準切分分類以及快速識別輸出。員工可以混拍多張紙質發票上傳影像;系統基于圖像預處理技術與切分分類引擎進行校正去噪、智能切割,按照發票類型提取字符圖像的特征并進行智能分類,支持電票、專票、普票、出租車票、定額發票等種類多樣、版式不一的票據[2];分類后,OCR技術根據發票類型識別并獲取每張票據的結構化信息。感知技術的應用極大限度地實現了從數據載體中采集結構化數據。
以數據庫形式存儲的結構化數據幾乎是所有企業都具備的數據資源,這些數據往往涵蓋了企業生產和經營各個環節的核心數據,因為它們的數據源是承載企業業務處理、財務管理、人力管理等的各大信息系統,且高度結構化,可進行批量采集。
通過信息系統采集數據是常見的數據采集方式,比如通過票聯系統能夠獲取各類票據信息;通過供應商智能結算系統能夠智能連接所有供應商,獲取開票數據、發票查驗、三單匹配、智能審核、采購結算、認證抵扣等數據;通過營收稽核系統能夠獲取并匹配應收與實收數據,實時顯示自動稽核結果等。這些信息系統可智能化采集前端業務信息并將其存儲為標準的結構化數據,打通業財數據線上通道。
事實上,上述系統后臺配置了數據庫,因此能夠在系統中存儲、搜索以及調用運行過程中產生、傳輸、交換的數據,并實現對系統數據的采集。如果需要采集、整合跨系統數據以實現多視角分析,采用數據倉庫是比較好的方法。數據倉庫能夠將各類結構化數據轉化成中間狀態,實現數據格式的統一,并將數據在各類數據庫與數據倉庫之間進行批量同步[3]。
部分數據需要從系統日志、服務器日志中進行采集,這部分數據主要用于監控系統運行情況和記錄用戶操作行為,以滿足系統運維或運營管理過程中數據需要實時關注的需求。每個系統、服務器后臺都有日志,日志數據捕捉了大量用戶行為,蘊藏著巨大的開發價值。
用戶行為分析幫助企業理解并分析用戶行為,是采集后臺日志數據的典型應用。埋點是目前較為常見和成熟的捕捉和記錄用戶行為的方式。用戶一旦發生特定行為就會觸發被提前“埋下”的“數據記錄器”,將其行為過程進行記錄并保存,以采集日志數據。在財務領域,日志數據采集被廣泛應用于財務作業平臺、共享服務中心的運營管理中。例如,通過觀測財務人員的單位審單時間、相同時間段審核單據數量以分析其審單效率,定位各環節質量缺陷的主要表現以及質量差錯的相關人員,從而加強管理等。
目前,財務采集數據中非結構化數據仍然占較大比例,非結構化數據能夠提供多樣化的信息,幫助人們更全面地理解事物深層內涵。非結構化數據包括非結構化文檔、圖像、音頻以及視頻等數據。采集非結構化數據需要針對性的技術以及系統工具。
NLP(Natural Language Processing,自然語言處理)技術是一種可以應用在非結構化文本數據采集領域的人工智能技術,旨在利用計算機分析自然語言語句和文本,抽取重要信息,進行檢索、問答、自動翻譯和文本生成,能夠從非結構化數據中抽取有價值的數據。在財務領域,合同、內部公文制度等復雜的非結構化文檔海量存在,NLP技術不僅實現了數據的自動采集,更實現了語義的自動理解。在合同智能審核情境中,應用NLP技術可自動識別合同文本,標注并抽取其中的關鍵信息如合同主體、專業術語、合同金額等,形成結構化數據,借助語言模型算法對獲取的結構化信息進行模型判斷,對合同文本形式、合同主體合格性、合同實質等進行初步核查,輔助人工進一步審核[4]。
財務采集數據還存在其他外部數據源,而外部數據大多散落在互聯網網頁、各大機構的開放型數據庫以及外部開放型平臺中。數據類型多樣,內容龐雜,且其蘊含的價值不可小覷。針對不同的外部數據源需要采取對應的高效智能的數據采集技術。財務部門通過采集其他外部數據,包括客商、政府、競爭對手等數據,完善企業經營管理,了解行業最新動向。
1.互聯網網頁信息采集。網絡爬蟲技術廣泛應用于互聯網數據的采集。一般而言實現網絡爬蟲的途徑包含兩種:編寫代碼腳本和使用爬蟲軟件。相較于爬蟲軟件,通過編寫代碼腳本可以開展個性化需求非常高的數據搜索及采集工作,其實現流程主要是獲取網頁、解析關鍵數據以及存儲數據[5]。Python(一種計算機編程語言)是目前較為常用的爬取網絡數據的計算機語言。網頁數據爬取與人們的工作生活息息相關,包括谷歌、百度、搜狗等常用的搜索引擎通過編寫自動爬蟲程序,爬取、收錄、整合以及利用互聯網中的優質信息。財務部門可以通過Python爬取競爭對手、行業標桿、客戶、供應商等的經營數據,為企業戰略規劃、經營計劃的制定以及業務發展提供參考。
2.各大機構開放型數據庫數據采集。在金融經濟、生產制造等諸多領域都有政府部門或權威機構專門開放給公眾使用的數據庫。例如,國家數據(國家統計局開放的數據庫)、中國統計信息網(國家統計局的官方網站)、CEIC數據庫(China Entrepreneur Investment Club,中國企業家投融資俱樂部,香港環亞經濟數據有限公司開放的數據庫)等。開放型數據庫數據信息專業、權威,可直接進行查閱下載或通過API批量獲取。財務部門通過采集機構數據庫數據獲取官方權威指標數據,了解企業經營的社會環境。
3.外部開放型平臺數據采集。隨著互聯網應用的不斷普及,越來越多的網絡站點推出基于開放API標準的產品和服務,將自身的資源開放給開發者來調用。一個站點(Site)可以理解為一個存儲區,存儲了一個網站包含的所有文件。對外開放資源的站點提供開放統一的API接口環境幫助使用者訪問、獲取站點的功能和資源。財務部門通過采集外部開放性平臺數據,了解行業最新動態數據,掌握行業發展前沿,助力企業長遠發展。
DT時代下,數據隨需獲取,越來越多的企業正在通過不斷思考與創新突破傳統財務采集數據的界限,追求通過更高效、更低耗的方式實現更有效、全面、及時的數據采集,由此財務采集數據將逐步實現無感觸發、全量感知、實時匯聚。
DT時代下企業通過統籌利用軟硬件資源,發揮高可靠性、高通用性、高可擴展性的數據能力,支持業務活動產生的數據“發生即采集”。不同類型企業實現無感采集的難度與進度存在差異。數字原生企業(互聯網企業)能夠實現業務全流程數據的自動留痕,助力實現財務數據的無感采集。而非數字原生企業的數據無感采集還只是“點狀”的,需要全面整合企業數據,逐步實現企業全量級業財數據的無感采集。
“數據感知”是指敏銳覺察特定數據,并在數字世界中真實、準確、及時地對其進行反映。全量感知是數據深度認知的基礎,DT時代下的“全量”并非特指企業從人、物到業務、作業等復雜環境的全覆蓋、全感知,而更強調有針對性地圍繞數據深入分析目標,將更具“智慧”。財務部門要能夠對具有潛在價值的數據做出快速反應,合理配置資源,提高資源利用率。
云計算、物聯網、5G、邊緣計算等技術的成熟應用推動了數據的高頻傳輸、信息的高速互聯,全面加速著各大企業、產業以及全社會的發展。全面加速意味著數據采集也應保持高級別的響應速度。云計算、物聯網、5G等各項新興技術的不斷突破及融合應用都在助力企業打造業財數據采集的實時匯聚能力。
DT時代下財務采集數據范圍和特點的變化提升了基礎財務工作效率和財務工作能力,促進財務更多地投入到高價值工作中,減少了與業務部門的低效溝通,加速業財深度融合,推動財務深入業務價值鏈,并為管理層提供深度經營分析,支撐企業管理決策,進而拓展財務的職能邊界,促進財務創新與變革。