信永中和會計師事務所 周峰
市場研究公司IDC(International Data Corporation)公布的統計數據顯示,全球的數據產生量僅在2011年就達到1.8ZB(1.8萬億GB),數據總量正以年均50%的速度增長,預計到2020年,全球數據總量將達到40ZB,我國數據量將達到8.6ZB,占全球總量的21%。數據正在以史無前例的高速增長,世界各個角落的公司、機構組織和個人每時每刻都在創造數據。大數據是為解決海量數據應運而生,全球信息數據量的迅猛增長是大數據產業發展的基礎。大數據的分析范圍基本涵蓋了我們現階段認識的數據和尚未利用或者不可見的任何數據。針對公司與機構組織,按照數據產生的目的可分為:底層的機器數據,業務數據和財務數據。
如何從紛繁復雜的數據當中提煉出有效的數據,為決策提供數據支撐,是我們必須深入考慮的問題。但是大部分公司因為數據的管理成本巨大或數據的決策風險望而卻步。為了利用這些海量數據,可靠的大數據工具成為首選,而大數據工具的開發不可避免地需要面對以下兩個問題:
(1)數據管理:如何收集,如何清洗,整理存儲?
(2)數據提取:如何分析,如何展示,快速決策?
信永中和的AAP - Analytic Application Platform(以下簡稱SW AAP)大數據人工智能分析平臺可以為解決這些問題提供方案?
(一)數據收集和清洗
1.數據收集:SW AAP將根據客戶現有的系統環境設計適合客戶自身特有的數據收集方案,譬如,SW AAP根據用戶的核心數據系統設計數據采集代理,例如:客戶的核心系統是SAP,SW AAP會提供相應的SAP 數據采集代理(SAP Agent)對接相應的SAP核心系統進行數據的采集。SAP Agent將所有采集的數據,進行初步的解析然后推送到SW AAP的數據采集和處理層,SW AAP就可以實現對各類型數據倉庫、底層機器數據、各類日志數據的實時采集工作。
2.數據清洗:SW AAP發現并糾正數據文件中可識別的錯誤,包括檢查數據的完整性和一致性,對無效值和缺失值等進行的處理。對于數據結構和體量簡約的數據,Agent在將采集的數據送至SW AAP數據倉庫的時,便執行了數據清洗和整理工作。對于那些涉及需要復雜判斷、建模分析,或者再合成的新數據,SW AAP的存儲端將執行對這些情況的數據進行清洗和整理工作后,才讓其進入SW AAP自身的數據倉庫。可見,APP可以根據不同的客戶現有數據情況采取靈活高效的數據清洗和整理方案。
(二)數據存儲和查詢
SW AAP的基礎平臺架構是以實現對海量數據的分析和應用的智慧戰略方向量身定做,可以滿足信永中和集團不斷壯大的來自各個領域各種體量的客戶們的數據分析、業務建模與計算的360°智慧解決方案的需求,提供強有力的技術支撐。圖1為SW AAP的存儲和查詢模塊的示意圖。
SW AAP架構的底層由任務管理(Task Manager)承擔統一調配和協調的任務,實現數據抽取(Extract-Transform-Load 以下簡稱ETL)過程。同樣,數據抽取ETL依舊按照客戶自身的系統環境和數據類型靈活定制不同的抽取Schema并完成對數據的剝離。在數據抽取ETL過程中,SW AAP將根據數據量從小到大的規模,將數據推送至不同承載量和特質的數據存儲單元,依次對應為不同的處理模塊MySQL、MapReduce和Mesa,以發揮不同數據存儲單元的優勢和性能。
MySQL:主要針對小量可以快速結構化的數據(億行左右的數據規模)。
MapReduce: 屬于中間平衡模塊,處理介于TB和GB之間的結構化和非結構數據。
Mesa:其強大優勢在于支持TB級至PB級的海量數據,并可以實現毫秒(ms)返回前端查詢TB數據的請求。
(三)數據的可視化
與傳統的數據分析技術相比,SW AAP的可視化技術更傾向于挖掘型分析,其特點主要表現在:(1)友好的人機交互能力與體驗效果。(2)具有豐富的圖形展示功能,有助于審計師、咨詢顧問、研究員直觀地把握整體情況,識別審計和研究的重點,梳理業務思路并提高產出質量。(3)具有強大的圖形分析功能,可交互構建和調整曲線、曲面、點云等數學模型,可實現基于海量數據的趨勢分析、異常辨析等分析效果。SW AAP現已具備的基礎數據展示套件,足以滿足90%以上的數據分析和可視化的需求。
(四)技術優勢
對比于傳統產品,或者類似的產品,SW AAP無論從基礎架構,還是上層應用都有著明顯的競爭優勢。表1列出了核心特性的指標對比。

表1 SW APP的特性展示

圖1 AAP的數據存儲和查詢模塊
高性能的SW AAP大數據平臺建立之后,就可以在SW AAP平臺上構建不同的客戶場景,分析數據,更快地為客戶提供決策,比如審計,金融或者電信場景,為客戶定制行業分析需求,提取數據價值。
(一)大數據審計:審計之道,數據先行
審計是為企業財務數據的真實、完整、準確提供合理性保證,但是目前企業在信息化、大數據和互聯網+運營環境下,依賴傳統的收集手段和保障手段為業財數據提供合理性保證變得越來越困難,甚至成為不可能完成的任務(圖2)。
當我們面臨互聯網公司審計的時候,互聯網公司每天產生TB級別的數據,如何從TB級別的數據中核實收入,傳統手段無論如何是無法確認的,只有依靠SW AAP大數據平臺,海量數據核算功能,助力審計確保數據準確性和完整性,為審計保駕護航(圖3)。
(二)數據可視化:上下游業務流轉數據化
通過數據的清洗整理,SW AAP將對業務流的數據進行全局可視化,匯總整條業務鏈上下游交易信息,通常可以應用到財務數據,ERP進銷存,以及生產制造等諸多方面的數據分析和產業決策,其中可能包括以下內容:
(1)上游供應商(代號)、購進貨物名稱、庫存及轉銷情況、下游客戶(代號);
(2)業務交易量以圖形大小體現,清晰展示各交易對手方在公司業務中占比情況;
(3) 數據允許的情況下,可分別展開交易對手具體交易情況、貨物存儲及轉銷情況。
(三)人工智能:可信賴的金融風控
SW AAP從客戶和第三方收集結構化數據和非結構化數據,通過數據存儲、人工智能模型的訓練和利用深度學習技術,對消費金融場景內難以使用的數據進行基于機器的特征分析,并且將深度學習技術應用于最終的違約概率預測模型,從而提升信貸金融風控決策效果。互聯網金融公司的小額批貸需要實時核查客戶信用,使用SW AAP的金融風控模型(圖4),即可獲取客戶的信用報告,規避壞賬風險,實現贏利。
(四)實時數據分析:革新電信行業的核算
當大規模系統運行,時刻產生大量的機器數據(日志文件)的時候,客戶想及時修復系統漏洞,發現黑客攻擊,或者對海量數據核算的時候,都無從下手。SW AAP提供TB數據毫秒返回查詢結果的優秀性能,不僅可以跨系統跨業務查詢數據,還能靈活提供各種維度報表,必然能從根本上解決客戶的棘手問題。例如某電信公司,月初都無法快速出具用戶上個月話費詳單,因為需要使用Hadoop離線計算,需要一周時間完成100+TB的數據量的計算工作,當其使用了SW AAP的大數據靈活報表,秒級生成話費詳單,如果使用同類國外產品Splunk,處理TB+級別數據報價在1000萬人民幣以上,無論從性價比還是可用性,SW AAP都能秒殺競爭者對手。

圖4 金融風控模型

圖5 日志監控示例