喬冰琴 段全虎 高翠蓮
【關鍵詞】 大數據; BI工具; 貸款風險預測; 大數據處理流程; 企業大數據應用
【中圖分類號】 F234? 【文獻標識碼】 A? 【文章編號】 1004-5937(2021)24-0131-07
一、引言
大數據的發展與應用已經深入人心,大數據在企業中的應用實踐也不斷地落地開花。王秋菲等[1]利用網絡爬蟲技術獲取了亞太實業自2009—2016年間的相關數據,對這些數據進行挖掘分析,提取出能揭示公司財務是否存在舞弊行為的重要審計證據。張志恒等[2]基于大數據文本挖掘技術構建了審計數據分析框架,利用文本挖掘模型挖掘出審計疑點,為大數據審計提供審計證據和線索,從而提高審計質量。
隨著企業信息化的進一步高速發展,數據來源更加多樣化、數據體量更加巨大化、數據格式更加復雜化,這為企業應用大數據進行日常經營管理、分析和預決策帶來了挑戰。張紅英等[3]分析了大數據時代財務分析面臨的機遇與挑戰,指出大數據時代財務分析面臨的機遇有財務數據與非財務數據混搭、結構化數據與非結構化數據混搭、宏觀數據與微觀數據混搭,這些“混搭”為財務分析帶來了廣闊的數據“藍海”,大數據技術為提高基于數據總體的企業財務決策提供了支持,使傳統財務的階段性報告轉向動態實時報告;而大數據時代財務分析面臨的挑戰有信息安全、獲得信息的成本以及信息處理人才。路偉果等[4]指出數據挖掘技術將重新定位會計人員和會計部門的角色、擴大會計確認的要素范圍、更多地采用可視化技術解釋數據以及企業將面臨更大的信息安全風險;進一步指出會計人員要逐步轉型為數據分析師和算法工程師、增強會計人員的數字素養和提高可視化管理能力、構筑信息安全防護體系等。烏婷等[5]指出,大數據對管理會計的思維、范圍、方式及效果創新產生了深遠影響,提煉出大數據時代下管理會計應具備的職業能力:思維創新能力、數據分析挖掘能力、IT應用能力及業務綜合處理能力,為管理會計人員勝任大數據時代下的管理會計工作提出相應的建議。
大數據時代,企業管理人員利用大數據BI(Business Intelligence,商業智能)工具進行企業經營分析和數據挖掘已是提高企業競爭力的重要措施。張超等[6]指出財務智能是商業智能的核心,是大數據、人工智能等新技術與財務的融合,其涉及ETL(Extraction、Transformation、Loading,數據抽取、轉換、加載)、DW(Data Warehouse,數據倉庫)、OLAP(Online Analytical Processing,聯機分析處理)、Data Mining(數據挖掘)等技術,同時文章指出要進一步運用機器學習、深度學習等技術來構建財務決策模型,強化企業的智能化決策支持系統。王毅輝等[7]對國內外BI工具進行比較,針對煙草商業企業給出了選擇BI工具進行財務分析的要求。王瑜等[8]在醫療設備多維數據分析中應用PowerBI工具進行跨庫數據檢索、分析與展示,說明PowerBI工具對醫療設備檔案異構數據集成、轉換、自動抽取等具有很好的支持能力,能滿足多維數據高效檢索的要求。王緣[9]針對小米BigBI工具提出了產品優化方案,使BI工具既滿足企業大數據分析的需要,又能提升產品的易用性和易學性。
二、大數據BI工具簡介
在企業中應用大數據技術進行數據分析和挖掘的最有效、最便捷的方法是使用大數據BI工具。大數據BI工具對大數據技術的底層實現細節進行了封裝,使用大數據BI工具進行數據分析和挖掘不需要編寫任何代碼,非大數據技術人員利用大數據BI工具也能非常方便地進行企業經營數據分析和可視化。大數據BI工具使企業管理人員聚焦于數據本身的特點、數據之間的關系、數據分析的目標,而不必擔心編程能力的高低。
市場上不同的BI工具有一定的共性,也各有其特性。一般的BI工具都具有數據匯集、數據清洗與轉換、數據分析和可視化等功能,不過各BI工具在數據分析環節的差異較大。有的數據分析是基于傳統關系型數據庫進行SQL查詢與統計的簡單分析,有的數據分析在簡單分析基礎上還包括基于機器學習等智能算法實現的復雜分析[10]。目前常見的大數據BI工具有IBM Cognos、Oracle OBIEE、SAP BO、Tableau、帆軟FineBI、Microsoft Power BI、QlikView、openI、SpagoBI等。
三、大數據分析挖掘流程
大數據分析挖掘流程可以分為4個環節,如圖1所示。

(一)數據獲取
大數據的來源主要有物聯網數據、互聯網應用數據以及傳統信息系統數據,不同來源的數據有不同的獲取方式。物聯網產生的數據主要是非結構化數據,這些數據多呈現為視頻、音頻和各類傳感數據等,其數據價值密度較低,一般這類型數據可以從數據分析商處獲取。互聯網應用數據包括Web應用數據和移動APP應用數據,這些數據多呈現為半結構化形式的網絡鏈接、文本、數據表及非結構化形式的圖像、音視頻等,其數據價值密度較高,一般這類型數據既可以從數據分析商處獲取,也可以使用技術手段從網絡中爬取。傳統信息系統的數據多以結構化數據為主,這也是大數據中價值密度較高的一類數據,比如來自企業ERP系統、政務系統以及各類企業公司內部信息系統中的數據等,一般這類型數據多由對應的信息系統軟件采集,對于政府開放平臺上公布的諸如氣象數據、交通數據等也可以通過技術手段進行網絡爬取。
(二)數據預處理
在使用算法進行數據分析和挖掘之前,首先應該檢查數據的完備性和數據質量,對不合要求的數據進行數據清洗;其次應該將數據進行標準化處理,使數據集符合機器學習的要求。
1.數據清洗
獲取到的原始數據往往存在特征值缺失、異常值或重復數據等質量問題,在進一步進行數據建模挖掘之前,需要對這些數據進行清洗加工。
(1)缺失值處理
數據集中的缺失值會對機器學習的數據聚類、分組、預測造成影響。對于缺失數據,可以采用簡單刪除法進行刪除或采用數據替換法和插值填充法進行替換和填充。簡單刪除法一般用于缺失值樣本比例較少的情況,否則過多的刪除包含缺失值的數據可能會丟棄大量隱藏信息,影響數據集的客觀性和機器學習的正確性;數據替換法和插值填充法是一種補齊數據的方法,可用于缺失值適中或較少的情況下,補齊的方法可采用人工填寫、平均值填充、特殊值填充、熱卡填充、K-means填充、多重填補、回歸等。但無論采用哪種方法處理缺失值,都一定要根據實際應用場景進行合理處理。
對于缺失值也可以不按上述方法進行處理,貝葉斯網絡或人工神經網絡等方法可直接在含有缺失值的數據集上進行分析和挖掘。
(2)異常值處理
異常值是數據集中的不合理值,比如用戶輸入的錯誤數據、傳感器測量誤差、實驗誤差、數據處理錯誤、抽樣錯誤、故意異常值或者自然異常值等。處理異常值時可以采用與處理缺失值相同的方法,而且要盡量根據造成異常值的原因去修正異常值。
(3)重復數據處理
重復數據可能是多條數值完全相同的記錄,也可能是同一主體的某個具有唯一特征的屬性在數據集的不同記錄中取值不同。對于前者,可直接做“去重”處理;而對于后者,就得根據實際業務情況來處理,可以合并這些重復數據,也可以不做任何處理。
2.數據標準化
大多數機器學習算法對數據集的特征值有特定的要求,在使用機器學習算法對數據集進行數據分析和挖掘之前,需要將數據集按照要求進行標準化處理。
數據標準化又稱數據無量綱化或數據歸一化,用于消除不同特征屬性的單位量綱帶來的數據不可比性,從而提高機器學習算法的準確性。常用的無量綱化技術主要包括以下四種:
(1)min-max歸一化
min-max歸一化也稱min-max標準化、線性歸一化或者離差標準化,按照公式1將特征值映射到[0,1]之間。
其中,min(x)和max(x)是特征x的最小值和最大值。
(2)平均歸一化
也可按公式2對特征值進行歸一化。
(3)非線性歸一化
非線性歸一化是通過一些數學函數,如對數函數、指數函數、正切函數等,將特征值進行映射,使用時需要根據特征值的分布選擇非線性函數。例如:log10x、atan(x)×2/π。
(4)z-score標準化
z-score標準化也稱標準差歸一化或者零均值標準化,按照公式3將數據集轉化為接近標準正態分布的形式。
其中,μ和σ是特征x的均值和標準差。
(三)分析與挖掘
在數據分析與挖掘中,應利用機器學習、深度學習等人工智能技術構建分析決策模型和智能化決策支持系統。機器學習在大數據分析中的重要性不言而喻,機器學習使得我們既可以更好地分析歷史數據和當前數據,還可以更準確地預測未來數據。在商業智能中應用機器學習,可以幫助人們從海量數據中提取出有價值的信息,找到最佳市場策略,大幅度改進商業決策,提高生產率,從而促進企業利潤最大化和經營風險最小化。
機器學習算法可分為監督學習和無監督學習,如圖2所示。

其中,監督學習的訓練數據必須帶有分類信息,即包含特征數據和對應的目標變量類別,通過監督學習得到特征與分類目標之間的對應關系,預測時輸入特征便可得到預測目標的類別。監督學習又可分為分類算法和回歸算法,分類算法用于預測實例數據的分類結果,即預測目標是離散型的分類信息;回歸算法用于預測數值型數據,即預測目標是連續型的值。K-近鄰算法、線性回歸、樸素貝葉斯算法、支持向量機、決策樹等都是監督學習算法。
無監督學習不需要數據集包含明確的分類目標信息,因為無監督學習不需要根據訓練結果去預測新數據。無監督學習包括聚類算法、密度估計算法。聚類算法會自動根據數據的相似度進行離散類別劃分,若在聚類的同時還要估計數據與類別的相似度,則可使用密度估計算法;另外,無監督學習還可用于減少特征維度。K-均值、最大期望算法、DBSCAN等都是無監督學習算法。
(四)數據可視化
在進行數據探索、分析預測的過程中,可以利用數據可視化功能將數據以易于感知的圖形方式進行展現,有效提高數據分析的效果和效率。許多BI工具都具有Dashboard(儀表盤)數據可視化模塊,Dashboard既能給用戶提供數據跟蹤、鉆取和多維度分析功能,還支持多數據源、實時數據更新和交互式儀表盤。在可視化圖形類別支持方面,BI工具均能提供多種類別的圖形,如區域圖、熱力圖、流向圖、點地圖等。
四、企業大數據分析應用實踐
下面給出基于大數據BI工具——“數獵云”實現的企業大數據分析應用實踐案例。
(一)實踐環境
數獵云是一種圖形化大數據BI工具,用戶基于數獵云客戶端訪問數獵云大數據服務器。基于數獵云進行大數據財務分析可以按照4個環節來實施:獲取數據源、數據匯集與轉換、分析和挖掘、數據可視化。如圖3所示。

與其他很多BI工具不同的是,數獵云不僅能夠匯集轉換數據、分析數據、可視化數據,更重要的是,數獵云提供了上百種數據加工組件和數十種統計分析、數據挖掘及機器學習算法,操作人員不需要任何編程,只需通過鼠標簡單地拖拽組合和進行相應的參數設計,即可進行復雜的企業大數據分析與預測。
(二)業務數據分析
案例數據是某金融企業的貸款申請與發放信息,基于監督學習算法——支持向量機對貸款風險進行預測。使用支持向量機進行貸款風險預測時,首先要訓練預測模型,訓練數據集中的屬性Gender、Married、Dependents、Education、Self_Employed、ApplicantIncome、Coapp-
licantIncome、LoanAmount、Loan_Amount_Term、Credit_
History、Property_Area等作為特征變量,Loan_Status作為分類標簽,訓練后的支持向量機模型可以根據特征變量來預測是否應該為某個申請貸款的人發放貸款。
1.問題定義與數據探索
本次數據分析挖掘的目的是根據原始數據使用支持向量機對用戶的貸款風險進行預測。支持向量機是一種二分類型監督學習算法,需要先訓練模型再用模型去預測數據。本案例的數據源是由企業OA系統提供的CSV格式文件,數據源包含的特征屬性和部分數據行如表1所示。
各特征屬性的含義如表2所示。
樣本數據記錄共5萬條,按70%■30%的比例分為兩組,前一組3.5萬條數據為訓練數據,用來訓練預測模型;后一組1.5萬條數據為測試數據,用來測試模型的訓練效果。
2.數據匯集
在數獵云中連接數據源,從中抽取貸款記錄的CSV數據文件,將CSV格式的數據轉換為結構化數據,再把結構化后的業務數據寫入數據湖的對應數據表中,實現業務數據到大數據平臺的匯集。
3.數據預處理
大數據分析用到的數據挖掘、統計分析、機器學習以及深度學習等算法,一般會對算法的輸入數據有限制要求,在數據建模前,應根據模型的要求對輸入數據進行轉換和整理。
從表1展示的部分數據可以發現,Married、Dependents等列存在空值、數據類型表示不一致等情況,需要對數據進行清洗加工。在清洗加工之前,可以通過瀏覽數據或使用統計方法等手段對原始數據進行探索和畫像,以幫助了解數據質量。例如:統計某列空值比例(存在空值的行數/總記錄行數)、統計某列包含非法字符的比例(存在非法字符的行數/總記錄行數)。
(1)缺失值處理
以對Married進行畫像為例,在數獵云中,可對Married屬性值(已婚/未婚/空值)進行分組統計,據此來發現到底有多少不合法的Married屬性值。對Married的缺失值要盡量進行補充,補充時要參考關聯業務數據的含義,比如Married婚姻狀態和Dependents家庭中子女數有一定的關聯關系。根據業務常識,如果子女數大于等于1,客戶已婚的可能性很大,反之客戶已婚的可能性比較低。因此可以根據此業務關聯性,補齊Married的缺失值。
對數據集中的Gender、Dependents、Education、Self_Employed、ApplicantIncome、CoapplicantIncome、LoanAmount、Loan_Amount_Term、Credit_History、Property_Area、Loan_Status等屬性,由于缺失值比例并不高而且難以補全為有意義的信息,所以在此將有空值的記錄進行刪除。
(2)數據類型轉換
貸款風險預測用到的輸入數據包括除Loan_ID和Loan_Status外的所有特征屬性,根據這些輸入的特征屬性預測分類目標Loan_Status的值,Loan_Status代表貸款狀態。從表2可以看到,貸款風險預測用到的特征屬性和分類目標的初始數據類型都是文本類型NVARCHAR,由于支持向量機要求輸入的特征變量和分類目標均是數值類型,因此下面對這些屬性進行數據類型轉換。
ApplicantIncome、CoapplicantIncome、LoanAmount、
Loan_Amount_Term這四個屬性在實際中均應為數值類型,可直接在數獵云中將這四個屬性全部轉換為數值類型。
Credit_History在原始數據集中取值為文本型的0/1,也可直接將其轉換為數值類型。
Gender、Married、Education、Self_Employed、Property_Area、Loan_Status等屬性都是取值為離散值的文本類型,這需要在數獵云中轉換成對應的數值類型,以滿足機器學習算法的要求。上述特征變量中,Gender、Married、Education、Self_Employed、Loan_Status均是2種取值,Property_Area是3種取值,在數獵云中將2種取值的特征變量均轉換為0/1取值,將3種取值的特征變量轉換為0/1/2取值。取值轉換對應表如表3所示。
(3)非法數據處理
原始數據的Dependents屬性值中出現了3+這樣的值,表示家庭孩子多于3個的情況。因為Dependents要轉換為數值類型以用作支持向量機的輸入特征變量,因此需要對Dependents的值做去除+號的處理,并將Dependents轉換為數值類型。在數獵云中,利用字符串替換功能將+替換為空,再將所有的Dependents取值由字符型轉換為數值型。
(4)數據標準化
由于ApplicantIncome、CoapplicantIncome、LoanAmount、Loan_Amount_Term四個特征變量的取值范圍相差較大,需要在訓練前進行量綱標準化處理。可以直接在數獵云中將這四個特征數據組裝成CSN,再使用標準化工具(包括Standard、MinMaxScaler和MaxAbsScaler三種形式)對CSN數據進行標準化,形成標準化模型,以供后續訓練、測試和預測時使用。
(三)數據分析與挖掘
支持向量機是一種監督學習算法,使用該算法建立預測模型時,需要訓練預測模型,并對訓練好的模型進行預測能力評估,通過評估的模型才能用于實際預測。模型使用過程中,不斷根據預測與實際結果的對比反饋,進而調整修正模型。模型訓練、評價、使用反饋環如圖4所示。

1.訓練模型
用訓練數據集訓練支持向量機以得到預測模型。在數獵云中,支持向量機的輸入要求為CSN類型,因此,先用NumAssemable變換工具將訓練集中的分類標簽(Loan_Status)和多個數值類型的特征數據(Gender、Dependents、Education、Self_Employed、標準化后的CSN數據(ApplicantIncome、CoapplicantIncome、LoanAmount、Loan_Amount_Term)、Credit_History、Property_Area)組裝成CSN類型,再將此CSN數據作為支持向量機的輸入,設置好模型的迭代次數、步長、正則化參數、分類閾值等參數后,開始模型訓練。模型訓練結束后,要注意觀察模型訓練結果,其中precision代表模型預測的精確率,取值均在0和1之間,數值越接近1,模型就越好。在precision不高時,要調整模型的訓練參數重新進行模型訓練。訓練過程可以重復進行,直到precision的值達到合理的要求。
2.評價模型
評價模型是檢驗使用模型進行預測的precision。在數獵云中先將測試集中的多個數值類型的特征數據組裝成CSN數據,再將此CSN數據作為預測模型的輸入,運行模型以得到預測結果。將預測輸出的貸款狀態和測試數據集中的貸款狀態進行比較,檢查預測模型在預測數據時的準確度。
3.使用模型進行預測
模型訓練成功后就可以在實際中使用模型對貸款風險進行預測了。對某個貸款申請人,模型可以根據此人的特征數據預測出是否應該給其發放貸款,從而輔助金融企業控制貸款風險。
至此,在數獵云中完成了貸款風險預測案例,在數獵云中創建的數據分析工作流如圖5所示。
(四)數據可視化
數獵云提供了強大的數據可視化工具,支持多種類型的報表展現、多維分析和數據可視化。在數獵云平臺的deepBI模塊中,對貸款風險預測結果進行可視化儀表盤設計,設計結果如圖6所示。
五、結語
圍繞使用大數據BI工具實施企業大數據分析和挖掘的四個環節:獲取數據源、數據匯集與轉換、分析和挖掘、數據可視化進行了闡述。基于數獵云大數據BI工具完成了貸款風險預測,以此嘗試為企業管理人員在日常管理工作中從事數據分析和挖掘工作提供思路和建議。
為更好地在企業經營管理中應用大數據BI工具進行數據分析和預測,企業管理人員可參照以下建議不斷提高自身的大數據分析和挖掘能力:(1)熟悉待分析的數據,能針對分析目標提取數據特征。(2)熟悉數據清洗的方法,能對“臟數據”進行清洗使之成為有意義的、合理的數據。(3)熟悉數據標準化的方法,能將不同量綱的數據轉換成符合數據分析和挖掘要求的數據。(4)熟悉各種機器學習算法,了解各類算法的特點、用途和參數的含義,能根據工作要求選擇合適的機器學習算法進行數據預測。(5)熟悉各種可視化圖形的特點,能依據數據特點選擇合適的圖形進行數據鉆取、探索和分析。
【參考文獻】
[1] 王秋菲,欒丹,張洛迪.網絡爬蟲技術獲取審計證據的應用研究——以亞太實業審計為例[J].會計之友,2020(17):131-136.
[2] 張志恒,成雪嬌.大數據環境下基于文本挖掘的審計數據分析框架[J].會計之友,2017(16):117-120.
[3] 張紅英,王翠森.大數據時代財務分析領域機遇與挑戰[J].財會通訊,2016(5):84-85.
[4] 路偉果,劉光軍,彭韶兵.數據挖掘技術對會計的影響及應對[J].財會月刊,2020(7):68-74.
[5] 烏婷,喬引花.大數據時代管理會計職業能力建設探討[J].會計之友,2017(19):38-42.
[6] 張超,肖聰,朱衛東,等.財務智能可視化分析與文獻綜述[J].財會月刊,2019(3):24-32.
[7] 王毅輝,閻慧峰.財務BI工具選擇和在煙草商業企業中的應用研究[J].現代經濟信息,2018(24):120.
[8] 王瑜,鮑鯤,黃婷婷,等.基于Power BI工具的大數據分析在醫療設備多維數據分析中的應用研究[J].中國醫學裝備,2020,17(5):169-173.
[9] 王緣.小米BigBI商業智能工具用戶體驗優化設計與實踐[D].長沙:湖南大學碩士學位論文,2019.
[10] 黃宜華.大數據機器學習系統研究進展[J].大數據,2015,1(1):35-54.