胡炎非
在過去10年里,人們使用信息技術處理和收集數據的能力得到極大的提高,數百萬個數據庫被廣泛應用于商業、政府、科學研究和工程實施等領域。但這也帶來了新的挑戰,一方面,數據過剩幾乎成為每個人都必須面臨的問題;另一方面,各類企業又往往面臨信息不足的問題。本研究就是從這些問題出發,通過研究數據挖掘技術,為系統提供新的知識數據庫。金融部門的日常業務都會產生大量數據,利用現有的數據庫系統,可以有效地實現數據錄入、查詢、統計等功能,但找不到數據中存在的關系和規則,無法根據現有的數據預測未來的發展趨勢。由于缺乏挖掘數據背后隱藏知識的手段,導致出現“數據爆炸但知識匱乏”的現象。同時,金融機構的經營必然存在金融風險,風險管理是各金融機構的重要工作。數據挖掘技術的使用不僅可以從大量的數據中找到隱藏的規律,還可以降低金融機構的風險。學習和應用數據挖掘技術對我國的金融機構具有重要意義。
金融風險是指可能導致企業、事業單位財產損失的風險,即企業未來收入的不確定性和波動性。根據金融風險的來源,可分為靜態風險和動態風險;按風險范圍可分為微觀風險和宏觀風險;按金融機構類別可分為銀行風險、證券風險、保險風險和信托風險等。通過對風險的測量和理解,采取相應的措施和處置方案,使風險最小化,利潤最大化。可見,金融風險監測是一種規范金融投資安全與盈利能力之間平衡的金融管理方法。
在大數據時代,數據規模越來越大,價值密度也越來越低。數據挖掘是此背景下產生的一種技術,主要功能是幫助人們挖掘數據信息的價值,并被廣泛應用于商業信息處理領域。數據挖掘可以實現對商業業務數據信息的讀取、轉化、分析和智能處理,為商業決策活動提供強有力的支持。
數據挖掘也被稱為數據庫中的知識發現,是目前人工智能和數據庫領域的一個熱點問題。所謂數據挖掘指的是從數據庫中的大量數據中挖掘隱式的、先前未知的和有潛在價值的信息。數據挖掘是一種決策支持過程,主要基于人工智能、機器學習、模式識別、統計學、數據庫、可視化技術等。數據挖掘對于分析企業數據再加以歸納推理,并從中挖掘潛在的信息是高度自動化的,有利于幫助決策者調整市場策略,降低風險,做出正確的決策。
數據分析常用的數據挖掘方法有分類、神經網絡、回歸分析和偏差分析等,它們分別從不同角度對數據進行挖掘。
(1)分類
分類是為了查明數據庫中一組數據對象的共同特征,并按分類模式分為不同的類,目的是通過分類模型將數據庫中的數據項映射到某個給定的類別。可應用于客戶分類、客戶屬性和特征分析、顧客滿意度分析、顧客購買趨勢預測等,如汽車零售商根據客戶的喜好,將汽車分為不同的類別,從而將新車的廣告手冊直接郵寄給具有這些偏好的客戶,從而大大增加交易機會。
(2)神經網絡
神經網絡具有良好的魯棒性、自組織適應性、并行處理、分布式存儲和高容錯能力,非常適合解決數據挖掘問題,近年來引起越來越多人的關注。典型的神經網絡模型主要分為三類:以感知機、BP反向傳播模型、函數型網絡為代表的,用于分類、預測和模式識別的前饋式神經網絡模型;以Hopfield的離散模型和連續模型為代表的,分別用于聯想記憶和優化計算的反饋式神經網絡模型;以ART模型、Koholon模型為代表的,用于聚類的自組織映射。神經網絡的缺點是“黑盒”性,使人們難以理解網絡的學習和決策過程。
(3)回歸分析
回歸分析反映了數據庫中屬性值的特征,產生了將數據項映射到實值預測變量,并發現變量或屬性之間依賴性的函數。主要的研究問題包括數據序列的趨勢特征、數據序列的預測和數據之間的相關性。它可以適用于市場營銷的各個方面,如客戶尋求、保持和預防客戶流失活動、產品生命周期分析、銷售趨勢預測以及有針對性的促銷活動等。
數據挖掘是為了解決傳統分析方法的不足,并處理大規模的數據分析。數據的快速增長和數據分析方法的持續進步,使人們能夠在現有的大量數據分析的基礎上提取隱藏在數據背后的有用信息。
信用風險的數據挖掘評估包括銀行信用卡風險評估和貸款信用評估等。信用風險是指不可抗力和惡意欺詐造成的、使債務人不能或不愿履行已簽訂合同而給銀行造成的損失。銀行對個人和企業的財務狀況發生變化的過程往往不能及時了解或者說被循環信用掩蓋。通過數據挖掘技術,對區域差異、個人知識水平、收入水平、經濟環境狀況、社會地位等客戶信用的影響因素進行挖掘,可以迅速建立用戶信用等級,然后給出不同的信用額度。它還可以全面揭示信用風險的關系和特征,提高信用違約預測的準確性。Frydmann et al(1985)首次將決策樹模型運用于違約企業和非違約企業的分類。此后,許多人將決策樹模型、神經網絡法和遺傳算法用于違約判斷,以期得到更好的分類效果。目前市場上,數據挖掘工具提供了完整的展現,如Brio公司的Brio. Enterprise,能全方位、多層次展現數據分析結果。
財務危機的本質是財務風險的規模和高強度的集中爆發,主要表現為財務狀況的極端惡化、支付危機,甚至破產。這些公司都不同程度出現以下狀況:無法償還到期債務、巨額投資沒有回報、現金流不足、產品銷售不良、大量庫存積壓、涉及巨額訴訟賠償,以及主營業務嚴重收縮。財務危機預警模型的建立可以為企業經營失敗和財務管理錯誤進行早期預警和早期控制,為決策者、投資者和債權人提供重要信息。國內外學者利用數據挖掘中的主成分分析、邏輯回歸、線性回歸和神經網絡等方法,來建立財務危機預警模型。首先根據特征向量和主成分貢獻率,計算出對于財務狀況影響最大的財務指標;接著以預測期公司的財務狀況為目標變量;然后運用邏輯回歸方法和決策樹方法對公司財務狀況進行預測;最后把各家公司綜合評分作為目標變量,采用線性回歸和神經網絡方法進行公司財務危機預警分析。
數據挖掘作為一種深度數據信息分析方法,對傳統評價方法無法獲得的各種因素之間隱藏的內部聯系進行綜合分析。該技術的應用無疑有利于金融風險監測,能夠提供風險預警,使管理者能夠提前準備,提供決策參考信息,大大降低風險,提高企業競爭力,促進企業快速發展。