張瑞亭
[摘 要]隨著科學技術的飛速發展和人們獲取數據的多樣化,人類擁有的數據急劇增加。在大數據時代,數據已成為新型戰略資源,是驅動創新的重要因素。如何獲取隱藏在數據背后的潛在的規律備受研究人員關注。數據挖掘是一門邊緣應用學科,它的蓬勃發展是由于它在各個領域的廣泛應用。結合金融數據的特點以及目前數據挖掘、機器學習存在的問題,研究未來金融專業數學的發展方向和動態趨勢,對于大數據時代下培養金融專業學生具有十分重要的意義。
[關鍵詞]數據挖掘 機器學習 支持向量機 金融數據
[中圖分類號] F83 [文獻標識碼] A [文章編號] 2095-3437(2014)14-0029-02
一、背景
數據是與自然資源、人力資源一樣重要的戰略資源,其背后隱含著巨大的經濟價值。近年來,“大數據”研究已經備受關注。[1]例如,2012年,美國政府在國內發布了“大數據”研究和《發展倡議》,投資約兩億美元發展大數據研究,用以強化國土安全、轉變教育學習模式和進一步加速科學和工程領域的創新速度和水平。繼1993年美國宣布“信息高速公路”計劃后,這項決定標志著美國的又一次重大科技發展部署。美國政府認為“大數據”研究勢必對未來的科技、經濟等各領域的發展帶來深遠影響。在大數據應用的技術需求牽引下,數據科學研究和人才培養引起了各國的重視。美國哥倫比亞大學和紐約大學、澳大利亞悉尼科技大學、日本名古屋大學、韓國釜山國立大學等紛紛成立數據科學研究機構;美國加州大學伯克利分校和伊利諾伊大學香檳分校、英國鄧迪大學等一大批高校開設了數據科學課程。
二、機器學習理論
機器學習(machine learning)是繼專家系統之后人工智能應用的又一重要研究內容,在某種意義上,機器學習或將認為是數據挖掘的同義詞。數據挖掘是指有組織、有目的地收集數據、分析數據,從海量數據中尋找潛在規律,并使之為決策規劃提供有價值信息的技術。機器學習是人工智能的核心部分,在金融、工業、商業、互聯網以及航天等各個領域均發揮著重要的作用。對機器學習研究的進展,必將對人工智能、數據挖掘領域的發展具有深遠影響。
機器學習方法主要包括:Exper System(專家系統)、K-Nearest Neighbor(K近鄰算法)、Decision Tree(決策樹)、Neural Net(神經網絡)、Support Vector Machine(支持向量機)、Cluster Analysis(聚類分析)等。近幾年,研究人員將遺傳算法、神經網絡、系統理論以及當代數學研究的最新進展,應用于金融領域。這使得金融領域數據挖掘在金融管理中備受青睞。例如,產品定價、金融風險管理、投資決策甚至金融監管都越來越重視金融數據挖掘,通過數據挖掘發現金融市場發展的潛在規律與發展動態。機器學習理論及其在金融領域的應用成為了一個比較熱的研究領域。[2] [3]
三、金融數據的特點
在眾多機器學習方法中,基于Logistic回歸、判別分析等傳統的統計方法,對金融模型假定條件非常嚴格,在實際應用中很難達到理想效果。其原因在于對金融數據的非線性和非平穩性的操作具有片面局限性,在實際處理金融數據時,既定假設與金融市場發展實際并不完全一致,這樣可能會影響模型的推廣能力和泛化能力。
基于分類樹方法、K-近鄰判別分析、遺傳算法等傳統的非參數統計方法,其預測能力較好,但不能量化解釋指標的程度。例如,K-近鄰判別分析是一種非參數距離學習方法,通常按照數據樣本之間的距離或相關系數進行度量,這樣會受到少數異常數據點的影響。但是,在相同樣本容量下,如果對于具體問題確實存在特定參數模型可以應用時,非參數方法效率相對較低。以神經網絡、支持向量機等為典型的機器學習方法,優點在于可以有效處理金融數據的非線性特性,并且不需要事先嚴格的統計假設,這樣會表現出較強的適應效果,充分體現人工智能、機器學習等方法的魅力。神經網絡預測精度是各種機器學習方法中相對較好的,因為在一定程度上,神經網絡可以按照任意精度近似非線性函數,為高度非線性問題的建模和算法提供相應支持。盡管神經網絡技術進步有目共睹,但仍然存在一些難題。例如,通常難以確定隱層節點數,并會存在“過學習”現象和局部極小值等問題。
四、支持向量機
傳統的統計模式識別方法是在樣本數目足夠多的情況下進行的,但是樣本數目足夠多在實際問題里面往往難以保證。1968年Vapnik等人首次提出了統計學習理論,專門從事有限樣本情況下機器學習規律的研究。在此基礎上,1995年Vapnik等人首先提出支持向量機(Support Vector Machine,簡稱SVM)的學習方法,它是數據挖掘中的一項新的技術。SVM是機器學習研究領域的一項重大成果,主要研究如何根據有限學習樣本進行模式識別和回歸預測,使在對未知樣本的估計過程中,期望風險最小。近年來,它被廣泛地應用于統計分類以及回歸分析中。近幾年的研究成果表明,SVM在實用算法研究、設計和實現方面已取得豐碩的成果,其在理論研究和算法實現方面都有突破性進展,逐漸開始成為克服維數災難和過學習等傳統問題的有力手段。支持向量機可以成功處理回歸分析和模式識別等諸多問題,并可推廣于預測和綜合評價等領域,因此可應用于管理、經濟等多種學科。支持向量機屬于一般化線性分類器,可以認為是提克洛夫規則化(Tikhonov Regularization)方法的一個特例,其特點是他們能夠同時最小化經驗誤差與最大化幾何邊緣區。支持向量機的優點表現在:1.它通過使用結構風險最小化代替傳統的經驗風險最小化,使用滿足Mercer 條件的核函數,把輸入空間的數據變換到高維的Hilbert 空間,將向量映射到一個更高維的空間里。在這個空間里建立有一個最大間隔超平面,實現了由輸入空間中的非線性分析到Hilbert 空間中的線性分析。2.訓練的復雜度與輸入空間的維數無關,只與訓練的樣本數目有關。3.稀疏性。決定最大間隔超平面的只是少數向量——支持向量,就推廣能力方面而言, 較少的支持向量數在統計意義上對應好的推廣能力。4.本質上,SVM算法是一個二次優化問題,能保證所得到的解是全局最優的解。綜上所述,SVM在一定程度上解決了以往困擾機器學習方法的很多問題,例如,模型選擇與“過學習”問題、非線性和高維小樣本等維數災難問題、局部極小問題等。[4]正是由于SVM具有完備的理論基礎和出色的應用表現,使其在解決高維小樣本、非線性、壓縮感知以及高維模式識別問題中表現出獨特的優勢,正成為自神經網絡之后,機器學習領域中新的研究熱點之一。[5] [6]endprint
同其他機器學習方法比較,支持向量機更具嚴密的理論基礎,因而在模型表現上也略勝一籌,被成功應用于模式分類、非線性回歸,從使用效果來看,其結果較為理想。但從實踐角度分析來看,模型參數的選擇過度依賴人們的實驗方法和實踐技能,在一定程度上降低了模型的推廣泛化能力和應用領域。同時計算方面,訓練時間過長、核參數的確定,在大訓練樣本情況下, SVM面臨著維數災難,甚至會由于內存的限制導致無法訓練。目前支持向量機在金融數據挖掘方面也存在一定的局限性,主要表現以下幾方面:動態適應性、魯棒性、特征變量異質性調整、模型推廣精度等不盡如人意;建模方法與技術還有待進一步完善;支持向量機研究金融數據挖掘和金融問題的成果雖然不少,但大多集中在股票價格和股票市場走勢預測方面,關于公司財務危機預測、套期保值分析、金融市場連接機制分析及其創新成果方面有待加強。
五、結論
大數據時代下金融專業的數學重在以下方面的應用:深度學習(Deep Learning)、機器學習和數據挖掘、分布式計算,如MR、Hadoop等,在大數據中預測最先取得突破的技術環節將會是分析中的大數據挖掘與關聯分析、存儲結構和系統、數據采集和數據化。目前金融問題的研究方向和發展趨勢,主要集中在計量經濟方法,例如,格蘭杰因果分析、向量自回歸、條件異方差、隨機波動分析等。這些計量經濟方法和技術大部分使用了線性技術,以及與金融市場不太吻合的理論假設,基于這些方法的結果,例如,資產預測價格、發展動態以及風險評估結果和實際出入較大,影響了金融管理的效率。對于我們大學教師來說,如何將已有分析數據算法整合,讓學生抓住重點,挖掘到比較可靠的信息或知識,都將成為金融專業數學研究的方向和目標。
[ 注 釋 ]
[1] Anand Rajaraman Jeffrey David Ullman.大數據——互聯網大規模數據挖掘與分布式處理[M].北京:人民郵電出版社,2012.
[2] Kumar, P.R. and Ravi, V. 2007. Bankruptcy prediction in banks and firms via statistical and intelligent techniques-a review. European Journal of Operational Research, 180(1):1-28.
[3] M. Oet, R. Eiben, T. Bianco,D.Gramlich, S. Ong, and J.Wang,“SAFE: an early warning system for systemic banking risk,”in Proceedings of the 24th Australasian Finance and BankingConference, SSRN, 2011.
[4] 沈傳河.金融問題中的支持向量機應用研究[D].山東科技大學博士論文,2011.
[5] Chang C.C. and Lin, C.J., 2001. LIBSVM: A library for support vector machines.
[6] 鄧乃揚,田英杰.數據挖掘中的新方法——支持向量機[M].北京:科學出版社,2004.
[責任編輯:陳 明]endprint