裴洪文 裴錚

摘 要:本文對證券投資市場的數據背景進行了分析,目前證券市場有近四千家上市公司,非常需要利用人工智能的方法來處理數據并對市場的變化趨勢作預測。對數據挖掘(獲取)技術進行了分析,同時分析了數據挖掘過程和依據,研究了數據挖掘技術在證券投資市場上的應用,研究了時間序列模型預測和神經網絡預測模型分析方法,并利用二種預測方法進行了軟件模擬仿真,結果表明神經網絡模型預測比較有效。
關鍵詞:數據挖掘 ;數學模型 ;人工智能 預測
1研究背景及意義
證券投資可以實現資產增值,支持社會融資,化解供求雙方的壓力,傳遞經濟優化配置等功能,已成了各級政府部門、眾多企業和眾多投資者關心并積極參與的經濟活動。由于證券投資市場具有的投資收益和風險是正相關的,收益越高的投資則存在的風險也越大。近年來,證券投資已經成為人們日常經濟生活的一個重要組成部分,證券市場的漲跌對人民生活、經濟活動的影響日益增大,如果能有效預測證券市場股票價格的走勢,將會對人們的投資理念、投資理財水平產生巨大的影響,還可以對國民經濟的發展提供有價值的參考依據。
對證券市場的股票進行預測,主要利用三點基本假設:即市場行為涵蓋一切信息;股價變化有趨勢可以遵循;歷史會重演。隨著股市的發展,人們不僅探索其內在的有關規律,并對此進行逐步深入的研究,同時找出了許多對股市的預測方法。但影響股票價格的因素有許多:如政策、經濟發展狀況、股票投資者的心理因素等,這些因素相互交織,相互影響,相互約束,股票的價格波動表現出較強的非線性特征,僅用線性分析會產生較大的誤差,同時股價的變化呈現出隨機特性和時變特性,如何發掘股價的變化規律,是經濟研究中的一個非常有意義的問題。
股票的分析涉及大量的復雜數據的提取,以及大量的數據運算,不可能單靠人工來完成獲取數據,處理數據,傳輸數據,儲存數據的過程,也不可能完成這些處理過程中涉及到的大量的數據的算術和邏輯運算。影響股票的走勢因素太多,股票市場中的數據含有較多的干擾因素即噪聲,在線性條件下,可以設計相應的濾波器將這些噪聲部分清除,但在非線性條件下,難以用濾波器處理,要求股市的預測應當具有比較強大的非線性問題的處理能力。股市的數據有時反映了投資者的主觀性,特別是投資者的心理因素影響很大,為了得到比較可靠和有效的股市模型及預測結果,人工智能的研究利用給我們提供了相應的解決方法。
2數據挖掘分析
2.1概念
隨著國內證券市場的發展,股票市場提供的數據越來越多,激增的數據背后含有許多重要的信息,做分析決策對數據的依賴性和敏感度也越來越也高。數據挖掘技術作為股票市場的分析和決策工具已經得到越來越多的重視。
數據挖掘是從大量的、不完全的、有噪聲的、模糊的、隨機的數據中 ,提取隱含在其中的、人們事先不知道的、潛在有用的信息和知識的過程。從證券市場應用的角度,根據預定的分析目標,對大量的上市公司數據進行必要的檢索,抽取和適當的分析,揭示這些數據隱含的變化規律,并進一步將其模型化的先進有效的技術過程。數據挖掘是一門交叉學科,是人工智能中一個重要技術,集成了許多學科,包括數據庫技術、統計學、機器學習、模型識別,人工智能、建模技術、電子技術,信息技術等成熟的工具和技術。
2.2數據挖掘過程
分為定義問題、數據的收集和預處理、數據挖掘、結果分析及知識的應用等五個過程。
(1)定義問題:清晰的定義出證券市場的問題,確定數據挖掘的目的。
(2)數據的收集和預處理:包括數據選擇、數據預處理和數據轉換、數據選擇的目的就是確定數據挖掘任務所涉及的操作數據對象;數據預處理通常包括消除噪聲、遺漏數據處理、消除重復數據、數據類型轉換等處理。
(3)數據挖掘:根據數據功能的類型和數據的特點選擇相應的算法,在凈化和轉換過的數據集上進行數據挖掘。
(4)結果分析:對數據挖掘的結果進行解釋和評價,轉換成為能被證券市場用戶理解的知識。
(5)知識的運用:將分析得到的知識集成到業務信息系統的組織結構中去。
3數據挖掘技術在證券投資市場上的應用
3.1數據挖掘的依據
(1)關聯:證券股票市場與當期的匯率變動情況,利率變動情況,國民經濟的發展狀況的關聯,某一證券與該證券所屬行業板塊、所屬區域板塊及整個證券市場的相關分析,股價變化與關聯因素影響分析,不同地域、不同行業的股票關聯情況分析。
(2)技術:對各種指標和數據的排序、分類,研究它們具有的技術特征和影響程度,對股票價格波動的技術指引。
(3)在線投資分析:對成交量、板塊進行分析,對預測結果進行驗證,對股價的變動規律、未來行情走勢做分類、探討不同投資結合效果,提出構建綜合的科學方案。作出必要的收益和風險的評判。
3.2時間序列模型預測分析
通過編制和分析時間序列,根據時間序列所反映出來的發展過程、方向和趨勢、進行類推和延伸。從歷史各個時間間隔的股票價格漲跌、交易量變動的交叉信息中,分析出大眾的投資心理和投資趨向。
用T來表示長期趨勢值,用S表示季節變動值,用I來表示不規則變動值,可以用兩種方法計算未來的時間序列預測值Y:
加法模式Y=T+S+I
乘法模式Y=T×S×I
在股票預測常用的時間序列分析法主要利用建立自回歸模型AR,移動平均模型MA,自動回歸和移動平均模型ARMA和齊次非平穩模型ARMA,通過選擇模型的參數和辨識模型的系數來實現對時間序列擬合的模型預測。
3.3神經網絡預測分析
(1)人工神經元模型
4結論
本文利用數據挖掘方法中的時間序列分析方法及神經網絡分析方法對同一股票,同一板塊股票進行了預測。利用SQL平臺建立時間序列預測模型和神經網絡模型。對預測結果進行了對比,時間序列分析基本上能夠預測出當時的收盤價走勢,預測的二十只股票,有五只誤差在5%以內,有七只誤差在10%以內,其余在10%以上,而利用神經網絡預測分析的二十只股票有八只誤差在5%以內,有十只誤差在10%以內,其余超過10%。可以發現時間序列預測方法相對較簡單,利用的算法比較直觀,但由于該算法的特點,預測誤差有些大。人工神經網絡方法預測結果相對較好,缺點是運算量過大,算法較復雜。
隨著云計算、大數據及人工智能技術的發展,利用神經網絡預測變得越來越方便,越來越精準,越來越有效。神經網絡的預測技術將會更有發展前景。
參考文獻 :
[1]鄧松,李文敬等.數據挖掘原理與SPSS Clementine應用寶典[M] .北京:電子工業出版社 2009;
[2]廖芹,郝志峰等.數據挖掘與數學建模[M].北京:國防工業出版社 2010;
[3]Abarbanell,Bushee,Fundamental analysis ,future earnings and stock prices. Journal of Accounting Research,2012 , 35(1):88-90;