黃海波
數據挖掘技術是一種從數據本身進行考慮的分析技術,能夠對數據進行科學分類、數據估計、分類預測、關聯分組以及時序數據列序模式挖掘,通過一系列的挖掘流程運用,得出更加具有價值和意義的數據,為決策提供良好的支持。數據挖掘技術在股票數據分析當中也具有一定的應用價值,數據挖掘技術在股票數據分析中應用,需要深入不同類別算法的特點和算法,從而發揮其運算優勢,得出更加準確地股票數據分析結果,為股票投資提供更加可靠的依據。
數據挖掘技術是一種先進的數據處理手段,能夠通過計算機算法的應用,對數據完成收集、清理、變換等操作,在挖掘運算中實現數據的科學分析,從而挖掘有價值的數據內容。數據挖掘技術在很多行業上都有良好的應用,包括市場分析、價格變動等,而股票數據作為一種具有多樣性、隱蔽性特點的數據類型,在預測上難度更大,利用數據挖掘技術的優勢為股票數據進行分析,也可以進一步提升其數據分析的準確性,從而為股票投資提供有效的幫助。當前很多股票數據分析中通過引入數據挖掘技術的優質算法,實現對股票上市公司的股價漲跌情況預測,并進行走向趨勢分析。而數據挖掘技術中不同算法的應用也存在一定區別,只有深入了解股票數據的特點,對算法進行合理的選擇與優化,才能夠保證其分析結果的準確性。
數據分類
數據挖掘技術具有數據分類功能,可以根據數據的關聯性和數據特征等,對數據進行科學分類。數據挖掘技術的數據分類功能一般需要遵循一定的原則和要求,比如將數據集合的一個特征或者與其他相似特征相比較,并根據其類別的異同進行合理分類,數據分類越準確,數據挖掘技術的應用效果通常也越好。
數據估計
數據挖掘技術具有數據估計的功能,可以根據樣本數據集的模式進行關鍵數據解釋,并進行科學的數據估計。數據挖掘技術中運用了智能化算法對數據進行分析和處理,在這一過程中能夠對數據的屬性和特征進行分析,并通過其關聯性推測和獲取某一未知特性,進而完成數據估計。
分類預測
數據挖掘技術能夠進行分類預測,通常是通過歷史數據的挖掘,通過模型樣本的構建,并通過樣本數據集的模型分類,進而完成分類預測,決策樹、神經網絡等都是其中比較常用的算法。
數據關聯分組
數據關聯分組可以將相關性較高的數據歸為一組,進而構建更加科學的關聯群組,高效快速匯總某一類數據信息,提高數據分析能力。
時序數據列序模式挖掘
數據挖掘技術中時序數據列序模式挖掘也是比較重要的內容,指通過時間序列模式采集樣本,并根據時間序列進行樣本數據的分析,從而推測數據在未來可能發生的變化狀態,對于股市走向、股價變動預測具有重要的意義。
確定挖掘對象
確定挖掘對象是數據挖掘技術的首要任務。數據挖掘技術通常作用于各類數據分析,明確數據分析的目的和意義,以此為基礎選定挖掘對象是極為重要的內容,數據挖掘通常需要遵循相應的流程,由于挖掘結果具有不可預測性,因此明確的挖掘對象通常是盡可能保證結果科學性與合理性的重要條件。不同類別的數據挖掘在挖掘對象選擇中需要進行特定的分析,比如在股票數據分析中,挖掘對象通常為股票歷史價格、上市公司財務數據等與預測結果具有一定關聯性的數據內容,而在實際進行挖掘對象選定中,還需要技術人員結合業務領域、工作經驗等進行綜合分析,保證挖掘的有效性。
收集數據
收集數據是數據挖掘技術應用的重要條件,在這一過程中需要對各類相關數據進行全面收集與合理甄別。收集數據過程并不是將所有無意義數據進行匯總,在數據收集中需要遵循一定的規則和原則,為了保證后續數據挖掘中運算效率的提升,應該加強對無效數據的篩選和優化,盡可能的在收集數據的階段保證數據的價值,從而提升后續挖掘效率,保證數據與目標信息的相關性,更有效的完成數據分析工作。比如股票數據分析中,收集數據中應該結合本次數據挖掘所采用的算法,對其相關指標數據進行收集,對與本次數據挖掘相關性較低的數據進行篩選,以便后續更高效的開展數據挖掘工作。
數據預處理
數據預處理是數據挖掘技術的重要流程。當完成數據收集工作后,并不意味著可以立即將數據導入相應的算法中進行運算,由于收集到的數據在內容上比較復雜,格式上未必完全同意,因此還需要對數據進行預處理,進行數據轉換以及錯誤剔除等一系列工作。數據預處理是將各項指標轉化為統一度量后,便于后續信息數據挖局的操作,在這一過程中需要將數據從高維空間轉換到低維空間,完成數據的歸一化處理,并且對錯誤數據加以剔除,減少后續數據挖掘中的負擔,更好的提升數據挖掘的質量。
數據挖掘
數據挖掘技術中正式進行數據挖掘需要運用到挖掘的有效算法。目前數據挖掘算法中,神經網絡、遺傳算法、決策樹算法、粗集法、模糊集法等,都是比較常用的操作方法。數據挖掘算法的選擇對于數據挖掘結果的準確性具有一定影響,因此在進行數據挖掘時,需要關注對數據類型和挖掘目標的合理分析,在特定的時候運用特定算法解決問題,保證數據挖掘的科學合理性。
信息解釋
信息解釋是數據挖掘流程的重要步驟。數據挖掘技術所得到的結果通常為一連串無意義的數字,只有在進行信息解釋后,才能夠得出最終的結論,因此信息解釋工作流程必不可少。當數據挖掘完成后,需要選擇簡單、明了的圖表模式,對挖掘結果進行展示,并且結合文字敘述等方式對挖掘得到的數據結果進行科學分析,提升挖掘結果的價值性。
關聯規則的應用
關聯規則是數據挖掘技術中比較常用的操作方法,能夠通過不同事物之間的關聯和依賴性分析,找尋不同特征之間的影響力,從而保證數據分析結果的準確。關聯規則在股票數據分析中具有良好的應用,通過關聯規則的利用能夠幫助投資者進行股票相關數據的分析,輸入股票上市公司營業總收入同比增長率、上市公司總資產凈利率、公司負債合計、總資產周轉率以及經營活動產生現金流等各類數據,運用關聯規則對上述數據內容進行分析,探究其與股票上漲或下跌的關系,即可更好的對股票上市公司的股價走向進行分析。在現實應用中,想要確定股票上漲關聯度較高的指標,需要對關聯規則進行有效分析與合理應用,由于股票上市公司數據屬于連續性變量,在挖掘關聯規則時,往往無法直接挖掘,因此需要根據相應的規則和流程進行數據的預處理。對上市公司財務指標頻繁項集以及規則數目進行數據收集,并且采用離散化處理方式進行處理。去除收集數據當中的噪聲數據、重復數據以及不完整數據等,用得到的價值屬性較高的數據開展下一輪的深層數據挖掘分析,從而計算各類平均值。關聯規則的數據分析中,得出各項指標平均值后,可以通過比較平均值與股票數據,將大于平均值和小于平均值的股票數據進行字母轉化,并利用篩選的方式進行漲跌劃分,從而選定上漲關聯度高的指數。在相關研究中,股票上市公司營業總收入同比增長率、上市公司總資產凈利率、公司負債合計等,都是與其股票漲幅相關的指數,應該在股票數據分析中引起足夠的重視。
決策樹的應用
決策樹是數據挖掘中常用于進行預測模型的算法,能夠將大量數據有目的分類,從而找到具有價值的信息,具有分類簡便、速度快等優勢,決策樹算法在股票數據分析中也具有良好的應用價值。運用決策樹算法可以對上市公司股票進行簡單快速的分類,通過漲跌值的評估分析,選擇優質的股票池,從而進行投資。決策樹在快速篩選股票種類中具有良好的效果,但為了保證股票數據分析的準確性和有效性,在決策樹的具體應用中同樣需要注重算法的優化,合理進行股票數據集指標特點的分析,進行信息增益計算,利用信息熵以及增益值等計算結果為數據分析提供良好條件。股票數據信息熵計算一般需要根據其數據集合進行運算,在得出信息熵的計算結果后,然后完成信息增益值計算,而后對股票數據指數中增益值進行比較,盡可能選擇增益值大的指數作為決策樹的根節點,為后續決策樹的發展奠定良好基礎。在同類型研究中,利用決策樹進行上市公司股票信息增益值計算,結果顯示,信息增益值量最大的是總資產凈利率。因此在進行決策樹構建時,可以考慮將總資產凈利率作為根節點,根據其取值不同進行子集劃分,而后完善本枝上的葉節點,并以其他股票指標作為決策樹分枝,依次完成決策樹的構建。決策樹能夠通過相對簡便、快捷的方式對股票進行分類,運用算法的優勢為投資者選擇優質股票,從而實現資產收益的優化。
聚類算法的應用
聚類算法也是數據挖掘技術中具有良好分類作用的一種算法,能夠根據一定的分類規則對數據進行分類,從而實現對資產聚合構造的優化,更好的完成數據的分析,在股票數據分析中聚類算法的應用效果也比較好。聚類算法是一種并沒有事先確定物體類別的分組方式,聚類算法在分類規則上更加具有自主性,可以根據自己定義的規則進行數據特征的劃分,將不同事物根據其特征進行分類,而后進行數據的挖掘,在聚類算法應用中聚類組內的數據越接近,組間差異越明顯,其聚類結果也越準確。目前比較常用的聚類算法有K均值、EM算法、DBSCAN等,在進行股票數據分類時,通常會考慮與股票漲跌相關的財務指標等作為分類集合。而在具體進行如現金與約當現金、應收款項、存貨、非流動資產、應付款項、負債占資產比率等不同指標聚類運算時,則需要根據其財務指標的范圍、度量單位等進行有效研究,在保證各項指標轉化為統一度量后,再進行聚類劃分,這樣能夠更好的提升聚類算法的準確性。聚類算法用于股票數據分析,可以通過數據標準化處理,將各類數據指標進行運算,通過聚類方式的應用讓優質股票聚類,從而為投資者提供更加準確股票投資指導,提高股票預測的價值。
神經網絡的應用
神經網絡是數據挖掘技術中應用價值極高,能夠為各類數據提供系統分析的算法類型,神經網絡具有魯棒性、自組織自適應性、并行處理以及分布式儲
存等優勢,能夠幫助數據挖掘進行分類、預測以及模識別等各種優質活動。神經網絡技術在股票數據分析中也具有良好的應用效果,是現階段用于分析股票變化趨勢的有利條件,神經網絡可以通過導入股票歷史價格,通過非線性變化趨勢的分析與儲存,對股票的未來走向進行預測。神經網絡對股票價格變化趨勢的分析是相對科學的,在利用神經網絡技術進行數據挖掘時,需要在神經網絡輸入元中進行開盤價、最高價、最低價、收盤價、成交量、成交額、移動平均線等數據的輸入,需注意由于神經網絡數據分析上的特點,在進行原始數據輸入時,一定要注意數據的歸一化處理,完成數據預處理后再應用神經網絡進行分析。而通過神經網絡運算,能夠在網絡輸出元得到預測的股票收盤價,從而實現股票走勢的預測。神經網絡算法中,各類分析預測的神經網絡模型可靠性與先進性,是保證其準確性的重要條件,art模型、koholon模型、hopfield的離散模型、連續模型等都是神經網絡算法中比較常見的類型,而在股票數據預測中,有研究選用了BP神經網絡模型進行運算。BP神經網絡是一種包含隱含層數、隱含層數單元數和其他參數的設定環節,將股票相關數據導入BP神經網絡中進行運算,并將輸出結果代入MATLAB系統,可利用系統計算其股票價格預測結果。而研究結果顯示,BP神經網絡在股票價格走勢預測中有良好的效果,但為了進一步減少誤差,仍需要進行算法的不斷優化,提升其精度。
數據挖掘技術在各行業發展中都有較高的應用價值,而在股票數據分析當中也具有良好的前景。數據挖掘技術能夠對股票上市公司數據進行深挖,綜合分析其公司總資產凈利率、公司負債合計、總資產周轉率以及經營活動產生現金流等各類與股票漲跌具有相關性的內容,通過數據的處理與分析得出更加準確地股票的上漲下跌情況,預測股票發展趨勢。數據挖掘技術中,關聯規則、決策樹、聚類算法以及神經網絡等技術的應用,能夠通過算法優化,幫助進一步提升其數據分析的準確性,發揮數據挖掘技術的優勢。
(重慶交通大學數學與統計學院)
參考文獻:
[1]張雪英.軟件工程中數據挖掘技術研究[J].網絡安全技術與應用,2022, 17(04).
[2]薛陽.經濟統計中數據挖掘技術應用分析[J].質量與市場,2022,03(03).
[3]阿不都艾尼·阿不都肉素力.計算機數據挖掘技術的開發及其應用研究[J].電腦知識與技術,2022,18(03).
[4]王穎穎,晁緒耀.數據挖掘技術在股票數據分析中的應用研究[J].科技創新與生產力,2021,25(10).
[5]李思佳.基于Python的股票數據可視化分析——以新能源汽車行業為例[J].河北軟件職業技術學院學報,2021, 23(03).
[6]張鷺.大數據挖掘技術在財務分析中的應用[J].輕工科技,2021,37(07).
[7]汪欣雨.基于Apriori關聯規則的材料領域股票數據分析[J].全國流通經濟,2019,20(20).
[8]楊娜,張艷敏.基于粗糙集聚類算法的股票數據分析方法研究[J].科技經濟市場,2017,11(06).
[9]郭宇澄,許思遠,魏正亞.數據挖掘技術在股票預測中的應用探討[J].電子世界,2017,24(10).
[10]孫曉宇,李卓然.基于線性時間序列模型對金融數據分析——以云南白藥股票數據為例[J].時代金融,2016, 20(14).