周宏印 南京萊斯信息技術股份有限公司
導言:計算機數據挖掘技術的出現時間較短,但是應用范圍擴展特別迅速,這是一項結合計算機技術和統計學,以及最新的云設施的新技術,所以不能把它簡單歸類在統計技術或計算機技術中。在信息化時代,信息數量在成幾何數字增加,但是對于數據的檢索卻變得十分困難,原有的搜素引擎只能搜索到小部分數據。但是想要更多的數據就要采用數據挖掘的手段。數據搜索采用多個方面的搜素,首先對信息對象的文件屬性,特征查找,然后對信息的不同角度進行處理。
所謂數據挖掘技術,就是幫助人們在眾多信息中查找出所需要信息的一種技術,該技術在我國出現的時間比較晚,但卻以其特殊的功能得到了快速發展。該技術不僅具備計算機技術的特性,同時還兼具了統計學功能。在信息數量不斷增加的今天,想要從中搜索到需要的信息不是一件簡單的事,計算機數據挖掘技術成功地為人們解決了這個困擾,受到了越來越多人的歡迎。
所謂有了目標才有方向,因此在進行數據挖掘之前,我們必須先明確目標,確定數據挖掘技術需要解決的現實問題到底是什么,從而根據問題和目的意義,尋找適宜的手段,根據我們需要解決的問題梳理思路和方法,從眾多數據挖掘方法中選取最適合的挖掘方法,并確定數據挖掘的數據庫。接下來根據問題從數據庫中提取適合數據挖掘的目標數據,并進行初步的數據處理,除去無關信息,方便后面讀取數據處理的速度,也在這個預處理過程中有效的檢驗數據是否有誤,通常金融類數據需要填補空缺值處理、對數收益率計算等相關處理,讓數據序列精簡有用,這是數據處理當中,非常基本和必要的一步,對之后的深入研究和挖掘起決定性作用。在對數據進行了初步預處理之后,我們根據數據列進行數據挖掘。通常在數據挖掘算法中需要構建數學模型,并在計算機上使用數學模型和算法,進行編程計算獲得相應結果。得到結果之后,需要對結果進行檢驗,檢驗其是否能達到數據挖掘的目的,數據結果是否符合相對應的現實意義,如果結果不符合要求將重新選擇數據挖掘算法和模型。最后將結果用于說明實際問題并指導實際工作,從而獲得數據挖掘的現實價值。
要想得到有效的信息,就需要從計算機系統中獲得的信息入手,但是當前的網絡信息中存在不少的隱性信息,這些信息的獲得就要依靠計算機數據挖掘技術。采用計算機挖掘技術可以有效的抓取隱性信息的某些特征,當利用散點圖的方式將這些隱性信息表現出來。所以可視化技術是計算機數據挖掘技術開發項目中的一個重點。
網絡是復雜的,其中的網絡信息和數據更是十分的龐雜,要想快速、準確的抓取到自己想要的信息,需要依靠聯機分析出不同地域和時段的多維數據,聯機分析處理方式需要依靠用戶的配合。在處理多維數據時,需要所有計算機用戶自行的使用或者篩選出分析算法,利用這些分析算法對數據做處理,這樣對探索數據也有巨大的推動作用。
計算機數據挖掘技術的開發中需要對決策樹進行規則化建立,決策樹是一項重要的開發項目,因為決策樹的作用是發揮預測和分類的功能,對所處理的數據信息進行具體的預測和分類。目前開發的決策樹算法已經有很多種,主要有SLIQ、SPRINT、ID3、C4.5等,SLIQ算法具備連續性屬性,還可以對數據做出具體的分類,SPRINT算法與SLIQ算法有同樣的功能屬性,并且這兩種算法可以通過大型訓練集對決策時做出歸納。
現代消費者在購物的時候,利用POS機刷卡結賬的行為非常普遍,而在這個過程中,關于這些消費者的一些信息就可以被銷售商所采集,并且消費者越多,銷售商所采集到的有用信息就越多,這些信息對于市場營銷具有非常重要的作用。不同的銷售商或者生產商,可以根據所采集到的有用信息,分析消費者的各種不同需求、購物習慣,從而進一步分析消費者的消費心理,最終對消費者的下一步消費行為進行推斷。例如,企業可以利用消費者使用信用卡的情況分析商品的銷售情況,也可以通過某些促銷活動,確認消費者的消費意向等等。以上種種分析結果,都離不開計算機數據挖掘技術,由此可見,計算機數據挖掘技術不僅能夠幫助相關企業了解顧客需求,而且還能夠為企業進行重大商業決策提供準確數據信息,大大增強了企業的市場競爭力。
投資評估與股票交易市場預測是金融分析的典型領域,一般以模型預測法來進行分析,包括統計回歸技術等,因為金融投資是一個風險較大的領域,在進行投資前一定要進行各種數據分析,對于各種風險進行有效規避,選擇最佳的投資方向。由于事物的發展都有一定的趨勢,可以進行預測,從投資評估到股票市場預測,對于數據的分析都可以從中推理出一定的發展情況,對于已有數據進行處理,根據數據之間的關系進行深入挖掘,根據一定的模式進行合理的預測。鑒別潛在的欺詐行為,許多商業銀行經常發生的惡意詐騙行為、惡意透支行為,對于銀行來說都是非常嚴重的威脅,預測這些詐騙行為將有助于降低銀行的風險,一般采用對比分析正常行為與詐騙行為的方式來鑒別,分析詐騙行為的獨特性,對比正常行為與詐騙行為,一旦出現需要警惕的現象時提醒決策人員,目前許多公司都研發了這一類的軟件,針對商業銀行的欺詐進行評估,對于有風險的交易行為予以探究。對與日漸猖獗的洗錢活動等犯罪,數據挖掘技術都可以極大的提高其預防效果。
金融企業是具有一定風險的企業,其重要的就是要對投資的風險做出評估,這樣,才能在我們金融企業進行投資時把風險降到最低。這時,金融企業就利用計算機數據挖掘技術對我們的投資項目進行評估預測。如:在企業收購股票時,就要根據這只股票歷史走向的數據做,從而做出評估,在做出較為精準的判斷和選擇。在金融業涉及到借貸款的問題時,企業要根據貸款對象日常的誠信做出調查,然后再進行數據的挖掘統計,從而判斷出貸款對象是屬于低風險還是高風險。由此可見,計算機數據挖掘技術對金融企業的投資、貸款有著重要的作用。
結語:數據挖掘是一個重要的工具與方法,雖然不是萬能的,但是對于一些潛在的客戶、風險都可以加以挖掘,即使其不能告知為什么形成這些潛在的利益或風險,但是卻可以使得這些潛在的用戶變為現實。數據挖掘技術在諸多領域都得到了廣泛的應用,隨著數據庫以及計算機技術的迅猛發展,對于許多過去較為棘手的問題現在通過數據挖掘技術都可以得到良好的解決。