秦文靜 四川交通職業技術學院
在計算機技術的發展過程中,計算機數據挖掘技術的發展歷史并不算長,但是由于市場的巨大需求和研發人員的不斷努力,計算機數據挖掘技術得到了迅猛的發展。這是現代信息社會各種信息技術的結合領域,若是對該技術進行嚴格的定義和劃分時較為困難的,現階段的信息化社會,信息的交流速度已經遠遠超過人們的想象,不僅有大量的需要記錄的數據,而且還有許多需要進行研究、分析和歸類的數據,數據的大量變化就要求技術要能夠及時進行更新跟上時代的發展,傳統技術在進行大數據處理時往往存在覆蓋面較小的問題,而基于不同學科之間技術的家算計數據挖掘技術則具有較大的覆蓋面,具體主要表現在:首先,該技術能夠根據數據自身具有的特點和屬性進行有效的歸類,這樣便于存儲和查詢;其次,還能識別數據內在中存在的不同點,對數據進行分類;再次,就是該技術還能識別不同類型數據之間的關聯關系,這樣就能建立數據之間的互聯關系;最后,就是可以對大數據進行分析,根據數據之間存在的關系對該行業之后發展的趨勢進行分析,而且具有極地的數據監測錯誤率。
傳統的數學上的統計方法,主要是包括對數據進行記錄,然后利用抽樣、多維度分析和最后根據數據的分析做出預測這樣的統計方式。抽樣主要是對于數據較多時,為了能夠對于數據集準確又不失科學性的研究而進行對整體進行抽樣;多維度分析則是對于較為復雜的數據進行分解為不同的因子進行分析。這些統計方法都是數學上的統計方法。
數據特征的表現一直都不是非常的明顯。在統計學上這種情況一般會采用加間數據制作成表格的形式來進行分析,制作成表格不僅會對于數據具有一目了然的分析,而且還能把數據所包含的內容至關的表現出來。主要是利用散點法等統計方法進行分析。對具有較高可視化和高維度的數據來說,當前如何將這些數據至關的體現所包含的內容給技術急需解決的問題。
在當今的數據互聯時代,對于數據聯機進行數據之間的溝通已經成為計算機技術對于數據處理最基礎的技術。通過在不同計算機之間進行聯機來實現對于多維度的復雜數據的分析,不同部門甚至是不同的行業之間的數據互聯要充分做好協調合作,這樣才能根據數據體現的信息進行分析和對數據進行篩選計算,從而能夠對數據進行深層次的研究和分析。
樹狀圖一種較為常見而且應用廣泛的統計學手段。主要是根據數據的類型然后按照一定的規則進行劃分,主要是應用于數據的劃分和統計。目前主要的算法都能夠對于數據進行決策歸納,具有數據處理的分類和連續屬性。
這是一種仿生學的技術,主要是利用人類神經元對于信息的敏感度和傳輸速度進行的仿生技術。主要按照人類神經元的信息傳輸和處理方式劃分為三層,以實現對于數據的存儲和傳輸。
優勢一個典型的仿生學案例,主要是利用人類進化論的自然科學知識,根據生物進化過程中出現的基因的各種改變而作為基礎的一種技術。根據試著生存這樣最為簡單的生物進化理論,來對于大數據進行篩選和歸類處理。基于這一思想而得到的算法技術,能夠對于數據處理模型更進一步的優化處理。
在大型超市里面對于數據的管理就是這種技術最貼近生活的應用。用戶咋購買貨物時可以通過貨物管理系統和金錢POS機管理系統進行對于商場的經濟效益管理,尤其是在現今社會中移動支付的便捷應用和條形碼、二維碼等快捷連接應用到移動支付中。在市場中由于用戶的不斷增多,在某個階段甚至會成為市場數據統計的一種負擔,為解決這一為題,在市場營銷過程中,可以對于較為熟悉的客戶的購買習慣、購買行為等數據進行記錄和分析,這樣能通過分析以此來判斷客戶的購買意向和興趣,通過對于這些數據的總結能夠分析出該市場的經濟效益主要來自于那些商品,能極大提高市場的市場營銷能力和為市場之后的發展提供借鑒的數據,有利于和其他市場進行競爭。對于超市和商場這樣的大型購買機構,自由通過對于客戶的購買數據進行充分的挖掘,這樣才能夠準確的分析出市場的走向和客戶購買的的意向,這樣高層領導才能根據數據進行科學的決策。而現今市場上的數據一般會分為兩類,一種是傳統的數據庫方式,另一種則是貨籃營銷方式,前者主要是利用數據庫的優勢對于客戶購買的意向進行分析,通過交互式互動方式來對于潛在的客戶進行篩選,這樣就可以有針對性的進行市場營銷策略,系統自動分析客戶之間的關系,然后進行維護。對于該貨物的零售階段的表現進行記錄和分析,包括商品的購買數量和售后的反饋等一系列數據。通過分析顧客和改商品之間購買關系來發現一定的規律,然后通過打折等營銷手段進行商品的促銷工作。
投資分析和股票在市場之間的交流已經成為金融市場主要的交流方式。在對于金融領域進行分析時,要充分考慮到市場的影響以及該行業的特殊性。因此一般會采用模擬預測的方法來進行分析,包括數據統計回歸技術等。由于金融行業投資的特殊性和較大的風險性,在投資之前必須對于該行業數據的各個方面進行分析,盡量規避投資中的風險和陷阱,做到投資的穩定性。而任何事物都可定具有一定發展規律的這一自然定律,在股票市場從開始投資到股票市場的變化都可以根據一定的數據分析進行簡單的預測和分析.在對于已經擁有的數據進行整理和分析過程中,要結合現在的形勢進行分析,同時要對不同數據之間的關系進行充分的深層次挖掘,根據一定的科學的模式進行預測。鑒于股票市場的復雜性,這中間充斥著錯誤的數據和結論,航多股票機構為了吸引股民能夠入股,因此存在明顯的惡意欺詐行為等不道德甚至違法的行為,這些不僅會嚴重影響股民的利益,而且還會對國家的經濟造成不好的影響,這是就需要通過對比和分析和之前數據的方式進行甄別,分析不同詐騙行為之間的共性和不同點,在對比過程中總結經驗,對于之后可能存在的詐騙行為進行大量宣傳,開發相應的軟件能夠對與投資的風險進行評估,這樣不僅能夠降低危險投資的風險性,而且還能極大的抑制金融方面的犯罪活動。
隨著電子行業的不斷進步和發展,半導體制造業已經成為衡量國家生產水平的關鍵產業。在半導體的生產和測試過程中都會產生大量數據,通過計算機技術的與數據的挖掘能夠分析出產品質量的好壞和產品對于市場的適應程度。在電子商務中,數據挖掘技術也能夠通過對于數據的挖掘,來分析客戶的網上瀏覽記錄以此來分析該客戶的電子商務購買經驗。
數據挖掘過程分為數據準備、模式發現、結果表達和解釋三個主要階段,圖1給出了交通數據挖掘的系統模型。

ETL及數據預處理為交通信息的模式發現提供一個干凈、一致、集成、歸約(reduction)的數據集-交通信息數據倉庫。數據挖掘任務管理在數據挖掘算法集中選擇完成挖掘任務的算法,在交通數據倉庫中選擇挖掘算法應用的數據,執行相應的挖掘操作,將挖掘得到的模式保存到交通信息模式庫。
交通數據挖掘系統的系統模型提供了一個多層的應用體系結構,將數據挖掘功能的實現分為應用層、分析邏輯層、算法工具層和數據層。應用層是用戶調用分析邏輯所設立的分析功能的入口,分析邏輯則表現了應用系統的分析能力。多層體系結構能夠在跨平臺、網絡環境下應用,應用系統可以根據需要采用靈活的方式,如B/S、C/S等。在交通數據挖掘中,分析功能的抽取及響應、數據挖掘算法的選取、設計是一個難題,需要交通系統的利用知識和數據挖掘技術的緊密結合。分析邏輯層將分析模型從實際分析需求中提取出來,完成一定的獨立分析功能,由一個或多個數據挖掘算法具體實現,每個分析模型都是獨立的功能單位。
算法工具層集中了交通流分析需要的算法及相關計算工具,如挖掘各種模型的數據挖掘算法、統計方法、相似性度量方法等,是各個獨立的算法工具的集合。在算法工具層,除了數據挖掘算法外,還應當由數據挖掘算法所需要的輔助工具,如對于聚類算法,相似性度量或距離函數是關系到聚類質量的核心問題,不同的相似性獨立或距離函數針對不同的數據或分析目標,在算法中可以根據需要來選擇配置。
交通數據挖掘系統與其他智能交通系統的應用接口,并接收應用系統的反饋信息對交通信息模型庫的模式進行解釋與評價。
交通數據種類繁多,分布在各種智能交通應用系統中,具有異構、層次的特點,交通數據挖掘需要將各種交通數據從操作數據庫中抽取出來,經過清洗、轉換、裝載等一系列處理,集成到一個統一的本地交通信息數據倉庫。數據倉庫為數據挖掘提供有效的數據處理平臺,許多數據挖掘功能,如分類、關聯、聚類等,都可以與各種粒度的多維數據分析OLAP操作集成,在多個抽象層上交互數據挖掘。
數據挖掘技術是一種數據處理的重要手段,雖然在某些方面還是存在缺陷,但是在現今社會的很多方面都能夠發揮其作用,不僅能夠分析市場形勢,還能夠根據數據存在的信息對風險進行規避,這能極大的提高這些行業的經濟效益。現階段數據挖掘技術已經應用廣泛,隨著數據庫不斷應用到各行各業,過去很多在數據處理上的難題都能夠得到處理和解決。
[1]鄭繼剛.數據挖掘研究的現狀與發展趨勢[J].紅河學院學報,2010,12:44-46.
[2]朱世武.數據挖掘運用的理論與技術[J].統計研究,2003,08:12-14.
[3]李華.數據挖掘理論及應用研究[J].斷塊油氣田,2010,01:51-54.