張東澤
摘 要:數據挖掘是人工智能和自然語言理解等相關技術的綜合利用,目的是從大量數據中提取出可利用、有價值的信息或模式。人工智能、數據庫技術、概率與數理統計等技術是現代數據挖掘技術的主要支柱。而數據挖掘過程中應用的技術越多,其得到的結果就越準確。
關鍵詞:數據挖掘;發展進程;應用研究
1 數據挖掘相關概念
數據挖掘與傳統的數據分析(如查詢、報告、在線分析處理)不同的是,數據挖掘的前提假設是沒有明確的信息挖掘和知識發現。數據挖掘得到的信息應該具有未知,有效和實用三個特點。事先未知的信息指的是不可預見的,也就是說,數據挖掘就是發現那些找不到信息,甚至違反直覺的信息或知識,挖掘出更意想不到的信息,可能會更有價值,而且它是一個重要的過程,也可能開采過程不是線性的,而是反復循環,挖掘知識不是通過一個簡單的分析,而是通過大量數據的比較分析,利用一些特殊的處理大量的數據所使用的據挖掘工具才可以實現。
2 數據挖掘的功能應用
數據挖掘的任務通常可分為兩類:描述和預測。描述性挖掘任務顯示數據庫中的數據的一般特征。預測性挖掘任務在當前數據上進行推斷,以進行預測。
(l)通過概念描述發現廣義知識
廣義知識是知識特性的一般描述,是對數據的概括、提煉和抽象。概念描述是對某些對象的內涵進行描述,總結這種類型的對象的特征。概念描述分成特征描述和區別性描述,前者描述特定對象的共同特征,后者描述不同的類和對象之間的區別。生成一個類的特征性描述只涉及該類對象中所有對象的共性。產生區別性描述的方法很多,如決策樹方法、遺傳算法等。概念描述方法和實現技術有很多,如數據立方體,面向屬性歸納等等。數據立方體也有其他別名,如“多維數據庫”、“視圖”、“OLA”等。
(2)通過關聯分析發現關聯知識
數據關聯是數據庫中存在的一類重要的可被發現的知識。如果兩個或兩個以上的變量值之間存在某種某種規律,則稱為一個關聯。關聯可分為簡單關聯、時序關聯、因果關聯。關聯知識是反映一個事件和其他事件之間依賴或關聯的知識。如果兩個或更多屬性之間存在關聯,那么其中一項的屬性值就可以依據其他屬性值進行預測。
(3)通過分類和聚類方法發現分類知識
分類知識反映了同類事物共同性質的特征型知識和不同事物之間的差異型特征知識。其中最典型的分類方法是基于決策樹的分類方法,即從實例構建決策樹,是一種指導學習方法。該方法根據訓練子集(也被稱為窗口)形成決策樹。如果樹不能給所有對象的正確分類,然后選擇一些例外添加到窗口,重復這個過程,直到形成正確的決策集。最終的結果是一棵樹,它的葉子節點是類名,中間節點屬性是一個分支,分支應是屬性的某一個可能值。常用分類技術有貝葉斯分類和貝葉斯網絡、神經網絡、遺傳算法、粗糙集、模糊邏輯等。
(4)通過預測方法得到預測型知識
預測型知識指的是根據時間序列數據,通過歷史和當前數據推測未來的數據,也可以認為這是以時間為關鍵屬性的關聯知識。目前,時間序列預測方法有經典統計方法、神經網絡和機器學習等。1968博克斯和詹金斯已經提出了一套相對完整的時間序列建模理論和分析方法,這些經典的數學方法通過建立隨機模型,如自回歸移動平均模型和季節性調整模型等對時間序列進行預測。因為大量的時間序列是非平穩的,特征參數和數據分布隨時間變化的,因此,僅僅通過對某段歷史數據的分析,創建一個單一的神經網絡預測模型不能準確預測任務。由于這個原因,人們提出了基于統計學和基于精度性的再訓練方法,當發現現有的預測模型不再適合當前數據時,對模型重新排練,獲得一個新的權重參數,建立一個新的模型。
(5)通過偏差檢測得到偏差型知識
偏差檢測對檢測數據庫中常出現的異常記錄是非常有意義的,而偏差知識就是對差異和極端特例的描述,它揭示了事物偏離常規的異常現象,例如在分類中存在的反常實例、觀測值與預測值之間的偏差、隨時間而變化的量值和不滿足規則的特例等。隨著概念層次的提升,這些知識都可以被發現,從微觀到宏觀滿足不同用戶的需要,也能滿足不同層次決策的需要。
4 當前數據挖掘的主要技術
人工智能、數據庫技術、概率與數理統計等技術是現代數據挖掘技術的主要支柱。而數據挖掘過程中應用的技術越多,其得到的結果就越準確。以下是常用的數據挖掘技術:
(1)關聯分析。關聯規則是數據挖掘研究的主要模式之一。通過關聯分析可以挖掘隱藏在數據間的相互關系以及發現用戶瀏覽時的相關頁面,從數據中挖掘出最大頻繁訪問項集,再經過關聯商品喜好分析得出顧客的購物傾向。在電子商務中,用戶關聯分析的典型例子是購物籃分析,描述顧客的購買行為,可以幫助零售商決定商品的捆綁銷售策略如著名的(面包-黃油-牛奶)例子就屬于關聯分析訪問模式。所以網頁上擺放商品的時候可以將面包、黃油、牛奶一起出售,這對于企業確定生產銷售產品分類,設計市場分析等多方面是有價值的。
(2)聚類分析方法。聚類分析就是直接比較樣本中各事物之間的性質,將性質相近的歸為一類,而將性質差別較大的分在不同的類。對變量聚類計算變量之間的距離,對樣本聚類則計算樣本之間的距離它的目的是使得屬于同一類別的個體之間的距離盡可能小,而不同類別上的個體間的距離盡可能大。
在電子商務中,聚類分析常用于市場細分,根據已有客戶的數據,利用聚類技術將市場按客戶消費模式的相似性分為若干細分市場,以進行有針對性的市場營銷,提供更適合、更滿意的服務。通過對聚類的客戶特征的分析,電子商務網站可以為客戶提供個性化的服務。
(3)分類和預測。分類和預測功能可以用來提取描述重要數據類的模型,并使用模型來預測未來的數據趨勢。最常用的算法有判定歸納樹、貝葉斯分類法、距離分割算法等。分類分析是數據挖掘中應用最多的方法,分類是將事件或對象歸類,這樣既可以分析已有的數據,也可以用來預測未來的數據分類,通過分析已知分類信息的歷史數據,總結出一個預測模型,預測哪些人可能會對產品目錄等有反應,可以針對這一類客戶的特點展開商務活動,同樣可以提供個性化的信息服務。
(4)序列模式分析。序列模式挖掘就是要挖掘出交易集之間有時間序列關系的模式。它挖掘的側重點在于分析數據間的前后或因果關系,序列模式中要找到一些項跟隨另一些項,以預測未來。與序列模式分析和關聯分析類似,其目的也是為了挖掘數據之間的聯系,但序列模式分析的側重點在于分析數據間的前后或者因果關系,序列模式便于進行電子商務的組織,預測客戶的訪問模式,對客戶開展有針對性的廣告服務或者主動推薦客戶感興趣的頁面,以滿足訪問者的特定要求。
在實際的應用過程中,上述所有技術往往不是單獨使用的,各種方法的綜合利用才能夠最好的滿足人們的不同需求。
參考文獻:
[1]任新. Web數據挖掘及其在電子商務中的應用研究[D].貴州大學,2008.
[2]沈紅超. 數據挖掘技術在電子商務中的應用研究[D].江南大學,2009.
[3]韓英. 淺談數據挖掘技術在電子商務中的應用[J]. 太原城市職業技術學院報,2013,04:170-171.