沃爾瑪的“啤酒和尿布”的經典案例不少媒體都曾報道過:就是沃爾瑪通過建立的數據倉庫,按周期統計產品的銷售信息,經過科學建模后提煉決策層數據。結果發現,每逢周末,位于某地區的沃爾瑪連鎖超市啤酒和尿布的銷量很大。進一步調查表明,在美國有孩子的家庭中,太太經常囑咐他們的丈夫下班以后要為孩子買尿布,而丈夫們在買完尿布以后又順手帶回了自己愛喝的啤酒,因此啤酒和尿布一起購買的機會是最多的。之后該店打破常規,將啤酒和尿布的貨架放在了一起,使得啤酒和尿布的銷量進一步增長。
“買啤酒時也會買尿布”,這一規律的抽象表示就成了數據挖掘里的關聯分析法,我們可以簡單地表示成如下形式:
If someone buys diaper then he buys bear.
即:
diaper=>bear
這是一條關聯規則,當然在實際應用中,這里面有“他有多大可能性同時買啤酒和尿布”和“他在買尿布后有多大可能性買啤酒”等問題需要考慮。
從海量的原始數據中,找出隱含在其中的、我們事先不知道的、但又是潛在的有意義的知識和信息,從而利用這些知識來指導我們的活動,這便是數據挖掘的初衷。數據挖掘技術是數據庫研究中最活躍的分支之一,它綜合利用了人工智能、數據庫、機器學習等多個領域的理論和技術。目前,數據挖掘已經被廣泛地運用于各種金融分析、市場分析等多個領域。比如在零售商日常的經營中,每天又會產生大量看似龐雜的信息,而在這些信息背后蘊藏了豐富的經營技巧和市場規律。通過數據挖掘的手段找出這些規律和知識,來直接指導我們的經營活動,給顧客提供最直接最周到的服務,以及通過分析顧客消費和忠誠度的變化,據此對價格和商品的花樣進行調整,一邊留住老客戶,吸引新客戶。
近年來傳統的數據挖掘的思想在Web知識發現中也有了廣泛的應用,即通過分析Web使用者訪問網頁的路徑和在不同頁面停留時間等原始資料的分析,提取出我們需要的模式,來規劃網站的拓撲結構,給不同的用戶群定制個性化的服務,這給電子商務的發展增加了不可低估的活力。