超市里,牛奶到底和哪種商品擺放一起銷量更高?啤酒為什么與尿不濕擺放在一起會賣得更多?乍一看,它們似乎毫無聯系,而大數據挖掘卻能告訴你它們之間的關聯。那么,大數據挖掘是什么呢?又有哪些方法?
簡單來說,大數據挖掘即指從大量數據中自動搜索隱藏于其中的有著特殊關系性的信息的過程,其常用方法有分類、聚類、回歸分析、關聯規則、神經網絡方法、Web數據挖掘等。
數據被喻為蘊藏能量的煤礦,就像煤炭可以分為焦煤、無煙煤、肥煤、貧煤等一樣,每種數據也有自身的特點,比如頻率、量、速度、類型和真實性等等,從而將數據分出來。像好壞、高低、胖瘦……這些就是生活中最簡單的分類方法。
再比如,信用卡公司將持卡人信譽分為良好、一般和較差三類,如果建立“信譽良好的客戶是那些收入在5萬元以上,年齡在40至50歲之間的人士”這樣一個模型,就可以根據這個模型對新的記錄進行分類,從而判斷一個新持卡人的信譽等級是什么。
聚類與分類相似,但目的不同。聚類是針對數據的相似性和差異性將一組數據分為幾個類別。屬于同一類別的數據間相似性很大,但不同類別之間數據的相似性很小,跨類的數據關聯性很低。
比如在商務上,聚類能幫助市場分析人員從客戶基本庫中發現不同的客戶群,用購買模式刻畫不同的客戶群的特征;在生物學上,聚類能用于推導植物和動物的分類,對基因進行分類,獲得對種群中固有結構的認識。聚類在汽車保險單持有者的分組,及根據房子的類型、價值和地理位置對一個城市中房屋的分組上也可以發揮作用。
什么會促進蛋撻的銷量?是颶風,颶風天氣下蛋撻更受歡迎;啤酒與哪類產品擺放在一起會賣得更多?是尿不濕,父親們在購買尿不濕的時候總是喜歡再買些啤酒……這些事物彼此之間看似毫無關聯,但里面卻隱藏著關聯規則。
關聯規則是隱藏在數據項之間的關聯或相互關系,即可根據一個數據項的出現推出其他數據項。關聯規則的挖掘過程有兩個階段:第一階段是從海量原始數據中找出所有的高頻項目組;第二階段是從這些高頻項目組產生關聯規則。關聯規則挖掘技術已被廣泛應用于金融行業企業中用以預測客戶的需求,各銀行在自己的ATM機上通過捆綁客戶可能感興趣的信息供用戶了解并獲取相應信息來改善自身的營銷。
回歸分析反映了數據庫中數據屬性值的特性,通過函數表達數據映射的關系來發現屬性值之間的依賴關系。它可以應用到對數據序列的預測及相關關系的研究中去。在市場營銷中,回歸分析可以被應用到各個方面。如通過對本季度銷售的回歸分析,對下一季度的銷售趨勢作出預測并做出針對性的營銷改變。
神經網絡作為一種先進的人工智能技術,因其自身自行處理、分布存儲和高度容錯等特性非常適合處理非線性的以及以模糊、不完整、不嚴密的知識或數據為特征的處理問題。
人工神經網絡首先要以一定的學習準則進行學習,然后才能工作。人工神經網絡對手寫“A”“B”兩個字母的識別,如果規定當“A”輸入網絡時,輸出“1”,而當輸入為“B”時,輸出為“0”。通過多次的學習模擬,來強化網絡對上述規則的記憶,因而減少犯錯誤的可能性。一般說來,網絡中所含的神經元個數越多,則它能記憶、識別的模式也就越多。

Web數據挖掘是一項綜合性技術,指Web從文檔結構和使用的集合C中發現隱含的模式P,如果將C看做是輸入,P看做是輸出,那么Web挖掘過程就可以看做是從輸入到輸出的一個映射過程。當前越來越多的Web數據都是以數據流的形式出現的,因此對Web數據流挖掘就具有很重要的意義。目前常用的Web數據挖掘算法有:PageRank算法,HITS算法以及LOGSOM算法。這三種算法提到的用戶都是籠統的用戶,并沒有區分用戶的個體。目前Web數據挖掘面臨著一些問題,包括:用戶的分類問題、網站內容時效性問題,用戶在頁面停留時間問題,頁面的鏈入與鏈出數問題等。(編輯/任偉)