文/王志俊
近年來,電子商務的快速發展,使企業紛紛將目光投入到電子商務領域中,越來越多的企業開始在Web中建立相應的商品目錄,用戶可利用瀏覽器來隨時隨地的瀏覽這些商品目錄,并可在瀏覽器中進行商品訂購和網上支付。在Web服務器中存儲著大量用戶和商家的交互信息,這些信息包括用戶的瀏覽信息、用戶的登記信息等,這些交互信息是按照日志的形式存儲于數據庫中的,而商家需要從數據庫中對這些信息進行挖掘,以此找出用戶的行為規律性,這對于提高商家的市場銷售量具有重大意義。本文便針對該問題對用戶訪問模式中數據挖掘模型及算法進行研究,以便于幫助企業更加高效的從海量的顧客數據與日志數據中挖掘到所需的潛在客戶群體,使企業能夠根據這些知識來制定合理的促銷策略。
為了使數據挖掘更加有效,需要對服務器的應用邏輯、用戶瀏覽路徑乃至Web頁面的拓撲結構進行全方位的考慮,并以此對OEM模型進行擴展,使其成為E-OEM模型。
定義1.對于某個對象S來說,其包括標識id與值val兩個組成部分,其中標識id(S)能夠對空間中的對象進行標志,該標志具有唯一性。而對象值val(S)則可采用原子形式與引用形式來表示,這兩種形式可分別表示為val (S)= {l 1 : d 1 ,… ,l m : d m }與val (S)= {l 1 : id(S1) ,… ,l n : id(Sn ) },在原子形式中,li與di分別表示屬性與基本數據類型的屬性值,而引用形式中,lj與Sj則分別表示屬性與對象,Sj對象的引用為id(Sj)。
定義2,分別設定屬性與對象為li與Si,且i=0,1,...,n,如果i= 0,1,… ,n中的(l i : id(S i ) )∈ val (S i- 1 )值無論為多少均是成立的,則對象S0中的p為起始點,而對象Sn中的p為終止點,也就是說Si中含有路徑p。可通過有向圖來表示E-OEM模型,其結點為對象標識,其值中各對象對(l i : id(Si))的引用均包括一條帶標號的li的有向邊相對應。當圖中有環時,則E-OEM圖有環。
定義3 對象空間是由大量可訪問且相互獨立的對象所構成的,各個對象均可通過E-OEM模型來描述,因此可通過對對象空間內的對象信息進行構造,以此充當領域知識來為數據挖掘提供指導。
在E-OEM模型中,其URL函數可指定為文檔對象或其對象標識,對象空間中的各個函數值均具有唯 一性,并且還可從中得到對象的元信息、拓撲信息與一般信息。此外,考慮到各個用戶在瀏覽時,其信息都是在日志表中進行統一登記的,因此在應用數據挖掘技術時必須要對商家和用戶間的事務標定問題進行解決。
相比于頻繁序列模式,頻繁訪問模式有很多共通之處,但其不同之處在于用戶在瀏覽時存在的不確定性,這也造成不同用戶在訪問模式上大致相同,但其內部細節卻有所不同,因此如果采用頻繁序列模式,反而會因算法的敏感度過大而造成模式數量大幅增加,因此難以適用。為了使該問題得到解決,需要將路徑相似度引入到用戶訪問模式之中,考慮到序列眾多并且前綴存在許多重復,因此需要采用與Hash樹相似的方法來對其序列進行檢索與存儲,通過在掃描事務數據庫時對Hash樹進行建立與調成,然后對不同模式的支持度進行計算,即可獲得頻繁訪問模式的Hash樹結構。為了避免匹配樹寬度過大,同時也為了便于并行處理數據分塊,還要在不同匹配樹中利用兩層Hash來散轉訪問模式。
通常來說,可利用負事務數據庫D-的聚類及分類過程來描述潛在客戶群挖掘過程。可通過Kean聚類算法對特定模式下D-所具有的相似關系進行計算,頻繁訪問模式下的數據挖掘結果便是初始K個聚類中心,當然業務人員可以自行指定,按照路徑相似關系來確定模式相似關系,當模式為P1 = 〈p 11 - p12 … - p1n 〉及 P2 = 〈p 21 - p22 … - p2n 〉時,可進行以下定義,即
Sim-Pattern(p1,p2)= |{pi |sim path( pi1 ,pi2)) ≥ min sim}|/n
由此便可得到P1與P2這兩個模式的相似度,如果Sim-Pattern(p1,p2)超過自定義的閾值,自定義閾值為 MIN SIM [0,1],這時可認為P1與P2模式具有相似關系。
總而言之,商家在電子商務戰略制定中必須要運用數據挖掘技術從海量的數據中找到潛在客戶群,以此探尋更加高效的用戶訪問模式,這對于商家做出正確的商業決策具有重要意義。本文采用E-OEM模型,從服務器應用邏輯、用戶瀏覽路徑和頁面拓撲結構等多個方面,對不同用戶訪問模式下的數據挖掘模型及其算法進行了研究,從而為企業在電子商務發展中提供了行之有效的數據挖掘技術手段。