邵天會++翁蘇湘++張佳強++周彤++劉虹余

【摘 要】隨著網絡迅猛發展,網絡社交成為人們交友、聯系的新方式,如何建設一個人性化的社交網絡,建設人性化的社交網站的依據是什么?如果更好的為用戶服務?這些問題歸結到社交網絡用戶行為的分析上,對用戶行為數據進行分析,根據不同用戶的行為屬性分類進行數據挖掘,從而得出不同類型用戶的習慣和偏好。
【關鍵詞】社交網絡 用戶行為 數據挖掘
在WEB日志挖掘的過程中,信息的采集和清洗是個很重要的過程,特別是有目的進行數據的歸類,為了更好的實現我們的研究目的,我們針對性的對WEB日志進行處理原理進行分析。
1 用戶行為的分類
根據用戶訪問的目的進行用戶行為的分類,本文利用用戶典型的訪問行為進行分類,根據用戶對某些訂閱信息產生的特征向量從而發現用戶的個人和社交的信息。我們對用戶的特征向量進行聚類分析,得出用戶的不同類型分組,區別與其他的興趣度的研究方向,典型的行為研究更加簡潔和顯著。
優酷是中國最大的視頻網站之一,優酷提供了一個很重要的用戶社交和交互功能,我們將視頻分類,用戶的功能有:添加好友,分享視頻,關注好友的視頻,留言互動,視頻評級,視頻標注熱愛度等。我們根據這些點進行用戶分類,每個用戶為一個節點,兩個節點的用戶進行交互時,產生“訂閱向量”,一個用戶的視頻會直接分享到另一個用戶,并且隨著用戶交互的數量增多,類似訂閱的用戶聚類,即相近興趣聚類。
(1)根據廣度優先算法進行隨機抽選訪問用戶的信息,對隨機抽選的用戶進行具體的跟蹤和調查,由一個用戶擴展到和他相關聯的用戶,如同滾雪球一樣關聯的用戶越來越多,收集的信息也隨著增多,直到手動停止結束。
(2)根據被其他用戶訂閱數量的排名進行篩選用戶,排名最高的用戶作為最初的集合,從最初的集合向下擴張。
(3)用戶向量表示法:每個用戶為一個向量,長度為9,每個向量包含該用戶所有的信息:1)用戶上傳視頻的數量:表示訪問用戶上傳不同視頻數量。2)瀏覽視頻的數量:表示訪問用戶訪問不同視頻數量,區分潛在消費者。3)創建賬號時間:表示訪問用戶創建該賬號時間。4)賬號年齡:表示訪問用戶在該社交網絡活動時間。5)用戶聚類系數:表示訪問用戶之間緊密系數,例如:A用戶訪問B,B訪問C,則A訪問C的系數增加。6)訂閱潛在值:表示某訪問用戶訂閱數量從而推測現在的消費用戶。7)被訂閱制造值:表示A用戶被其他訪問用戶訂閱的總數量,進而找到視頻制造用戶。8)訂閱用戶數量:表示A用戶訂閱其他用戶的數量。9)交互潛在性:表示用戶相互訂閱系數。針對每個屬性進行規范化,每個屬性都分布0到1區間值。
(4)基于用戶訪問距離聚類:利用K-means算法進行用戶訪問距離分組,歐式距離作為訪問用戶之間的分組依據,即通過信號的相似度進行做距離向量的值,信號越相似距離越近,距離越近越容易聚類為一個組。
(5)通過聚類向量法相算法中的K值是影響用戶訪問特征向量的關鍵,因此我們選擇K值是關鍵。
2 測試分析
我們通過對Web服務器記錄日志的流程進行數據采集,通常情況下WEBserver日志文件和server位于同一臺服務器,分析的方法一般2種:
(1)編寫日志分析代碼在服務器上,當進行日志分析時啟動分析程序代碼,整個過程在服務器進行,分析完成我們只需要把分析結果取回,然后反饋到客戶端。這樣省去了網絡帶寬的要求,不需要大數據的傳送,減輕了客戶端的負載。
(2)利用FTP把服務器端的日志文件傳到客戶端,在客戶端進行日志文件的分析,這種方式的優點是減輕了服務器的壓力,但是同時在傳輸數據時占用帶寬,因為我們采樣的日志文件一般超過幾百兆或者幾個G大小,如果客戶端和服務器地理位置相對較遠,這種方式不合理。
本文采用的是第一種方法,流程為上圖1-2所示,在服務器端進行數據分析處理。
Web服務器:負責接收客戶端的分析請求,并將分析結果最終形成的WEB頁面發送給客戶端。
CGI程序:把從WebServer傳送過來的請求傳送給日志分析程序,接收日志分析程序分析的結果并以頁面的形式發送給Web服務器。
日志分析程序:接收CGI程序傳送來的分析請求,從日志文件里讀數據,分析后把結果傳給CGI程序。
設置2個分類向量:A1和A2,計算它們之間的距離,D為向量長度。算法的偽代碼:
1, D<=2;//K 值為D
2, 重復下列代碼:
3, D<=D+1;
4, K-means運行
5, 循環(每次返回的D值)
6, Do<=聚類D
7, 如果( 8, 直到( 得出的結果中:0代表向量相同,1表示向量相反,如果D值比T值小那么這兩個用戶訪問向量類似因此可以聚類為一組。我們可以將T值設置為10的-4次方。 利用網絡爬蟲抓取優酷網站上15天的訪問用戶數據,根據用戶訪問特征向量屬性7個值進行分析,表1是數據的分析圖。 我們把收集的用戶數據信息進行分組: (1)Z1,小區成員:用戶數量不多,但是用戶之間的互動量大,活動程度高,例如:家人,同學,同事。本組的用戶一般只在特定的社區活動,很少參與訂閱和被訂閱。 (2)Z2,制造者:本組用戶在網站時間長,互動時間長,并且經常訪問不同的頻道,被其他用戶訂閱的數量也大。 (3)Z3,消費者:瀏覽數量大,網站定期對本組用戶推送消息。 (4)Z4,制造和消費共同體:此類用戶數量最大,既上傳視頻也訂閱視頻,但是用戶之間的互動少。 (5)Z5,其他用戶。 數據分析:訪問用戶特征向量進行聚類,能夠有效的將優酷網站用戶進行分組,上述的5組中,每組用戶的目的均不同,在網絡社交中起到不同的作用,在一個相對活躍的網站社區上,每組人的比例有很大的關系,單純一組人數過多會直接影響網站互動,進而影響網站的訪問量和訂閱視頻數量,對網站的在線用戶數量產生直接的影響,本文的研究模型對網絡社交網站的數據分析和改進有針對性的作用。 參考文獻: [1]Michael J.A.Berry,Gordon S.Linoff,數據挖掘技術:市場營銷,銷售與客戶關系管理領域應用[M].北京:機械工業出版社,2006,312-375. [2]青虹宏.基于數據挖掘技術的客戶關系管理[J].重慶工商大學學報(自然科學版),2004,8:388-391. [3]David Hand,Heikki Mannila,Padhraic Smyth,數據挖掘原理[M].北京:機械工業出版,2003:209-224. [4]陸嘉恒.Hadoop實戰[M].北京:機械工業出版社,2011. [5](美)懷特(White.T)著,周敏奇,王曉玲,金澈清,錢衛譯.Hadoop 權威指南[M].北京:清華大學出版社,2011. [6]蘇新寧,楊建林,江念南,栗湘,數據倉庫和數據挖掘[M].北京:清華大學出版社,2006.4,17-185. [7]Jiawei Han,Micheline Kamber.Data Mining Concepts and Techniques[M].數據挖掘概念與技術影印版,北京:高等教育出版,2001:1-3.