郭紅建,陳一飛
(1.南京審計大學 管理科學與工程學院,江蘇 南京 211815;2. 南京審計大學 工學院,江蘇 南京 211815)
Web1.0到Web2.0的革新,使得互聯網的應用更加廣泛。用戶越來越多地參與互聯網信息建設,從被動的信息瀏覽者成為主動的參與者,用戶標注信息、評論、標簽等越來越流行。作為 Web2. 0 環境下用戶生成內容的典型應用,標注系統允許用戶以自由的形式對Web 資源進行標注形成標簽,如www.delicious.comwww.flickr.com,www.youtube.com。通過標注人們可以對大量信息進行組織分類,并可以與其他用戶共享這些標簽。
聚類算法是文本數據挖掘的一個重要方法,它的應用非常廣泛。其中網頁聚類和文本聚類算法的研究成果已經非常多,總結起來,主要有3類:(1)基于文本內容的文本聚類算法。該方法將文本表示為文本模型, 如VSM(Vector Space Model)模型[2]、N-gram模型、基于短語的模型、基于概念的模型、文本的圖表示及概率模型[3]。文本特征抽取與權重計算的方法主要有Salton 等[1]提出的TF×IDF函數[2]、互信息(Mutual Information)、布爾函數、頻度函數、期望交叉熵(Expected Cross Entropy)、二次信息熵(QEMI)、信息增益(Information Gain) 等。然后采用標準聚類算法(例如k-means算法[3]等)對文本向量進行聚類。優化方法只是基于內容中的特征選項改進或者聚類算法的調優, 提高聚類質量;(2)基于用戶標簽的聚類算法。該聚類算法采用標簽取代了文本特征詞語,也考慮了用戶和鏈接之間的關系等, 然后對網頁進行聚類分析。但這種算法經常只考慮了用戶標簽和其鏈接關系, 忽略了用戶標簽和文本內容之間的信息。何文靜等[4]以社會標簽和特征詞語抽取方法, 采用k-means 聚類算法對文本內容進行聚類,提高了文本聚類的效果。……