〔摘要〕目的:在使用數據挖掘發現BBS熱點話題的過程中,標題的重要性經常被忽略。本文旨在論證和凸顯標題在BBS熱點話題挖掘中的重要作用,同時區別在BBS熱點話題挖掘時標題和文本內容作用的不同。 方法:以南京大學小百合BBS的每日10大熱門話題帖子的標題為數據樣本,采用凝聚式層次聚類法進行數據的聚類。結果:將270條樣本數據聚為單類,選取其中有代表性的前五組進行討論。結論:僅憑標題內容就能夠有效挖掘出在一段時間內BBS上的熱點主題,證明了標題在BBS熱點話題挖掘中的重要性。
〔關鍵詞〕BBS;熱點話題;數據挖掘;凝聚式層次聚類
〔中圖分類號〕G250.7〔文獻標識碼〕B〔文章編號〕1008-0821(2013)01-0162-04
隨著互聯網的快速發展,互聯網已經為我國鍛造出一個全新的輿情傳播機制,BBS是該機制中的重要元素之一。目前,幾乎所有國內門戶網站都開設有BBS論壇,全國BBS論壇數量己超過百萬個,位居全球之首[1]。大學是社會思想最先進而集中的地方,各個大學都擁有自己的BBS,從不同的主題角度為學生提供了思想交匯和討論的平臺。例如北京大學的未名BBS,清華大學的水木清華BBS,復旦大學的日月光華BBS,南京大學小百合BBS等等。截止到2012年7月,網民職業中,學生占比為28.6%,遠遠高于其他群體[2],他們在網上留下的言論和評論散布在網絡的各個角落,尤其集中在大學校園內的BBS上。正是由于這些原因,導致在海量的BBS信息中發掘熱點主題成為了一個值得研究的方向;而大學的校園BBS則成為理想的樣本采集場所。……