婁建瑋
(濰坊職業(yè)學(xué)院,山東 濰坊 261031)
隨著社會(huì)自由度的逐漸開(kāi)放和大眾傳媒的進(jìn)一步普及,輿情(public opinion sentiment)在當(dāng)前社會(huì)的政治和生活中發(fā)揮著越來(lái)越重要的作用。合理正確的輿情引導(dǎo),成為秩序建設(shè)的特殊形式,也是構(gòu)建和諧社會(huì)的重要組成部分。與此同時(shí),隨著高職院校的院校網(wǎng)絡(luò)迅速建設(shè),“網(wǎng)絡(luò)化生存”正逐漸成為學(xué)生在校生活的重要方式,使得高職院校的校園輿情也出現(xiàn)了與網(wǎng)絡(luò)相結(jié)合的新特征。校園輿情同公眾輿情一樣,是大學(xué)生作為輿情主體基于自身的某種利益,對(duì)校園現(xiàn)實(shí)或社會(huì)現(xiàn)實(shí)的反映和對(duì)自身意愿的表達(dá)[1]。同時(shí)校園論壇已經(jīng)成為學(xué)生發(fā)表輿情的重要平臺(tái)。
因此,基于校園論壇建立一個(gè)有效的輿情熱點(diǎn)推薦系統(tǒng),通過(guò)信息化技術(shù)了解學(xué)生當(dāng)前的思想狀態(tài),幫助學(xué)生管理人員快速尋找到當(dāng)前學(xué)生的輿情熱點(diǎn),并對(duì)學(xué)生進(jìn)行恰當(dāng)?shù)囊龑?dǎo),對(duì)學(xué)生管理工作不無(wú)裨益。本研究以校園網(wǎng)絡(luò)服務(wù)器中的論壇數(shù)據(jù)庫(kù)話題記錄表為基礎(chǔ),提出一種基于Web數(shù)據(jù)挖掘的關(guān)鍵詞權(quán)重評(píng)分協(xié)同過(guò)濾聚類算法為主線,來(lái)達(dá)到匯集輿情熱點(diǎn)的目的。
面對(duì)網(wǎng)絡(luò)上的海量數(shù)據(jù),首先使用數(shù)據(jù)過(guò)濾來(lái)解決網(wǎng)絡(luò)輿情數(shù)據(jù)信息量大、數(shù)據(jù)噪聲多等問(wèn)題。以學(xué)校服務(wù)器上的論壇數(shù)據(jù)庫(kù)為基礎(chǔ),從tb_User表、tb_Topic表、tb_Revert表等數(shù)據(jù)表中使用聯(lián)合查詢獲得相應(yīng)數(shù)據(jù)。對(duì)學(xué)生用戶發(fā)表的話題,進(jìn)行前置轉(zhuǎn)換與處理,將發(fā)表話題ID、發(fā)表用戶登陸名、發(fā)表時(shí)間、話題內(nèi)容長(zhǎng)度、瀏覽次數(shù)和回復(fù)次數(shù)等四項(xiàng)數(shù)據(jù)作為分析的基礎(chǔ),本文以表1為例進(jìn)行分析。

表1 前置處理后的數(shù)據(jù)表
根據(jù)從服務(wù)器數(shù)據(jù)庫(kù)中所擷取出的學(xué)生所發(fā)表帖子數(shù)據(jù)內(nèi)容特性,可根據(jù)定義數(shù)據(jù)取用的限制條件,過(guò)濾出有效的數(shù)據(jù)。而在本研究中,定義了三項(xiàng)限制條件。
本研究立足于對(duì)當(dāng)前學(xué)生輿情的分析與引導(dǎo),一般而言,學(xué)生關(guān)心的輿情熱點(diǎn)存在季節(jié)性的差別,因此本研究首先針對(duì)前置處理后的數(shù)據(jù),擷取出2009年的記錄,如表2所示。表2為表1的延續(xù),其中的數(shù)據(jù)僅保留發(fā)表于2009年的話題記錄,其余記錄皆忽略不計(jì)。

表2 時(shí)間限制
學(xué)生用戶以設(shè)定的賬號(hào)與密碼登入論壇發(fā)表話題,鑒于每個(gè)學(xué)生用戶具有不同的發(fā)表目的,具有明確發(fā)表意向的用戶往往會(huì)有較多文字內(nèi)容的描述。為了使分析結(jié)果具有較高的參考性,排除部分學(xué)生用戶較少字?jǐn)?shù)話題的干擾項(xiàng),本研究定義了一個(gè)最低內(nèi)容字?jǐn)?shù)的門(mén)坎值,以過(guò)濾出為獲得用戶積分而發(fā)表的字?jǐn)?shù)較少無(wú)實(shí)際內(nèi)容的話題,如表3所示。表3為表2例子的延續(xù),其中話題字?jǐn)?shù)小于5個(gè)字的,其瀏覽記錄將忽略不計(jì)。
當(dāng)在論壇上學(xué)生對(duì)一個(gè)話題的瀏覽次數(shù)(點(diǎn)擊率)和回復(fù)次數(shù)很高時(shí),我們可以稱學(xué)生對(duì)該話題具有較高的興趣度。所以本研究定義了一個(gè)最低點(diǎn)擊率門(mén)坎值,以過(guò)濾出點(diǎn)擊率和回復(fù)次數(shù)之和低于門(mén)坎值的用戶話題,如表4所示。表4為表3的延續(xù),其中學(xué)生在論壇上發(fā)表的某個(gè)話題如果沒(méi)有引起足夠的興趣度即瀏覽次數(shù)和回復(fù)數(shù)之和低于12次的,將被忽略。

表3 內(nèi)容長(zhǎng)度限制

表4 興趣度限制
根據(jù)本研究所定義的三項(xiàng)限制條件,上述例子最后得到表4的話題瀏覽記錄,大幅降低了待處理的數(shù)據(jù)量。
如何有效地描述互聯(lián)網(wǎng)輿情指數(shù),如何精確地判定某個(gè)網(wǎng)絡(luò)突發(fā)事件發(fā)生,如何準(zhǔn)確地將網(wǎng)絡(luò)突發(fā)事件類別化等等,所有這些問(wèn)題都源自互聯(lián)網(wǎng)輿情關(guān)鍵詞的挖掘技術(shù)。因此,在下個(gè)步驟中,要從被選數(shù)據(jù)集中獲得相應(yīng)的輿情關(guān)鍵詞集分類。
首先,互聯(lián)網(wǎng)可用的信息源非常豐富,為了避免所研究的問(wèn)題過(guò)于龐雜,我們將網(wǎng)絡(luò)輿情的信息源限定到校園網(wǎng)絡(luò)服務(wù)器的BBS論壇上。BBS最主要的信息傳遞方式是話題的文本信息,為網(wǎng)絡(luò)輿情的發(fā)生和變化提供了平臺(tái),因此可以也應(yīng)當(dāng)考慮用代表文本信息的特征詞,即輿情關(guān)鍵詞對(duì)網(wǎng)絡(luò)輿情進(jìn)行必要的描述。從話題的文本信息中挖掘輿情關(guān)鍵詞并對(duì)其進(jìn)行必要的分類。
本文依據(jù)校園網(wǎng)絡(luò)的BBS論壇等文本內(nèi)容均是網(wǎng)絡(luò)輿情的直接反映,可以作為語(yǔ)料集的待選信息源。內(nèi)容頁(yè)面是用戶感興趣信息的主要載體,一個(gè)內(nèi)容頁(yè)面中包含了圖像、動(dòng)畫(huà)、音頻、超鏈接等豐富的信息表達(dá)方式,但最主要的信息傳遞方式還是正文的文字信息。為了簡(jiǎn)單起見(jiàn),本文只處理正文信息,為此我們將原始語(yǔ)料集中網(wǎng)頁(yè)結(jié)構(gòu)信息,以及圖像、動(dòng)畫(huà)、音頻、超鏈接等信息統(tǒng)一屏蔽,僅僅保留原始語(yǔ)料集的正文信息。
與英文不同,中文詞匯不像英語(yǔ)中的單詞那樣是自然分割的,有的時(shí)候是詞和詞之間緊密連接成為短語(yǔ)。句子中的詞匯需要人為地通過(guò)語(yǔ)境來(lái)切分,短語(yǔ)所表達(dá)的意思會(huì)因不同的切分方式而與單個(gè)的詞語(yǔ)意不同。在短文本串聚類方面,黃永光等人針對(duì)近些年來(lái)大量出現(xiàn)的聊天語(yǔ)言和手機(jī)短信中的短文本,提出了一種面向變異短文本的快速高效的聚類算法,該算法采取特征串抽取方法,并融合了壓縮編碼的思想,從而加快了處理速度,該方法較適合手機(jī)短信等不規(guī)范的短文本進(jìn)行聚類[2]。另外,朱燁行等人為方便BBS瀏覽提取一種新的文本聚類方法,即以分等級(jí)的菜單方式組織帖子,該方法類似于找出最長(zhǎng)公共特征串,利用頻繁出現(xiàn)的串先聚成小類,再對(duì)小類進(jìn)行合并,進(jìn)而得到粒度適當(dāng)?shù)念怺3]。在研究BBS、Blog等短文本聚類時(shí),這些技術(shù)可以有效的得到正確的關(guān)鍵詞和關(guān)鍵詞短語(yǔ)。
文獻(xiàn)[4]中給出了如何建立備選網(wǎng)絡(luò)輿情關(guān)鍵詞語(yǔ)料集,基于統(tǒng)計(jì)的中文高頻詞提取,輿情關(guān)鍵詞的評(píng)價(jià)標(biāo)準(zhǔn)、提取算法以及輿情關(guān)鍵詞的分類,即網(wǎng)絡(luò)輿情關(guān)鍵詞挖掘的四個(gè)步驟,并在關(guān)鍵詞的分類技術(shù)上,給出了一種改進(jìn)了的k-均值(k-means)聚類分析算法。
經(jīng)過(guò)試驗(yàn),我們按照已選定網(wǎng)絡(luò)輿情的備選關(guān)鍵詞原始語(yǔ)料集的分類目錄分別運(yùn)行進(jìn)行改進(jìn)了的k -均值聚類分析程序,剔除重復(fù)的關(guān)鍵詞,得到代表網(wǎng)絡(luò)輿情的關(guān)鍵詞。
得到了關(guān)鍵詞集以后,為了確定各個(gè)關(guān)鍵詞分類,選用德?tīng)柗品?根據(jù)濰坊職業(yè)學(xué)院信息工程系中具有多年學(xué)生管理工作經(jīng)驗(yàn)的各位輔導(dǎo)員的意見(jiàn)獲得大體的關(guān)鍵詞分類,然后統(tǒng)計(jì)關(guān)鍵詞評(píng)估因素分類表如表5所示。

表5 關(guān)鍵詞分類表
主要分成了六大類評(píng)估因素,在每一個(gè)大的評(píng)估因素里面,為了方便關(guān)鍵詞分類,又細(xì)分了各個(gè)方面的分支,例如,如果關(guān)鍵詞屬于對(duì)人評(píng)價(jià)類評(píng)估因素中的教師評(píng)教類,則它的分類編號(hào)為D。得到了關(guān)鍵詞的分類表就可以運(yùn)用關(guān)鍵詞項(xiàng)目評(píng)分來(lái)匯總輿情熱點(diǎn)。
基于詞匯權(quán)重評(píng)分的協(xié)同過(guò)濾算法的基本思想就是對(duì)輿情關(guān)鍵詞權(quán)重評(píng)分相似的最近鄰居(如果兩個(gè)話題文本的輿論方向大體一致,我們就稱其中一個(gè)話題文本為另一個(gè)目標(biāo)話題文本的最近鄰居)的聚類算法。該相似度聚類方法基于這樣一個(gè)前提:在單一文本中關(guān)鍵詞的出現(xiàn)頻數(shù)可以作為用于描述文本的特征向量,如果最近鄰居對(duì)相同類別的輿情關(guān)鍵詞的權(quán)重評(píng)分與目標(biāo)話題非常相似,則這兩個(gè)話題文本屬于同一種輿情方向。
在基于校園網(wǎng)絡(luò)的大型論壇(BBS)系統(tǒng)中,一個(gè)比較明顯的問(wèn)題在于:當(dāng)學(xué)生用戶數(shù)目和發(fā)表的話題數(shù)目增加很快,關(guān)鍵詞的評(píng)分?jǐn)?shù)據(jù)卻和大幅增加的學(xué)生發(fā)表的話題成反比。在關(guān)鍵詞分布極端稀疏的情況下,根據(jù)文獻(xiàn)[5]中提出的基于項(xiàng)目評(píng)分聚類的協(xié)同過(guò)濾推薦算法(K-means聚類算法)可以有效的根據(jù)關(guān)鍵詞的相似性度量對(duì)輿情的方向進(jìn)行聚合。
在數(shù)據(jù)過(guò)濾之后,根據(jù)關(guān)鍵字庫(kù)的分類,分析話題關(guān)鍵詞的偏好。通過(guò)使用關(guān)鍵詞表遍歷數(shù)據(jù)庫(kù),在話題中出現(xiàn)的關(guān)鍵詞標(biāo)記為(關(guān)鍵詞類別號(hào),關(guān)鍵詞編號(hào)),例如(A,14)代表該關(guān)鍵詞為A類第14號(hào)關(guān)鍵詞。在表4的基礎(chǔ)上得到表6。按照話題所包含的某類別的關(guān)鍵詞出現(xiàn)次數(shù)為評(píng)分標(biāo)準(zhǔn),在表6的基礎(chǔ)上得到表7。

表6 話題關(guān)鍵詞集合

表7 關(guān)鍵詞評(píng)分矩陣
由于表7為表1一路衍生而來(lái),所以表7中包含的所有話題,均符合文中所定義的時(shí)間限制、內(nèi)容長(zhǎng)度限制、興趣度限制。
在整理出目標(biāo)關(guān)鍵詞表和關(guān)鍵詞評(píng)分矩陣之后,可以把關(guān)鍵詞集合評(píng)分大體相同的話題聚合在一起,根據(jù)協(xié)同過(guò)濾推薦算法,分別計(jì)算話題的相似度。Topic08和 Topic10的相似度近似為1,Topic23和 Topic71的相似度為1,因此 Topic10和 Topic71可以作為輿情方向相似項(xiàng)分別與 Topic08、Topic23進(jìn)行聚合。這樣可以有效減少分析的數(shù)據(jù)量并且不影響數(shù)據(jù)挖掘的結(jié)果,為進(jìn)一步縮減的結(jié)果,通過(guò)以上的方法,可以得到與合并相近性后的話題集合。接著根據(jù)興趣度即點(diǎn)擊率和回復(fù)率之和降序擺列,將推薦后興趣度高的話題排放在前面,整理如表8。

表8 關(guān)鍵詞評(píng)分聚類后的話題集合
在每次聚類時(shí),把相同輿情方向中被合并的話題數(shù)目進(jìn)行記錄,根據(jù)表8操作所得的結(jié)果,將得到的輿情熱點(diǎn)整理如表9所示。

表9 絡(luò)輿情熱點(diǎn)
首先從校園服務(wù)器上的論壇SQL數(shù)據(jù)庫(kù)中取出論壇的話題及回復(fù)話題的記錄,共計(jì)52750條記錄,接著根據(jù)所定義的限定性條件:
(1)時(shí)間限制:2009年11月份、12月份的記錄
(2)內(nèi)容長(zhǎng)度限制:發(fā)表的話題字?jǐn)?shù)在10個(gè)字以上的。
(3)興趣度限制:瀏覽和回復(fù)次數(shù)在12次以上的。
過(guò)濾后,留下1386條記錄,再使用關(guān)鍵詞評(píng)分,進(jìn)行相似度計(jì)算,合并相似度近的輿情熱點(diǎn)。(見(jiàn)表10)

表10 網(wǎng)絡(luò)輿情熱點(diǎn)分析
根據(jù)匯總出2009年11月份、12月份的學(xué)生網(wǎng)絡(luò)輿情主要方向有:
(1)部分學(xué)生對(duì)學(xué)校的硬件設(shè)備滿意度不高,認(rèn)為很多學(xué)生活動(dòng)的實(shí)施過(guò)程形式化,沒(méi)有預(yù)期的效果。
(2)部分學(xué)生對(duì)技能大賽還存在疑惑,不知道自己適合哪個(gè)方向,哪個(gè)方向能出成績(jī)。選方向的時(shí)候基本是根據(jù)對(duì)指導(dǎo)老師的認(rèn)可度進(jìn)行選擇。
(3)部分學(xué)生對(duì)2009年11月份的學(xué)校獎(jiǎng)學(xué)金評(píng)定過(guò)程感覺(jué)不公平,獎(jiǎng)罰不分明,不少同學(xué)對(duì)獎(jiǎng)學(xué)金的評(píng)選特別是市級(jí)以上獎(jiǎng)學(xué)金的評(píng)選失去信心。
得到了大體的輿情方向后,班主任、輔導(dǎo)員就可以采取班會(huì)、座談會(huì)等形式,對(duì)學(xué)生進(jìn)行積極的開(kāi)導(dǎo)和引導(dǎo)。
[1]陳文舉,夏泉.試論高校輿論引導(dǎo)與和諧校園建設(shè)[J].濟(jì)南大學(xué)學(xué)報(bào),2006,16(6):88-95.
[2]黃永光,劉挺.面向變異短文本的快速聚類算法[J].中文信息學(xué)報(bào),2007,21(2):63-68.
[3]朱燁行,戴冠中.一種文本聚類方法及BBS瀏覽機(jī)制研究[J].微電子學(xué)與計(jì)算機(jī),2006,23(8):55-60.
[4]趙旭東.互聯(lián)網(wǎng)輿情指數(shù)挖掘方法研究[D].哈爾濱:哈爾濱工業(yè)大學(xué),2007.
[5]鄧愛(ài)林,左子葉,朱揚(yáng)勇.基于項(xiàng)目聚類的協(xié)同過(guò)濾推薦算法[J].小型微型計(jì)算機(jī)系統(tǒng),2004,24(9):67-68.