999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

高職院校學(xué)生網(wǎng)絡(luò)輿情分析系統(tǒng)的研究*

2011-02-02 00:57:20婁建瑋
濰坊學(xué)院學(xué)報(bào) 2011年2期
關(guān)鍵詞:分類文本學(xué)生

婁建瑋

(濰坊職業(yè)學(xué)院,山東 濰坊 261031)

0 引言

隨著社會(huì)自由度的逐漸開(kāi)放和大眾傳媒的進(jìn)一步普及,輿情(public opinion sentiment)在當(dāng)前社會(huì)的政治和生活中發(fā)揮著越來(lái)越重要的作用。合理正確的輿情引導(dǎo),成為秩序建設(shè)的特殊形式,也是構(gòu)建和諧社會(huì)的重要組成部分。與此同時(shí),隨著高職院校的院校網(wǎng)絡(luò)迅速建設(shè),“網(wǎng)絡(luò)化生存”正逐漸成為學(xué)生在校生活的重要方式,使得高職院校的校園輿情也出現(xiàn)了與網(wǎng)絡(luò)相結(jié)合的新特征。校園輿情同公眾輿情一樣,是大學(xué)生作為輿情主體基于自身的某種利益,對(duì)校園現(xiàn)實(shí)或社會(huì)現(xiàn)實(shí)的反映和對(duì)自身意愿的表達(dá)[1]。同時(shí)校園論壇已經(jīng)成為學(xué)生發(fā)表輿情的重要平臺(tái)。

因此,基于校園論壇建立一個(gè)有效的輿情熱點(diǎn)推薦系統(tǒng),通過(guò)信息化技術(shù)了解學(xué)生當(dāng)前的思想狀態(tài),幫助學(xué)生管理人員快速尋找到當(dāng)前學(xué)生的輿情熱點(diǎn),并對(duì)學(xué)生進(jìn)行恰當(dāng)?shù)囊龑?dǎo),對(duì)學(xué)生管理工作不無(wú)裨益。本研究以校園網(wǎng)絡(luò)服務(wù)器中的論壇數(shù)據(jù)庫(kù)話題記錄表為基礎(chǔ),提出一種基于Web數(shù)據(jù)挖掘的關(guān)鍵詞權(quán)重評(píng)分協(xié)同過(guò)濾聚類算法為主線,來(lái)達(dá)到匯集輿情熱點(diǎn)的目的。

1 論壇輿情挖掘中的數(shù)據(jù)過(guò)濾

面對(duì)網(wǎng)絡(luò)上的海量數(shù)據(jù),首先使用數(shù)據(jù)過(guò)濾來(lái)解決網(wǎng)絡(luò)輿情數(shù)據(jù)信息量大、數(shù)據(jù)噪聲多等問(wèn)題。以學(xué)校服務(wù)器上的論壇數(shù)據(jù)庫(kù)為基礎(chǔ),從tb_User表、tb_Topic表、tb_Revert表等數(shù)據(jù)表中使用聯(lián)合查詢獲得相應(yīng)數(shù)據(jù)。對(duì)學(xué)生用戶發(fā)表的話題,進(jìn)行前置轉(zhuǎn)換與處理,將發(fā)表話題ID、發(fā)表用戶登陸名、發(fā)表時(shí)間、話題內(nèi)容長(zhǎng)度、瀏覽次數(shù)和回復(fù)次數(shù)等四項(xiàng)數(shù)據(jù)作為分析的基礎(chǔ),本文以表1為例進(jìn)行分析。

表1 前置處理后的數(shù)據(jù)表

根據(jù)從服務(wù)器數(shù)據(jù)庫(kù)中所擷取出的學(xué)生所發(fā)表帖子數(shù)據(jù)內(nèi)容特性,可根據(jù)定義數(shù)據(jù)取用的限制條件,過(guò)濾出有效的數(shù)據(jù)。而在本研究中,定義了三項(xiàng)限制條件。

1.1 時(shí)間限制

本研究立足于對(duì)當(dāng)前學(xué)生輿情的分析與引導(dǎo),一般而言,學(xué)生關(guān)心的輿情熱點(diǎn)存在季節(jié)性的差別,因此本研究首先針對(duì)前置處理后的數(shù)據(jù),擷取出2009年的記錄,如表2所示。表2為表1的延續(xù),其中的數(shù)據(jù)僅保留發(fā)表于2009年的話題記錄,其余記錄皆忽略不計(jì)。

表2 時(shí)間限制

1.2 內(nèi)容長(zhǎng)度限制

學(xué)生用戶以設(shè)定的賬號(hào)與密碼登入論壇發(fā)表話題,鑒于每個(gè)學(xué)生用戶具有不同的發(fā)表目的,具有明確發(fā)表意向的用戶往往會(huì)有較多文字內(nèi)容的描述。為了使分析結(jié)果具有較高的參考性,排除部分學(xué)生用戶較少字?jǐn)?shù)話題的干擾項(xiàng),本研究定義了一個(gè)最低內(nèi)容字?jǐn)?shù)的門(mén)坎值,以過(guò)濾出為獲得用戶積分而發(fā)表的字?jǐn)?shù)較少無(wú)實(shí)際內(nèi)容的話題,如表3所示。表3為表2例子的延續(xù),其中話題字?jǐn)?shù)小于5個(gè)字的,其瀏覽記錄將忽略不計(jì)。

1.3 興趣度限制

當(dāng)在論壇上學(xué)生對(duì)一個(gè)話題的瀏覽次數(shù)(點(diǎn)擊率)和回復(fù)次數(shù)很高時(shí),我們可以稱學(xué)生對(duì)該話題具有較高的興趣度。所以本研究定義了一個(gè)最低點(diǎn)擊率門(mén)坎值,以過(guò)濾出點(diǎn)擊率和回復(fù)次數(shù)之和低于門(mén)坎值的用戶話題,如表4所示。表4為表3的延續(xù),其中學(xué)生在論壇上發(fā)表的某個(gè)話題如果沒(méi)有引起足夠的興趣度即瀏覽次數(shù)和回復(fù)數(shù)之和低于12次的,將被忽略。

表3 內(nèi)容長(zhǎng)度限制

表4 興趣度限制

根據(jù)本研究所定義的三項(xiàng)限制條件,上述例子最后得到表4的話題瀏覽記錄,大幅降低了待處理的數(shù)據(jù)量。

如何有效地描述互聯(lián)網(wǎng)輿情指數(shù),如何精確地判定某個(gè)網(wǎng)絡(luò)突發(fā)事件發(fā)生,如何準(zhǔn)確地將網(wǎng)絡(luò)突發(fā)事件類別化等等,所有這些問(wèn)題都源自互聯(lián)網(wǎng)輿情關(guān)鍵詞的挖掘技術(shù)。因此,在下個(gè)步驟中,要從被選數(shù)據(jù)集中獲得相應(yīng)的輿情關(guān)鍵詞集分類。

2 輿情關(guān)鍵詞集的分類

2.1 輿情關(guān)鍵詞挖掘方法概述

首先,互聯(lián)網(wǎng)可用的信息源非常豐富,為了避免所研究的問(wèn)題過(guò)于龐雜,我們將網(wǎng)絡(luò)輿情的信息源限定到校園網(wǎng)絡(luò)服務(wù)器的BBS論壇上。BBS最主要的信息傳遞方式是話題的文本信息,為網(wǎng)絡(luò)輿情的發(fā)生和變化提供了平臺(tái),因此可以也應(yīng)當(dāng)考慮用代表文本信息的特征詞,即輿情關(guān)鍵詞對(duì)網(wǎng)絡(luò)輿情進(jìn)行必要的描述。從話題的文本信息中挖掘輿情關(guān)鍵詞并對(duì)其進(jìn)行必要的分類。

2.2 輿情關(guān)鍵詞集的選取

本文依據(jù)校園網(wǎng)絡(luò)的BBS論壇等文本內(nèi)容均是網(wǎng)絡(luò)輿情的直接反映,可以作為語(yǔ)料集的待選信息源。內(nèi)容頁(yè)面是用戶感興趣信息的主要載體,一個(gè)內(nèi)容頁(yè)面中包含了圖像、動(dòng)畫(huà)、音頻、超鏈接等豐富的信息表達(dá)方式,但最主要的信息傳遞方式還是正文的文字信息。為了簡(jiǎn)單起見(jiàn),本文只處理正文信息,為此我們將原始語(yǔ)料集中網(wǎng)頁(yè)結(jié)構(gòu)信息,以及圖像、動(dòng)畫(huà)、音頻、超鏈接等信息統(tǒng)一屏蔽,僅僅保留原始語(yǔ)料集的正文信息。

與英文不同,中文詞匯不像英語(yǔ)中的單詞那樣是自然分割的,有的時(shí)候是詞和詞之間緊密連接成為短語(yǔ)。句子中的詞匯需要人為地通過(guò)語(yǔ)境來(lái)切分,短語(yǔ)所表達(dá)的意思會(huì)因不同的切分方式而與單個(gè)的詞語(yǔ)意不同。在短文本串聚類方面,黃永光等人針對(duì)近些年來(lái)大量出現(xiàn)的聊天語(yǔ)言和手機(jī)短信中的短文本,提出了一種面向變異短文本的快速高效的聚類算法,該算法采取特征串抽取方法,并融合了壓縮編碼的思想,從而加快了處理速度,該方法較適合手機(jī)短信等不規(guī)范的短文本進(jìn)行聚類[2]。另外,朱燁行等人為方便BBS瀏覽提取一種新的文本聚類方法,即以分等級(jí)的菜單方式組織帖子,該方法類似于找出最長(zhǎng)公共特征串,利用頻繁出現(xiàn)的串先聚成小類,再對(duì)小類進(jìn)行合并,進(jìn)而得到粒度適當(dāng)?shù)念怺3]。在研究BBS、Blog等短文本聚類時(shí),這些技術(shù)可以有效的得到正確的關(guān)鍵詞和關(guān)鍵詞短語(yǔ)。

文獻(xiàn)[4]中給出了如何建立備選網(wǎng)絡(luò)輿情關(guān)鍵詞語(yǔ)料集,基于統(tǒng)計(jì)的中文高頻詞提取,輿情關(guān)鍵詞的評(píng)價(jià)標(biāo)準(zhǔn)、提取算法以及輿情關(guān)鍵詞的分類,即網(wǎng)絡(luò)輿情關(guān)鍵詞挖掘的四個(gè)步驟,并在關(guān)鍵詞的分類技術(shù)上,給出了一種改進(jìn)了的k-均值(k-means)聚類分析算法。

經(jīng)過(guò)試驗(yàn),我們按照已選定網(wǎng)絡(luò)輿情的備選關(guān)鍵詞原始語(yǔ)料集的分類目錄分別運(yùn)行進(jìn)行改進(jìn)了的k -均值聚類分析程序,剔除重復(fù)的關(guān)鍵詞,得到代表網(wǎng)絡(luò)輿情的關(guān)鍵詞。

2.3 輿情關(guān)鍵詞集的分類

得到了關(guān)鍵詞集以后,為了確定各個(gè)關(guān)鍵詞分類,選用德?tīng)柗品?根據(jù)濰坊職業(yè)學(xué)院信息工程系中具有多年學(xué)生管理工作經(jīng)驗(yàn)的各位輔導(dǎo)員的意見(jiàn)獲得大體的關(guān)鍵詞分類,然后統(tǒng)計(jì)關(guān)鍵詞評(píng)估因素分類表如表5所示。

表5 關(guān)鍵詞分類表

主要分成了六大類評(píng)估因素,在每一個(gè)大的評(píng)估因素里面,為了方便關(guān)鍵詞分類,又細(xì)分了各個(gè)方面的分支,例如,如果關(guān)鍵詞屬于對(duì)人評(píng)價(jià)類評(píng)估因素中的教師評(píng)教類,則它的分類編號(hào)為D。得到了關(guān)鍵詞的分類表就可以運(yùn)用關(guān)鍵詞項(xiàng)目評(píng)分來(lái)匯總輿情熱點(diǎn)。

3 基于關(guān)鍵詞評(píng)分的協(xié)同過(guò)濾算法

基于詞匯權(quán)重評(píng)分的協(xié)同過(guò)濾算法的基本思想就是對(duì)輿情關(guān)鍵詞權(quán)重評(píng)分相似的最近鄰居(如果兩個(gè)話題文本的輿論方向大體一致,我們就稱其中一個(gè)話題文本為另一個(gè)目標(biāo)話題文本的最近鄰居)的聚類算法。該相似度聚類方法基于這樣一個(gè)前提:在單一文本中關(guān)鍵詞的出現(xiàn)頻數(shù)可以作為用于描述文本的特征向量,如果最近鄰居對(duì)相同類別的輿情關(guān)鍵詞的權(quán)重評(píng)分與目標(biāo)話題非常相似,則這兩個(gè)話題文本屬于同一種輿情方向。

在基于校園網(wǎng)絡(luò)的大型論壇(BBS)系統(tǒng)中,一個(gè)比較明顯的問(wèn)題在于:當(dāng)學(xué)生用戶數(shù)目和發(fā)表的話題數(shù)目增加很快,關(guān)鍵詞的評(píng)分?jǐn)?shù)據(jù)卻和大幅增加的學(xué)生發(fā)表的話題成反比。在關(guān)鍵詞分布極端稀疏的情況下,根據(jù)文獻(xiàn)[5]中提出的基于項(xiàng)目評(píng)分聚類的協(xié)同過(guò)濾推薦算法(K-means聚類算法)可以有效的根據(jù)關(guān)鍵詞的相似性度量對(duì)輿情的方向進(jìn)行聚合。

4 輿情熱點(diǎn)的推薦

在數(shù)據(jù)過(guò)濾之后,根據(jù)關(guān)鍵字庫(kù)的分類,分析話題關(guān)鍵詞的偏好。通過(guò)使用關(guān)鍵詞表遍歷數(shù)據(jù)庫(kù),在話題中出現(xiàn)的關(guān)鍵詞標(biāo)記為(關(guān)鍵詞類別號(hào),關(guān)鍵詞編號(hào)),例如(A,14)代表該關(guān)鍵詞為A類第14號(hào)關(guān)鍵詞。在表4的基礎(chǔ)上得到表6。按照話題所包含的某類別的關(guān)鍵詞出現(xiàn)次數(shù)為評(píng)分標(biāo)準(zhǔn),在表6的基礎(chǔ)上得到表7。

表6 話題關(guān)鍵詞集合

表7 關(guān)鍵詞評(píng)分矩陣

由于表7為表1一路衍生而來(lái),所以表7中包含的所有話題,均符合文中所定義的時(shí)間限制、內(nèi)容長(zhǎng)度限制、興趣度限制。

在整理出目標(biāo)關(guān)鍵詞表和關(guān)鍵詞評(píng)分矩陣之后,可以把關(guān)鍵詞集合評(píng)分大體相同的話題聚合在一起,根據(jù)協(xié)同過(guò)濾推薦算法,分別計(jì)算話題的相似度。Topic08和 Topic10的相似度近似為1,Topic23和 Topic71的相似度為1,因此 Topic10和 Topic71可以作為輿情方向相似項(xiàng)分別與 Topic08、Topic23進(jìn)行聚合。這樣可以有效減少分析的數(shù)據(jù)量并且不影響數(shù)據(jù)挖掘的結(jié)果,為進(jìn)一步縮減的結(jié)果,通過(guò)以上的方法,可以得到與合并相近性后的話題集合。接著根據(jù)興趣度即點(diǎn)擊率和回復(fù)率之和降序擺列,將推薦后興趣度高的話題排放在前面,整理如表8。

表8 關(guān)鍵詞評(píng)分聚類后的話題集合

在每次聚類時(shí),把相同輿情方向中被合并的話題數(shù)目進(jìn)行記錄,根據(jù)表8操作所得的結(jié)果,將得到的輿情熱點(diǎn)整理如表9所示。

表9 絡(luò)輿情熱點(diǎn)

5 實(shí)驗(yàn)結(jié)果與分析

首先從校園服務(wù)器上的論壇SQL數(shù)據(jù)庫(kù)中取出論壇的話題及回復(fù)話題的記錄,共計(jì)52750條記錄,接著根據(jù)所定義的限定性條件:

(1)時(shí)間限制:2009年11月份、12月份的記錄

(2)內(nèi)容長(zhǎng)度限制:發(fā)表的話題字?jǐn)?shù)在10個(gè)字以上的。

(3)興趣度限制:瀏覽和回復(fù)次數(shù)在12次以上的。

過(guò)濾后,留下1386條記錄,再使用關(guān)鍵詞評(píng)分,進(jìn)行相似度計(jì)算,合并相似度近的輿情熱點(diǎn)。(見(jiàn)表10)

表10 網(wǎng)絡(luò)輿情熱點(diǎn)分析

根據(jù)匯總出2009年11月份、12月份的學(xué)生網(wǎng)絡(luò)輿情主要方向有:

(1)部分學(xué)生對(duì)學(xué)校的硬件設(shè)備滿意度不高,認(rèn)為很多學(xué)生活動(dòng)的實(shí)施過(guò)程形式化,沒(méi)有預(yù)期的效果。

(2)部分學(xué)生對(duì)技能大賽還存在疑惑,不知道自己適合哪個(gè)方向,哪個(gè)方向能出成績(jī)。選方向的時(shí)候基本是根據(jù)對(duì)指導(dǎo)老師的認(rèn)可度進(jìn)行選擇。

(3)部分學(xué)生對(duì)2009年11月份的學(xué)校獎(jiǎng)學(xué)金評(píng)定過(guò)程感覺(jué)不公平,獎(jiǎng)罰不分明,不少同學(xué)對(duì)獎(jiǎng)學(xué)金的評(píng)選特別是市級(jí)以上獎(jiǎng)學(xué)金的評(píng)選失去信心。

得到了大體的輿情方向后,班主任、輔導(dǎo)員就可以采取班會(huì)、座談會(huì)等形式,對(duì)學(xué)生進(jìn)行積極的開(kāi)導(dǎo)和引導(dǎo)。

[1]陳文舉,夏泉.試論高校輿論引導(dǎo)與和諧校園建設(shè)[J].濟(jì)南大學(xué)學(xué)報(bào),2006,16(6):88-95.

[2]黃永光,劉挺.面向變異短文本的快速聚類算法[J].中文信息學(xué)報(bào),2007,21(2):63-68.

[3]朱燁行,戴冠中.一種文本聚類方法及BBS瀏覽機(jī)制研究[J].微電子學(xué)與計(jì)算機(jī),2006,23(8):55-60.

[4]趙旭東.互聯(lián)網(wǎng)輿情指數(shù)挖掘方法研究[D].哈爾濱:哈爾濱工業(yè)大學(xué),2007.

[5]鄧愛(ài)林,左子葉,朱揚(yáng)勇.基于項(xiàng)目聚類的協(xié)同過(guò)濾推薦算法[J].小型微型計(jì)算機(jī)系統(tǒng),2004,24(9):67-68.

猜你喜歡
分類文本學(xué)生
分類算一算
在808DA上文本顯示的改善
分類討論求坐標(biāo)
基于doc2vec和TF-IDF的相似文本識(shí)別
電子制作(2018年18期)2018-11-14 01:48:06
趕不走的學(xué)生
數(shù)據(jù)分析中的分類討論
教你一招:數(shù)的分類
學(xué)生寫(xiě)話
學(xué)生寫(xiě)的話
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
主站蜘蛛池模板: 国产特一级毛片| 亚洲日本韩在线观看| 女同国产精品一区二区| 少妇精品网站| 午夜激情婷婷| 麻豆精品在线| 视频二区中文无码| 极品性荡少妇一区二区色欲| 成人午夜免费观看| 国产中文一区a级毛片视频| 亚洲天堂伊人| 亚洲经典在线中文字幕| 久久综合成人| 午夜毛片福利| 精品超清无码视频在线观看| 综合五月天网| 超碰91免费人妻| 香蕉视频在线观看www| 99re在线视频观看| 蜜桃视频一区二区| 少妇精品久久久一区二区三区| 久久免费视频播放| 欧美黄色网站在线看| 成人在线综合| 亚洲欧美日韩成人高清在线一区| 国产美女在线免费观看| 黄色三级毛片网站| 亚洲视频免| 免费高清自慰一区二区三区| 欧美天堂在线| 国产浮力第一页永久地址| 国产高清国内精品福利| 国产精品久久久久久久久| 午夜福利免费视频| 91久久偷偷做嫩草影院电| 国产在线一区二区视频| 久久精品国产精品国产一区| 国产精品手机视频| 亚洲娇小与黑人巨大交| 无码专区第一页| 亚洲免费黄色网| 伊人久久久久久久| 国产精品女在线观看| 99爱视频精品免视看| 日韩人妻无码制服丝袜视频| 啪啪免费视频一区二区| 国产黄在线免费观看| 青青草a国产免费观看| 欧美黄网站免费观看| 无码AV日韩一二三区| 国产午夜在线观看视频| 9啪在线视频| 国产成人精品2021欧美日韩| 在线观看亚洲精品福利片 | 精品夜恋影院亚洲欧洲| 国产极品美女在线观看| 超碰aⅴ人人做人人爽欧美| 精品剧情v国产在线观看| 欧美一级色视频| 在线视频一区二区三区不卡| 99无码中文字幕视频| 女人18毛片久久| 国产主播在线观看| a色毛片免费视频| 国产精品自在自线免费观看| 视频一区亚洲| 亚洲综合天堂网| 在线亚洲小视频| 欧洲欧美人成免费全部视频| 欧美成a人片在线观看| 亚洲国产欧美国产综合久久| 极品av一区二区| 色久综合在线| 中文字幕在线播放不卡| 2021精品国产自在现线看| 欧美另类精品一区二区三区| 欧美国产日产一区二区| 欧美在线国产| 日本高清免费不卡视频| 九九热视频精品在线| 亚洲va视频| 性欧美在线|