淮南師范學(xué)院 劉媛媛
作為Web 2.0 時(shí)代的產(chǎn)物,由于其獨(dú)特的優(yōu)勢(shì),例如,領(lǐng)先的政府部門(mén)、用戶(hù)注冊(cè)實(shí)名、關(guān)注對(duì)象、專(zhuān)注于教育服務(wù)等,已成為高校輿論網(wǎng)絡(luò)的重要組成部分。隨著葉氏類(lèi)的快速發(fā)展,各高校基于葉氏類(lèi)的輿論信息網(wǎng)絡(luò)呈指數(shù)級(jí)增長(zhǎng)。傳統(tǒng)的監(jiān)控證據(jù)方法很難處理,監(jiān)控和研究大學(xué)在互聯(lián)網(wǎng)上的意見(jiàn)需要有效的信息檢索技術(shù),自動(dòng)化技術(shù)在高校輿論監(jiān)控網(wǎng)絡(luò)中的應(yīng)用是不可避免的趨勢(shì)。基于此,本文探討了一些基于Hadoop 技術(shù)的關(guān)鍵技術(shù),并介紹了高校輿情監(jiān)控系統(tǒng)網(wǎng)絡(luò)的一些相關(guān)模型,一起裨益于該領(lǐng)域的健康發(fā)展。
根據(jù)我國(guó)互聯(lián)網(wǎng)絡(luò)中心發(fā)布的相關(guān)報(bào)告顯示,我國(guó)網(wǎng)民數(shù)量已達(dá)8.29 億,居世界第一。互聯(lián)網(wǎng)已經(jīng)成為人們社交生活不可或缺的一部分,在互聯(lián)網(wǎng)時(shí)代,人們可以在正確的時(shí)間從互聯(lián)網(wǎng)上的各種媒體獲取所需的信息。與此同時(shí),互聯(lián)網(wǎng)上的高度互動(dòng)使人們有權(quán)廣泛參與。然而,開(kāi)放網(wǎng)絡(luò)空間使不良信息成為“溫床”,很容易對(duì)大學(xué)生心理產(chǎn)生負(fù)面影響。因此,加強(qiáng)高校輿論監(jiān)測(cè)網(wǎng)絡(luò)非常重要。
(1)高校網(wǎng)絡(luò)輿情的內(nèi)涵。互聯(lián)網(wǎng)上的輿論是人們?cè)诟鞣N事件的刺激使其在互聯(lián)網(wǎng)上傳播的知識(shí)、態(tài)度、情緒和行為的集合。高校互聯(lián)網(wǎng)上的輿論主要是指教師和學(xué)生對(duì)相關(guān)重大問(wèn)題、社會(huì)焦點(diǎn)、政治事務(wù)以及相關(guān)問(wèn)題的感受、觀點(diǎn)和態(tài)度,校園事務(wù)、學(xué)校管理等與其自身利益相關(guān)的問(wèn)題。
(2)高校網(wǎng)絡(luò)輿情的特征。1)主體隱秘,發(fā)展難控。從通信主體的角度來(lái)看,互聯(lián)網(wǎng)上的匿名性將導(dǎo)致公眾輿論與現(xiàn)實(shí)、道德和正義分離。此外,大學(xué)生還不夠成熟,無(wú)法輕易煽動(dòng)虛假信息和敵對(duì)勢(shì)力。其允許自己在網(wǎng)絡(luò)空間做自己的言行,在表達(dá)自己的觀點(diǎn)時(shí)缺乏社會(huì)責(zé)任感,極端主義觀點(diǎn)和言論可能導(dǎo)致輿論的發(fā)展,威脅到網(wǎng)絡(luò)的安全與穩(wěn)定。2)背景多元,內(nèi)容復(fù)雜。從內(nèi)容傳播的角度來(lái)看,大學(xué)輿論網(wǎng)絡(luò)的信息來(lái)源多種多樣且復(fù)雜。不同的政治背景、地區(qū)文化和價(jià)值觀通過(guò)新媒體和技術(shù)相互影響,教師和學(xué)生很快就進(jìn)入了在線生活,直接或間接影響高校教師和學(xué)生意識(shí)形態(tài)的復(fù)雜信息。3)實(shí)時(shí)交互,傳播迅速。從溝通渠道的角度來(lái)看,大學(xué)生特別關(guān)注熱點(diǎn)社會(huì)問(wèn)題和時(shí)事,并迅速接受和使用新媒體和技術(shù)進(jìn)行多種渠道的信息傳播。打破時(shí)間和空間限制的網(wǎng)絡(luò),允許來(lái)自不同地區(qū)的群體在不同時(shí)間進(jìn)行交流和互動(dòng),這通常成為在互聯(lián)網(wǎng)上傳播輿論的重要因素。4)意見(jiàn)指向,影響輻射。從有效溝通的角度來(lái)看,高校在互聯(lián)網(wǎng)上表達(dá)的輿論內(nèi)容廣泛多樣,但也相對(duì)一致。大學(xué)生具有相同的年齡、經(jīng)驗(yàn)和習(xí)慣,這更容易就價(jià)值觀達(dá)成一致。對(duì)許多事情的看法也非常相似,很容易引起共鳴。在公眾輿論是一種被廣泛認(rèn)可和接受的前提下,輻射的影響從一個(gè)點(diǎn)到一個(gè)地區(qū),從一個(gè)地區(qū)到另一個(gè)群體。
(1)一流環(huán)境下高校的輿論網(wǎng)絡(luò)。易班是改善高校教師生活的頂尖社交論壇之一,具有獨(dú)特的優(yōu)勢(shì),例如,政府管理、用戶(hù)名注冊(cè)和專(zhuān)注于教育服務(wù)。提供了最好的在線平臺(tái),使我們能夠探索大學(xué)生的需求,了解和評(píng)估互聯(lián)網(wǎng)上的輿論。因此,在不斷變化的課堂環(huán)境中,大學(xué)網(wǎng)絡(luò)中的輿論是大學(xué)輿論網(wǎng)絡(luò)的重要組成部分。主要在一個(gè)簡(jiǎn)單的課堂平臺(tái)上探索高校學(xué)生和教師在各種核心活動(dòng)中的感受、觀點(diǎn)、意見(jiàn)和態(tài)度。
(2)易班環(huán)境下高校網(wǎng)絡(luò)輿情的特征。除了公共網(wǎng)絡(luò)中的輿情特征外,由于用戶(hù)的具體特征以及大學(xué)環(huán)境的開(kāi)放性和包容性,高校網(wǎng)絡(luò)環(huán)境中的輿情也有其自身的特點(diǎn)。1)主題統(tǒng)一,實(shí)名認(rèn)證,網(wǎng)絡(luò)真實(shí)性有保障。當(dāng)課程發(fā)生變化時(shí),高校網(wǎng)絡(luò)的輿情是大學(xué)的教師和學(xué)生,主要是在校的年輕學(xué)生。由于相互滲透,易班用戶(hù)通常會(huì)對(duì)公眾輿情中相互關(guān)注事件形成高校師生的代表性觀點(diǎn)。同時(shí),易班使用的注冊(cè)方法是驗(yàn)證正確的名稱(chēng),這使得輿情處理更有針對(duì)性和響應(yīng)性。2)政府主導(dǎo),專(zhuān)注教育服務(wù),信息源純凈。易班是一個(gè)互聯(lián)網(wǎng)文化建設(shè)項(xiàng)目,重點(diǎn)是加強(qiáng)全城教育委員會(huì),并使其正式化。上海易班發(fā)展中心擁有一個(gè)強(qiáng)大的平臺(tái)來(lái)監(jiān)控教師和學(xué)生,以創(chuàng)造一個(gè)相對(duì)清潔的網(wǎng)絡(luò)環(huán)境。易班自成立以來(lái),一直致力于教育服務(wù),并有相對(duì)明確的服務(wù)目標(biāo)和目的,可以獨(dú)立發(fā)聲,不會(huì)混淆商業(yè)利益等社會(huì)因素,也不容易受到外部干擾。3)突出班級(jí)概念,分解輿論壓力。易班突出課堂,每個(gè)學(xué)校和班級(jí)都可以形成自己的小輿論場(chǎng)。課堂上的對(duì)話(huà)更容易進(jìn)行,也更輕松。事實(shí)上,密切關(guān)系有助于就同一問(wèn)題達(dá)成一致。因此,在階級(jí)意見(jiàn)的小范圍內(nèi),一些問(wèn)題可以得到解決,從而減輕整個(gè)不斷變化的階級(jí)對(duì)大意見(jiàn)的壓力。
超文本標(biāo)記語(yǔ)言(HTML)協(xié)議是互聯(lián)網(wǎng)本身的一種工具,可以處理各種數(shù)據(jù),然后將其設(shè)置為統(tǒng)一的資源定位器。HTML 協(xié)議允許網(wǎng)絡(luò)爬蟲(chóng)在接收信息時(shí)訪問(wèn)并收集指定URL 列表中的所有必要信息。同時(shí),可以選擇一個(gè)符合要求的URL,并將其包含在可讀列表中。網(wǎng)絡(luò)索引技術(shù)通常可以分為兩種類(lèi)型:一般類(lèi)型和目標(biāo)類(lèi)型。網(wǎng)絡(luò)爬蟲(chóng)通常在該地區(qū)進(jìn)行大規(guī)模爬網(wǎng),并經(jīng)常用于搜索引擎門(mén)戶(hù)網(wǎng)站。網(wǎng)絡(luò)索引的目標(biāo)是有選擇地對(duì)相關(guān)網(wǎng)站類(lèi)型進(jìn)行索引,被稱(chēng)為網(wǎng)絡(luò)索引主題[1]。為了在高校建立一個(gè)輿論監(jiān)測(cè)系統(tǒng)網(wǎng)絡(luò),我們必須更加關(guān)注技術(shù)指數(shù)網(wǎng)絡(luò)。
文本分組是指對(duì)一組文本進(jìn)行分組,目的是將文本分組,以便屬于不同的、不太相似的文本組,屬于同一組比相似性更大的文本。組裝算法的開(kāi)發(fā)經(jīng)歷了漫長(zhǎng)的過(guò)程。經(jīng)過(guò)不斷改進(jìn),該算法的開(kāi)發(fā)變得越來(lái)越成熟,可以將其分為幾個(gè)部分:首先,根據(jù)文本結(jié)構(gòu),包括兩類(lèi):拆分和合并方法;其次,廣泛基于內(nèi)容匯編中相關(guān)主題的區(qū)域視角;最后,K-Means,根據(jù)相似性對(duì)文本進(jìn)行分類(lèi)[2]。雖然算法組裝的分類(lèi)可能會(huì)有所不同,但基本過(guò)程非常相似:所有原始文本都必須預(yù)先處理,材料的選擇必須尊重理性原則;總結(jié)文本的不同特征,構(gòu)建訪談模型;使用類(lèi)似算法匯總獲得的結(jié)果。
互聯(lián)網(wǎng)上有很多信息,如果要采取全面的研究方法,將不可避免地需要很長(zhǎng)時(shí)間。如今,在有效獲取和處理信息的背景下,這種方法對(duì)市場(chǎng)的適應(yīng)性較差。如今,關(guān)鍵詞搜索主要通過(guò)以下幾種方式完成:首先,基于語(yǔ)義分析和對(duì)定義的理解;其次,從相關(guān)數(shù)據(jù)中獲取統(tǒng)計(jì)結(jié)果;最后,對(duì)學(xué)習(xí)機(jī)器的信心。關(guān)鍵字捕獲技術(shù)在實(shí)踐中面臨許多過(guò)程,其中一些過(guò)程更為復(fù)雜,可以參考以下幾點(diǎn)設(shè)計(jì)過(guò)程:分析和過(guò)濾相關(guān)關(guān)鍵字;設(shè)置統(tǒng)一主題詞匯;此表包含從文本到分析的關(guān)鍵字片段,根據(jù)權(quán)重比原則接收關(guān)鍵字;選擇這些關(guān)鍵字。
基于高校網(wǎng)絡(luò)中不同的輿情來(lái)源,應(yīng)采取不同的方法進(jìn)行數(shù)據(jù)收集。輿情信息通常從兩個(gè)主要渠道收集:新聞網(wǎng)站和微博網(wǎng)站,其中第一個(gè)主要通過(guò)Nutch 收集信息。Nutch 系統(tǒng)的當(dāng)前類(lèi)別包括去中心化和非去中心化系統(tǒng),分布式系統(tǒng)比非去中心化系統(tǒng)更有效率[3,4]。在新聞網(wǎng)站上收集公眾意見(jiàn)的過(guò)程如下:首先,應(yīng)該添加URL 列表CrawlDb,并根據(jù)URL 列表設(shè)置分段;其次,創(chuàng)建一個(gè)Fetchlist,使用內(nèi)容解析器分析收集的數(shù)據(jù),提取一個(gè)新的URL 并同時(shí)更新CrawlDb。微博平臺(tái)使用平臺(tái)自己提供的API 來(lái)收集網(wǎng)絡(luò)輿情數(shù)據(jù),使用API 收集數(shù)據(jù)時(shí),客戶(hù)必須獲得微博平臺(tái)的許可并打開(kāi)應(yīng)用程序。
在采集階段獲得的數(shù)據(jù)不能直接處理,必須啟動(dòng)數(shù)字化。一方面,我國(guó)大學(xué)的網(wǎng)絡(luò)民意數(shù)據(jù)大多是中文數(shù)據(jù),這與英語(yǔ)分詞中劃分空間的方法不同。中文單詞碎片化的界限還不夠明確,即使是中文單詞碎片化處理實(shí)際上也是處理相關(guān)數(shù)據(jù)中最重要的技術(shù);另一方面,數(shù)據(jù)及其處理的主要因素也是空間載體文本的構(gòu)建。該模型的基本元素是頻率單詞、標(biāo)題、演講部分等,不同類(lèi)型關(guān)鍵字的權(quán)重各不相同[5]。此外,在模塊化數(shù)據(jù)收集中,分層分組算法是兩種主要形式。算法的應(yīng)用應(yīng)基于以下幾點(diǎn)考慮:大規(guī)模數(shù)據(jù)處理的可能性;依賴(lài)相關(guān)參數(shù);輸入周期是否會(huì)影響等。
在基于Hadop 的高校建立輿論監(jiān)測(cè)系統(tǒng)的主要要素之一是輿論分析模塊,該模塊可分為以下幾點(diǎn)主要要素:(1)監(jiān)測(cè)敏感話(huà)題和開(kāi)放網(wǎng)絡(luò)表達(dá)不同觀點(diǎn)的采訪渠道。在互動(dòng)交流中,一些敏感話(huà)題將對(duì)社會(huì)穩(wěn)定產(chǎn)生重大影響,即使系統(tǒng)完成了文檔處理,也會(huì)對(duì)數(shù)據(jù)庫(kù)中的敏感話(huà)題做出回應(yīng)(敏感詞詞典)。為了監(jiān)控敏感話(huà)題,在收集、分析和分類(lèi)主題、文章和評(píng)論的基礎(chǔ)上,計(jì)算對(duì)文章(新聞)的興趣程度,并按數(shù)值對(duì)其進(jìn)行分類(lèi),最后確定熱點(diǎn)話(huà)題的特定時(shí)間段[6,7]。(2)跟蹤內(nèi)容方向基本上是分析出版商的主觀情緒信息,以了解出版商對(duì)該主題的立場(chǎng)。特殊任務(wù)與處理方法相似,但面試內(nèi)容替換情感話(huà)語(yǔ),并根據(jù)體重計(jì)算。
系統(tǒng)選擇8 臺(tái)Dell 商用服務(wù)器作為系統(tǒng)的硬件基礎(chǔ)。對(duì)于操作系統(tǒng),部署了64 位的CentOS6.4 和Java64 位的JDKL。7.0_60.這個(gè)版本目前被廣泛使用,并且具有很強(qiáng)的穩(wěn)定性。
本文介紹了一種TDT 評(píng)估標(biāo)準(zhǔn),用于評(píng)估高校網(wǎng)絡(luò)中輿情聚集的趨勢(shì)。所選的指標(biāo)是FA(誤報(bào)率)、Miss(漏報(bào)率)和CDet(識(shí)別成本)。
使用網(wǎng)絡(luò)爬網(wǎng)技術(shù)收集的記錄數(shù)量為5946 條。在處理相關(guān)數(shù)據(jù)、分組分析后,根據(jù)如表1 所示的內(nèi)容收到了以下關(guān)鍵字,對(duì)數(shù)據(jù)的比較和分析表明,從操作系統(tǒng)中獲得的實(shí)驗(yàn)結(jié)果與上述結(jié)果一致。根據(jù)平均假警報(bào)次數(shù)、假警報(bào)和最低標(biāo)準(zhǔn)成本0.33468、0.03352 和0.49285,可以顯示該系統(tǒng)的準(zhǔn)確性。

表1 高校網(wǎng)絡(luò)輿情熱點(diǎn)關(guān)鍵詞及實(shí)驗(yàn)結(jié)果(%)Tab.1 Hot keywords and experimental results of network public opinion in colleges and universities (%)
作為改善高校教師生活的社交平臺(tái)之一,Yee Class為我們提供了一個(gè)友好的在線平臺(tái),以研究高校學(xué)生的需求,了解和判斷網(wǎng)絡(luò)上的輿論。隨著階級(jí)變化的迅速發(fā)展,高校基于階級(jí)變化的民意數(shù)據(jù)網(wǎng)絡(luò)也顯著增加。監(jiān)測(cè)和搜索研究所對(duì)互聯(lián)網(wǎng)的意見(jiàn)需要有效的信息檢索技術(shù)。在此基礎(chǔ)上,本文介紹了在改變課堂環(huán)境中建立輿論監(jiān)測(cè)系統(tǒng)的研究,同時(shí)考慮到數(shù)據(jù)收集的深度和廣度,并提高準(zhǔn)確性。隨著輿論監(jiān)測(cè)網(wǎng)絡(luò)不斷變化的分層系統(tǒng)的發(fā)展,理論研究和實(shí)際應(yīng)用有機(jī)地結(jié)合在一起,有必要在大學(xué)網(wǎng)絡(luò)中建立輿論監(jiān)控系統(tǒng),以滿(mǎn)足數(shù)字時(shí)代的要求。構(gòu)建高校網(wǎng)絡(luò)輿情監(jiān)控系統(tǒng),有望為大數(shù)據(jù)時(shí)代網(wǎng)絡(luò)輿情管理體系的構(gòu)建提供有效的參考和借鑒。