999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

數(shù)字化時(shí)代高校網(wǎng)絡(luò)輿情主題分類研究

2024-01-28 13:22:38賈隆嘉
中國管理信息化 2023年21期
關(guān)鍵詞:機(jī)器學(xué)習(xí)

賈隆嘉

[摘 要]通過一種文本表示策略解決新浪微博主題分類研究所面臨的特征權(quán)重表示不準(zhǔn)確、模型解釋性不強(qiáng)的問題。【方法/過程】采取“選擇前預(yù)測(cè)”構(gòu)建特征加權(quán)向量,在訓(xùn)練集上通過交叉驗(yàn)證方式對(duì)特征加權(quán)向量的成效進(jìn)行評(píng)價(jià),選擇最好評(píng)估結(jié)果對(duì)應(yīng)的特征加權(quán)向量作為測(cè)試集的特征加權(quán)向量。【結(jié)果/結(jié)論】對(duì)比傳統(tǒng)W-Max、D-Max和D-TMax三種方法,本文提出的方法在微平均F1方面分別提升4.25%、5.03%和7.10%。在網(wǎng)絡(luò)輿情主題分類中,該方法可以為數(shù)據(jù)集構(gòu)建更明確的特征加權(quán)向量,并增強(qiáng)模型的可解釋性,同時(shí)提升分類性能。

[關(guān)鍵詞]網(wǎng)絡(luò)輿情;主題分類;文本表示策略;機(jī)器學(xué)習(xí)

doi:10.3969/j.issn.1673-0194.2023.21.047

[中圖分類號(hào)]TP391;G647 [文獻(xiàn)標(biāo)識(shí)碼]A [文章編號(hào)]1673-0194(2023)21-0158-07

0? ? ?引 言

隨著互聯(lián)網(wǎng)在全球范圍內(nèi)的飛速發(fā)展,網(wǎng)絡(luò)媒體已被公認(rèn)為是繼報(bào)紙、廣播、電視之后的“第四媒體”,

成為思想文化信息的集散地和輿論的放大器。高校學(xué)生是網(wǎng)民中對(duì)社會(huì)熱點(diǎn)現(xiàn)象反映最積極、最活躍、最敏感的群體,極易通過互聯(lián)網(wǎng)表達(dá)自己對(duì)社會(huì)熱點(diǎn)問題的看法。在某些情況下,他們的意見和建議得不到重視或延誤解決,就可能在網(wǎng)上形成炒作,個(gè)體情緒可能傳染到群體,演變?yōu)槿后w的不滿情緒,激化矛盾,爆發(fā)形成網(wǎng)絡(luò)輿情。高校學(xué)生群體既有較強(qiáng)的公民責(zé)任感,又具備組織行動(dòng)的天然優(yōu)勢(shì),遇到某些敏感熱門話題,一經(jīng)煽動(dòng),極易激發(fā)他們的社會(huì)責(zé)任感和民族情懷,進(jìn)而引發(fā)大規(guī)模的網(wǎng)絡(luò)輿情。高校網(wǎng)絡(luò)輿情作為社會(huì)輿情的一個(gè)組成部分,在一定程度上反映并影響社會(huì)輿情的生成與發(fā)展。因此,面向高校網(wǎng)絡(luò)輿情安全的分析研究具有廣闊的應(yīng)用前景以及非常重要的實(shí)用價(jià)值與現(xiàn)實(shí)意義。當(dāng)前,關(guān)于網(wǎng)絡(luò)輿情安全的研究,主要有以下幾個(gè)方面。

(1)基于社會(huì)網(wǎng)絡(luò)分析方法研究網(wǎng)絡(luò)輿情安全。趙蓉英等[1]采用社會(huì)網(wǎng)絡(luò)分析方法,結(jié)合具有代表意義的突發(fā)事件案例,對(duì)其產(chǎn)生的網(wǎng)絡(luò)輿情數(shù)據(jù)加以采集與組織,并進(jìn)行突發(fā)事件網(wǎng)絡(luò)輿情傳播的定量化測(cè)度分析,挖掘識(shí)別關(guān)鍵節(jié)點(diǎn)并解釋其內(nèi)在的結(jié)構(gòu)特征與演變規(guī)律。梁曉敏等[2]提出輿論對(duì)象分析模型,利用依存句法分析,識(shí)別和抽取輿論對(duì)象與情感詞對(duì),進(jìn)行情感分析,并對(duì)輿論對(duì)象的關(guān)系網(wǎng)絡(luò)進(jìn)行研究。王晰巍等[3]以新浪微博中霧霾話題信息為例,基于社會(huì)網(wǎng)絡(luò)分析法,從點(diǎn)度中心性、中間中心性和接近中心性3個(gè)屬性出發(fā),對(duì)網(wǎng)絡(luò)輿情信息傳播進(jìn)行對(duì)比分析,使用Gephi和數(shù)理統(tǒng)計(jì)分析驗(yàn)證了社會(huì)網(wǎng)絡(luò)分析法在移動(dòng)環(huán)境下網(wǎng)絡(luò)輿情信息傳播研究中的有效性。

(2)基于搜索引擎的關(guān)注度指標(biāo)研究網(wǎng)絡(luò)輿情。陳濤等[4]利用搜索引擎的關(guān)注度指標(biāo)對(duì)網(wǎng)絡(luò)輿情熱度時(shí)空演變情況進(jìn)行了研究,并以“小悅悅事件”“郭美美事件”和“藥家鑫事件”作為案例,比較了谷歌趨勢(shì)和百度指數(shù)在關(guān)注度的時(shí)間和空間維度的變化特點(diǎn)。張和平等[5]根據(jù)網(wǎng)絡(luò)輿情事件的百度指數(shù)構(gòu)建發(fā)展趨勢(shì)的時(shí)間序列指標(biāo),通過幾何平均弱化緩沖算子處理后建立改進(jìn)的灰色Verhulst模型預(yù)測(cè),最后采用馬爾可夫模型對(duì)改進(jìn)的灰色Verhulst模型預(yù)測(cè)結(jié)果進(jìn)行修正。

(3)基于信息熵研究網(wǎng)絡(luò)輿情預(yù)測(cè)。黃亞駒等[6]通過信息熵理論控制種群初始化,利用遺傳算法的全局搜索能力和粒子群算法的局部搜索能力實(shí)現(xiàn)對(duì)BP神經(jīng)網(wǎng)絡(luò)權(quán)值的優(yōu)化,構(gòu)建了混合算法優(yōu)化的BP神經(jīng)網(wǎng)絡(luò)的網(wǎng)絡(luò)輿情預(yù)測(cè)模型。鄒凱等[7]基于網(wǎng)絡(luò)輿情分析了政府信息服務(wù)公眾滿意度影響因素,參考顧客滿意度模型建立了基于網(wǎng)絡(luò)輿情的政府信息服務(wù)公眾滿意度指數(shù)模型。針對(duì)指標(biāo)權(quán)重獲取的問題,構(gòu)建了基于粗糙集條件信息熵的政府信息服務(wù)公眾滿意度智能評(píng)價(jià)方法。

面向網(wǎng)絡(luò)輿情信息進(jìn)行主題分類對(duì)用戶具有重要意義。一方面,可以分類查詢和統(tǒng)計(jì)各類事件信息,形成呈送簡(jiǎn)報(bào);另一方面,可以為用戶判斷不同來源的同一事件提供技術(shù)支持。基于新浪微博數(shù)據(jù)的高校網(wǎng)絡(luò)輿情主題分類問題是一項(xiàng)訓(xùn)練集和測(cè)試集都非常簡(jiǎn)短的特殊文檔分類任務(wù)。本文分析研究了五種表示策略,同時(shí)提出了一種表示策略O(shè)DRS(Optimal Document Representation Strategy for Supervised Term Weighting Schemes),該方法通過對(duì)比各個(gè)類別的特征加權(quán)向量對(duì)于訓(xùn)練集分類產(chǎn)生的效果,可以構(gòu)建出適用于數(shù)據(jù)集的特征加權(quán)向量。實(shí)驗(yàn)結(jié)果表明,本文提出的表示策略可以有效提升高校網(wǎng)絡(luò)輿情安全主題分類性能。

1? ? ?研究方法

在向量空間模型中,文檔可以被表示為D={t1 t2,…, tn}的形式,其中t代表數(shù)據(jù)集中的特征,n代表向量空間模型中特征的總數(shù)。可以采用特征加權(quán)方法對(duì)向量中的元素進(jìn)行加權(quán),用以明確它們?cè)诜诸愔械呢暙I(xiàn),從而增強(qiáng)模型的解釋性,提高系統(tǒng)分類性能。

大多數(shù)研究表示在同一數(shù)據(jù)集上,有監(jiān)督的特征加權(quán)方法產(chǎn)生的分類效果普遍優(yōu)于無監(jiān)督的特征加權(quán)方法[8-10]。之所以稱為“有監(jiān)督特征加權(quán)方法”,是因?yàn)樵诙攘刻卣髦匾詴r(shí),采用了訓(xùn)練集中的類別信息。由于在分類模型中,系統(tǒng)不能獲得測(cè)試集的任何類別信息,通過每個(gè)類別的估計(jì)分布,最初測(cè)試文檔可以被表示的向量數(shù)與數(shù)據(jù)集的類別數(shù)相同,如何在多個(gè)備選向量中構(gòu)建一個(gè)最終向量,現(xiàn)階段研究中主要有兩種策略:局部策略和全局策略。在局部表示策略中,每一篇測(cè)試文檔在獨(dú)立的二分類任務(wù)中都將會(huì)被表示為一個(gè)單獨(dú)的向量,這意味著每篇文檔的表示不是單獨(dú)的向量,而是與不同的二分類任務(wù)相對(duì)應(yīng)的向量集合,即有一個(gè)二分類任務(wù)就有一個(gè)向量與之相對(duì)應(yīng)。第二種是較為常用的全局策略,在全局策略中,每一篇文檔都將會(huì)有一個(gè)與之相對(duì)應(yīng)的全局獨(dú)立表示向量。在大多數(shù)分類任務(wù)中,文檔一般只允許被分類到一個(gè)類別中,標(biāo)記一個(gè)與當(dāng)前文檔內(nèi)容最相近的類別標(biāo)簽,因此大部分分類任務(wù)都被視為單標(biāo)簽任務(wù)并在特征加權(quán)時(shí)采用全局策略,全局策略表示方法如公式(1)所示。

在公式(1)中,TW(t)是特征t的最終權(quán)重,TW(t,ci)是特征t通過有監(jiān)督的特征加權(quán)方法在類別ci中獲得的權(quán)重,|C|為訓(xùn)練集中的類別總數(shù)。可以看出,全局策略針對(duì)構(gòu)建的特征加權(quán)向量中每一個(gè)特征的權(quán)重值都是取其在所有類別對(duì)應(yīng)的特征加權(quán)向量中相應(yīng)列的最大值,由于缺少對(duì)構(gòu)建的特征加權(quán)向量進(jìn)行評(píng)估的過程,因此不能確保最終特征加權(quán)向量的有效性[11]。

本文研究的新浪微博文檔相比正常的文本文檔存在以下四點(diǎn)特殊性:第一,微博文檔包含的詞數(shù)較少,對(duì)于分類所包含的信息量少;第二,微博文檔中的停用詞相比正常文本文檔中占比高;第三,微博文檔中含有特殊符號(hào)表情;第四,微博文檔數(shù)據(jù)短,同時(shí)由于數(shù)據(jù)量大,將導(dǎo)致數(shù)據(jù)集的特征矩陣極度稀疏。由于數(shù)據(jù)的特殊性,對(duì)于以新浪微博數(shù)據(jù)為基礎(chǔ)的高校網(wǎng)絡(luò)輿情安全主題分類問題,現(xiàn)存的文本表示策略是否仍然有效,如果有效,哪一種表示策略可以獲得最好的結(jié)果?這是我們希望在本研究中解決的第一個(gè)問題。

1.1? ?相關(guān)表示策略

在文檔分類中,由于文本文檔不能直接被分類器解釋,通常需要將原始文檔轉(zhuǎn)換為向量表示,因此,文檔表示是文檔分類的重要步驟之一。在本節(jié)中,我們簡(jiǎn)要回顧幾種文本表示策略。

Younghoong Ko[11]于2012年提出了W-Max、

D-Max和D-TMax三種表示策略,用以改進(jìn)傳統(tǒng)表示策略,提高分類性能。下面針對(duì)三種表示策略逐一介紹。

(1)W-Max。數(shù)據(jù)集特征加權(quán)向量中的每一個(gè)特征權(quán)重值,將由所有類別對(duì)應(yīng)的特征加權(quán)向量中相應(yīng)維度的最大值代替。通過與全局策略對(duì)比分析可以得知,兩種策略的核心思想是一致的。考慮到這種情況,在本文的相關(guān)對(duì)比實(shí)驗(yàn)中將只展示其中一種結(jié)果。

(2)D-Max。遍歷數(shù)據(jù)集中各個(gè)類別對(duì)應(yīng)的特征加權(quán)向量,逐一對(duì)各個(gè)特征加權(quán)向量中的特征權(quán)重值求和,最終最大和值對(duì)應(yīng)的特征加權(quán)向量,將作為數(shù)據(jù)集的特征加權(quán)向量。

(3)D-TMax。首先,遍歷數(shù)據(jù)集中各個(gè)類別對(duì)應(yīng)的特征加權(quán)向量,逐一對(duì)各個(gè)特征加權(quán)向量中的特征權(quán)重值求和,然后將求和后的值由大到小排序,排序列表前兩個(gè)值(即最高值和次高值)所對(duì)應(yīng)的特征向量(記為vmax1和vmax2)將被選出。遍歷兩個(gè)被選出特征向量vmax1和vmax2的每一維,在每一維度兩個(gè)特征值中較大的元素值將作為最終數(shù)據(jù)集特征加權(quán)向量相應(yīng)維度的權(quán)重值。

下面舉例說明上述三種表示策略針對(duì)同一情況的不同結(jié)果。假設(shè)有訓(xùn)練集D={d1, d2,…, dn},包含n篇文檔,m個(gè)特征,|C|個(gè)類別,類別集C={c1, c2,…, c|C|};當(dāng)某個(gè)類別作為正類別時(shí),對(duì)應(yīng)的特征加權(quán)向量集合V={v1, v2,…, v|C|}。矩陣V如公式(2)所示。

在公式(2)中,tij代表類別ci作為正類時(shí),取得特征加權(quán)向量的第j個(gè)元素。假設(shè)測(cè)試集的最終特征加權(quán)向量為vd={w1, w2,…, wm},wk為vd的第k個(gè)元素。

(1)當(dāng)使用W-Max策略時(shí),wk可以由公式(3)計(jì)算。

(2)當(dāng)使用D-Max策略時(shí),首先采用公式(4)計(jì)算各個(gè)類別對(duì)應(yīng)的特征加權(quán)向量的權(quán)重和。然后,將求和后的值由大到小排序,記錄值最大的sumi對(duì)應(yīng)的i值,則此sumi對(duì)應(yīng)的特征加權(quán)向量將被選擇作為測(cè)試集的特征加權(quán)向量vd。

(3)當(dāng)使用D-TMax策略時(shí),首先采用公式(4)計(jì)算各個(gè)類別對(duì)應(yīng)的特征加權(quán)向量的權(quán)重和,然后,將求和后的值由大到小排序,選擇出排序列表前兩個(gè)值,記為:suma與sumb,記錄對(duì)應(yīng)的下標(biāo)a、b。最終wk可以由公式(5)計(jì)算。其中,tak和tbk分別為類別a與類別b對(duì)應(yīng)特征加權(quán)向量的第k個(gè)元素。

wk=max(tak,tbk);a≠b∈[1,k],k∈[1,m]? ?(5)

1.2? ?有監(jiān)督特征加權(quán)方法的最優(yōu)表示策略

根據(jù)之前的分析,在不同數(shù)據(jù)集獲得好的分類性能,需要不同的表示策略[11];即同一表示策略不能適用于所有數(shù)據(jù)集。如何在選擇文本表示策略前預(yù)測(cè)或分析它對(duì)當(dāng)前數(shù)據(jù)集帶來的效果,換句話說,對(duì)于一個(gè)待分析的數(shù)據(jù)集,我們?nèi)绾芜x擇文本表示策略?這是我們?cè)诒疚闹邢M鉀Q的第二個(gè)問題,將在文章結(jié)尾給出答案。

文本表示策略選擇不恰當(dāng),將直接導(dǎo)致特征權(quán)重賦值不合理,對(duì)于一些類別對(duì)應(yīng)的特征加權(quán)向量,它們賦予特征的權(quán)重值對(duì)于分類沒有作用,甚至?xí)碡?fù)面效果,降低分類性能。下面舉例說明這一情況,假設(shè)有訓(xùn)練集包含19篇文檔、5個(gè)特征、5個(gè)類別;文檔、特征、類別三者之間的關(guān)系如表1所示,數(shù)字代表特征在文檔中出現(xiàn)的次數(shù)。

以特征加權(quán)方法tf *rf = tf *log(2+a/max(1,c))為例[9],其中a代表特征在正類別文檔中出現(xiàn)的次數(shù),c代表特征在負(fù)類別文檔中出現(xiàn)的次數(shù)。當(dāng)類別1至類別5分別作為正類時(shí),計(jì)算得到的對(duì)應(yīng)特征權(quán)重值如表2所示。

當(dāng)不同類別作為正類時(shí),每個(gè)特征被賦予的權(quán)重值不同,如何綜合各個(gè)類別分布特點(diǎn),為數(shù)據(jù)集構(gòu)建恰當(dāng)?shù)奶卣骷訖?quán)向量,基于D-Max和D-TMax策略的思想,我們首先根據(jù)公式(4)計(jì)算類別C1至C5對(duì)應(yīng)的特征加權(quán)向量的權(quán)重和,然后依次選擇前1個(gè)至前5個(gè)最高和值對(duì)應(yīng)的向量,最后按照公式(6)分別構(gòu)建特征加權(quán)向量。

在公式(6)中,selected C代表根據(jù)特征權(quán)重和值排序后,選擇的對(duì)應(yīng)向量數(shù)量。當(dāng)選擇前1個(gè)或前2個(gè)和值對(duì)應(yīng)的向量時(shí),為D-Max策略或D-TMax策略;我們將選擇前3個(gè)、4個(gè)及5個(gè)和值對(duì)應(yīng)的向量,然后構(gòu)建特征加權(quán)向量的策略,分別稱為“D-3Max” “D-4Max”和“D-5Max”。對(duì)于更多類別時(shí),我們統(tǒng)一稱為“D-NMax”(Document Number Max),其中“N”指的是選擇向量的數(shù)量。各個(gè)類別對(duì)應(yīng)的特征加權(quán)向量的權(quán)重和值排序結(jié)果如表3所示。表4展示了采用不同表示策略時(shí),特征t1至t5所獲得的權(quán)重值。

通過分析表1中文檔、特征和類別三者間的關(guān)系,相比特征t3和t5的特征權(quán)重值,特征t1,t2和t4的特征權(quán)重值應(yīng)該較高,同時(shí)在t1,t2和t4三個(gè)特征中,t1的特征權(quán)重值應(yīng)該最小,t2的特征權(quán)重值應(yīng)該最大。原因主要有以下三點(diǎn):一是相比特征t1,t2和t4,特征t3和t5在5個(gè)類別的文檔中,分布相對(duì)均勻,不具備明顯區(qū)分度,因此相比特征t1,t2和t4,特征t3和t5的特征權(quán)重值應(yīng)該較小。二是相比特征t2和t4,特征t1在各個(gè)文檔中出現(xiàn)的頻次較低,同時(shí)特征t1在類別C1的部分文檔(d4)和類別C2的部分文檔(d9)中出現(xiàn)的頻次與在類別C5的文檔(d17,d18和d19)中出現(xiàn)的頻次相同,因此相比特征t2和t4,t1不具備明顯區(qū)分度,在t1,t2和t4三個(gè)特征中,t1的特征權(quán)重值應(yīng)該最小。三是相比其他特征,特征t2集中出現(xiàn)在類別C4的文檔中,并且頻次較高,是一個(gè)具備明顯區(qū)分度的特征,因此在5個(gè)特征中t2的特征權(quán)重值應(yīng)該最大。

通過總結(jié)以上實(shí)例和傳統(tǒng)文本表示策略,本文提出了ODRS方法。通過循環(huán)遍歷每個(gè)類別對(duì)應(yīng)的特征權(quán)重值,依次根據(jù)公式(6)重新組合形成新的特征加權(quán)向量,然后在訓(xùn)練集上比較、驗(yàn)證各個(gè)新生成特征加權(quán)向量的加權(quán)效果,最終選擇適合于當(dāng)前數(shù)據(jù)集的特征加權(quán)向量。循環(huán)遍歷的思想主要是受到Y(jié)un-Qian Miao[12]等人的啟發(fā),他們提出了一個(gè)成對(duì)優(yōu)化的Rocchio算法,算法中通過在訓(xùn)練集上動(dòng)態(tài)調(diào)整介于兩個(gè)類別間的原始分類線位置,記錄每一次調(diào)整后的分類結(jié)果,最終遍歷所有結(jié)果,選擇最適合當(dāng)前兩個(gè)類別的分類線位置。

相比傳統(tǒng)方法,本文提出方法有三點(diǎn)改進(jìn)。一是針對(duì)有監(jiān)督特征加權(quán)方法,不再是根據(jù)研究人員的經(jīng)驗(yàn)采用某種文本表示策略對(duì)文本進(jìn)行表示,而是根據(jù)當(dāng)前數(shù)據(jù)集,智能構(gòu)建特征加權(quán)向量,進(jìn)一步對(duì)數(shù)據(jù)集進(jìn)行表示。二是提出的方法引入了循環(huán)遍歷思想,重新構(gòu)建特征加權(quán)向量的備選向量不再受局限,可以根據(jù)各個(gè)類別分布的實(shí)際情況,構(gòu)建出適合當(dāng)前數(shù)據(jù)集的特征加權(quán)向量。三是提出的方法實(shí)行“選擇前預(yù)測(cè)”,在構(gòu)建特征加權(quán)向量時(shí),采用類似交叉驗(yàn)證的方式,在訓(xùn)練集上測(cè)試特征加權(quán)向量的效果,根據(jù)文檔、特征以及類別之間的關(guān)系構(gòu)建特征加權(quán)向量。方法描述如下。

在本文提出的方法中,采用Micro F1作為交叉驗(yàn)證結(jié)果的評(píng)價(jià)指標(biāo),而沒有采用精確率、召回率等評(píng)價(jià)指標(biāo),主要原因是精確率和召回率是互相影響的,一般情況下精確率高,召回率就低;召回率高,精確率就低。本文采用了綜合兩者的評(píng)價(jià)指標(biāo)Micro F1。

2? ? ?實(shí)驗(yàn)與分析

2.1? ?實(shí)驗(yàn)數(shù)據(jù)

為了驗(yàn)證提出算法的有效性,本文應(yīng)用網(wǎng)絡(luò)爬蟲技術(shù),從新浪微博抓取20 000條高校微博文檔數(shù)據(jù)。根據(jù)以下規(guī)則從源數(shù)據(jù)中抽取出具有分類價(jià)值的微博文檔:第一,選取純文本類型的微博文檔;第二,選取大于120個(gè)字符的微博文檔。通過這兩條規(guī)則,共篩選出了13 079條微博文檔。根據(jù)《2016年中國高校政務(wù)新媒體發(fā)展報(bào)告》,校園學(xué)生發(fā)微博排在前10位的類型分別是:休閑娛樂、人文藝術(shù)、科技科普、教育、交通服務(wù)、新聞資訊、讀書寫作、運(yùn)動(dòng)健身、公益、情感。實(shí)驗(yàn)中將以上10個(gè)類別作為目標(biāo)類別,采用以下方式對(duì)抽取到的數(shù)據(jù)進(jìn)行標(biāo)注:對(duì)所有數(shù)據(jù)進(jìn)行兩次標(biāo)注,工作由4人完成,將兩次標(biāo)注的結(jié)果逐一核對(duì),微博內(nèi)容相同但是標(biāo)注類別不同的文檔需篩選出來,進(jìn)行單獨(dú)討論,同時(shí),丟棄難以確認(rèn)類別的微博文檔。經(jīng)過標(biāo)注后的數(shù)據(jù)集共包含9 183條微博文檔,每個(gè)類別中包含的文檔數(shù)詳見表5。

2.2? ?評(píng)價(jià)標(biāo)準(zhǔn)及分類器

考慮到本文實(shí)驗(yàn)數(shù)據(jù)集為失衡數(shù)據(jù)集,在度量結(jié)果時(shí),將采用微平均作為評(píng)價(jià)指標(biāo),同時(shí)采用了主題分類中常用的支持向量機(jī)分類器。由于支持向量機(jī)采用了結(jié)構(gòu)風(fēng)險(xiǎn)最小化原則,使其在分類的時(shí)候常常展現(xiàn)出較好的性能,Leopold和Kindermann[13]指出相比改變核函數(shù),應(yīng)用特征加權(quán)方法可以有效地提高支持向量機(jī)的性能。一些文獻(xiàn)也指出支持向量機(jī)的線性核函數(shù)性能優(yōu)于非線性核函數(shù)[14]。此外,考慮到實(shí)驗(yàn)數(shù)據(jù)的特征數(shù)目和樣本數(shù)目都較大,本文在使用支持向量機(jī)的時(shí)候選用了線性核函數(shù),并且將其他參數(shù)設(shè)置為默認(rèn),實(shí)驗(yàn)中采用LibSVM工具包[15-16]。

2.3? ?結(jié)果與分析

本文將使用tf *rf有監(jiān)督特征加權(quán)方法,結(jié)合W-Max、D-Max、D-TMax以及本文提出的ODRS方法進(jìn)行比較。實(shí)驗(yàn)中ODRS方法得到的selected C值為5。對(duì)比采用W-Max、D-Max和D-TMax三種策略,本文提出的ODRS方法結(jié)合tf *rf特征加權(quán)方法獲得了最優(yōu)結(jié)果。

圖1展示了采用tf *rf特征加權(quán)方法,應(yīng)用四種文本表示策略,使用支持向量機(jī)分類器取得的微平均F1值結(jié)果。橫軸代表不同的文本表示策略,縱軸代表取得的相應(yīng)微平均F1值。從中可以看出,ODRS方法獲得微平均F1值結(jié)果明顯高于其他文本表示策略得到的結(jié)果。為充分展示ODRS方法的有效性,除圖1中的結(jié)果外,表6中列出了其他情況對(duì)應(yīng)的結(jié)果。

通過觀察表6可以得知,針對(duì)微博短文檔失衡數(shù)據(jù)集選擇文本表示策略時(shí),傳統(tǒng)的文本表示策略并不是最優(yōu)選擇,相比之下,ODRS方法表示的數(shù)據(jù)集可以獲得較好的分類結(jié)果。主要原因?yàn)槲⒉┪臋n相比常規(guī)文檔包含特征詞少了許多,由于數(shù)據(jù)量較大,使得數(shù)據(jù)集特征矩陣極度稀疏,傳統(tǒng)文本表示策略不能依據(jù)數(shù)據(jù)集實(shí)際特點(diǎn)構(gòu)建恰當(dāng)?shù)奶卣骷訖?quán)向量;ODRS方法通過“選擇前預(yù)測(cè)”方式,在構(gòu)建數(shù)據(jù)集的特征加權(quán)向量時(shí),首先在訓(xùn)練集上采取交叉驗(yàn)證方式對(duì)當(dāng)前特征加權(quán)向量的效果進(jìn)行充分評(píng)價(jià),然后從所有待選擇的特征加權(quán)向量中,選擇最好評(píng)估結(jié)果對(duì)應(yīng)的特征加權(quán)向量作為測(cè)試集的特征加權(quán)向量。

在文章結(jié)尾,我們對(duì)之前提出的兩個(gè)問題給出答案。

(1)對(duì)于以新浪微博數(shù)據(jù)為基礎(chǔ)的高校網(wǎng)絡(luò)輿情安全主題分類問題,現(xiàn)存的文本表示策略是否仍然有效,如果有效,哪一種表示策略可以獲得最好的結(jié)果?

通過在實(shí)際數(shù)據(jù)集上對(duì)現(xiàn)存的文本表示策略進(jìn)行性能評(píng)估,我們發(fā)現(xiàn)各個(gè)文本表示策略性能差異顯著,W-Max(全局策略)取得的結(jié)果優(yōu)于D-Max和D-TMax策略。

(2)如何在選擇文本表示策略前預(yù)測(cè)或分析它對(duì)當(dāng)前數(shù)據(jù)集帶來的效果,換句話說,對(duì)于一個(gè)待分析的數(shù)據(jù)集,我們?nèi)绾芜x擇文本表示策略?

為使得數(shù)據(jù)集獲得恰當(dāng)?shù)奈臋n表示,本文提出了ODRS方法。方法在構(gòu)建特征加權(quán)向量過程中,通過循環(huán)遍歷方式,為最終確定的特征加權(quán)向量提供了多個(gè)備選特征加權(quán)向量,根據(jù)各類別的分布特點(diǎn),在訓(xùn)練集上對(duì)備選特征加權(quán)向量采用交叉驗(yàn)證方式評(píng)價(jià)其加權(quán)效果,最終將評(píng)價(jià)效果最好的特征加權(quán)向量作為測(cè)試集的特征加權(quán)向量。

3? ? ?結(jié)束語

隨著微博的快速發(fā)展,對(duì)于微博文檔主題分類已經(jīng)有了迫切需求,然而,微博文檔作為特殊的短文本文檔,每條微博包含的特征詞較少,不確定當(dāng)前文本表示策略對(duì)其是否有效。在本文中,我們研究了幾個(gè)應(yīng)用較為廣泛的文本表示策略,與此同時(shí),提出了一種新的文本表示策略,對(duì)高校網(wǎng)絡(luò)輿情主題分類帶來的效果明顯。方法采取“選擇前預(yù)測(cè)”方式構(gòu)建特征加權(quán)向量,避免了傳統(tǒng)依據(jù)經(jīng)驗(yàn)選擇文本表示策略造成的分類效果不理想問題。

本文提出的方法在一定程度上滿足了網(wǎng)絡(luò)輿情主題分類中文本表示問題的現(xiàn)實(shí)需求,可以為高校網(wǎng)絡(luò)輿情分析提供一定的技術(shù)方法支持。然而,高校網(wǎng)絡(luò)輿情安全正處于探索階段,本文僅研究主題分類中文本表示技術(shù),對(duì)于主題分類中其他相關(guān)步驟有待進(jìn)一步研究。

主要參考文獻(xiàn)

[1]趙蓉英,王旭.突發(fā)事件網(wǎng)絡(luò)輿情關(guān)鍵節(jié)點(diǎn)識(shí)別及導(dǎo)控對(duì)策研究:以“大賢村遭洪災(zāi)事件”為例[J].現(xiàn)代情報(bào),2018,38(1):19-24,30.

[2]梁曉敏,徐健.輿情事件中評(píng)論對(duì)象的情感分析及其關(guān)系網(wǎng)絡(luò)研究[J].情報(bào)科學(xué),2018,36(2):37-42.

[3]王晰巍,邢云菲,趙丹,等.基于社會(huì)網(wǎng)絡(luò)分析的移動(dòng)環(huán)境下網(wǎng)絡(luò)輿情信息傳播研究:以新浪微博“霧霾”話題為例[J].圖書情報(bào)工作,2015,59(7):14-22.

[4]陳濤,林杰.基于搜索引擎關(guān)注度的網(wǎng)絡(luò)輿情時(shí)空演化比較分析:以谷歌趨勢(shì)和百度指數(shù)比較為例[J].情報(bào)雜志,2013,32(3):7-10,16.

[5]張和平,陳齊海.基于灰色馬爾可夫模型的網(wǎng)絡(luò)輿情預(yù)測(cè)研究[J].情報(bào)科學(xué),2018,36(1):75-79.

[6]黃亞駒,陳福集,游丹丹.基于混合算法和BP神經(jīng)網(wǎng)絡(luò)的網(wǎng)絡(luò)輿情預(yù)測(cè)研究[J].情報(bào)科學(xué),2018,36(2):24-29.

[7]鄒凱,左珊,陳旸,等.基于網(wǎng)絡(luò)輿情的政府信息服務(wù)公眾滿意度評(píng)價(jià)研究[J].情報(bào)科學(xué),2016,34(2):45-49.

[8]LAN M,SUNG S Y,LOW H B,et al. A comparative study on term weighting schemes for text categorization[C]//,Proceedings of IEEE International Joint Conference on Neural Networks. 2005:546-551.

[9]LAN M,TAN C L,SU J,et al. Supervised and traditional term weighting methods for automatic text categorization[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence,2009,31(4):721-735.

[10]QUAN X,WENYIN L,QIU B. Term weighting schemes for question categorization[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence,2011,33(5):1009-1021.

[11]KO Y. A study of term weighting schemes using class information for text classification[C]//Proceedings of the 35th international ACM SIGIR conference on Research and development in information retrieval,2012:1029-1030.

[12]MIAO Y Q,KAMEL M. Pairwise optimized Rocchio algorithm for text categorization[J]. Pattern Recognition Letters, 2011,32(2):375-382.

[13]LEOPOLD E,KINDERMANN J. Text categorization with support vector machines:How to represent texts in input space?[J]. Machine Learning,2002,46(1-3):423-444.

[14]CAI D,HE X. Manifold adaptive experimental design for text categorization[J]. IEEE Transactions on Knowledge and Data Engineering,2012,24(4):707-719.

[15]ChANG C C,LIN C J. LIBSVM: A library for support vector machines[J]. ACM Transactions on Intelligent Systems and Technology(TIST),2011,2(3):27-33.

[16]田梅,朱學(xué)芳. 基于支持向量機(jī)的大學(xué)生網(wǎng)絡(luò)信息偶遇影響因素研究[J]. 圖書情報(bào)工作,2018,62(8):84-92.

猜你喜歡
機(jī)器學(xué)習(xí)
基于詞典與機(jī)器學(xué)習(xí)的中文微博情感分析
基于網(wǎng)絡(luò)搜索數(shù)據(jù)的平遙旅游客流量預(yù)測(cè)分析
前綴字母為特征在維吾爾語文本情感分類中的研究
下一代廣播電視網(wǎng)中“人工智能”的應(yīng)用
活力(2016年8期)2016-11-12 17:30:08
基于支持向量機(jī)的金融數(shù)據(jù)分析研究
基于Spark的大數(shù)據(jù)計(jì)算模型
基于樸素貝葉斯算法的垃圾短信智能識(shí)別系統(tǒng)
基于圖的半監(jiān)督學(xué)習(xí)方法綜述
機(jī)器學(xué)習(xí)理論在高中自主學(xué)習(xí)中的應(yīng)用
極限學(xué)習(xí)機(jī)在圖像分割中的應(yīng)用
主站蜘蛛池模板: 亚洲天堂成人在线观看| 波多野结衣在线se| av免费在线观看美女叉开腿| 91精品国产丝袜| 欧美激情综合| 国产精品久久久久婷婷五月| 四虎永久免费在线| 亚洲国产精品美女| 中字无码av在线电影| 国产精品三区四区| 国产福利微拍精品一区二区| 少妇被粗大的猛烈进出免费视频| jizz在线观看| 欧美不卡视频在线观看| 亚洲成人黄色在线| 久久精品66| 永久在线精品免费视频观看| 蜜芽国产尤物av尤物在线看| 亚洲欧美日本国产综合在线 | 看国产毛片| 九色在线视频导航91| 精品人妻一区无码视频| a欧美在线| 久久精品人人做人人综合试看| 人妻丰满熟妇αv无码| 免费女人18毛片a级毛片视频| 伊人福利视频| 亚洲国产日韩在线观看| 国产原创自拍不卡第一页| 色哟哟国产精品| 狠狠五月天中文字幕| 91在线国内在线播放老师| 国产内射一区亚洲| 欧美成人h精品网站| 午夜视频日本| 国产成人免费观看在线视频| 国产成人高精品免费视频| 美女一级毛片无遮挡内谢| 成人在线第一页| 五月激情婷婷综合| 亚洲 欧美 日韩综合一区| 69免费在线视频| 91无码国产视频| 精品91视频| 日本高清成本人视频一区| 色九九视频| 伊人天堂网| 四虎AV麻豆| 伊人大杳蕉中文无码| 国产性精品| 无码高潮喷水在线观看| 亚洲国内精品自在自线官| 色AV色 综合网站| 中文字幕资源站| 久99久热只有精品国产15| 国产99视频在线| 亚洲精品桃花岛av在线| 国内精品视频在线| 97久久免费视频| 亚洲Av综合日韩精品久久久| 国产欧美日韩另类| 国产成人精品在线1区| 日韩精品成人网页视频在线| 毛片免费观看视频| 最新国产你懂的在线网址| 中文字幕有乳无码| 精品国产成人a在线观看| 久久久久久尹人网香蕉 | a亚洲视频| 91精品国产一区自在线拍| 精品久久国产综合精麻豆| 欧美翘臀一区二区三区| 国产福利2021最新在线观看| 内射人妻无码色AV天堂| 97人妻精品专区久久久久| 91精品啪在线观看国产60岁 | 91蝌蚪视频在线观看| 中文字幕亚洲精品2页| 亚洲男女天堂| 中文国产成人精品久久一| 91欧洲国产日韩在线人成| 99精品视频九九精品|