999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

直播網站在線彈幕情感分析

2022-05-26 08:56:16陳朝明
軟件導刊 2022年5期
關鍵詞:分類特征文本

陳朝明

(中南民族大學計算機科學學院,湖北武漢 430027)

0 引言

近年來,隨著在線影音平臺的興起,網絡直播成為一種影像娛樂的流行模式。直播與其他各種傳統影視的最大區別在于,觀眾能隨時通過彈幕文本和視頻主播之間進行實時交互,主播也同樣可以根據其受眾的直播需求進行實時反饋——通過彈幕及時地調整自己的直播節目動態內容并更好地通過直播取悅其受眾,以獲得更多關注。其中,演出或主持直播的主角一般稱之為“主播”或是“實況主”。彈幕則指一種用戶觀看直播的評論方式。這些評論文本從屏幕上呈現一閃而過的視覺效果,看上去如高速飛行的子彈一般,因而人們將其稱之為彈幕[1]。

在對文本的情感分析中,傳統方法大多是基于對情感知識的認知構建一個情感詞典,然后以這些情感詞典為主要工具進行分類。國內外研究者在情感分析的研究和應用上已取得突破性進展,但對于彈幕文本情感分析的深入研究卻較少。最早提出情感分析字典的whissell[2],他們先招募了148 名受試者,首先使用5 個附加單詞,其中包括描述一個數學術語、物理科學術語、電視技術術語、報紙技術術語和生物學等術語,然后與其他情感詞典頻次度最高的情感字詞互相匹。Kim 等[3]利用同義詞、近義詞的關系,將一批人工標注的初始種子情感詞作為基礎,將與種子詞同義詞語的情感傾向設置為相同,與種子詞反義相反則設置為對應的情感極性。上文提出的情感詞典都比較基礎,即只對使用最為廣泛的詞如“漂亮”“好”“不行”等進行了收集整理。基礎情感詞典鎖覆蓋的文本有限,無法結合語境、語義分析,在情感分類性能上存在不足。有一些年份比較久遠的情感詞典應用到具有新含義情感詞的語料中時,由于受到語境遷移影響從而導致分類效果較差。

在文檔和句子層次上,目前研究主要集中在基于機器學習的情感分類方法上。這種方法將預先標記數據的情感極性作為訓練數據[4]。根據訓練數據,對情感分類模型進行訓練,優化分類精度,然后對文本進行情感極性分類。謝鐵等[5]利用深度遞歸神經網絡算法獲取句子語義信息,并引入漢語“情感訓練樹圖數據庫”作為訓練數據,找到詞語中的情感信息;Appel 等[6]提出一種結構混合式的句子級情感分析方法,在已有情感詞典的基礎上,利用自然語言處理技術對情感詞典進行增強,并利用模糊集估計句子的語義方向、極性和強度,為情感計算提供了基礎。這兩種方法都忽略了句子間的依存關系;Abbasi 等[7]提出一種基于語言學規則的多文本語義特征選取方法,該選取方法不但考慮了語義信息,還利用語法特征之間的相互關系,可以有效去除文本中的雜質、無關信息和其他冗余的語義特征;黨蕾等[8]首先分析不同語法之間的相關性,然后根據語法結構提取距離因子,并對否定模式匹配后的句子極性算法進行改進,最后提高了句子級情感分析的準確性。在分析相關基礎知識和語義特征的基礎上,Shi 等[9]提出基于隨機條件的情感信息聯合識別模型,并給出一個關于詞語情感強度的計算公式。他們提出的模型對于彈幕這樣的短文本評論語言適用性較差。

盡管國內外研究者對傳統文本的情感分析進行了大量深入研究,已取得較為成熟的成果[10],但對彈幕情感的研究與分析并不多。并且,由于彈幕獨特的在線實時、語言簡略與互聯網化特征,現有方法難以直接用于彈幕情感分析。因此,采用新的方法對直播彈幕的情感進行分析具有非常重要的實際意義與應用價值[11]。

已有研究中尚沒有對彈幕的特征進行研究,也缺乏對彈幕領域情感詞典的完善。針對該問題,本文做了如下工作:提出一個基于改進SVM 算法的情感分析模型;在收集處理直播網站在線彈幕文本后構建一個彈幕文本語料庫,結合現有情感詞典構建一個彈幕專屬情感詞典,在對優化模型進行實驗后實現分類性能提高;考慮了彈幕中能表達情感的各項特征[12]。

1 情感分析流程

情感強度評價是對情感極性的判斷,將判斷結果細分為強、中、弱等不同程度。文本情感分析一般過程如下:①從互聯網上收集和整理原始語料庫數據,首先對數據進行清理,去除非文本數據,然后對文本進行預處理[13];②根據不同的算法,對預處理后的文本數據進行情感極性判斷和情感強度評價;③將情感分析過程的結果應用到事物評價、企業經營、政府監管等相關領域,實現研究的意義和價值[14]。

彈幕情感分析流程如圖1 所示,首先從直播平臺收集和整理原始語料庫數據,對原始彈幕數據進行清理,去除非文本數據形成彈幕語料庫[15],然后對文本進行預處理。通過對語料進行特征提取,構建彈幕情感詞典[16]。

Fig.1 Flow of bullet screen sentiment analysis圖1 彈幕情感分析流程

2 彈幕數據情感分析模型

2.1 系統模型

如圖2 所示,系統模型由語料庫、特征工程、分類器組成。首先,原始數據由直播網站后臺獲取,分別經過分詞、停用詞進行處理,將其進行人工分類后組成的語料庫;然后,通過特征工程提取每個W特征,轉化為,其中x為W提取的各項特征,y為W的分類結果(包含正向和負向);再經過本文改進的分類器進行分類得到S{W1,W2,...,Wn},通過輸出數據優化分類器使分類器得到更好的性能評價指標P。因此,該模型的核心問題可以描述為:

2.2 數據預處理

本文選取虎牙直播網站的彈幕數據作為本文的語料數據來源。通過虎牙直播網站開放接口,使用Python 接收后臺數據,并將所需直播間的彈幕文本保存在本地中。本文以虎牙的官方直播間——《英雄聯盟賽事》(https://www.huya.com/lpl)為主要數據獲取對象。經過一段時間的實時彈幕獲取,累計得到61萬條文本。

Fig.2 System model圖2 系統模型

由于彈幕的口語化嚴重,彈幕文本往往包含大量與情感表達無關的文字。為了保證后續情感分析結果的有效性,需要進行嚴格的文本預處理操作,以保證文本數據的標準化。對彈幕文本的預處理包括以下幾個步驟:過濾無意義文本、情感極性標注、文本分詞和去除停止詞[17]。

在對彈幕文本進行分詞處理后,出現了大量的無意義詞。這些詞在各種漢語文本中都很豐富,但并不參與文本意義的表達,這些詞被稱為停止詞。停止詞指在語篇中頻繁出現但對語義研究毫無意義的詞,如“和”“德”“在”“然后”,以及一些使用過于頻繁的詞,如“我”“就”“啊”“把”。此外,作為網絡文本,彈幕還包含一些英文、數字、表情符號和特殊符號。彈幕的口語化現象嚴重,因此去除停止詞也是文本預處理的一個重要步驟。本文將收集所有的停止詞,形成停止詞列表。分詞后匹配停止詞列表,過濾文本,避免分詞后過多干擾。使用for 循環遍歷seg_str,通過if 語句判斷該詞是否存在于停止詞列表中,將該詞后面的停止詞移到seg 列表的內容中[18]。

2.3 情感特征構造

在考慮特征構造時,本文選取幾種常見的情感特征。通過組合這些特征得到最優分類效果。其中,詞向量化是最基礎的工作,標記了每個詞在訓練文檔中的空間特征,在后文的實驗中稱為word 特征[19];情感詞典則依據情感詞進行分類,在實驗中稱為pos(詞性)特征;依存句法分析則通過綜合算法判斷句子的情感特性,叫作dep(句法)特征。

針對直播彈幕情感詞典缺乏的不足,為了構造一個彈幕領域性詞典,本文在大連理工信息檢索研究室情感詞匯本體(Dalian University of Technology Sentiment Ontology,DUTSO)的基礎上,通過增加彈幕專屬情感詞的方式,構建新的情感分析詞典。獲取新的情感詞首先要將文本數據進行預處理,目前的預處理工作一般包含數據清洗、停用詞處理、分詞、詞性標注、詞頻統計等。情感詞匯如表1所示。

在評論語言中,情感詞和評價目標詞之間通常存在某種修飾關系,這種修飾關系可以通過依存分析找到。依存分析通過分析詞與詞之間的依存關系,揭示句子的句法結構。在依存句法理論中,句法結構實質上包含了詞與詞之間的依存(修飾)關系。依存關系可以分為不同的類型以表達句子中兩個詞之間的特定句法關系,并且用于連接主導詞和從屬詞。采用依存句法描述句子的好處在于不需要理解單詞本身的意思,而是通過所承載的語法關系表達單詞,而且其數量遠遠少于單詞數量[20]。同時,一個句子中的核心動詞是支配其他成分的中心成分,它不受自身支配,并作為句子的根節點,這樣的詞在依存關系中被記錄為“根”。當然,非正式不完整句子中可能沒有動詞。此時,形容詞或名詞也可能成為根節點。并且,依賴于根節點,其他組件之間也存在依賴關系。除詞匯本身特征外,還需組合的情感特征如表2所示。

Table 1 Emotional vocabulary表1 情感詞匯

Table 2 Emotional characteristics explanation表2 情感特征示意表

基于依存語法的方法是利用依賴語法分析提取文本的主干,然后利用其他分類方法對其進行分類。該方法提取的主文本大多包含明顯的情感詞和情感對象,文本中沒有明顯情感詞的部分往往被忽略,但這些被忽略的部分也可能表達情感。因此,從提高文本預期利用率的角度出發,考慮了其他部分的影響:利用句法依存關系提取評論句中的短語,并在此基礎上進行分句[21],提取出可能表達意見的句子部分,并利用訓練好的監督分類模型識別意見類別類別。

2.4 基于改進SVM 算法的情感分類

彈幕文本經過特征提取,得到了一個高維空間的向量矩陣,這些數據的分類依賴于有效的分類器。在對比多個機器學習方法后,本文選取支持向量機(Support Vector Machine,SVM)算法構建情感分類的分類器[22]。SVM 算法在面向本文所提彈幕語料庫這種數據量不大的樣本時仍然有效。其分類準確率高、泛化能力強。假設彈幕文本訓練資料為:

樣本空間中任一個樣本點到超平面(ω,b)的距離可寫為:

SVM 的優化目標是使r最大。正向分類滿足wTx+b>=1,負向分類滿足wTx+b<=-1。將這兩類可整理如下:

分類問題即滿足上式條件的優化問題,總結為:

將情感分類模型轉化為無限制經驗損失最小化問題,考慮到誤差問題引入Hinge Loss,l(ω,(x,y))。最小化問題的定義函數如下:

其中,l(ω,(x,y))如下:

使用隨機梯度下降求解目標函數。

為了平衡泛化與學習,提高內核函數的自適應性,引入分類處理因子與梯度下降因子對SVM 進行算法改進[23]。用Smooth Loss 替換Hinge Loss,即將式l(ω,(x,y))轉化為,將問題進一步轉化為超平面下的無約束平滑優化問題。

隨機選取超平面空間下的一個訓練樣本it,其中i為某一情感特征,a為樣本活躍度即迭代次數。將式(8)轉化為式(9)。

進行子梯度求解,如下:

可以看到,引入了分類處理因子與梯度下降因子后,可以得到一個降低了泛化誤差的預測器。本文將通過實驗對改進SVM 后的情感分類模型進行效果驗證。

3 實驗

3.1 實驗環境

為了驗證本文方法的有效性,采用Pycharm 工具在Windows 平臺實現本文提出的彈幕情感分析算法。實驗環境如表3所示。

Table 3 Experimental environment表3 實驗環境

實驗所使用的語料庫為本文獲取的虎牙后臺彈幕數據,這些經過上述處理步驟,即過濾無意義文本、情感極性標注、文本分詞和去除停止詞。原始彈幕總共有61 萬條,經過第一步處理還有11 萬條,再從11 萬條彈幕中隨機抽取1 萬條進行標注,其中有明確情感傾向的數據形成數據集DTDS,部分數據如圖3 所示。其中,有1 250 個正向語料和1 250個負向語料,共計2 500條語料。

Fig.3 Processed corpus圖3 處理后的語料

3.2 不同模型實驗比較

為了比較模型好壞,實驗中加入最大熵、未改進的SVM 算法和樸素貝葉斯算法作為比較,這3 種算法均為SKlearn 工具包提供的基本分類算法。本實驗的評價標準為準確率、召回率和F1值[24]。

實驗設置了5 組分組實驗,其中每組由250 個正向語料和250 個負向語料,4 組增量實驗各組分別由150 對、300對、450 對和600 對正負語料構成。4 種算法實驗結果如表4所示。

通過對比可以看出,本文提出的改進SVM 分類器模型比未改進模型的評價指標(精確率、召回率、F1 值)分別高3.8%、2.3%與1.1%,而傳統SVM 又比樸素貝葉斯算法和最大熵算法模型高3.7%、5.3%與4.5%和5.7%、5%、5.4%。這充分表明,通過增加彈幕詞典及改進特征組合,能有效提升在線彈幕情感分析的準確性和有效性[25]。

3.3 特征組合對性能的影響

在機器學習分類器的訓練算法確定為SVM 后,接下來需要選擇一定的特征組合方法,并對組合的特征進行篩選。本文將彈幕文本特征分成單詞(word)、詞性(pos)與句法(dep),按照word、word+pos、word+dep、word+pos +dep 4 種特征組合進行實驗,分析精確率、召回率與F1 值。不同特征組合的性能如圖4所示。

Table 4 Comparison of experimental results of each method表4 各方法實驗結果比較

Fig.4 Experimental results of different feature combinations in improved SVM algorithm圖4 不同特征組合在改進SVM算法下的實驗結果

從圖4 可以看出,加入了特征組合后,實驗效果均比單一word 特征性能更優。僅考慮word 特征時,精確率、召回率與F1 值分別為61.47%、65.26% 與67.13%,通過增加詞性(pos),精確率與召回率分別提升到66.97%、73.41%。這充分說明特征項的增加對模型性能有顯著影響,尤其是在彈幕文本中,由于文本短以及口語化,詞性與文本情感具有明顯相關性。

word+dep 的特征組合性能要優于word+pos 的特征組合,精確率、召回率與F1值分別提升到70.85%、71.47%、77.93%,這表明了句子特征對于彈幕文本的有效性。其主要原因在于,彈幕具有文本短及表達簡潔的特征,僅從詞性與單詞的角度分析還不夠。而將3 組特征進行全部結合的word+pos+dep 效果最好。word+pos+dep 在評價指標(精確率、召回率、F1 值)上與word+pos 相比分別高4.2%、0.2%、30.9%,與word+dep 特征組合的性能相比高0.4%、2.2%與9%,其中word 特征,也即直接將語料轉化為詞向量的性能時最差,這一結果意味著短語類別分類更依賴于詞和詞之間的依存句法關系,這也驗證了本文基于改進SVM 算法融合4項情感特征的情感分析模型的有效性。

4 結語

情感分析作為近年來自然語言處理的熱點之一,在熱點分析、輿情監測和自動答疑等方面具有廣闊的應用前景。彈幕作為一種新興的應用,具有篇幅短、用詞口語化、網絡詞語和符號較多等特點,給傳統情感分析方法帶來了挑戰。本文著眼于彈幕文本情感分析,對直播彈幕與情感分析相關技術進行了深入分析,同時分析出用戶對直播內容的喜好程度,提高彈幕情感分析準確性。

本文針對彈幕語料庫缺乏、語言簡略及互聯網化特征,構建了彈幕專屬情感詞典;針對直播彈幕語言的特性,提出了一種基于改進SVM 的情感分析模型。通過引入分類處理因子與梯度下降因子,降低了預測器的泛化誤差。在此基礎上,提出了詞向量、情感詞、否定詞和標點符號等多種融合特征的方法。通過實驗優化調整模型參數,得到適合直播彈幕的特征組合,提高了分類準確度[27]。實驗結果表明,本文提出的方法在精確率、F1 值及召回率性能上更優。同時,本文研究也存在一些不足:本文只使用了虎牙直播的彈幕文本作為實驗數據,由于直播內容的多樣性,可能不能完全說明本文情感分析模型的穩定性和魯棒性。并且,本文提出的情感分析模型基于情感分類中的二分類方法,通過分類結果計算單位時間的情感。在實際應用中,情感具有多樣復雜的特征,對彈幕文本進行更加細分的多分類情感分析是下一步研究方向。

猜你喜歡
分類特征文本
分類算一算
如何表達“特征”
在808DA上文本顯示的改善
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
分類討論求坐標
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
數據分析中的分類討論
教你一招:數的分類
抓住特征巧觀察
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
主站蜘蛛池模板: 亚洲欧美日韩另类在线一| 欧美国产成人在线| 欧美国产菊爆免费观看| 国产午夜不卡| 精品国产女同疯狂摩擦2| 欧洲高清无码在线| 国产靠逼视频| 91黄视频在线观看| 国产一二三区在线| 在线va视频| 国产精品无码作爱| 欧美啪啪网| 青青青国产视频| 欧美精品亚洲精品日韩专| 久久99久久无码毛片一区二区| 国产亚洲精久久久久久无码AV| 日韩黄色在线| 久久国产精品国产自线拍| 亚洲综合久久成人AV| 91色国产在线| 欧美日韩亚洲综合在线观看| 亚洲va视频| 亚洲天堂高清| 欧美色图第一页| 免费无码AV片在线观看中文| 亚洲人成成无码网WWW| 青青久久91| 国产成人1024精品| 一级毛片免费的| 亚洲精品视频免费观看| 国产高清在线丝袜精品一区| 日韩一区精品视频一区二区| 久久婷婷六月| 国产99热| 91在线播放国产| 国产午夜不卡| 久操线在视频在线观看| 欧美日韩午夜| 亚洲日本中文综合在线| yy6080理论大片一级久久| 青青青国产视频手机| 91青青草视频在线观看的| 高h视频在线| 亚洲—日韩aV在线| 国产在线日本| 老司机精品一区在线视频| 国产女人在线视频| 亚洲毛片在线看| av在线人妻熟妇| 日本欧美一二三区色视频| 99r在线精品视频在线播放| 九色免费视频| 日韩精品亚洲一区中文字幕| 日韩精品久久久久久久电影蜜臀| 中文字幕 日韩 欧美| 福利小视频在线播放| 亚洲一区国色天香| 一区二区自拍| 啪啪啪亚洲无码| 97国产成人无码精品久久久| 伊人久久久久久久| 国产自在线拍| 欧美国产日韩在线观看| 欧美特黄一级大黄录像| 9999在线视频| 久久精品嫩草研究院| 波多野结衣AV无码久久一区| 一级成人欧美一区在线观看 | 国产在线啪| 日韩欧美中文| 欧美啪啪视频免码| 欧美成人午夜视频免看| 国产一区二区精品福利| 国产精品白浆在线播放| 久久性妇女精品免费| 欧美福利在线观看| 91精品国产91久久久久久三级| 香蕉蕉亚亚洲aav综合| 99re经典视频在线| 日本精品一在线观看视频| 老色鬼欧美精品| 欧美日韩成人|