王藝臻 王馨
(1.沈陽師范大學軟件學院 遼寧省沈陽市 110034 2.沈陽師范大學計算機與數(shù)學基礎教學部 遼寧省沈陽市 110034)
近年來,校園中發(fā)生的群體性新聞事件層出不窮,逐漸引起了媒體及全社會的關注[1]。尤其是校園欺凌等類似事件嚴重影響了青少年的身心健康,對社會發(fā)展也帶來了一定的負面影響,日益地成為全社會普遍關注的話題和焦點。在目前中國,根據(jù)浙江大學《青少年攻擊性行為社會心理學研究》的一項調查結果表明,49%的青少年學生承認對其他學生進行了暴力行為,87%的青少年學生在各種方式上也遭受了其他學生的攻擊性暴力。正是基于這一現(xiàn)狀,很多針對主動檢測校園群體事件的研究應運而生。
目前現(xiàn)有研究所采用的方法大多數(shù)是基于視頻監(jiān)控,通過動作識別技術實現(xiàn)校園暴力的檢測[2]。但是由于學生分散,而且部分關鍵位置無法使用視頻監(jiān)控(比如衛(wèi)生間,浴室等),現(xiàn)有的檢測技術受到較大限制。因此,為解決視頻監(jiān)控不變的問題,本項目提出一種結合遠場語音通信技術、自然語言處理和情感分類的方式實現(xiàn)語音監(jiān)控。遠場語音通信技術可以有效消除噪音,同時對目標說話人聲音進行增強。同時隨著現(xiàn)代深度機器學習和計算機技術的進步而飛速發(fā)展,全世界出現(xiàn)了越來越多的深度學習框架,其中百度研發(fā)的PaddlePaddle是眾多流行的深度學習框架之一,本項目利用基于Paddle框架開發(fā)的PaddleNLP庫完成數(shù)據(jù)處理和構建LSTM網(wǎng)絡,由此對語音識別得到的文本進行情感分類,從而實現(xiàn)語音預警。
本文應用場景聲音環(huán)境復雜,噪聲干擾較強,需要有效識別并增強說話人的語音,從而實現(xiàn)正確的識別。百度語音為開發(fā)者提供行業(yè)內高質量的遠場語音識別服務。可以通過麥克風陣列前端處理算法,有效消除噪聲、混響等無效聲音的干擾,同時對目標語音進行增強,其適用于智能家居、智能硬件、機器人語音交互等場景中,可以準確實現(xiàn)遠場語音的識別。
PaddlePaddle是一個簡單而易于實現(xiàn)和使用、高效、靈活、具有可拓展性的深度學習框架。Paddle框架是基礎,為深度學習任務的全過程提供API。PaddleNLP是基于Paddle框架開發(fā)的,適用于NLP任務。PaddleNLP覆蓋了多種場景的模型庫,涵蓋了知識關聯(lián)、情感分析、文本分類、詞法分析、信息抽取、語義匹配、問答系統(tǒng)、對話系統(tǒng)等應用場景,集成了RNN、Transformer等多種主流模型結構,為文本分類提供了ERNIE、BERT等預訓練模型。PaddleNLP與飛槳 2.0的高層API系統(tǒng)深度兼容,內置可復用的文本建模模塊(Embedding、CRF、Seq2Vec、Transformer),從而很大程度上減少數(shù)據(jù)處理、模型組網(wǎng)、訓練評估、推理部署等方面的開發(fā)量,提高建模效率,簡單易用。
Geoあrey Hinton 和其學生于2006年在《Science》發(fā)表的論文中正式提出了深度學習的概念,又因為硬件設備的大幅度提升,由此再次引發(fā)了學術界和工業(yè)界關于深度學習領域研究的高度關注。近年來,全球在深度學習技術的相關應用領域迅猛地進步發(fā)展著,在語音識別領域和圖像處理領域等多個領域已經(jīng)取得了不少優(yōu)秀的成果。目前在自然語言處理領域中情感分析極為熱門:Wiebe和Bruce根據(jù)詞性對詞語分類,并且將分類后的詞、句子前后位置和標點共同作為特征值,針對句子設計了分類器[3];Yu等人利用三種統(tǒng)計方法進行主客觀句的識別研究,包括相似性方法、NB分類和多重NB分類[4];Li等人基于RNN解決了評價類句子中的如何判別情感極性的問題[5];本文涉及到的 LSTM 網(wǎng)絡是目前應用最為廣泛的深度學習結構之一,是一種經(jīng)過變化后的RNN。在自然語言處理領域,合理處理上下文關系極其重要,而RNN雖然適用于將前一時刻的信息連接到當前的時刻,但只適用于短期記憶處理無法處理長距離依賴,而LSTM很好得彌補了RNN 對于長期依賴的不足,LSTM適用于較長距離的依賴關系的捕捉。
LSTM的主要特點在于[7]:由三個特殊的門,即控制丟棄信息的遺忘門、控制新增信息的輸入門和負責輸出的輸出門, LSTM三個門會更新記憶單元并會控制細胞的狀態(tài)。在某一時刻t,單個LSTM記憶單元的計算過程為:
遺忘門可以通過一個遺忘門層丟棄無用信息,其函數(shù)為:

輸入門從當前輸入中添加一個新的記憶,其函數(shù)為:

輸出門由前一時刻的輸入單元和當前輸入向量一同決定,其函數(shù)為:

上式中,Ct是前一時刻的細胞狀態(tài);ft是遺忘門,用來決定從LSTM記憶單元中丟棄哪些無用信息;it是輸入門,用于決定哪些信息應該加入;ot是輸出門,用于決定從LSTM的記憶單元輸出哪些信息;ht-1和xt分別表示前一時刻的輸入單元和當前時刻的輸入向量。

圖1:BiLSTM編碼“今天天氣好”
由于遠場語音識別得到的初始數(shù)據(jù)類型為對話文本,因此該文本的單句通常較短,一般不超過100個字,包括標點符號、具體時間地點、姓名、俗諺、代號等,這對情感分析和分類會帶來很大的噪聲和干擾。為了有效地去除不必要的噪聲干擾,本文采用下述方法對文本進行集中預處理:首先基于 jieba 分詞工具對每一個對話文本進行分詞;然后基于中國記協(xié)提供的網(wǎng)絡禁用詞清單對禁用詞進行標注,繼而進行去除噪聲處理。在設計和去除噪聲時,本文主要是針對其中所有涉及的標點符號、具體的時間位置地點、姓名、俗諺、代號等字符串進行了重點處理。最后將jieba切完后的單詞映射詞表中單詞id。
對話文本往往不能只是遞推式得由前往后理解語義,為更好地實現(xiàn)預警,我們期望可以實現(xiàn)更細粒度的負面情感分類,如將貶義重新劃分為輕度貶義、中度貶義和重度貶義,這就需要注意前后副詞與形容詞的聯(lián)系,舉個例子“小明這次的考試成績差得離譜”,后面的“離譜”就是用于修飾前面“差”的程度。而雙向長短期記憶網(wǎng)絡(BiLSTM)由前向的LSTM和后向的LSTM共同作用結合而成,可以補充實現(xiàn)LSTM無法從后向前理解語義。
以對“今天天氣好”這句話進行編碼為例解釋BiLSTM模型的原理。前向的LSTM_l依次輸入“今天”,“天氣”,“好”得到三個向量hl0,hl1,hl2。后向的LSTM_r依次輸入“好”,“天氣”,“今天”得到三個向量hr0,hr1,hr2。將同一句子的正反順序看作兩個句子,則hl2代表正序語義,hr2代表反序語義,將hl2和hr2拼接成向量[hl2, hr2],從而得到向量h。如圖1所示。
由于本文所提及的預警系統(tǒng)尚在研究實驗階段無法大規(guī)模采集數(shù)據(jù),本文的數(shù)據(jù)集主要來自與校園群體事件相關電影的對白,少部分來自于現(xiàn)場錄音,共收集6000條對白。其中有3000條訓練數(shù)據(jù)和3000條測試數(shù)據(jù)。
BiLSTM模型準確率為82.8%,negative精確率為75.0%,positive精確率為86.9%,后通過預測隨機測試集得出結果如表1所示。

表1:評估樣本具體數(shù)據(jù)情況
本文通過BiLSTM模型對發(fā)生在校園中的對話文本實行情感分析,通過實驗結果我們發(fā)現(xiàn),BiLSTM 模型在對用于校園群體事件預警的情感分析中的可行性以及有效性,希望以后可以進一步研究如何改進BiLSTM使之提高準確率和精確率,以及實現(xiàn)更細粒度的情感分類。