基于改進樸素貝葉斯算法實現(xiàn)評教評語情感分析

2018-12-19 12:44:28張俊飛

現(xiàn)代計算機 2018年32期

張俊飛

（廣州醫(yī)科大學基礎(chǔ)醫(yī)學學院，廣州 511436）

0 引言

課堂教學評價是對教學效果的反饋，有利于促進教學活動的開展。根據(jù)教學評價方式的不同，評價可分為定量評價和定性評價。課堂教學定量評價是指對評價量化數(shù)據(jù)利用軟件如SPSS、Excel等或程序算法計算其平均值、方差、標準差等反映教學效果的指標；定性評價則是利用質(zhì)性數(shù)據(jù)對課堂教學效果的描述。一般教學的定性評價形式有學生的評語、教學督導的聽課意見等。然而，課堂教學定性評價數(shù)據(jù)處理很少見有研究，傳統(tǒng)的評教質(zhì)性數(shù)據(jù)處理方式是把數(shù)據(jù)直接呈現(xiàn)給教師、教學管理者，方便他們逐條閱讀。這種采用人工方式對浩瀚的信息進行查詢和統(tǒng)計是勞動密集型的方法，顯然是低效和不切實際的[1]。

隨著信息技術(shù)的發(fā)展，機器學習技術(shù)的成熟，為質(zhì)性數(shù)據(jù)處理帶來了契機。本研究采用對定性評價數(shù)據(jù)情感分析實現(xiàn)質(zhì)性數(shù)據(jù)處理，方便用戶分門別類去了解質(zhì)性評價數(shù)據(jù)，更具有針對性，便于歸納總結(jié)。情感分析通過建立一個有效的分析方法、模型和系統(tǒng)，對研究數(shù)據(jù)的情感信息做出情緒表達判斷，如情感極性、強度等。

樸素貝葉斯是經(jīng)典的基于概率論的機器學習分類算法之一，被廣泛地應用于模式識別、自然語言處理、機器學習、機器人項目以及一些信息分析軟件系統(tǒng)。樸素貝葉斯算法是基于貝葉斯定理與特征條件獨立假設的分類方法[2]。特征值間獨立假設與現(xiàn)實是不符合的，在中文語句表達中肯定要區(qū)分核心情感詞匯、一般情感詞匯和非情感詞匯。因此當前學者圍繞特征值屬性對樸素貝葉斯進行了改進研究，主要體現(xiàn)在兩個方面：①特征值選擇預處理；②根據(jù)特征值和情感類別的關(guān)系，加權(quán)特征值，弱化獨立假設。Geenen P L[3]提出了基于互信息選擇特征屬性的方法，并整合到樸素貝葉斯算法中，實現(xiàn)對獸醫(yī)很好的決策支持。曾宇[4]等利用HowNet情感詞典、NTUSD情感詞典以及收集的網(wǎng)絡情感詞集進行情感特征值提取，再根據(jù)情感詞對文本的貢獻度計算權(quán)重，實現(xiàn)特征加權(quán)樸素貝葉斯分類。饒麗麗[5]通過改進互信息，考慮情感詞詞頻提取特征值，并通過TF-IDF-FC算法實現(xiàn)對特征值權(quán)重的計算，最后實現(xiàn)加權(quán)樸素貝葉斯分類算法。

基于情感詞典的特征值選取，受限與詞典詞庫大小，情感詞匯數(shù)據(jù)的稀疏問題將嚴重影響對情感極性的判斷。綜合先前學者研究成果，本文采用點互信息（Point Mutual Information，PMI）實現(xiàn)對特征值的選取，利用TF-IDF函數(shù)實現(xiàn)對特征值權(quán)重的計算，最后實現(xiàn)對傳統(tǒng)樸素貝葉斯算法基于PMI特征值TF-IDF加權(quán)改進，通過對評教評語的分類實驗檢驗算法效果。

1 樸素貝葉斯

樸素貝葉斯算法描述如下：

輸入：評語文本集合訓練數(shù)據(jù) T={（x1,y1）,（x2,y2）,…,（xN,yN）}，其中是第i個評語的第 j個特征詞，j=1,2,…,n,l=1,2,…,Sj,yi∈{c1,c2,…,cK};測試評語x。

輸出：測試評語x的分類。

（1）極大似然估計計算先驗概率及條件概率

（2）計算評語x=(x(1),x(2),…,x(n))T歸屬每個類別的后驗概率，根據(jù)樸素貝葉斯特征值間條件獨立假定可知：

（3）取最大后驗概率P(ck|x)，ck即為X的類別y

在實際的應用中為防止概率計算值為0和下溢出問題，經(jīng)常采用拉普拉斯平滑和概率運算對數(shù)化來解決。

2 改進樸素貝葉斯算法

本文從特征值選取和特征值權(quán)重兩個維度，實現(xiàn)對樸素貝葉斯算法的改進。特征值選取使得樸素貝葉斯概率計算更具有情感代表性；特征值加權(quán)弱化獨立假設，更加符合現(xiàn)實。

2.1 利用PPMMII實現(xiàn)特征值選取

訓練集評語文本表示成特征向量，需要經(jīng)過分詞處理，去掉停用詞，但是構(gòu)成的特征空間通常還是高達幾萬維，直接在這樣的高維向量上進行分類器的訓練和測試，計算量過大。因此，在不影響分類準確率的前提下，需要對原始特征空間降維，將特征維數(shù)壓縮到與訓練文本個數(shù)相適應的情況[6]。

PMI（Point Mutual Information）點互信息通過計算詞語與基準詞在語料庫中共現(xiàn)概率[7]，體現(xiàn)與基準詞的關(guān)系。利用PMI算法實現(xiàn)評教評語特征值的選取，首先計算特征詞語與種子集中元素的關(guān)聯(lián)程度，其中種子集為類別詞集E=(E1,E2,…,EK)。

其中P(x(j)Ek)為x(j)和Ek在評語訓練集合T中共現(xiàn)概率；P(x(j))為包含特征值x（j）評語在T中出現(xiàn)的概率；P（Ek）為類別Ek在T中出現(xiàn)的概率。

點互信息易受臨界文本特征概率影響，當P(x(j)Ek)值相等時，P(x(j))小的PMI值較大，從而導致概率相差太大的PMI值不具有可比性。沒有考慮詞頻特性是PMI算法的缺點，借鑒饒麗麗[8]文本特征選取算法設計，對 PMI公式（5）改進：

其中，P(TF(x(j)))為x(j)的頻數(shù)在集合評語語料庫中的概率；P(Ek|x(j))表示x(j)屬于類別Ek的概率,P(Ek）為詞集項Ek的概率。

其中閾值θpmi值的大小依賴訓練數(shù)據(jù)集中的表現(xiàn)。當高于θpmi時，選為特征值。

2.2 利用TFF--IIDDFF函數(shù)計算特征值權(quán)重

一個優(yōu)秀的文本特征集，應具備：①完全性，即能夠涉獵文本內(nèi)容；②區(qū)別性，即將目標本文和其他文本分開的特性。文本特征值的選取不僅應考慮特征值的詞頻特性，還應該考慮其權(quán)重，文本特征詞權(quán)重綜合反映了該文本特征詞對表示文本內(nèi)容的貢獻度和文本之間的區(qū)別能力[9]。

假設x(j)的權(quán)重wi，依據(jù)朱顥東[10]關(guān)于TF-IDF函數(shù)設計，并對wi進行歸一化處理，特征值權(quán)重公式（8）

2.3 基于PPMMII特征值TFF--IIDDFF加權(quán)樸素貝葉斯評語情感計算

樸素貝葉斯分類認為所有特征值屬性在分類過程中權(quán)重一樣，這樣就使得與情感分類無關(guān)的、相互有影響的特征值，對有效的情感分類的特征值造成污染，降低了分類的準確率。將加權(quán)算法應用到樸素貝葉斯分類器中，有效地解決了訓練樣本的數(shù)據(jù)不均衡問題，弱化特征間相對獨立假設，提高分類型的性能。根據(jù)文獻[11]加權(quán)樸素貝葉斯算法設計為如下：

（1）對評語語料庫和待計算極性的詞x進行分詞處理并去掉停用詞，基于HowNet情感詞庫和PMI實現(xiàn)評語特征詞提取。

（2）計算x(j)特征值的權(quán)重Wj。

（3）基于評教評語語料庫，整合TF-IDF權(quán)重算法計算評語x(j)特征值的后驗概率，然后計算出x歸屬ck（k=1,2,…,K）的概率。計算公式（9）如下：

（4）選擇后驗概率最大P( ck|x)，對應的ck即為x歸類情感y。計算公式（10）如下：

3 實驗與分析

情感分析領(lǐng)域通常采用準確率P（Precision）、召回率 R（Recall）和 F1 值（F1-measure）作為分類結(jié)果的指標。準確率是用來衡量檢測系統(tǒng)的查準率的指標，準確率值越大說明實驗的分類效果越好，反之分類效果越差。召回率是用來衡量檢測系統(tǒng)查全率的指標。F1值是召回率與準確率的綜合體現(xiàn)，當F1值較高時說明分類方法效果較好[12]。假設實驗語料的數(shù)量為N條，從中提取出M條進行分類，分類后正確的語料數(shù)量為n條，則準確率、召回率和F1值的計算公式如公式（11）所示。

采用廣州醫(yī)科大學2014年全校的教師教學學生評價數(shù)據(jù)集作為語料，并把它分為訓練語料和測試預料。數(shù)據(jù)集包含9854條數(shù)據(jù)，每條數(shù)據(jù)都由量化評分和質(zhì)性評語構(gòu)成。質(zhì)性評語集合構(gòu)成了語料庫中的Data（數(shù)據(jù)屬性），量化評分經(jīng)過如下規(guī)則構(gòu)成語料庫中的Label（目標屬性）值。

表1 目標屬性構(gòu)建規(guī)則

分5次進行傳統(tǒng)樸素貝葉斯評語情感分類算法和加權(quán)樸素貝葉斯算法實驗，學生評教數(shù)據(jù)集分別取1000條、1500條、2000條、2500條、3000條作為測試集，剩余為訓練數(shù)據(jù)集。實驗對比結(jié)果，如表2所示。

表2 分類對比實驗

從表2中可以看出，改進后的加權(quán)樸素貝葉斯算法分類效果有一定的提高。通過計算數(shù)據(jù)集中每條評語的詞語元素與類別間的PMI相關(guān)性選擇特征值，并計算其權(quán)重值，對后驗概率的每個概率項進行加權(quán)修正。可以看出，對PMI特征值進行TF-IDF加權(quán)有效地利用了語料數(shù)據(jù)信息，提升了分類器的性能。

4 結(jié)語

特征值間獨立性假設在現(xiàn)實中很難達到，數(shù)據(jù)分布不均衡等因素都影響著樸素貝葉斯文本分類效果。為了實現(xiàn)評教評語的準確情感分類，本文提出了改進特征值加權(quán)樸素貝葉斯文本分類算法。該算法基于點互信息實現(xiàn)特征值提取，并對篩選后的特征值進行TF-IDF權(quán)重計算，最后把計算得到權(quán)重應用到樸素貝葉斯算法上。通過特征值權(quán)重的計算，減小了數(shù)據(jù)分布不均衡的影響，使得數(shù)據(jù)特征值間弱化獨立假設，權(quán)重越大，則代表歸屬類的能力越大。通過實驗表明改進后的樸素貝葉斯算法較傳統(tǒng)的樸素貝葉斯算法分類效果更好。在教學評教質(zhì)性評語情感分析中，本研究算法具有較大的意義。