999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于改進樸素貝葉斯算法實現(xiàn)評教評語情感分析

2018-12-19 12:44:28張俊飛
現(xiàn)代計算機 2018年32期
關(guān)鍵詞:評語分類文本

張俊飛

(廣州醫(yī)科大學基礎(chǔ)醫(yī)學學院,廣州 511436)

0 引言

課堂教學評價是對教學效果的反饋,有利于促進教學活動的開展。根據(jù)教學評價方式的不同,評價可分為定量評價和定性評價。課堂教學定量評價是指對評價量化數(shù)據(jù)利用軟件如SPSS、Excel等或程序算法計算其平均值、方差、標準差等反映教學效果的指標;定性評價則是利用質(zhì)性數(shù)據(jù)對課堂教學效果的描述。一般教學的定性評價形式有學生的評語、教學督導的聽課意見等。然而,課堂教學定性評價數(shù)據(jù)處理很少見有研究,傳統(tǒng)的評教質(zhì)性數(shù)據(jù)處理方式是把數(shù)據(jù)直接呈現(xiàn)給教師、教學管理者,方便他們逐條閱讀。這種采用人工方式對浩瀚的信息進行查詢和統(tǒng)計是勞動密集型的方法,顯然是低效和不切實際的[1]。

隨著信息技術(shù)的發(fā)展,機器學習技術(shù)的成熟,為質(zhì)性數(shù)據(jù)處理帶來了契機。本研究采用對定性評價數(shù)據(jù)情感分析實現(xiàn)質(zhì)性數(shù)據(jù)處理,方便用戶分門別類去了解質(zhì)性評價數(shù)據(jù),更具有針對性,便于歸納總結(jié)。情感分析通過建立一個有效的分析方法、模型和系統(tǒng),對研究數(shù)據(jù)的情感信息做出情緒表達判斷,如情感極性、強度等。

樸素貝葉斯是經(jīng)典的基于概率論的機器學習分類算法之一,被廣泛地應用于模式識別、自然語言處理、機器學習、機器人項目以及一些信息分析軟件系統(tǒng)。樸素貝葉斯算法是基于貝葉斯定理與特征條件獨立假設的分類方法[2]。特征值間獨立假設與現(xiàn)實是不符合的,在中文語句表達中肯定要區(qū)分核心情感詞匯、一般情感詞匯和非情感詞匯。因此當前學者圍繞特征值屬性對樸素貝葉斯進行了改進研究,主要體現(xiàn)在兩個方面:①特征值選擇預處理;②根據(jù)特征值和情感類別的關(guān)系,加權(quán)特征值,弱化獨立假設。Geenen P L[3]提出了基于互信息選擇特征屬性的方法,并整合到樸素貝葉斯算法中,實現(xiàn)對獸醫(yī)很好的決策支持。曾宇[4]等利用HowNet情感詞典、NTUSD情感詞典以及收集的網(wǎng)絡情感詞集進行情感特征值提取,再根據(jù)情感詞對文本的貢獻度計算權(quán)重,實現(xiàn)特征加權(quán)樸素貝葉斯分類。饒麗麗[5]通過改進互信息,考慮情感詞詞頻提取特征值,并通過TF-IDF-FC算法實現(xiàn)對特征值權(quán)重的計算,最后實現(xiàn)加權(quán)樸素貝葉斯分類算法。

基于情感詞典的特征值選取,受限與詞典詞庫大小,情感詞匯數(shù)據(jù)的稀疏問題將嚴重影響對情感極性的判斷。綜合先前學者研究成果,本文采用點互信息(Point Mutual Information,PMI)實現(xiàn)對特征值的選取,利用TF-IDF函數(shù)實現(xiàn)對特征值權(quán)重的計算,最后實現(xiàn)對傳統(tǒng)樸素貝葉斯算法基于PMI特征值TF-IDF加權(quán)改進,通過對評教評語的分類實驗檢驗算法效果。

1 樸素貝葉斯

樸素貝葉斯算法描述如下:

輸入:評語文本集合訓練數(shù)據(jù) T={(x1,y1),(x2,y2),…,(xN,yN)},其中是第i個評語的第 j個特征詞,j=1,2,…,n,l=1,2,…,Sj,yi∈{c1,c2,…,cK};測試評語x。

輸出:測試評語x的分類。

(1)極大似然估計計算先驗概率及條件概率

(2)計算評語x=(x(1),x(2),…,x(n))T歸屬每個類別的后驗概率,根據(jù)樸素貝葉斯特征值間條件獨立假定可知:

(3)取最大后驗概率P(ck|x),ck即為X的類別y

在實際的應用中為防止概率計算值為0和下溢出問題,經(jīng)常采用拉普拉斯平滑和概率運算對數(shù)化來解決。

2 改進樸素貝葉斯算法

本文從特征值選取和特征值權(quán)重兩個維度,實現(xiàn)對樸素貝葉斯算法的改進。特征值選取使得樸素貝葉斯概率計算更具有情感代表性;特征值加權(quán)弱化獨立假設,更加符合現(xiàn)實。

2.1 利用PPMMII實現(xiàn)特征值選取

訓練集評語文本表示成特征向量,需要經(jīng)過分詞處理,去掉停用詞,但是構(gòu)成的特征空間通常還是高達幾萬維,直接在這樣的高維向量上進行分類器的訓練和測試,計算量過大。因此,在不影響分類準確率的前提下,需要對原始特征空間降維,將特征維數(shù)壓縮到與訓練文本個數(shù)相適應的情況[6]。

PMI(Point Mutual Information)點互信息通過計算詞語與基準詞在語料庫中共現(xiàn)概率[7],體現(xiàn)與基準詞的關(guān)系。利用PMI算法實現(xiàn)評教評語特征值的選取,首先計算特征詞語與種子集中元素的關(guān)聯(lián)程度,其中種子集為類別詞集E=(E1,E2,…,EK)。

其中P(x(j)Ek)為x(j)和Ek在評語訓練集合T中共現(xiàn)概率;P(x(j))為包含特征值x(j)評語在T中出現(xiàn)的概率;P(Ek)為類別Ek在T中出現(xiàn)的概率。

點互信息易受臨界文本特征概率影響,當P(x(j)Ek)值相等時,P(x(j))小的PMI值較大,從而導致概率相差太大的PMI值不具有可比性。沒有考慮詞頻特性是PMI算法的缺點,借鑒饒麗麗[8]文本特征選取算法設計,對 PMI公式(5)改進:

其中,P(TF(x(j)))為x(j)的頻數(shù)在集合評語語料庫中的概率;P(Ek|x(j))表示x(j)屬于類別Ek的概率,P(Ek)為詞集項Ek的概率。

其中閾值θpmi值的大小依賴訓練數(shù)據(jù)集中的表現(xiàn)。當高于θpmi時,選為特征值。

2.2 利用TFF--IIDDFF函數(shù)計算特征值權(quán)重

一個優(yōu)秀的文本特征集,應具備:①完全性,即能夠涉獵文本內(nèi)容;②區(qū)別性,即將目標本文和其他文本分開的特性。文本特征值的選取不僅應考慮特征值的詞頻特性,還應該考慮其權(quán)重,文本特征詞權(quán)重綜合反映了該文本特征詞對表示文本內(nèi)容的貢獻度和文本之間的區(qū)別能力[9]。

假設x(j)的權(quán)重wi,依據(jù)朱顥東[10]關(guān)于TF-IDF函數(shù)設計,并對wi進行歸一化處理,特征值權(quán)重公式(8)

2.3 基于PPMMII特征值TFF--IIDDFF加權(quán)樸素貝葉斯評語情感計算

樸素貝葉斯分類認為所有特征值屬性在分類過程中權(quán)重一樣,這樣就使得與情感分類無關(guān)的、相互有影響的特征值,對有效的情感分類的特征值造成污染,降低了分類的準確率。將加權(quán)算法應用到樸素貝葉斯分類器中,有效地解決了訓練樣本的數(shù)據(jù)不均衡問題,弱化特征間相對獨立假設,提高分類型的性能。根據(jù)文獻[11]加權(quán)樸素貝葉斯算法設計為如下:

(1)對評語語料庫和待計算極性的詞x進行分詞處理并去掉停用詞,基于HowNet情感詞庫和PMI實現(xiàn)評語特征詞提取。

(2)計算x(j)特征值的權(quán)重Wj。

(3)基于評教評語語料庫,整合TF-IDF權(quán)重算法計算評語x(j)特征值的后驗概率,然后計算出x歸屬ck(k=1,2,…,K)的概率。計算公式(9)如下:

(4)選擇后驗概率最大P( ck|x),對應的ck即為x歸類情感y。計算公式(10)如下:

3 實驗與分析

情感分析領(lǐng)域通常采用準確率P(Precision)、召回率 R(Recall)和 F1 值(F1-measure)作為分類結(jié)果的指標。準確率是用來衡量檢測系統(tǒng)的查準率的指標,準確率值越大說明實驗的分類效果越好,反之分類效果越差。召回率是用來衡量檢測系統(tǒng)查全率的指標。F1值是召回率與準確率的綜合體現(xiàn),當F1值較高時說明分類方法效果較好[12]。假設實驗語料的數(shù)量為N條,從中提取出M條進行分類,分類后正確的語料數(shù)量為n條,則準確率、召回率和F1值的計算公式如公式(11)所示。

采用廣州醫(yī)科大學2014年全校的教師教學學生評價數(shù)據(jù)集作為語料,并把它分為訓練語料和測試預料。數(shù)據(jù)集包含9854條數(shù)據(jù),每條數(shù)據(jù)都由量化評分和質(zhì)性評語構(gòu)成。質(zhì)性評語集合構(gòu)成了語料庫中的Data(數(shù)據(jù)屬性),量化評分經(jīng)過如下規(guī)則構(gòu)成語料庫中的Label(目標屬性)值。

表1 目標屬性構(gòu)建規(guī)則

分5次進行傳統(tǒng)樸素貝葉斯評語情感分類算法和加權(quán)樸素貝葉斯算法實驗,學生評教數(shù)據(jù)集分別取1000條、1500條、2000條、2500條、3000條作為測試集,剩余為訓練數(shù)據(jù)集。實驗對比結(jié)果,如表2所示。

表2 分類對比實驗

從表2中可以看出,改進后的加權(quán)樸素貝葉斯算法分類效果有一定的提高。通過計算數(shù)據(jù)集中每條評語的詞語元素與類別間的PMI相關(guān)性選擇特征值,并計算其權(quán)重值,對后驗概率的每個概率項進行加權(quán)修正。可以看出,對PMI特征值進行TF-IDF加權(quán)有效地利用了語料數(shù)據(jù)信息,提升了分類器的性能。

4 結(jié)語

特征值間獨立性假設在現(xiàn)實中很難達到,數(shù)據(jù)分布不均衡等因素都影響著樸素貝葉斯文本分類效果。為了實現(xiàn)評教評語的準確情感分類,本文提出了改進特征值加權(quán)樸素貝葉斯文本分類算法。該算法基于點互信息實現(xiàn)特征值提取,并對篩選后的特征值進行TF-IDF權(quán)重計算,最后把計算得到權(quán)重應用到樸素貝葉斯算法上。通過特征值權(quán)重的計算,減小了數(shù)據(jù)分布不均衡的影響,使得數(shù)據(jù)特征值間弱化獨立假設,權(quán)重越大,則代表歸屬類的能力越大。通過實驗表明改進后的樸素貝葉斯算法較傳統(tǒng)的樸素貝葉斯算法分類效果更好。在教學評教質(zhì)性評語情感分析中,本研究算法具有較大的意義。

猜你喜歡
評語分類文本
分類算一算
流沙河語錄及諸家評語
四川文學(2020年11期)2020-02-06 01:54:52
在808DA上文本顯示的改善
分類討論求坐標
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
數(shù)據(jù)分析中的分類討論
教你一招:數(shù)的分類
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
怎樣為作文寫評語
散文百家(2014年11期)2014-08-21 07:16:36
如何快速走進文本
語文知識(2014年1期)2014-02-28 21:59:13
主站蜘蛛池模板: 久久精品最新免费国产成人| 国产波多野结衣中文在线播放| 国产十八禁在线观看免费| 激情综合网激情综合| 国产精品免费入口视频| 美美女高清毛片视频免费观看| 老熟妇喷水一区二区三区| 亚洲天堂网2014| 国产亚洲成AⅤ人片在线观看| 激情無極限的亚洲一区免费| 国产专区综合另类日韩一区| 精品一区二区无码av| 不卡的在线视频免费观看| 中文字幕在线日韩91| 国产福利观看| 国产本道久久一区二区三区| 国产精品自拍合集| 婷婷在线网站| 久久久91人妻无码精品蜜桃HD| 思思热精品在线8| 久久天天躁狠狠躁夜夜躁| 免费看a毛片| 日韩中文精品亚洲第三区| 国产h视频免费观看| 在线日韩日本国产亚洲| 永久成人无码激情视频免费| 欧美黄网站免费观看| 国产精品自在在线午夜区app| 91精品免费久久久| 精品视频一区在线观看| 日韩a在线观看免费观看| 亚洲中文字幕av无码区| 久久精品亚洲中文字幕乱码| 在线a网站| 国产一区二区三区视频| 欧美激情首页| 91成人免费观看| 国产精品久久久精品三级| 日韩二区三区无| 夜夜拍夜夜爽| 中国精品久久| 日本成人不卡视频| 福利片91| 综合网天天| 免费人成在线观看视频色| 欧洲免费精品视频在线| 国产白浆一区二区三区视频在线| 性欧美久久| 99热这里只有成人精品国产| 91久久偷偷做嫩草影院免费看| 亚洲欧美一区在线| 成年片色大黄全免费网站久久| 国产一国产一有一级毛片视频| 欧美另类精品一区二区三区| 国产视频只有无码精品| 日韩精品视频久久| 亚洲av日韩av制服丝袜| 国产亚洲精品97AA片在线播放| 久久黄色小视频| 黄色一及毛片| 26uuu国产精品视频| 91精品人妻一区二区| 在线一级毛片| 中文字幕日韩欧美| 国产97视频在线| 欧美三级日韩三级| 国产精品香蕉在线| 国产毛片不卡| 美女视频黄频a免费高清不卡| 日本欧美午夜| 99尹人香蕉国产免费天天拍| 日韩成人在线网站| 中文字幕有乳无码| 97综合久久| 好久久免费视频高清| 99久久国产综合精品女同| 色综合久久久久8天国| 91精品小视频| 国产成人精品午夜视频'| 一级毛片在线播放| 国产一在线观看| 日韩国产欧美精品在线|