999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于機器學習的文本情感多分類的學習與研究

2020-08-26 07:46:55劉呈
電腦知識與技術 2020年20期
關鍵詞:機器學習

摘要:文本分類與情感分類是自然語言處理中基礎的領域,為幫助初學者對文本情感多分類的項目學習,在機器學習的基礎上,分析了線性邏輯回歸算法、樸素貝葉斯模型在文本情感分類項目中的應用,并針對數據處理、模型構建、模型訓練、模型測試過程中初學者難以解決和易出錯的部分進行分析與實現。結合kaggle上的比賽數據實例,實現了完整的文本情感多分類項目并做出詳細分析,項目評測結果較為可觀,證實可以幫助初學者更易上手文本情感多分類和機器學習。同時提出了基于傳統二分類問題的多分類問題解決方法。

關鍵詞:機器學習;文本分類;情感分類;自然語言處理;多分類

中圖分類號:TP18 文獻標識碼:A

文章編號:1009-3044(2020)20-0181-02

Study and Research on Text Emotion Multi-Classification Based on Machine Learning

LIU Cheng

(Central China Normal University, Wuhan 430079,China)

Abstract: Text categorization and emotion classification are basic fieldsin natural language processing. To help beginners leam theitems of text sentiment multi-classification. based on machine learning, the linear logistic regression algorithm and Bayesian modelare analyzed in the text sentiment classification project. In the process of data processing、model building、model training and mod-el testing, it is difficult for beginners to solve and error-prone parts are analyzed and implemented. Combined with the game dataexamples on Kaggle, a complete text emotion multi-classification project has been implemented and detailed analysis has beenmade. The results are considerable, which proves that it can help beginners get started with text emotion classification and machineleaming. At the same time, a multi-classification problem solving method based on the traditional two-classification problem isproposed.

Key words : machine leaming ; text categorization; emotion classification: NLP; Multi-classification

隨著人工智能的飛速發展,作為最核心與最具挑戰性領域之一的自然語言處理在最近幾年逐漸進入研究高潮,進入這個領域的初學者也越來越多。在NLP(Natural Language Process-ing.)領域,所需知識比較繁雜,掌握難度較大,缺乏對于初學者入門級學習的研究,導致初學者大多難以適應。

本文基于NLP中基礎性的文本情感分類項目,區別于傳統的二分類問題,將情感類型細化為五類,更貼合生活實際,做出挑戰。同時結合kaggle上的比賽數據實例,基于機器學習中的線性邏輯回歸算法和樸素貝葉斯模型算法,完成了整個情感多分類項目流程并做出研究。針對初學者在數據處理、特征選擇、模型網絡構建、模型訓練與測試過程中難以解決和易出錯的部分做出了詳細分析與說明,以幫助初學者進行NLP領域的項目學習。

1文本情感分類概述

文本情感分類是對帶有情感色彩的主觀性文本進行分析、處理、歸納和推理的過程,是NLP領域重要的基礎領域,涉及文本分詞、詞語情感分析、機器學習、深度學習等。文本情感分類通過在現有的大量數據中,基于學習算法尋找并學習詞語情感的規律,構建相應的分類函數或分類模型(分類器,Classi-fie),這樣對于給定的其他文本將能做到文本情感分類[1]。

計算機并不能直接識別與處理所提供的自然語言數據,通常要對這些文本數據進行維度上的抽象處理[1]。基于機器學習算法的文本情感分類通常需要構建學習模型,針對已處理的數據進行重復的訓練與測試,通過測試的反饋修正模型參數,使得分類模型具備更高的準確度。文本數據經過模型導出后將被劃分到對應情感類別,實現文本情感分類。

2文本情感多分類項目設計與實現

文本情感多分類項目整體流程大致分為數據處理、特征選取、模型的構建、訓練與測試,其中對于模型的處理,本文基于機器學習主要給出兩種模型算法:線性邏輯回歸模型和樸素貝葉斯模型。圖1是項目結構框架圖。

項目過程的功能與實現如下:

2.1數據處理

文本數據來源于Kaggle網站競賽數據,數據包括四列,Phraseld(短語編號)、Sentenceld(句子編號)、Phrase(短語)和Sentiment(短語情感分類)。針對數據做出幾點說明,一個句子可以劃分成若干個短語,所以存在多個短語來源于同一個句子,其句子編號相同;情感分類是對每一個短語進行分類,情感類型劃分為五類,用數字0-4標明,代表非常消極、消極、中性、積極、非常積極。

對數據梳理清楚后,需要對每個短語進行分詞,英文文本分詞相對簡單,以空格為標志劃分出每個單詞。這里存在初學者的誤區,一些諸如“a”的英文單詞是否取舍不應該由停詞表來決定。對此本文去掉停詞表,對統計到的單詞計算每一個單詞的頻率,頻率過大或過小的單詞均去除。至此,數據處理完成,得到了所有有效單詞的匯總與其頻率,成功構建了詞袋。

2.2特征選取

如英文單詞,這些自然語言計算機無法處理,其二進制碼也毫無意義,這使得特征選取工作變得困難。通常采取的是One-Hot編碼(獨熱編碼),統計所有的狀態并對每一個狀態獨立編碼,這樣任意時刻每個狀態的編碼中只有一位是有效的[2]。但這樣使用對初學者十分不友好,One-Hot編碼后的數據維度將十分龐大,無論是計算機內存還是運行時間,其效率都變得十分低下。針對初學者,本文采取TfidfVectorizer函數,利用數據處理過程中得到的詞袋,對單詞進行狀態編碼,每一個單詞都是被選取的特征。短語由若干個單詞組成,這樣每一個短語可以表示成單詞編碼的組合,于是得到了計算機可以處理的數據[3]。

最后,將處理好的數據劃分為兩類,一類作為訓練數據,讓模型進行學習,另一類作為測試數據,評價模型效果。

2.2線性邏輯回歸模型

線性邏輯回歸模型是機器學習中常見的模型算法,可以通過調用skleam庫里的LogisticRegression函數,其作用是對輸入短語的每一個維度數據(單詞編碼)分配一個可調整參數,使輸出結果趨近短語的情感類型數字[4]。

每一輪訓練都需要針對輸出結果與實際結果的差距進行調整維度參數,對于如何評價差距,初學者很容易想到roc_auc評價方法,它是接收者操作特征曲線下的面積,可以有效避免假陽性和偽陰性數據的影響[5]。但這是一種初學者的誤區,roc_auc方法只針對二分類問題,本文采取間接轉化的方法,將五分類轉化為多次二分類問題,首先中性與非中性數據的分類,然后是積極與消極數據的分類,最后是其內部程度的二分類。

另外提出,模型訓練過程中是基于訓練集數據不斷學習,模型準確度也是基于這些已訓練的數據,過度訓練可能導致模型“僵化”,對新數據適應性較差。

模型除了對于輸入數據的參數外還有自身的選擇性參數,稱為超參數,比如學習率等,如何調整合適的模型參數一直是初學者難以把握的問題,本文采用CridSearchCV函數對模型進行自動調參。它是網格搜索和交叉驗證的結合,原理是在指定的參數范圍內,按步長依次調整參數,利用調整的參數訓練學習器,從所有的參數中找到在測試集上精度最高的參數,這其實是一個訓練和比較的過程。

訓練好模型后,對于新的文本數據,只要處理好數據特征,模型將會自動對文本進行情感分類?;诰€性邏輯回歸模型的文本情感分類,其最終準確度為0.768,較為可觀。

2.3樸素貝葉斯模型

樸素貝葉斯模型是常見的分類模型之一,通過假設特征條件之間相互獨立的方法,先通過已給定的訓練集,學習從輸入到輸出的聯合概率分布,進行模型的訓練[6]。其算法原理是:

其中,d為樣本數據集D的下標,x為樣本特征數據集X特征,y為情感的類變量。通過MultinomiaINB函數可以調用樸素貝葉斯模型。

區別于線性邏輯回歸模型處理的一點時,這里本文沒有采用GridSearchCV網絡搜索,準確度的評價采用Cross_val_score函數的十折交叉驗證,最終模型準確度為0.743,略低于線性邏輯回歸模型。

3項目結果與分析

情感分類本質是函數的映射,評價分類器的效果依據就是映射的準確度,除此之外還有模型的開銷(速度與內存),評價的標準各異,本文采取準確率作為評價標準[1]。

項目過程中,通過從Kaggle上收集的比賽數據,進行線性邏輯回歸和樸素貝葉斯兩種模型的學習與誤區難點研究,完成了文本情感多分類項目。兩種模型得到的準確度分別為0.768、0.743,對于初學者而言,這種準確度已頗為可觀。詳細模型評測數據如表1所示。

4結束語

本文主要研究初學者在文本情感多分類項目過程中的誤區與難點,同時做出了詳細說明與解決方法,實現了基于機器學習的線性邏輯回歸和樸素貝葉斯兩種模型并詳細介紹了項目過程中的各個步驟與相關原理,提出了基于傳統二分類的多分類問題解決方法,最后給出了兩種模型的評測結果。從評測結果來看,項目的準確度完全能滿足初學者對于文本情感多分類的入門學習。進一步的研究是模型算法的改進,利用更先進的模型解決文本情感多分類問題,比較其性能效果,提高總體的準確度,同時滿足初學者的學習。

參考文獻:

[1]徐大偉,董淵,張素琴.文本分類技術在海洋信息處理領域中的應用[J].計算機科學,2008,35(11):144-146.

[2]嚴紅.詞向量發展綜述[J].現代計算機,2019(8):50-52.

[3]郁可人.基于情感分類的特征表示研究[D].上海:華東師范大學.2019.

[4]張璞,李逍,劉暢.基于情感詞匯與機器學習的方面級情感分類[J].計算機工程與設計,2020,41(1):128-133.

[5]楊俊杰.基于k近鄰分類器ROC分析方法[D].廣州:廣東工業大學.2019.

[6]向志華,鄧怡辰.基于機器學習的文本分類技術研究[J].軟件,2019,40(9):94-97.

【通聯編輯:唐一東】

收稿日期:2020-03-25

作者簡介:劉呈(2000一),男,湖北黃岡人,本科,主要研究方向為自然語言處理。

猜你喜歡
機器學習
基于詞典與機器學習的中文微博情感分析
基于網絡搜索數據的平遙旅游客流量預測分析
時代金融(2016年27期)2016-11-25 17:51:36
前綴字母為特征在維吾爾語文本情感分類中的研究
科教導刊(2016年26期)2016-11-15 20:19:33
下一代廣播電視網中“人工智能”的應用
活力(2016年8期)2016-11-12 17:30:08
基于支持向量機的金融數據分析研究
基于Spark的大數據計算模型
基于樸素貝葉斯算法的垃圾短信智能識別系統
基于圖的半監督學習方法綜述
機器學習理論在高中自主學習中的應用
極限學習機在圖像分割中的應用
主站蜘蛛池模板: 91精品伊人久久大香线蕉| 国产在线日本| 有专无码视频| 国产精品成人一区二区不卡| 久久久久无码精品| 国内毛片视频| 91久久性奴调教国产免费| 99视频精品在线观看| 久久亚洲综合伊人| 国产成人精品一区二区秒拍1o| 欧美日韩在线第一页| 一区二区理伦视频| 一级毛片a女人刺激视频免费| 成人在线不卡视频| 美女裸体18禁网站| 成人夜夜嗨| 亚洲精品在线观看91| 狠狠色噜噜狠狠狠狠奇米777| 久久天天躁狠狠躁夜夜2020一| 国产后式a一视频| www精品久久| 美女潮喷出白浆在线观看视频| 久久国语对白| 亚洲精品视频网| 五月六月伊人狠狠丁香网| 国产香蕉一区二区在线网站| 国内精品手机在线观看视频| 国产精品第一区| 免费国产在线精品一区| 亚洲区第一页| 欧日韩在线不卡视频| 亚洲区第一页| 小蝌蚪亚洲精品国产| 999国产精品| 国产欧美另类| 亚洲天堂网视频| 日韩成人午夜| 97国产成人无码精品久久久| 国产麻豆精品在线观看| 九九久久精品免费观看| 色综合中文字幕| 国产精品高清国产三级囯产AV| 中文字幕佐山爱一区二区免费| 欧美成人免费午夜全| 成人一区在线| 国产精品三区四区| 欧美视频在线不卡| 国产又色又刺激高潮免费看| 国产成人亚洲日韩欧美电影| 欧美中文字幕无线码视频| 99热这里只有免费国产精品 | 3D动漫精品啪啪一区二区下载| 欧美在线免费| 成年人国产网站| 老色鬼欧美精品| 久久久波多野结衣av一区二区| 欧美精品另类| 欧美无专区| 亚洲伦理一区二区| 超碰aⅴ人人做人人爽欧美| 91蜜芽尤物福利在线观看| 国产精品无码作爱| 欧洲极品无码一区二区三区| 欧美亚洲欧美| 久久精品一品道久久精品| 亚洲欧美日韩色图| 日本精品视频一区二区| 国产麻豆精品在线观看| 亚洲AⅤ综合在线欧美一区| 亚洲全网成人资源在线观看| 国产区精品高清在线观看| 亚洲天堂精品在线| 亚洲一欧洲中文字幕在线| 欧美一区二区精品久久久| 99成人在线观看| 99视频精品全国免费品| 国产精品 欧美激情 在线播放| 久久精品嫩草研究院| 国产福利小视频在线播放观看| 91福利免费视频| 亚洲色成人www在线观看| 国产一区在线视频观看|