

摘要:微博情感分析主要在于發現用戶對某種熱點事件的觀點和態度,已有的研究,諸如SVM、CRF等傳統算法,付出了昂貴的手工標注的代價。本文在研究情感分析、深度學習等技術的基礎上,提出了一種新的技術方案:即通過網絡爬蟲技術從微博上抓取部分數據,經過詞料預處理后,作為卷積神經網絡的輸入樣本,并基于SVM/RNN構建分類器。最后在給定的測試集中判斷每個句子的情感傾向性,實驗結果良好。
關鍵詞:微博情感分析;深度學習;卷積神經網絡;分類器
中圖分類號:TPl81 文獻標識碼:A DOI:10.3969/j.issn.1003 6970.2016.05.006
本文著錄格式:劉艷梅.深度學習技術下的中文微博情感的分析與研究[J].軟件,2016,37(5):22-24
0.引言
隨著移動互聯網的發展,社交應用也進入到新的階段,借助LBS、興趣、通訊錄等功能,以解決用戶溝通、分享、服務、娛樂等為立足點,滿足用戶不同場景下需求。根據CNNIC對當前社交應用市場的分析,在綜合社交領域,典型應用一微博,網民使用率33.5%。主要滿足用戶對興趣信息的需求,是用戶獲取和分享“新聞熱點”、“興趣內容”、“專業知識”、“輿論導向”的重要平臺。同時,在幫助用戶基于共同興趣拓展社交關系方面也起到了積極的作用。
情感分析,也稱為觀點挖掘,指的是分析說話者在傳達信息時所隱含的情況狀態、態度、意見進行判斷或者評估。目前,情感分析的主要研究方法還是一些基于機器學習的傳統算法,例如,SVM、信息熵、CRF等。這些方法歸納起來有3類:有監督學習、無監督學習和半監督學習。而當前大多數基于有監督學習的研究取得了不錯的成績。但有監督學習依賴于大量人工標注的數據,而且由于人的主觀理解不同,樣本標注的標注很難確立,也很難保證標注樣本的質量。相反的,無監督學習不需要人工標注數據訓練模型,降低標注的代價。
1.深度學習簡介
深度學習的概念最早由多倫多大學的G E.Hinton等人于2006年提出,指基于樣本數據通過一定的訓練方法得到包含多個層級的深度網絡結構的機器學習過程。深度神經網絡分為以下3類(如圖l所示)。
深度學習有三個主要環節:第一,用無監督方式訓練系統,即用大量未標注樣本逐層提煉,無導向自動形成特征。這一過程類似于人通過眼、耳等感官系統接收圖像、聲音信息后,自動在腦中形成不同類別信息印象。第二,調準。這一過程用一些己標注樣本對特征分類,并根據分類結果進一步調整系統參數,優化系統在區分不同類別信息上的性能。第三,測試,用系統未見識過的樣本數據檢驗系統學習效果,例如樣本正確分類率、質量評估與主觀評估關聯度等。