999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于機器學習方法的游客評論數據智能分析技術研究

2021-06-27 03:25:54馬騫
電子設計工程 2021年12期
關鍵詞:分類文本情感

馬騫

(西安航空職業技術學院,陜西西安 710089)

隨著互聯網技術的快速發展與普及,電子商務逐漸被應用于貨幣交換、商品買賣與旅游服務等多個領域[1-2]。在這些領域中,由于旅游行業嚴重依賴于資金流動、信息傳遞與流通,所以如何利用高效率的信息引導普通的游客,是旅游景點提高經濟效益的重要環節[3-7]。而在與互聯網融合的背景下,通過借鑒淘寶等商品平臺,攜程網或途牛等旅游服務平臺也逐漸引入針對旅游目的地的游客評價等功能,從而優化其相應旅游目的地的服務產品。然而,隨著游客數量的快速增加,對于評論數據的情感分析也逐漸成為旅游服務平臺亟待解決的技術問題[8]。目前,國內外的學者提出一些經典的解決方法,例如:Bo Yang 等學者通過引入機器學習方法,對互聯網上的觀眾影評進行了準確度較高的情感分析[9];Sanjiv Das 等學者針對投資者對股票走勢的評價,建立了情感分析的計算模型[10]。然而,這些研究所提出的分析模型依然存在準確度較低的問題,難以應用到大規模的旅游服務平臺中。

為了進一步提高游客在旅游服務平臺上的分析準確度,基于支持向量機等機器學習分類算法[11],文中提出了針對游客評論數據的智能分類與分析技術。使用數據的自動抓取技術,實現了旅游服務平臺的數據獲取與預處理操作,通過引入支持向量機技術,文中提高了分析模型的泛化能力,實現具有較高準確度的情感分析技術。相關仿真結果表明,基于機器學習方法的游客評論數據分析技術優于傳統的語義分析方法。

1 情感分類技術

在數學領域中,情感分類是一個映射過程。令a表示由多種數據組成的待分類集合,b表示經過精確分類之后的類別集合,則情感分類f,可用式(1)表達。

在當前研究中,情感分類技術主要可分為語義分析[12-14]與機器學習[15-16]兩類,其簡介如下:

1)基于語義分析的情感分類技術,是通過對詞語的語義傾向進行分析的情感分類方法,該方法需要提取、表示與統計詞語的語義特征。其分類流程如圖1 所示。

圖1 基于語義分析的情感分類流程圖

2)基于機器學習的情感分類技術需要使用統計學,比較當前數據與已定義的分類特征向量的相似程度,從而完成文本數據的情感分類。其分類流程如圖2 所示。

圖2 基于機器學習的情感分類流程圖

一般而言,基于機器學習的常用情感分類技術,主要包括支持向量機(SVM)、K 近鄰與樸素貝葉斯算法等。在基于語義分析與機器學習的情感分類技術中,由于支持向量機技術具有準確度較高的分類效果,故文中選用該技術對游客的評論數據進行智能分析。

2 支持向量機技術

2.1 數據抓取

在智能分析技術中,鑒于用戶數量與關注度均較高,所以文中的訓練集與測試集數據均來自于攜程網的數據庫。為快速獲取大量的數據,利用Java語言在Eclipes 平臺上,分別編寫了網頁抓取程序Crawler 與解析數據程序Parse。利用抓取程序與用戶數據,建立了由旅游景點信息與評論信息組成的數據表。其中,旅游景點信息主要由城市序號、城市名稱、游客人數、綜合評分、景點評分、評論數量與評價時間等組成;評論信息主要由評論序號、城市序號、城市名稱、評論內容、游客評分、評價時間與游客姓名等組成。

2.2 預處理

為便于機器學習方法的分類與計算,文中還需要對原始的評論數據進行必要的預處理。其中,數據預處理過程又可分為訓練集與測試集、文本清理與初始分類流程,其詳細內容如下。

1)訓練集與測試集

在數據預處理的過程中,文中需要對數據庫中的原始數據進行反復地調整與運算,從而選取出由大量游客評論數據組成的訓練集;同時,選擇出由一定數量評論數據與分類結果組成的測試集。利用數據的自動抓取程序,文中從攜程網平臺上獲取了10個旅游景點的在線評論數據。經過反復地訓練與測試,文中對多個分類器的參數進行了優化與改進。

2)文本清理與初始分類

在旅游服務平臺上,原始數據的自動抓取程序是直接復制相應的評論內容,導致了抓取的數據中包含較多英文、符號等額外信息。所以,文中需要對原始的抓取數據進行一定的“過濾”,該過程主要由以下行為組成。

①剔除無意義的游客評論數據。其中,無意義的評論數據主要包括3 種數據,即外文或符號等無法判別內容、特別簡略而無法判斷情感傾向的內容、包含大量廣告的評論內容;

②精簡有意義的游客評論數據。在具有參考意義的評論數據中,大量的英文單詞或怪異的表情符號等內容較難反映游客的真實情感傾向,需要進行一定的精簡與優化。

為了實現更加精確的評論自動分類,文中需要對經過清理的文本數據進行人工初始分類,即將文本的評價內容簡單分成積極正面評價與消極負面評價內容,從而盡量提高分類的準確度。

2.3 情感分類

當完成原始數據的預處理后,基于機器學習的評論數據分類技術還需要執行特征表示、特征提取與分類計算等多個流程,其詳細介紹如下。

1)特征表示

由于機器學習算法無法直接對文本數據進行處理與運算,所以文中利用向量空間模型表示文本數據。

一般而言,向量空間模型是使用具有權值的特征向量空間表示文本的方法。在所有文本數據中,每個文本d均由n維向量空間V的一個點來表示,即V(d)=(w1,…,wn)。其中,向量空間的分量wi(1 ≤i≤n)均表示文本數據在特征向量空間中的權重值。利用該方式,文中即可將游客的文本數據逐一匹配到n維的特征向量空間。

2)特征提取

由于中文的詞語總數較多,所以經過特征表示的特征向量,仍需要進行特征提取,從而降低特征向量的維度。目前,針對中文文本的常用特征提取方法主要有:文檔頻率統計、信息增益計算與交互信息統計等。其中,因為機器學習方法被用于分類計算,所以文中選用信息增益計算的方法來完成特征提取。

通常,信息增益計算是廣泛用于機器學習領域的特征提取方法,令t表示文檔詞語,c表示文檔類別,s表示文檔的類別數量,p(c)表示c類文檔在中文語料集合中的出現概率,而p(t)與表示文檔詞語t在中文語料集合中的出現與不出現的概率,分別表示文檔詞語t在c類文檔中出現與不出現的概率。則文本特征提取的計算結果I(t)如式(2)所示。

3)分類計算

為了提高評論數據的分析準確度,文中選用支持向量機(SVM)技術,作為評論文本數據的主要分析工具。在概率論與數理統計原理的基礎上,以結構風險最小化為運算基準原則,SVM 的學習泛化能力更高,解決了傳統機器學習算法始終存在的非線性與過學習等問題。其基本思想為利用監督學習的方法,對文本數據進行二元線性分類。

而樣本集F的所有點(xi,yi)滿足以下不等式:

而在數據空間Rd中,樣本數據x到分類超平面距離l的計算方法,如式(5)所示。

通常而言,為了實現更加精確的分類,文中需要尋找最優的分類超平面,而這一問題可以轉化為支持向量機二次規劃的數學計算模型。其中,該數學模型的目標函數obj(w)如式(6)所示。

對于樣本數據集F={(xi,yi)},令i=1,2,…,s,則該數學模型的約束條件如式(7)所示。

此外,令ai表示第i個樣本對應的拉格朗日算子,文中分別將目標函數與約束條件細化為式(8)與式(9):

根據庫恩塔克爾定理,通過一定的推導可知,上述數學模型的優化解必然滿足以下條件,如式(10)所示。

其中,在大部分樣本數據的求解過程中,ai=0 。而當ai≠0 時的少部分樣本即為支持向量,通過推導與求解可得分類判別函數D(x,y),如式(11)所示。

3 仿真結果與分析

為驗證文中提出的智能分析方法的有效性,利用攜程網的游客評論內容,分別對基于語義分析與機器學習的智能分析方法進行了仿真與分析。在仿真過程中,文中采用卡方檢驗的方法衡量這兩種文本分析方法的優劣。需要說明的是,所有的仿真均采用相同的樣本數據與檢驗條件。經過多種訓練集與測試集等樣本數據的測試和分析,文中得到了測試集的分類正確率結果。其中,當訓練集樣本數據的數量分別為50、100、200 與400 時,這兩種方法的測試集分類正確率,如表1 所示。

表1 測試集評論數據分類正確率結果

由表1 可知,在同樣的仿真條件下,基于機器學習方法的智能分析技術具有較高的正確率,顯著優于傳統的語義分析方法,證明了文中所提分析技術的優越性。

4 結束語

針對游客評論文本的數據分析問題,文中基于機器學習方法提出了一種文本智能分析技術。通過引入支持向量機的數據處理方法,這種智能分析技術顯著提高了游客評論數據的分類正確率,具有一定的借鑒與參考意義。然而,由于仿真條件的限制,文中并沒有對這種技術進行大規模的仿真與分析,該技術的穩定性表現無法判定,下一步將致力于解決這一問題。

猜你喜歡
分類文本情感
分類算一算
如何在情感中自我成長,保持獨立
失落的情感
北極光(2019年12期)2020-01-18 06:22:10
情感
在808DA上文本顯示的改善
分類討論求坐標
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
如何在情感中自我成長,保持獨立
數據分析中的分類討論
教你一招:數的分類
主站蜘蛛池模板: 99在线免费播放| 99这里精品| 日本高清视频在线www色| 一区二区午夜| 欧美福利在线播放| 国产美女叼嘿视频免费看| 老司机午夜精品视频你懂的| 国产一区二区在线视频观看| 国产国模一区二区三区四区| 波多野结衣第一页| 免费人成视网站在线不卡| 精品国产91爱| 最新国产高清在线| 97狠狠操| 亚洲国产高清精品线久久| 国产精品美人久久久久久AV| 911亚洲精品| 色视频国产| 视频二区亚洲精品| 亚洲免费播放| 狠狠干综合| 激情视频综合网| 网友自拍视频精品区| 亚洲一区二区黄色| 久久精品无码一区二区国产区| 欧美天天干| 99re热精品视频中文字幕不卡| 久久精品无码国产一区二区三区 | 日韩高清欧美| 夜精品a一区二区三区| 99精品在线看| 在线国产欧美| 54pao国产成人免费视频| 狼友av永久网站免费观看| 久久人人97超碰人人澡爱香蕉| 国产高清无码麻豆精品| 国产精品手机在线观看你懂的| 美女无遮挡拍拍拍免费视频| 精品一区二区久久久久网站| 日韩精品专区免费无码aⅴ| 午夜毛片福利| 精品91视频| 大陆精大陆国产国语精品1024| 亚洲色图综合在线| 人妻一区二区三区无码精品一区 | 国产男女XX00免费观看| 久久久波多野结衣av一区二区| 精品福利视频导航| 中文纯内无码H| 欧美一区精品| 999国产精品| 亚洲无卡视频| 国产第一页第二页| 亚洲成人黄色在线观看| 妇女自拍偷自拍亚洲精品| 蜜桃视频一区| 三上悠亚在线精品二区| 国产91av在线| 国产亚洲精久久久久久无码AV| 啪啪永久免费av| 国产真实乱了在线播放| 欧美国产日产一区二区| 2020极品精品国产| 国产迷奸在线看| 男女猛烈无遮挡午夜视频| 国产情精品嫩草影院88av| 亚洲成人www| 欧美a在线视频| 久久婷婷人人澡人人爱91| 精品久久777| 小说区 亚洲 自拍 另类| 在线观看国产精美视频| 又污又黄又无遮挡网站| 黄色片中文字幕| 欧美自慰一级看片免费| 国产h视频免费观看| 欧美一区二区福利视频| 精品国产电影久久九九| 亚洲成人播放| 国产精品视频a| 亚洲综合激情另类专区| 亚洲最大在线观看|