999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

改進互聯網電商評論特征詞典的輿情觀點分類

2017-05-24 10:39:33房滿林董超俊
科技創(chuàng)新與應用 2017年13期
關鍵詞:特征提取

房滿林+董超俊

摘 要:電商評論數據往往都是以短文本(在電商領域這種用戶的聲音稱為源聲)形式存在,它在一定程度上會影響商家的知名度,因此對源聲的輿情分析尤為重要。源聲分類技術的出現正是為了滿足商家的這種需求,針對源聲特征稀疏以及觀點多樣性特征點,而且輿情觀點錯誤識別的問題,提出一種改進互信息的方法實現特征約簡,從而創(chuàng)建一個特征詞典集合,對源聲進行觀點分類,并作了大量實驗驗證該思想的可靠性。

關鍵詞:特征提取;源聲;詞典集合;互信息

引言

本文將深入闡述在互聯網電商評論短文本信息分類領域的研究,構建一個特征詞組-分類的map(k,v)集合,觀點是消費者從自身立場出發(fā)對某產品的看法,由于產品領域的多樣性,產品各個領域都會成為評價的對象,因此同一條源聲會有多個觀點,可以將源聲以分隔符進行拆分,短文本通過分隔符由內向外并行分類方法,從而避免錯誤輸出,并針對此多分類問題,構建多映射的hash map集合。

1 短文本結構

1.1 源聲組成

在對源聲觀點識別時常常將源聲拆分3種布局方式:“產品”+“評價”的形式;“領域”+“評價”的形式被稱為二元觀點;“產品”+“領域”+“評價”被稱為三元觀點。拆分示意圖如下所示:

1.2 源聲觀點輸出

VR眼睛這款產品涉及的領域細分有85種。進行源聲分類時,如上述源聲特征“很差”和“外觀”兩個特征項構成的單詞序列連續(xù)出現時,機器很容易理解成“很差的外觀”,造成分類觀點錯誤的輸出。對于源聲“VR眼鏡體驗效果真心很差,可是外觀確實漂亮”,很容易錯誤輸出觀點如圖2所示:

2 特征選擇與特征約簡

特征選擇是在不丟失文本信息的情況下保留那些最能夠代表文檔類別的特征,往往對電商評論數據進行觀點分類時,起關鍵作用的不到3個關鍵詞,本文提出一種改進互信息方法提取組成源聲文本的前3個強相關特征分別代表“領域”“前綴否定”“評價”。這樣可以提高文本分類精度同時減輕計算量和內存的消耗。在構建類標簽特征詞典時,本文提出一種改進互信息方法對源聲文本進行特征提取。

2.1 特征選擇

特征詞和類別的互信息可表示為特征詞和類別同時出現的概率與特征詞和類別各自分別出現的概率的比值取對數,主題詞和類別的互信息可表示為主題詞和類別共同出現的頻率與特征詞和類別各自分別出現的頻率的比值取對數[1],計算公式:

p(wr)表示主題詞出現的頻率,p(ck)表示類別出現的頻率,p(wr,ck)表示主題詞wr與類別ck共同出現的頻率[2]。

2.2 特征約簡

本文提出一種在給定類標簽條件下兩兩不相關特征詞之間的改進MI的計算方式:

(2)

(3)

式中wd代表領域詞,wp代表前綴否定、we代表樣本的評價特征詞,p(wd,we)表示代表源聲文本觀點的“領域”和“評價共同出現的概率”,p(wd|ci)和p(we|ci)分別代表在類標簽ci條件下領域特征詞wd和評價詞we出現的概率。p(wd,wp,we)表示代表源聲文本觀點的3個特征詞“領域”“前綴否定”“評價”在該篇文本中共同出現的概率。

3 改進特征詞典構建

Bag of Words算法稱為詞袋模型,它首先假設組成文本的每個特征詞是相互獨立的,不關心每個特征詞出現的順序,將源聲當做多個特征詞組成的集合[3]。由于源聲觀點的多樣性以及觀點的誤分性,利用Bag of Words容易產生錯誤輸出。而map鍵值對特性易于理解方便存儲,領域與評價強關聯的詞組組成一個map集合,即map(key,value),其中value表示對應類標簽,即value={v1,v2,…vn},其中v代表鍵值類標簽。

3.1 詞典訓練階段

對每一個類別構建一個類別詞典,如輿情觀點分類是“外觀不好看”,則經過特征篩選組成該類標簽的詞典是dictionary1={“色澤”,“外觀”,“外表”,“沒有”,“不”,“好看”,“靚麗”,“上檔次”,“鮮艷”,“精美”},將源聲經過特征提取后經過每個類標簽匹配,若出現該特征詞用“1”表示,否則用“0”表示,對于有些源聲多個類別,對每個鍵值使用hash函數,采用鏈式存儲法進行存儲。舉例:源聲“這款VR外觀不太好看”,根據dictionary1匹配到當前類別向量是Vector=[0,1,0,0,1,1,0,0,0,0],將匹配到的向量作為map集合的key值存儲[4]。

3.2 分類階段

訓練好的詞典存儲在HDFS分布式文件集群上,對每個文件分配一個Reduce作業(yè),以測試樣本為輸入,每條樣本分詞后與詞典集合進行匹配,采用分布式可對多個樣本集進行并行的測試[5]。

3.3 算法偽代碼(見圖3)

4 實驗

訓練樣本數據集和測試樣本數據集是在各大電商網站等渠道經過爬蟲抓取的VR眼鏡數據集,主要包含從互聯網電商上抓取評論數據,在源聲去噪后,提取對訓練樣本庫有效的源聲信息,最后根據人工判讀來確認源聲樣本庫的分類標簽。

本文同樣使用覆蓋率,準確率,其中準確率和覆蓋率分別定義了兩個不同側重點的分類精度,準確率代表組合分類器正確輸出的源聲觀點與已知組合模型輸出的比值,覆蓋率代表所有實際屬于該類的源聲中,有多大比率被組合模型準確分到這個類中。為避免出現查全率或查準率其中一端為1而另一端為0的極端情況出現,本文運用了F1測度值對模型精度的整體評價[6],公式如下:

(6)

將采集到16400條的電商數據集按照3:1比例作為訓練樣本和測試樣本,模型觀點輸出的結果文件以.csv文件存儲,匯總輸出觀點量化指標。表1給出了訓練樣本經過map特征詞典集合觀點輸出匯總結果:

表2給出了測試樣本經過map特征詞典集合觀點輸出匯總結果:

5 結束語

本文將爬取下來互聯網電商評論作為數據集,對這種短文本數據進行觀點分類,主要工作有:針對觀點錯誤分類的原因進行了闡述;在處理源聲觀點分類時,源聲數據首先經過數據預處理,去除沒有觀點的噪聲數據并分析每條源聲X拆分后的形式;提出了一種改進源聲特征選擇以及特征提取方法;構建了文本特征詞典同時構建n個map(k,v)分類集合用于與詞典匹配從而進行分類。

參考文獻

[1]鄧彩鳳.中文源聲分類中MI特征選擇方法研究[D].成都:西南大學,2011.

[2]郭泗輝,樊興華.一種改進的貝葉斯網絡短文本分類算法[J].廣西師范大學學報(自然科學版),2010,28(3):140-143.

[3]Uijlings,J.R R,Smeulders,et al.Real-time bag of words,approximately[J].Proc.acm Int'l Conf.image&Video Retrieval,2009(3):375.

[4]劉紅光,魏小敏.Bag of Words算法框架的研究[J].艦船電子工程,2011,31(9):125-128.

[5]熊傳宇.基于Map-Reduce的海量數據約簡算法研究[D].武漢:武漢理工大學,2013.

[6]宋楓溪,高林.文本分類器性能評估指標[J].計算機工程,2004,30(13):107-109.

猜你喜歡
特征提取
特征提取和最小二乘支持向量機的水下目標識別
基于Gazebo仿真環(huán)境的ORB特征提取與比對的研究
電子制作(2019年15期)2019-08-27 01:12:00
基于Daubechies(dbN)的飛行器音頻特征提取
電子制作(2018年19期)2018-11-14 02:37:08
基于DNN的低資源語音識別特征提取技術
自動化學報(2017年7期)2017-04-18 13:41:09
Bagging RCSP腦電特征提取算法
一種基于LBP 特征提取和稀疏表示的肝病識別算法
基于DSP的直線特征提取算法
基于改進WLD的紋理特征提取方法
計算機工程(2015年4期)2015-07-05 08:28:02
淺析零件圖像的特征提取和識別方法
機電信息(2015年3期)2015-02-27 15:54:46
基于CATIA的橡皮囊成形零件的特征提取
主站蜘蛛池模板: 精品视频免费在线| 国产自在自线午夜精品视频| 91色在线视频| 国产精品无码制服丝袜| 国产微拍一区二区三区四区| 1024国产在线| 亚洲日韩AV无码精品| 成人午夜天| 亚洲国产清纯| 亚洲中文字幕在线观看| 国产美女无遮挡免费视频| 影音先锋亚洲无码| 91探花在线观看国产最新| 好吊色国产欧美日韩免费观看| 99re66精品视频在线观看 | 亚洲成aⅴ人片在线影院八| 亚洲VA中文字幕| 久久精品午夜视频| 无码专区第一页| 国国产a国产片免费麻豆| www.av男人.com| 青青热久免费精品视频6| 国产在线小视频| 91欧洲国产日韩在线人成| 国内精自视频品线一二区| 九九热精品免费视频| 国产一区在线视频观看| 欧美日韩中文国产va另类| 91在线播放国产| 国产主播喷水| 久久综合伊人77777| 天天综合天天综合| 亚洲成A人V欧美综合天堂| 国产精品区视频中文字幕| 欧美色图久久| 亚洲一区二区无码视频| 青青草一区| 亚洲综合18p| 精品视频在线观看你懂的一区| 国产亚洲欧美在线中文bt天堂| 国产导航在线| 亚洲日本韩在线观看| 一级片免费网站| 久久久噜噜噜久久中文字幕色伊伊 | 国产精品自拍合集| 国产成人综合亚洲网址| 综合色区亚洲熟妇在线| 玩两个丰满老熟女久久网| 久久鸭综合久久国产| 亚洲天堂伊人| 国产香蕉97碰碰视频VA碰碰看| 亚洲无限乱码一二三四区| 久久黄色影院| 亚洲,国产,日韩,综合一区 | 国产高清不卡视频| 亚洲欧美日韩高清综合678| 又猛又黄又爽无遮挡的视频网站| 国产熟睡乱子伦视频网站| 亚洲欧美人成电影在线观看| 中文字幕亚洲乱码熟女1区2区| 久久综合五月| 自拍偷拍欧美日韩| 亚洲欧美日韩成人高清在线一区| 久久男人视频| 国产激情无码一区二区免费| 青青青国产视频手机| 国产丝袜丝视频在线观看| 亚洲日韩精品无码专区97| 国产高清国内精品福利| 国产自在线播放| 国产在线精品人成导航| 欧美第一页在线| 成人精品视频一区二区在线| 天堂网亚洲综合在线| 亚洲精品动漫| 日韩欧美国产综合| 免费AV在线播放观看18禁强制| av在线5g无码天天| 免费 国产 无码久久久| 国产香蕉国产精品偷在线观看| 成人无码区免费视频网站蜜臀| 日韩在线欧美在线|