999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

商品隱式評價對象提取的方法研究

2015-04-16 08:52:04邱云飛倪學峰邵良杉
計算機工程與應用 2015年19期
關鍵詞:特征實驗評價

邱云飛,倪學峰,邵良杉

QIU Yunfei1,NI Xuefeng1,SHAO Liangshan2

1.遼寧工程技術大學 軟件學院,遼寧 葫蘆島125100

2.遼寧工程技術大學 系統工程研究所,遼寧 葫蘆島125100

1.Software College,Liaoning Technical University,Huludao,Liaoning 125100,China

2.Institute of Systems,Liaoning Technical University,Huludao,Liaoning 125100,China

1 引言

隨著互聯網技術的飛速發展,消費者更喜歡在網絡上發布一些自己內心真實的觀點,如去網站論壇發布一些針對某商品或服務的評論,同時在消費之前也會上網瀏覽下他人的觀點意見。這些評論中往往包含了用戶的最真實的觀點意見,因此,評論挖掘作為非結構化信息挖掘的一個新興研究領域也隨之而生。目前對于網絡評論挖掘的問題,學者Popescu[1]將其歸結為以下幾個重要問題:(1)挖掘重要產品特征;(2)挖掘用戶對產品特征的主要觀點;(3)判斷評論觀點的情感導向;(4)根據觀點的重要性進行排名。

國內外對商品特征提取的研究方法正處于發展階段,文獻[2]提出如何從消費者評論中挖掘商品特征,但只能處理英文文本,并不適用于中文評論。文獻[3]采用基于句法分析技術的評論對象抽取方法;文獻[4]采用基于關聯規則分類的產品特征挖掘算法,這兩種方法雖然能很好的處理中文文本評論,但提取出的全部都是顯式評價對象。而文獻[5]采用特征詞庫對評論進行特征標注,雖然特征標注的準確率能達到87.47%,但是需要人工核查獲取特征詞庫,其中耗費了大量的人力、物力。商品評論中的商品特征可以分為顯示特征和隱式特征[6],本文稱之為顯式評價對象和隱式評價對象。如果一個特征f出現在一個評估文本r中,那么被稱為r的一個顯式特征。如果f沒有在r中出現,但是被暗指,那么將其稱為r的一個隱式特征。例如“這家店位置非常好下車就看到了”,就能簡單地識別出“位置”這一顯式屬性。而“地方不好找但是交通還是很方便的”,需要通過分析理解才能識別出“位置”這一屬性。現有的產品特征抽取方法所提取出的大都是產品的顯式特征,也就是通過各種模型提取出產品評論中的個別詞或詞組作為評價對象,但是這樣一來好多評價對象雖然描述不同但評價對象卻從屬于同一個方面。

本文提出并實現了一種有監督的商品隱式評價對象提取方法。第2 章詳細描述隱式評價對象提取的相關工作,主要包括候選評價對象提取、候選評價對象聚類、特征詞權值計算以及隱式評價對象識別。第3 章敘述了對大規模真實文本的實驗,并與相關的研究工作進行了比較。最后是對工作的一個小結。

2 隱式評價對象提取的相關工作

本文提出的商品隱式評價對象提取的方法,首先從評論語料中根據評價對象模型提取出候選評價對象,并根據k-means 算法[7]將候選評價對象聚類從而提取出隱式評價對象及其相關的特征詞集合,然后計算出每個特征詞指示隱式評價對象的能力,最后根據特征詞指示能力的引導抽取出用戶在評論語料中提出的觀點。圖1給出了實驗方法框架圖。

圖1 實驗方法框架圖

2.1 候選評價對象提取

2.1.1 評價對象模型

由于評論內容比較短,評論子句大都是由簡單的詞或短語以一定的順序組合而成的,而且每條評論子句通常也就只描述了某一事物的一個特征,因此采用句式語義的形式分析方法提取出評論子句的主干[8],并構建一個二元組C(np,ap)或C(np,vp),其中np、ap、vp分別表示具有名詞、形容詞、動詞詞性的詞或短語,且np即為此評論子句中的候選評價對象,ap或vp即為該候選評價對象的特征詞。二元組的構建遵循如下三條原則(定義N為詞的個數):

2.1.2 特征詞擴充

針對評論子句僅由數個詞或詞組構成,評論子句中對評價對象的描述不夠清晰,相應的評價對象特征詞也不足以明確的指示該評價對象,為此需要尋求一種解決辦法,能從簡單的評論子句中獲取充足的指示特征詞,使得候選評價對象模型中有價值的信息有所增加。正是由于候選評價對象模型是由一個包含兩個元素的二元組組成,借此可以憑借這兩個詞或短語相似的詞擴充到特征詞集合T中。

HowNet(《知網》)是一個以漢語和英語的詞語所代表的概念為描述對象,以揭示概念與概念之間的概念所具有的屬性之間的關系為基本內容的常識知識庫[9]。對于漢語詞匯,知網中的描述基于“義原”這一基本概念。義原,可以被認為是漢語中最基本的、不易于再分隔的最小語義單位。將通過HowNet 獲取的np、ap、vp義原npi、apj、vpk擴充到特征詞集合T中,最終得到的候選評價對象模型為C(np,T),其中,T=(ap,N,A)或T=(vp,N,V),N=(np1,np2,…,npr),A=(ap1,ap2,…,aps),V= (vp1,vp2,…,vpt)。

2.2 候選評價對象聚類

根據評價對象模型獲取的候選評價對象分布不夠集中,排列比較松散,不能明確的展現出用戶的觀點態度,而且存在一種多個候選評價對象模型實際描述的卻是同一個評價對象的現象。為此采用k-means 聚類算法將候選評價對象C(np,T)根據T=(ap,N,A)或T=(vp,N,V)的相似度聚類。k-means 聚類算法的核心思想是找出k個聚類中心c1,c2,…,ck,使得每一個數據點xi和與其最近的聚類中心cr的平方距離和被最小化(該平方距離和被稱為偏差D)[10]。基于k-means 算法的候選評價對象聚類算法描述如下:

Algorithmk-means(k,D)

Input:候選評價對象集合D;聚類數k

Output:聚類結果

Procedure:

步驟1隨機選擇k個候選評價對象作為初始的聚類中心Ki

步驟2迭代循環:每個候選評價對象Cj

計算Cj與各候選評價對象類之間的相似度Similarity

將Cj分配到相似度Similarity最大的聚類中心

步驟3重新計算聚類中心Ki

步驟4終止條件不成立跳轉到步驟2,否則結束

終止條件:

1.沒有候選評價對象被重新分配給不同的聚類

2.沒有聚類中心發生變化

候選評價對象C(np,T)之間的相似度計算基于劉群在文獻[11]中計算兩個義項集合的相似度算法來計算評價對象模型中特征詞集合T中元素之間的相似度,從而根據特征詞集合中元素相似度的算術平均值得出候選評價對象的相似度[12]。候選評價對象Ci與Cj之間的相似度計算公式如下公式(1)所示(如下公式(1)、(2)中將T=(ap,N,A) 或T=(vp,N,V) 統一寫成T=(t1,T1,T2)的形式):

將k-means 聚類算法得出的k個聚類中心Kj(npj,Tj)中的npj作為最終要提取的評價對象,Tj以及聚類中其他候選評價對象Ci(npi,Ti)中的npi和Ti組成一個新的集合Γ作為評價對象npj的特征詞集合,形成最終的評價對象模型A(n,Γ)=(npj,Γ)。

2.3 特征詞權值計算

χ2統計量(CHI)衡量的是特征項ti和類別Cj之間的關聯程度[13],并假設ti和Cj之間符合具有一階自由度的χ2分布。特征對于某一類別的χ2統計值越高,它與該類之間的相關性越大,攜帶信息也較多,反之則較少。利用χ2統計量(CHI)在訓練語料中衡量特征詞ti對于隱式評價對象Aj的指示能力,也就是說特征詞ti對于隱式評價對象Aj的χ2統計值χ2(ti,Aj)越高,它與該隱式評價對象之間的相關性也就越大,指示該隱式評價對象的能力就越強。計算特征詞對每個隱式評價對象的χ2統計值的公式(3)所示:

其中,n表示語料庫中評論子句的總數,|Aj|表示語料庫中評論了隱式評價對象的Aj評論子句總數,α表示是評論了隱式評價對象Aj且包含特征詞ti的評論子句數,β表示未評論Aj但包含特征詞ti的評論子句數,γ表示評論了Aj但不包含特征詞ti的評論子句數,d表示既未評論Aj也不包含特征詞ti的評論子句數。上述4 種情況可從表1 中清晰看出。

表1 屬性關聯詞ti 與屬性Aj 關系示意圖

2.4 隱式評價對象識別

需要分析的評論子句C=w1w2…wp,由p個詞組成,這p個詞中必有q個特征詞,即C≥t1t2…tq。隱式評價對象提取過程中,根據該條評論語句,與隱式評價對象的特征詞集合I中每個特征詞ti的χ2統計值χ2(ti)=(χ2(ti,A1),χ2(ti,A2),…,χ2(ti,Am)),將評論語句中所有特征詞對某一隱式評價對象的χ2統計值的和記為該評論語句指示這一隱式評價對象的能力。定義公式(5),根據評論語句的χ2統計值提取出隱式評價對象。

3 隱式評價對象提的取方案設計

(1)實驗數據采集

利用網絡爬蟲[14]從網絡上下載用戶評論文本作為實驗的語料數據并進行數據預處理。本研究以大眾點評網、飯統網、丁丁網等網站上針對餐館的評論數據為例形成評論語料庫。

(2)對評論語料進行語句拆分

本文根據句子邊界的啟發式搜索算法將一條評論語句分割成若干子句,而且通過對語料庫的分析,發現人們喜歡用“……”、“~”、“!!”、“!!!”、“。。”、“~~”等一些特殊標點符號或是一些表轉折、并列等的連詞來提示上下文談論問題的轉變[15]。因此,需要將這些特殊符號和連詞作為初始的句子邊界。

(3)對評論語料分詞和詞性標注

本文對評論語料采用中國科學院計算機技術研究所在多年研究工作積累的基礎上,研制出的漢語詞法分析系統ICTCLAS(Institute of Computing Technology,Chinese Lexical Analysis System)進行分詞。分詞后根據詞性標注的結果以及文獻[4]中提出的短語提取模式提取出名詞短語、形容詞短語、動詞短語。

(4)提取候選評價對象

在評論語料庫中利用評價對象模型提取出候選評價對象,并通過HowNet 獲取評價對象特征詞的義原以擴充特征詞集合。

(5)隱式評價對象提取

采用聚類算法對候選評價對象聚類從而提取出評論語料庫中所涉及的隱式評價對象,以及評價對象特征詞集合。

(6)特征詞權重計算

根據訓練語料對步驟5得出的隱式評價對象特征詞集合中的各個元素,按照公式(3)進行特征詞權重計算。

(7)隱式評價對象識別

根據公式(5)提取出實驗語料中評論子句的隱式評價對象。

4 實驗數據與分析

4.1 實驗數據

本實驗從大眾點評網(http://www.dianping.com)下載了關于北京、大連、廈門、鞍山4 個城市的10 家餐館的1 135 條評論,作為測試集進行實驗,評論語料分布如表2 所示。

表2 評論語料

4.2 實驗結果

對評論語句進行語句分割后得到5 684 條評論子句,其中有1 624 條子句是陳述事實等與分析無關的評論子句,根據構建候選評價對象模型的3 條規則對剩余的有價值的評論子句進行候選評價,對象建模后得出3 732 個候選評價對象。

4.2.1 特征詞擴充對比

為了驗證本文針對評論文本內容短、稀疏性高的特點,提出的特征詞擴充技術能否有效提高聚類效果,進行此項實驗。將根據評論子句構建的候選評價對象數據集1 與根據HowNet 義原擴充特征詞集合的候選評價對象數據集2 進行比較,來測評兩類數據集的聚類效果。由于人們關心的餐館特征一般在7 個左右,所以預分類的聚簇數K值在范圍[4,14]中進行實驗,對于聚類效果的評估采用整個聚類結果的平均純度purityavg(D)作為評價指標,purityavg(D)值越大說明一個聚類中僅包含一個類別的數據的程度越高。圖2 給出了在數據集1 和數據集2 上分別進行分裂的層次聚類的結果。

圖2 在數據集1和數據集2上分別進行分裂的層次聚類的結果

4.2.2 聚類結果對比

本文的方法對3 732 個候選評價對象按照k-means聚類算法對選取的不同聚簇數K聚類,最終將各個聚簇中心作為評價對象,結果如表3 所示。

4.2.3 評估隱式評價對象提取

為了驗證本文提出的隱式評價對象方法反映用戶觀點的全面性和準確性,除了采取了文本處理問題研究中普遍使用的性能評估指標:查全率recall和查準率precision之外,還添加了絕對偏差值MAE作為度量標準。絕對偏差值MAE是通過計算系統識別出的隱式評價對象與手工標注的隱式評價對象之間的偏差來度量分析的準確性,MAE值越小分析質量越高。對于隱式評價對象Ai的查全率、查準率和絕對偏差值的計算方法如公式(6)、(7)、(8)所示,公式中的參數如表4 所示。

對于實驗數據在選取不同聚簇數K,即不同隱式評價對象數量下進行隱式評價對象提取的查全率、查準率和絕對偏差值的實驗,結果如表5。

圖2 顯示隨著聚簇數K值得不斷增加,聚類結果的平均純度purityavg(D)也隨之上升,雖然K值越大聚類結果的純度就越大,但是根據表3 聚類結果顯示當K值增加到9 時聚類之間的相似度也在隨之的增加,本文算法的查全率隨之上升但是查準率在不斷降低,絕對偏差值卻在一再的升高。因此,在K的選擇上不僅要考慮k-means 聚類過程結果的平均純度,還要結合類間相似度,以及Recall和Precision二者的平衡點選擇最優的K值。

表3 k-means聚類結果

表4 參數列表

表5 隱式評價對象提取測評表

5 結束語

本文利用分類算法實現了一個商品隱式評價對象提取的系統,可分為候選評價對象提取,利用k-means 算法對候選評價對象聚類,特征詞權重計算和隱式評價對象識別4 部分,結合用戶在網上發表的評論進行訓練得出每個特征詞的指示能力,并根據特征詞的指示能力對實驗語料進行評估。實驗結果表明本研究方法是合理有效的,但是實驗結果受候選評價對象提取的影響很大。下一步,可以結合其他方法改進候選評價對象提取的方法,從而提高整個隱式評價對象識別方法的準確性。

[1] Popescu A M,Etzioni O.Extracting product features and op inions from reviews[C]//Proceedings of HLT-EMNLP 2005,2005:339-346.

[2] Hu Minqing,Liu Bing.Mining opinion features in customer reviews[C]//Proceedings of the 19th National Conference on Artificial Intellgience,San Jose,USA,2004.

[3] 劉鴻宇,趙妍妍,秦兵,等.評價對象抽取及其傾向性分析[J].中文信息學報,2010,24(1):84-88.

[4] 李實,葉強,李一軍,等.中文網絡客戶評論的產品特征挖掘方法研究[J].管理科學學報,2009,12(2):142-152.

[5] 潘宇,林鴻飛.基于語義極性分析的餐館評論挖掘[J].上海:計算機工程,2008,34(17):208-210.

[6] Hu Minqing,Liu Bing.Mining and summarizing customer reviews[C]//Proceedings of the ACM SIGKDD International Conference on Knowledge Discovery and Data Mining.New Yorks:ACM Press,2004:168-177.

[7] 任江濤,孫婧昊,施瀟瀟,等.一種用于文本聚類的改進的K均值算法[J].計算機應用,2006,26:73-75.

[8] 姚天昉,婁德成.漢語語句主題語義傾向分析方法的研究[J].中文信息學報,2007,21(5):73-79.

[9] HowNet.HowNets Home Page[EB/OL].[2013-08-15].http://www.keenage.com.

[10] 孫吉貴,劉杰,趙連宇.聚類算法研究[J].北京:軟件學報,2008,19(1):48-61.

[11] 劉群,李素建.基于《知網》的詞匯語義相似度的計算[C]//第三屆漢語詞匯語義學研討會,中國臺北,2002:59-76.

[12] 游彬,嚴岳松,孫英閣,等.基于HowNet 的信息量計算語義相似度算法[J].計算機系統應用,2013,22(1):129-133.

[13] 肖婷,唐雁.改進的卡方統計文本特征選擇方法[J].計算機工程與應用,2009,45(14):136-140.

[14] 鄭力明,易平.基于HTMLParser 信息提取的網絡爬蟲設計[J].微計算機期刊,2009,25(3):67-69.

[15] 趙妍妍,秦兵,車萬翔,等.基于句法路徑的情感評價單元識別[J].軟件學報,2011,22(5):887-898.

猜你喜歡
特征實驗評價
記一次有趣的實驗
SBR改性瀝青的穩定性評價
石油瀝青(2021年4期)2021-10-14 08:50:44
如何表達“特征”
做個怪怪長實驗
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
抓住特征巧觀察
NO與NO2相互轉化實驗的改進
實踐十號上的19項實驗
太空探索(2016年5期)2016-07-12 15:17:55
基于Moodle的學習評價
線性代數的應用特征
河南科技(2014年23期)2014-02-27 14:19:15
主站蜘蛛池模板: 精品在线免费播放| 99久久人妻精品免费二区| 亚洲精品无码人妻无码| 在线观看免费黄色网址| 日本不卡在线播放| 国内丰满少妇猛烈精品播| 91精品国产91欠久久久久| 国产熟睡乱子伦视频网站| 国产午夜精品鲁丝片| 国产va欧美va在线观看| 欧美日韩成人| 五月天丁香婷婷综合久久| 午夜啪啪福利| 无码'专区第一页| 天堂av高清一区二区三区| 国产黄色免费看| 91欧美在线| 精品自窥自偷在线看| 伊在人亚洲香蕉精品播放| 国产精品短篇二区| 97精品伊人久久大香线蕉| 国产精品hd在线播放| 亚洲日韩精品综合在线一区二区| 在线观看91精品国产剧情免费| 99久久精品久久久久久婷婷| 亚洲精品成人片在线播放| 日韩无码视频专区| 久久先锋资源| 日韩国产无码一区| 亚洲首页在线观看| 欧美一道本| 福利姬国产精品一区在线| 亚洲精品大秀视频| 国产精品一区二区久久精品无码| 在线精品视频成人网| 呦女亚洲一区精品| 日韩欧美中文在线| 亚洲AV成人一区国产精品| 国产激情无码一区二区免费| 久久青草免费91线频观看不卡| 久热中文字幕在线| 一级香蕉人体视频| 精品国产Ⅴ无码大片在线观看81| 国产精品福利一区二区久久| 欧美激情第一区| 亚洲国产看片基地久久1024| 97国产成人无码精品久久久| 亚洲码一区二区三区| 久久国产精品娇妻素人| 国产女同自拍视频| 2021国产精品自拍| 亚洲青涩在线| 毛片在线看网站| 国产91在线免费视频| 欧美午夜理伦三级在线观看| 欧美亚洲日韩中文| 免费毛片全部不收费的| 无码aⅴ精品一区二区三区| 99视频在线精品免费观看6| 久久精品欧美一区二区| 亚洲人妖在线| 免费国产好深啊好涨好硬视频| 国产熟睡乱子伦视频网站| 国产精品欧美在线观看| 91精品国产情侣高潮露脸| 白浆视频在线观看| 91蜜芽尤物福利在线观看| 19国产精品麻豆免费观看| 免费女人18毛片a级毛片视频| 手机成人午夜在线视频| 欧美亚洲第一页| 亚洲天堂网在线观看视频| 国产JIZzJIzz视频全部免费| 国产高清又黄又嫩的免费视频网站| 亚洲黄色高清| 国产人人射| 亚洲乱码在线视频| 四虎成人免费毛片| 国产不卡网| 全部免费特黄特色大片视频| 麻豆精选在线| 国产不卡网|