郝玫 馬建峰



摘 要:[目的/意義]針對產(chǎn)品評論中的復(fù)合句式,實(shí)現(xiàn)特征觀點(diǎn)對的語義匹配及提取,并明確評論可信度的識別因素及權(quán)重,對產(chǎn)品可信評論進(jìn)行篩選和分析。[方法/過程]基于特征觀點(diǎn)對的語義匹配算法實(shí)現(xiàn)評論語義指標(biāo)的量化計算,并采用模糊層次分析法確定可信度指標(biāo)權(quán)重。[結(jié)果/結(jié)論]實(shí)驗(yàn)表明相較于單句提取特征觀點(diǎn)對方法,特征觀點(diǎn)對的語義匹配算法在召回率、準(zhǔn)確率和F-score等性能方面均有較大優(yōu)勢。依據(jù)可信度指標(biāo)對網(wǎng)站產(chǎn)品評論進(jìn)行篩選,不僅可以評估產(chǎn)品整體的評論可信度,還可以細(xì)化到產(chǎn)品特征級別的可信度分析,為用戶篩選可信的評論信息并提升購物決策效率。
關(guān)鍵詞:產(chǎn)品評論;評論可信度;特征觀點(diǎn)對;語義匹配;評論篩選
DOI:10.3969/j.issn.1008-0821.2019.06.011
〔中圖分類號〕TP391.1 〔文獻(xiàn)標(biāo)識碼〕A 〔文章編號〕1008-0821(2019)06-0102-09
Abstract:[Purpose/Significance]In view of the compound sentence pattern in the product reviews,this paper realized the semantic matching and extraction of the feature opinion pairs,and made clear the indicators and weights of the reviews credibility so as to select and analyze the trusted reviews of the products.[Method/Process]Based on semantic matching algorithm of feature opinion pairs,we extracted the feature opinion pairs and calculated the semantic indicator of reviews,then used Fuzzy Analytic Hierarchy Process to determine the weight of indicators.[Result/Conclusion]The experiment showed that semantic matching algorithm of the feature opinion pairs had a great advantage on the performance of the recall,accuracy and F-score,compared with the method of extracting feature points from the single sentence.It could not only evaluate the credibility of the overall review of the product,but also could be refined to the reliability analysis of the product feature level.Meanwhile,it could screen credible reviews for users and improve the efficiency of shopping decisions.
Key words:product reviews;reviews credibility;feature opinion pair;semantic matching;reviews screening
隨著網(wǎng)絡(luò)購物的日益普及,在挑選商品前查看在線評論,成為多數(shù)用戶的消費(fèi)習(xí)慣[1]。這不僅是因?yàn)榫W(wǎng)絡(luò)購物的虛擬特性,還因?yàn)榭蛻粼u論來源于購買者的真實(shí)體驗(yàn)和對產(chǎn)品的全面評價[2-3]。然而,產(chǎn)品評論的數(shù)量龐大,評論質(zhì)量良莠不齊,讓用戶逐條挑選可信評論很不現(xiàn)實(shí)。而且,銷售網(wǎng)站目前對產(chǎn)品評論的排序僅按照時間排序或文字?jǐn)?shù)量排序,這些排序方法對于滿足用戶查看可信評論的需求還遠(yuǎn)遠(yuǎn)不夠。因此,針對產(chǎn)品評論的可信度研究一直受到很多學(xué)者的關(guān)注。
產(chǎn)品評論可信度研究主要分為評論可信度指標(biāo)劃分和可信評論排序兩項任務(wù)[4-5]。從評論質(zhì)量和評論效用的角度出發(fā),產(chǎn)品評論的可信度指標(biāo)研究通常分為評論元數(shù)據(jù)特征分析、評論語義特征分析和評論者分析[6]。其中,評論語義特征分析主要通過計算產(chǎn)品屬性情感詞在語句中所占比例來實(shí)現(xiàn)[7-8],而產(chǎn)品評論中的屬性級別情感分析并不是一個簡單的詞語頻次計算,準(zhǔn)確地對表達(dá)不規(guī)范的評論語句中的產(chǎn)品特征及對應(yīng)觀點(diǎn)進(jìn)行匹配,然后再對特征觀點(diǎn)對進(jìn)行比例計算,才是對語句語義的準(zhǔn)確分析。但是,現(xiàn)有的研究幾乎很少關(guān)注網(wǎng)絡(luò)評論表達(dá)隨意,句式構(gòu)成復(fù)雜,特征觀點(diǎn)并不僅在單句中出現(xiàn)的情況,而且沒有從語句語法規(guī)則和句式依賴關(guān)系的分析出發(fā),去提取產(chǎn)品特征觀點(diǎn)對,從而計算評論的語義可信度[9]。另外,在可信評論排序方面,目前研究方法中多數(shù)僅依據(jù)單項指標(biāo)篩選可信評論而且對于評論語義內(nèi)容較少關(guān)注,不能很好滿足客戶篩選評論的需求。事實(shí)上,綜合評論元數(shù)據(jù)特征、評論語義特征和評論者等多項可信度指標(biāo),并確定其權(quán)重,對產(chǎn)品評論進(jìn)行可信度篩選,才能幫助用戶全面判定產(chǎn)品評論的質(zhì)量,實(shí)現(xiàn)不僅從產(chǎn)品整體的粗粒度評價產(chǎn)品評論質(zhì)量,而且細(xì)化到產(chǎn)品特征級別來識別產(chǎn)品評論質(zhì)量。
為了解決以上問題,即一方面完善產(chǎn)品評論可信度的語義特征分析方法,另一方面,綜合多項可信度指標(biāo)進(jìn)行產(chǎn)品評論質(zhì)量評價,本文將給出基于特征觀點(diǎn)對的語義匹配的產(chǎn)品評論可信度識別方法,采用句式劃分方法提取特征觀點(diǎn)對,實(shí)現(xiàn)評論情感可信度指標(biāo)的量化計算;除評論語義指標(biāo)外,引入評論者和評論元數(shù)據(jù)指標(biāo),應(yīng)用模糊層次分析法并結(jié)合問卷調(diào)查,確定各項可信度指標(biāo)權(quán)重;依據(jù)可信度指標(biāo)對購物網(wǎng)站產(chǎn)品評論進(jìn)行排序,評估各產(chǎn)品的評論可信度,并細(xì)化到產(chǎn)品特征級別的可信度分析,從而幫助用戶篩選可信評論。
1 相關(guān)研究
1.1 產(chǎn)品評論可信度指標(biāo)劃分
關(guān)于產(chǎn)品評論可信度的概念,目前主要有兩類界定:一類認(rèn)為評論可信度和評論內(nèi)容完整性共同構(gòu)成評論有用性,而評論可信度又包括專業(yè)性和可靠性[10];另一類認(rèn)為評論可信度包括真實(shí)性和準(zhǔn)確性[11]。國內(nèi)外研究者依據(jù)評論可信度的這些概念,延伸出了評論可信度指標(biāo)的劃分,并主要從評論本身和評論者兩個角度進(jìn)行分析[12-13]。其中,評論本身的可信度指標(biāo)包括評論元數(shù)據(jù)特征和評論文本語義特征[14-15]。評論內(nèi)容的相關(guān)元數(shù)據(jù)主要是指評論發(fā)表時間、評論的字符串長度、得票數(shù)等,評論文本語義特征是指語法、語義、文體特征以及評論的情感特征[16],評論情感特征通常表示為評論積極、消極詞匯比例,近期有學(xué)者提出將特征觀點(diǎn)對納入評論情感特征[9]。評論者的可信度特征則包括評論者信譽(yù)、年齡、評論者身份信息公開程度、評論者打分偏差以及評論者異常行為模式等。
除了劃分評論可信度的指標(biāo),針對各項指標(biāo)對評論可信度的影響,國內(nèi)外學(xué)者都展開了很多研究,例如,Lee S等[17]利用回歸模型驗(yàn)證了評論長度和評論者信譽(yù)等級對評論有用性的正向影響。Li F等[18]發(fā)現(xiàn)僅通過評論內(nèi)容情感還無法判斷評論的可信度,還需結(jié)合評論人特征。Mukherjee A等[14]比較了評論者特征和評論情感特征對于評論可信度的影響,認(rèn)為基于評論者特征識別評論的可信度更優(yōu)。Gorla N等[19]認(rèn)為信息質(zhì)量涉及完整性、準(zhǔn)確性和及時性3個維度,且評論可信度的及時性由評論發(fā)布時間決定。Cheung C等[20]提出評論時間即評論時效性是影響評論可信度的信息質(zhì)量的重要因素。Zhang R等[21]提出評論評分和評論語義內(nèi)容之間存在的不一致性,例如評分高但評論內(nèi)容卻是負(fù)面的,所以,僅從評論元數(shù)據(jù)無法判定評論可信度,還需結(jié)合評論語義分析。Qiu L等[22]也提到了商家匯總后的評分會和具體評論的語義極性不一致的情況,通過實(shí)驗(yàn)證明了針對產(chǎn)品特征的評論對評論可信度的正向影響。Mackiewicz J等[11]通過在線問卷的方式收集數(shù)據(jù)并驗(yàn)證了評論語義極性與評論可信度正相關(guān)。吳江等[8]以信息采納理論和負(fù)面偏差理論為基礎(chǔ),從評論者信度、評論信息質(zhì)量、評論極性3個方面探究評論有用性投票影響因素。研究結(jié)果表明評論者有用性、評論信息量和評論文本消極傾向?qū)υu論有用性具有積極正向影響。王忠群等[9]認(rèn)為特征觀點(diǎn)對作為一個整體,從語義角度比單獨(dú)分別抽取商品特征與觀點(diǎn)能夠獲取更為完整的用戶對商品的評論信息。
綜合以上研究結(jié)論,劃分評論可信度的指標(biāo)需綜合評論者、評論時間以及評論文本語義3個方面的特征,才能從多方面反映產(chǎn)品評論的可信度,并且將評論文本語義特征細(xì)化到產(chǎn)品特征觀點(diǎn)是當(dāng)前的研究趨勢。但是,現(xiàn)有研究針對特征觀點(diǎn)的提取還僅限于單句,而且考慮的句式關(guān)系和特征觀點(diǎn)對匹配形式單一,并不適用于網(wǎng)絡(luò)評論形式多樣、句式構(gòu)成復(fù)雜和表達(dá)隨意的情況[9]。因此,復(fù)合句式中的特征觀點(diǎn)對的語義匹配將成為本文研究評論可信度語義指標(biāo)的重點(diǎn)。
1.2 產(chǎn)品評論可信度識別
在劃分評論可信度指標(biāo)的基礎(chǔ)上,對產(chǎn)品評論進(jìn)行可信度識別,目前主要包括評論可信度分類、賣家信譽(yù)評價、虛假評論識別以及評論可信度排序幾個方面。例如,陳燕方[6]首先確定了10個產(chǎn)品評論的可信度影響因素,采用多分類支持向量機(jī)(DDAG-SVM)建立了在線評論可信度分類模型。王宇等[23]基于概念層次網(wǎng)絡(luò)(HNC)對用戶評論文本抽取主題詞,將主題詞進(jìn)行聚類,從而構(gòu)建商家信譽(yù)指標(biāo)體系。陳燕方等[7]在評論文本語義特征中,增加產(chǎn)品屬性情感的離群度,并采用基于χ2統(tǒng)計量擴(kuò)展的多元離群點(diǎn)檢測方法來衡量在線商品評論的可信度。吳江等[8]研究發(fā)現(xiàn)評論的長度不能代表評論有用信息量,只有評論中所包含的內(nèi)容能夠集中代表其他用戶所反映的觀點(diǎn),才認(rèn)為該條評論所包含的信息是有效的,且該評論對消費(fèi)者而言也越有用。王忠群等[9]提出主流特征觀點(diǎn)對的概念,即包含某個特征觀點(diǎn)對的評論數(shù)量大于閾值,則設(shè)定該特征觀點(diǎn)對為主流特征觀點(diǎn)對,同時給出在線商品評論可信度模型,提取單句評論的特征觀點(diǎn)對,根據(jù)評論中所包含的主流特征觀點(diǎn)對的數(shù)量,對在線評論的可信度進(jìn)行計算排序。王倩倩[5]依據(jù)Hownet情感詞表,提取評論文本中的產(chǎn)品屬性情感,將文本型評論與數(shù)值型評論的一致性進(jìn)行量化,結(jié)合其他可信度影響因素,提出一種在線商品評論信息可信度的排序方法。
依據(jù)目前關(guān)于評論可信度識別的現(xiàn)狀,不難發(fā)現(xiàn),針對評論可信度排序的研究中,雖然已經(jīng)將評論文本語義特征中的特征觀點(diǎn)對納入了評論可信度指標(biāo),但仍然存在兩點(diǎn)不足:一是沒有研究特征觀點(diǎn)對的準(zhǔn)確語義匹配方法;二是很少結(jié)合其他評論元數(shù)據(jù)特征綜合分析評論可信度,而且對于可信度指標(biāo)的權(quán)重賦值,也未從用戶角度進(jìn)行評價,但事實(shí)上,用戶才是最有發(fā)言權(quán)的閱讀評論主體。因此,本文將采用模糊層次分析法,通過用戶問卷調(diào)查,獲取評論可信度指標(biāo)權(quán)重,實(shí)現(xiàn)綜合評論時間、評論者和評論文本語義特征的評論可信度識別。
2 基于特征觀點(diǎn)對的語義匹配的產(chǎn)品評論可信度識別
基于特征觀點(diǎn)對的語義匹配的產(chǎn)品評論可信度識別主要分為4個部分:數(shù)據(jù)收集模塊、語義指標(biāo)計算模塊、非語義指標(biāo)計算模塊和產(chǎn)品評論可信度識別模塊。模型框架如圖1所示。
2.1 數(shù)據(jù)收集及預(yù)處理
采用網(wǎng)站數(shù)據(jù)采集程序GooSeeker,可以實(shí)現(xiàn)網(wǎng)站評論的數(shù)據(jù)抓取。主要步驟包括:1)網(wǎng)站網(wǎng)址加載,創(chuàng)建抓取規(guī)則,包括評論者等級、評論發(fā)布時間和評論內(nèi)容;2)批量獲取XML數(shù)據(jù);3)將XML數(shù)據(jù)導(dǎo)入Excel文件,并按照產(chǎn)品型號和指標(biāo)對評論進(jìn)行分類和整理。
評論文本預(yù)處理采用NLPIR漢語分詞系統(tǒng)完成,主要包括中文分詞、詞性標(biāo)注、詞頻統(tǒng)計和用戶自定義詞典。其中,詞頻統(tǒng)計能對文本中標(biāo)注詞性的詞語進(jìn)行頻數(shù)統(tǒng)計;用戶自定義詞典允許用戶自行添加詞語并標(biāo)注詞性。對客戶評論進(jìn)行文本預(yù)處理之后,將分詞及詞性標(biāo)注結(jié)果生成候選詞集合,作為后階段建立特征集合和觀點(diǎn)詞集合的基礎(chǔ)。
2.2 語義指標(biāo)計算
特征觀點(diǎn)對(Feature Opinion Pair,F(xiàn)OP)是評論中的產(chǎn)品特征及其評價觀點(diǎn),也是評論挖掘的基本單位[24]。本文將特征觀點(diǎn)對作為評論可信度語義指標(biāo),其中,特征觀點(diǎn)對的語義匹配和指標(biāo)計算是關(guān)鍵。區(qū)別于文獻(xiàn)[9],本文考慮網(wǎng)絡(luò)評論表達(dá)隨意,句式構(gòu)成復(fù)雜,特征觀點(diǎn)不只在單句中出現(xiàn)的情況,從語句語法規(guī)則和句式依賴關(guān)系的分析出發(fā),提取產(chǎn)品特征觀點(diǎn)對。
2.2.1 特征觀點(diǎn)對的語義匹配
1)構(gòu)建產(chǎn)品特征集合
構(gòu)建產(chǎn)品特征集合需要經(jīng)過3個步驟:
①在候選詞集合中基于閾值過濾得到高頻名詞和動詞,去除非領(lǐng)域特征詞;
②將同義詞劃分同義詞組;
③將網(wǎng)站產(chǎn)品參數(shù)合并入同義詞組。
2)構(gòu)建觀點(diǎn)詞集合
本文建立的觀點(diǎn)詞典包括觀點(diǎn)詞、程度詞和反轉(zhuǎn)詞,構(gòu)建過程分為4個步驟:
①建立觀點(diǎn)詞集。在候選詞集合中篩選觀點(diǎn)詞不僅考慮形容詞和副詞,同時還將沒有納入產(chǎn)品特征的名詞和動詞也進(jìn)行識別;將篩選得到的詞匯與Hownet情感詞典進(jìn)行比較,把屬于Hownet的詞匯加入觀點(diǎn)詞集,其余不屬于Hownet的詞匯留待②處理;
②建立觀點(diǎn)的程度詞集合。將步驟①未識別的詞匯與Hownet觀點(diǎn)程度詞集進(jìn)行比較,把屬于Hownet的詞匯加入觀點(diǎn)的程度詞集合;
③增加反轉(zhuǎn)詞集合。將中文否定詞“不”、“不是”、“沒”和“沒有”加入反轉(zhuǎn)詞集合。
④完成以上步驟后,還剩余部分不屬于Hownet的詞匯,它們大多是網(wǎng)絡(luò)用語,例如“大愛”、“無語”等,對這些詞語進(jìn)行情感分類并加入觀點(diǎn)詞集。
3)劃分特征觀點(diǎn)對句式
根據(jù)銷售網(wǎng)站用戶評論的表達(dá)形式,我們發(fā)現(xiàn)特征觀點(diǎn)對不僅出現(xiàn)在單條語句,而且還會分散在相鄰的語句序列,除此之外,特征觀點(diǎn)對的匹配形式也不限于一個特征對應(yīng)一個觀點(diǎn)。因此,結(jié)合對用戶評論的大量分析,圍繞識別的當(dāng)前特征的位置不同,而劃分出以下特征觀點(diǎn)對句式,如表1所示。
2.3 非語義指標(biāo)計算
2.3.1 評論時間指標(biāo)計算
在評論可信度的研究領(lǐng)域中,評論時效性是指在線評論的發(fā)布時間與用戶閱讀該評論的時間差值,時間差值越小,說明評論的時效性越高;差值越大,說明評論的時效性越低。隨著時間的推移,同種商品的評論會不斷增加,但是由于受到外界環(huán)境變化或者商品屬性的影響,發(fā)布時間較早的評論可信度會逐漸發(fā)生變化。此外,國內(nèi)多數(shù)網(wǎng)絡(luò)購物平臺如京東、淘寶等按照評論發(fā)布時間來對某商品的評論進(jìn)行排序,將發(fā)布時間越近的評論放在消費(fèi)者更容易看到的位置,以便引起消費(fèi)者的關(guān)注并幫助消費(fèi)者獲得更有參考價值的信息。因此在考慮評論可信度的時候需要將評論時效性作為影響因素考慮,并且評論時效性會對評論可信度產(chǎn)生正向積極影響[19-20]。本文在量化評論時間指標(biāo)時,計算評論發(fā)布時間與用戶閱讀時間差值并進(jìn)行分組,時間差值與量化結(jié)果之間的對應(yīng)關(guān)系見表4。由于無法預(yù)知用戶閱讀評論的時間,因此將某類商品中所有評論的最晚發(fā)布時間作為用戶閱讀評論的時間。
2.3.2 評論者指標(biāo)計算
一般來說,評論者等級能夠體現(xiàn)消費(fèi)者在某網(wǎng)絡(luò)購物平臺的購物經(jīng)驗(yàn)豐富程度,評論者等級越高,說明該消費(fèi)者擁有越加豐富的網(wǎng)絡(luò)購物經(jīng)驗(yàn),對商品的認(rèn)知程度也就越高,該消費(fèi)者所發(fā)布的評論就越具有參考價值,從而可以得出評論者等級對評論可信度的影響也是正向積極的[14,17-18]??紤]到同一個網(wǎng)絡(luò)購物平臺上評論者等級有著明顯的區(qū)分,在量化評論者等級時,將評論者等級從低到高依次賦值。評論者等級與量化結(jié)果的對應(yīng)關(guān)系見表5。
2.4 評論可信度識別
模糊層次分析法(FAHP)是對層次分析法(AHP)的改進(jìn),其思路是將AHP中的判斷矩陣轉(zhuǎn)換成模糊一致判斷矩陣[25]。本文采用FAHP計算評論可信度各指標(biāo)相對權(quán)重,其步驟如下:
1)建立模糊互補(bǔ)矩陣
3 實(shí)證研究
3.1 實(shí)驗(yàn)數(shù)據(jù)
為了獲得模糊互補(bǔ)矩陣,從相對重要性角度出發(fā),本文設(shè)計有關(guān)評論可信度影響因素的兩兩評分的調(diào)查問卷,并且主要針對大學(xué)生這一類相對擁有豐富網(wǎng)絡(luò)購物經(jīng)驗(yàn)的群體發(fā)放問卷。發(fā)放問卷的形式分為網(wǎng)絡(luò)發(fā)放和紙質(zhì)發(fā)放,網(wǎng)絡(luò)發(fā)放144份問卷,收回144份,其中有效144份;紙質(zhì)發(fā)放200份問卷,收回191份,其中有效163份,即總共收回有效問卷307份。
本文抓取京東商城平板電腦的客戶評論作為實(shí)驗(yàn)數(shù)據(jù)集,選擇17個品牌銷量排名1~2的產(chǎn)品評論,總共選取了28款產(chǎn)品,抓取的評論數(shù)量為39 721條。采用NLPIR漢語分詞系統(tǒng)完成評論文本預(yù)處理,包括中文分詞、詞性標(biāo)注、詞頻統(tǒng)計和用戶自定義詞典。構(gòu)建產(chǎn)品特征集合和觀點(diǎn)詞集合的部分步驟,以及特征觀點(diǎn)對的語義匹配算法均采用Visual Studio環(huán)境下的C#語言實(shí)現(xiàn),數(shù)據(jù)庫采用SQL Server 2008實(shí)現(xiàn)。
3.2 實(shí)驗(yàn)結(jié)果及分析
3.2.1 確定可信度指標(biāo)權(quán)重
調(diào)查問卷中每兩項影響因素的比較評分采用5級評分:0.9表示前者比后者重要;0.7表示前者比后者較重要;0.5表示兩者等同重要;0.3表示前者比后者較不重要;0.1表示前者比后者不重要。根據(jù)收回的307份有效問卷,計算得到模糊互補(bǔ)矩陣A和模糊一致矩陣R如下所示:
3.2.2 FOP提取算法性能比較
將參考文獻(xiàn)[9]的FOP提取算法作為基準(zhǔn)算法,進(jìn)行實(shí)驗(yàn)結(jié)果對比。實(shí)驗(yàn)隨機(jī)選取平板電腦評論中的25條評論,評論中FOP出現(xiàn)在單句的統(tǒng)計情況如表7所示。同時還對單句內(nèi)FOP是否為文獻(xiàn)[9]的SBV(主謂)結(jié)構(gòu)進(jìn)行了統(tǒng)計,可見FOP在復(fù)句內(nèi)的比例為20.83%,而且單句內(nèi)FOP不是SBV主謂結(jié)構(gòu)的比例為21.05%,這也說明了本文算法的適用性。
3.2.3 評論可信度分析
實(shí)驗(yàn)構(gòu)建的平板電腦產(chǎn)品特征集合總共包括442個特征詞,分屬于31個同義詞組。建立的觀點(diǎn)詞典包括6 139個觀點(diǎn)詞、145個程度詞和4個反轉(zhuǎn)詞。評論可信度分析中,隨機(jī)選取28款產(chǎn)品中的5款產(chǎn)品,設(shè)置可信度綜合評分0.5作為篩選條件,對比各產(chǎn)品的評論可信度,具體見圖3。
對比5款產(chǎn)品的可信評論占比,可以發(fā)現(xiàn),可信評論占比高的產(chǎn)品未必原始評論數(shù)量多,例如華為產(chǎn)品評論可信度大于0.5的評論占總體評論的52.88%,評論總數(shù)量為520條;而蘋果產(chǎn)品評論可信度大于0.5的評論占總體評論的32.75%,評論總數(shù)量為1 539條。當(dāng)然,也有評論數(shù)量相對較多,而且評論可信度大于0.5的評論占比也較大的產(chǎn)品,例如微軟。所以這也表明,評論數(shù)量并不能反映產(chǎn)品評論可信程度。
同樣設(shè)置可信度綜合評分0.5作為篩選條件,并且在整體評論數(shù)據(jù)集中選擇頻率最高的5項特征,分別提取5款產(chǎn)品的FOP,根據(jù)提取的FOP數(shù)量變化分析產(chǎn)品特征級別的可信度,可以發(fā)現(xiàn),華為產(chǎn)品的特征級別評論可信度最高,因?yàn)閿?shù)據(jù)顯示5項特征的FOP數(shù)量沒有任何變化;而微軟產(chǎn)品的特征級別評論可信度也較高,5項特征的正面FOP數(shù)量減少的平均幅度為0.96%,5項特征的負(fù)面FOP數(shù)量減少的平均幅度為1.60%;相反,聯(lián)想產(chǎn)品的特征級別評論可信度最低,5項特征的正面FOP數(shù)量減少的平均幅度達(dá)到25.53%,負(fù)面FOP數(shù)量減少的平均幅度達(dá)到31.23%。
而且,對比圖3與表9,5款產(chǎn)品的整體評論可信度和產(chǎn)品特征級別可信度的排序基本還是一致的,圖3按產(chǎn)品整體可信評論占比從高到低排序是華為、微軟、三星、聯(lián)想和蘋果,表9按正負(fù)FOP在經(jīng)過可信評論篩選后,其減少比例從低到高排序是華為、微軟、三星、蘋果和聯(lián)想。這也驗(yàn)證了本文給出的評論可信度識別方法在整體和特征級別兩個層面都是合理和適用的。
4 結(jié) 語
本文綜合評論者、評論時間以及評論文本語義3個方面的指標(biāo)識別評論可信度,其中,對于評論文本語義指標(biāo),選擇特征觀點(diǎn)對作為整體表達(dá)評論語義的單位。在考慮網(wǎng)絡(luò)評論表達(dá)隨意,句式構(gòu)成復(fù)雜,以及特征觀點(diǎn)并不僅在單句中出現(xiàn)的情況,劃分了6種評論復(fù)合句式結(jié)構(gòu)和3種特征觀點(diǎn)對匹配類型,在此基礎(chǔ)上給出了提取特征觀點(diǎn)對的語義匹配算法。實(shí)驗(yàn)證明本文給出的算法在召回率、準(zhǔn)確率和F值測評方面均優(yōu)于單句提取特征觀點(diǎn)對方法。而對于產(chǎn)品評論可信度識別方法,本文采用模糊層次分析法,通過對用戶展開問卷調(diào)查,獲取評論可信度指標(biāo)的權(quán)重,實(shí)現(xiàn)綜合評論時間、評論者和評論文本語義特征的評論可信度識別。實(shí)驗(yàn)分別對產(chǎn)品整體評論可信度和特征級別可信度進(jìn)行排序,驗(yàn)證了方法的適用性和一致性。本文的不足之處在于涉及的評論可信度的非語義指標(biāo)還不全面,而且評論復(fù)合句式結(jié)構(gòu)的劃分還沒有引入比較語句等復(fù)雜語義結(jié)構(gòu),這將是下一步研究的主要方向。
參考文獻(xiàn)
[1]中國互聯(lián)網(wǎng)絡(luò)信息中心.2015年中國互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計報告[EB/OL].http://www.cnnic.net.cn,2016-06-22.
[2]Lee M,Youn S.Electronic Word of Mouth(eWOM):How eWOM Platforms Influence Consumer Product Judgement[J].International Journal of Advertising,2009,28 (3):473-499.
[3]Bickart B,Schindler R M.Internet Forums as Influential Sources of Consumer Information[J].Journal of Interactive Marketing,2001,15(3):31-40.
[4]張薇薇,柏露.網(wǎng)絡(luò)評論可信度影響因素研究述評[J].情報理論與實(shí)踐,2016,39(6):131-138.
[5]王倩倩.一種在線商品評論信息可信度的排序方法[J].情報雜志,2015,34(3):181-185.
[6]陳燕方.基于DDAG- SVM 的在線商品評論可信度分類模型[J].情報理論與實(shí)踐,2017,40(7):132-137.
[7]陳燕方,李志宇.基于評論產(chǎn)品屬性情感傾向評估的虛假評論識別研究[J].現(xiàn)代圖書情報技術(shù),2014,(9):81-90.
[8]吳江,劉彎彎.什么樣的評論更容易獲得有用性投票——以亞馬遜網(wǎng)站研究為例[J].數(shù)據(jù)分析與知識發(fā)現(xiàn),2017,(9):16-27.
[9]王忠群,吳東勝,蔣勝.一種基于主流特征觀點(diǎn)對的評論可信性排序研究[J].現(xiàn)代圖書情報技術(shù),2017,1(10):32-42.
[10]Weathers D,Swain S D,Grover V.Can Online Product Reviews Be More Helpful?Examining Characteristics of Information Content By Product Type[J].Decision Support Systems,2015,79:12-23.
[11]Mackiewicz J,Yeats D,Thornton T.The Impact of Review Environment on Review Credibility[J].IEEE Transactions on Professional Communication,2016,59 (2):71-88.
[12]Jindal N,Liu B.Review Spam Detection[C].16th International World Wide Web Conference,WWW2007,Banff,Alberta,Canada,2007:1189-1190.
[13]Racherla P,F(xiàn)riske W.Perceived“Usefulness”of Online Consumer Reviews:An Exploratory Investigation Across Three Services Categories[J].Electronic Commerce Research & Applications,2012,11(6):548-559.
[14]Mukherjee A,Venkataraman V,Liu B,et al.What Yelp Fake Review Filter Might Be Doing?[C].In:Proceedings of the 7th International Conference on Weblogs and Social Media.Palo Alto:AAAI Press,2013:409-418.
[15]Peng Q,Zhong M.Detecting Spam Review Through Sentiment Analysis[J].Journal of Software,2014,9(8):2065-2072.
[16]孟美任,丁晟春.在線中文商品評論可信度研究[J].現(xiàn)代圖書情報技術(shù),2013,(9):60-66.
[17]Lee S,Choeh J Y.The Determinants of Helpfulness of Online Reviews[J].Behavior & Information Technonogy,2016,35(10):853-863.
[18]Li F,Huang M,Yang Y,et al.Learning to Identify Review Spam[C].In:Proceedings of the 22nd International Joint Conference on Artificial Intelligence.AAAI Press,2011:2488-2493.
[19]Gorla N,Somers T M,Wong B.Organizational Impact of System Quality,Information Quality,and Service Quality[J].Journal of Strategic Information Systems,2010,19(3):207-228.
[20]Cheung C M K,Thadani D R.The Impact of Electronic Word-of-mouth Communication:A Literature Analysis and Integrative Model[J].Decision Support Systems,2012,54:461-470.
[21]Zhang R,Gao M,He X,et al.Learning User Credibility for Product Ranking[J].Knowledge & Information Systems,2016,46 (3):679-705.
[22]Qiu L,Pang J,Kai H L.Effects of Conflicting Aggregated Rating on eWOM Review Credibility and Diagnosticity:The Moderating Role of Review Valence[J].Decision Support Systems,2012,54(1):631-643.
[23]王宇,李秀秀.基于電子商務(wù)評論的商家信譽(yù)維度構(gòu)建[J].數(shù)據(jù)分析與知識發(fā)現(xiàn),2017,(8):59-67.
[24]Yin P,Wang,H W,Guo K Q.Feature-opinion Pair Identification of Product Reviews in Chinese:A Domain Ontology Modeling Method[J].New Review of Hypermedia and Multimedia,2013,19(1):3-24.
[25]姚敏,黃燕君.模糊決策方法研究[J].系統(tǒng)工程理論與實(shí)踐,1999,(11):61-70.
(責(zé)任編輯:孫國雷)