吳東勝,王忠群,蔣勝,皇蘇斌
(安徽工程大學管理工程學院,安徽 蕪湖 241000)
基于評論的商品改進需求獲取方法研究
吳東勝,王忠群,蔣勝,皇蘇斌
(安徽工程大學管理工程學院,安徽 蕪湖 241000)
基于在線商品評論文本中產品特征與觀點詞的句法依存關系,綜合關注度與觀點值以及特征修飾詞并考慮相關副詞對觀點詞的影響,提出了一種結合用戶的關注度和觀點值以及特征修飾詞來獲取商品改進需求的方法。研究表明,該方法能夠較好地獲取商品的改進需求,可以為企業提供產品設計改進的方向。
在線商品評論;商品改進需求;產品特征
隨著在線購物成為人們的一種常見的消費方式,在線商品評論已經成為商家或者企業進行商品改進的信息重要來源。相對傳統商品改進需求獲取方式,網絡作為一個相對比較自由、寬松的環境,更能激發用戶對商品改進的表達欲望。商品改進需求的挖掘不但能夠幫助企業改進產品提升用戶的滿意度,而且還能為企業未來新產品的設計、研發提供一個明確的方向。
在評論有用性的研究方面, Hu等[1]首先將基于關聯規則的Apriori算法應用于英文產品評論的特征提取。由于中英文在文化、語言結構以及語法上的差異,導致很多針對英文評論的研究無法應用在中文評論中,在此基礎上,李實等[2]針對中文語言的相關特點,提出了中文網絡評論的特征提取方法;在面向篇章層級的情感分析中,徐芳平[3]利用Apriori的算法對在線評論進行產品屬性提取,再利用模糊的方法計算出各屬性的評價值,最后分析得到產品的改進需求,從而輔助產品進行再設計;姜巍等[4]提出了一種面向用戶需求的評論有用性分析方法,該方法采用復雜網絡的相關知識;采用本體和條件隨機場融合的特征提取方法并結合情感分析技術;崔建苓等[5]提出了一種RERM的需求獲取方法,并通過實驗驗證了該方法能夠有效提升需求獲取的效率。
事實上,商品的改進需求獲取并非僅僅依靠用戶對其的情感傾向(觀點值)——即情感傾向呈貶義的產品特征越有可能成為商品的改進需求,還應考慮用戶的關注度,即關注度大且情感傾向呈貶義的產品特征才是商品最需要改進的。為此,筆者基于產品特征與觀點詞的句法依存關系,綜合關注度與觀點值以及特征修飾詞并考慮相關副詞對觀點詞的影響[6],提出了一種獲取商品改進需求的方法。
商品改進需求獲取方法框架主要包括數據預處理、結合用戶關注度與觀點值的改進需求獲取、結合特征修飾詞的改進需求獲取等部分,如圖1所示。
1.1 數據預處理
1)數據收集與清洗 剔除評論中一些無關的信息(如廣告等),對同一用戶多次重復的評論進行刪除。另外,對產品評論中包括一些網絡用語人工將其轉化為通俗易懂的文字,如“稀飯”轉化為“喜歡”等。
2)分詞、詞性標注以及句法依存分析 使用哈爾濱工業大學社會計算與信息檢索研究中心所提供的語言處理平臺(LTP)對評論進行分詞、詞性標注以及句法依存分析,結果以XML文件的形式進行存儲。

圖1 商品改進需求獲取方法框架
1.2 結合用戶關注度與觀點值的改進需求獲取

圖2 評論“手感還行,像素一般,充電非??臁!钡木浞ㄒ来娣治鲆晥D
1)產品特征詞與觀點詞識別 在對商品評論進行句法依存分析的基礎上,會發現在線商品的特征詞與觀點詞之間存在著一定的句法關系。
例如,評論“手感還行,像素一般,充電非??臁!痹撛u論的句法依存分析視圖如圖2所示,各種分詞標識符代表的含義如表1所示。

表1 分詞標識符號說明
根據上述視圖的分析可以構建相應的識別規則:
規則1 一個單句中滿足SBV(主謂關系)、CMP(動補關系)或者ATT(定中關系)依存結構關系,那么句中對應的名詞(或動名詞)或動詞為候選特征詞,對應的形容詞為觀點詞。
對上述識別出的產品特征詞利用《同義詞詞林擴展版》的層級結構可以獲取候選特征詞之間的同義關系并對其進行相應的聚類合并,對于同一主題下的產品特征統計出所有觀點詞的數量,以觀點詞的數量作為用戶對該產品特征的關注度,形成<產品特征,觀點詞,關注值>三元組的形式。
2)觀點詞的相關修飾詞識別 對于在線商品評論中觀點詞相關修飾詞的識別仍然利用句法依存關系,如評論“外觀很漂亮,但拍照不清楚?!钡木浞ㄒ来娣治鲆晥D如圖3所示。
類似構建規則如下:
規則2 一個單句中滿足ADV(狀中關系)依存結構關系,那么句中對應的副詞為觀點詞的修飾詞。

圖3 評論“外觀很漂亮,但拍照不清楚?!钡木浞ㄒ来娣治鲆晥D
3)觀點詞的褒貶程度計算 觀點詞的褒貶程度是由觀點詞與一些褒貶程度十分明顯的基準詞之間的緊密關系決定的,與褒義基準詞相似度越大,詞匯越具有褒義傾向,反之具有貶義傾向??梢允孪冗x取好k對具有代表性的基準詞(其中k個褒義詞,k個貶義詞),然后利用改進的基于知網的詞匯褒貶計算公式計算出詞匯的褒貶程度。具體計算公式如下:
(1)
式中,k表示k對基準詞,每對基準詞包括一個褒義詞和一個貶義詞,褒義基準詞為key-pi;貶義基準詞為key-nj;α和β是可調節參數,根據給定的基準詞對,W可通過對α和β的調節提高算法的準確率;Sim(key-pi,W)和Sim(key-nj,W)分別為基于知網的觀點詞與褒義基準詞和貶義基準詞的相似度。
4)觀點值的計算 產品評論中產品特征的觀點值通過觀點詞來計算。修飾每個產品特征的觀點詞不止一個,最終產品特征的觀點值可以用所有修飾其的觀點詞的褒貶程度值相加,并取平均值來計算。在進行觀點值計算時,考慮幾種詞性的詞對其計算的影響:一種是程度或頻度副詞;另一種是否定詞。程度副詞是指用來修飾形容詞的詞匯,如“十分流暢”,其中“十分”就為程度副詞,“流暢”則為形容詞。對于這類有程度副詞或否定詞修飾的觀點詞稱為復合觀點詞。因此,產品評論中的觀點詞劃分為以下幾類分別計算其相應的褒貶程度:若觀點詞僅由形容詞構成,褒貶程度計算直接利用式(1);若觀點詞為復合觀點詞,其結構為“程度副詞+形容詞”,褒貶程度計算使用式(2):

(2)
式中,S1為程度副詞的修飾強度值;S2為根據式(1)計算出的形容詞的褒貶傾向值; Δμ為位移指數,不妨取為0.5。如W為“非常流暢”,可先利用式(1)計算出“流暢”的褒貶傾向值為S2=0.4315,“非?!钡男揎棌姸戎禐镾1=0.7,分別代入式(2)中即可得到“非常流暢”的褒貶傾向SW=0.50。為了計算方便,可以將修飾詞分為相應的等級,每級有一個基準詞,如表2所示。

表2 修飾詞基準詞
如果遇到其他的修飾詞時,可先根據相似度計算公式計算其與基準修飾詞的相似度,然后選取與其相似度最大的基準修飾詞的修飾強度為自身的修飾強度。若觀點詞為“頻度副詞+形容詞”結構的復合觀點詞,計算方法如上類似;若觀點詞為“否定詞+形容詞”結構的復合觀點詞,如W為“不漂亮”,先計算出形容詞“漂亮”的褒貶程度S1,則這類復合觀點詞的褒貶程度為:
SW=-S1
(3)
經過以上步驟,最終形成<產品特征,觀點詞,關注值,觀點值>四元組。
根據以上分析,可獲得每個產品特征的關注值與觀點值,結合兩者最終形成相應的改進需求(即選取關注值大,觀點值小(包括負值)的產品特征作為改進型需求對象),并將其添加到改進需求列表中。
1.3 結合特征修飾詞的改進需求獲取
1)基于句法依存關系的名詞短語識別 在線商品評論中由2個或3個相鄰的詞構成且具有名詞功能的短語稱為名詞短語。由于由3個詞構成的名詞短語較少,因此,筆者主要考慮2個相鄰的詞構成的名詞短語,基于句法依存關系構建在線商品評論中名詞短語的識別規則。商品評論中名詞短語的組成主要有2種形式:一種是特征名詞的修飾詞為名詞,另一種特征名詞的修飾詞為動詞。如評論“屏幕分辨率很高,運行速度很快?!钡木浞ㄒ来娣治鋈鐖D4所示。

圖4 評論“屏幕分辨率很高,運行速度很快?!钡木浞ㄒ来娣治鲆晥D
類似構建識別規則如下:
規則3 一個單句中,相鄰的2個名詞(動詞+名詞)滿足ATT(定中關系)依存結構關系,那么這2個詞構成一個名詞性短語。
2)中文名詞短語的分類 在中文中,名詞與名詞構成的名詞短語從語義上看,主要存在2種關系:一是隸屬關系,一是類屬關系。隸屬關系是指中心語名詞所代表的事物,隸屬于定語名詞所代表的事物;類屬關系是指定語名詞所代表的事物是中心語名詞所代表事物的性質、品種、原料、燃料、動力、用途、產地、喻義等的分類標志,如“金屬外殼”、“移動硬盤”等。
3)包含類屬關系的名詞短語的提取 根據上述對名詞短語的提取和分類,將提取到的具有類屬關系的名詞短語加入到改進型需求列表中。如短語“柔性屏幕”,“柔性”和“屏幕”構成的是類屬關系,包含了“屏幕”的某種改進需求。這種包含類屬關系的名詞短語的改進型需求將用戶對產品特征的觀點傾向轉變為給出產品特征的具體的、明確要求,因而對商家或者產品生產者來說則更具有參考價值。
利用八爪魚軟件從天貓商城上抓取了魅族MX5手機的600條用戶評論作為試驗語料。對評論進行相應的篩選,最終獲得有效評論516條。對于評論文本的分詞采用哈爾濱工業大學語言云(http://www.ltp-cloud.com/)并使用Python調用API,結果以XML文件的形式顯示出來。對于其中相關詞的識別則根據相應的識別規則利用Dom4j解析方法并結合Xpath技術對XML文件進行解析。
2.1 產品特征關注值列表
根據對XML文件的解析并統計相關觀點詞的數量,最終得到關注值靠前的12個產品特征,列于表3中。
2.2 產品特征觀點值列表
對修飾產品特征的觀點形容詞進行褒貶傾向的量化,其具體的數值區間為[-1,1]。其中,負數代表貶義傾向,正數代表褒義傾向,且絕對值越大,情感的強度越明顯。產品特征關注值-觀點值列于表3中。

表3 添加基準觀點詞的產品特征關注值-觀點值列表
通過表3中相關數據可以看出,關注度第4的“快充”和第5的“物流”的觀點值較低,但是考慮到在漢語中同一個表示觀點的形容詞在不同的語境中可能代表不同的情感傾向,例如“物流非常快,很給力。”和“電池不耐用,耗電太快了?!边@2條評論中,都提及了觀點詞“快”,顯然兩者表現出的情感是不同的,前者是一種正向的評價,而后者是一種負向的評價。因此,在利用觀點詞情感傾向計算方法時可能就會出現觀點值計算不準確。例如,利用筆者的觀點詞情感傾向計算公式計算出“快”一詞的觀點值為0.129,對照上面“物流”這一特征的觀點值0.189,就實際情況來說,其實“物流”這一特征整體是令人滿意的,無需進行相應的改進。為了使產品特征的觀點值能夠反映出實際的情況,筆者對產品特征設定一些常見的描述產品特征的基準觀點詞,根據這些基準觀點詞的觀點值來判斷該產品特征的觀點值處在一個怎樣的觀點值區間,從而為企業或者商家進行相應的產品改進提供一定的依據。
根據表3的內容并結合觀點值與基準觀點值得值可以看出,“系統”這一產品特征關注值最大,同時觀點值與基準觀點詞的觀點值比較較低,因此在“系統”這一產品特征還需進一步的改進。此外,“指紋解鎖”與“電池”這2個產品特征關注值不是很大,但是其觀點值與基準觀點詞的觀點值相比較低,因此也需要進一步的改進。
2.3 結合特征修飾詞的改進型需求
由于在線商品評論中包含類屬關系的名詞詞組較少,在利用句法依存關系進行識別時,需要一定數量的評論文本,因此筆者在上述數量的基礎上進行了擴充,最終獲得有效的評論文本1536條。根據相應的識別規則,最終得到具有類屬關系的名詞詞組:小屏手機、金屬外殼、光學防抖、雙色溫閃光燈、激光對焦、北斗導航、分屏技術。
根據魅族MX5手機說明書,除去已存在的產品特征或屬性(紅色部分為已存在的產品特征),最終得到該手機的改進型需求為“小屏手機”、“光學防抖”。根據上述改進需求,企業可以開發屏幕尺寸更小的手機。另外,對手機攝像頭增加“光學防抖”功能。
在需求呈現多樣化的趨勢下,如何快速挖掘在線商品的改進需求并反饋于企業以此來提升用戶的滿意度顯得尤為重要。筆者在對在線商品網絡評論進行句法依存分析的基礎上,構建產品特征與觀點詞識別規則,形成產品特征的關注度與觀點值。在對觀點值計算時考慮了修飾詞對觀點詞的影響,結合關注值與觀點值來構建改進需求挖掘模型,從特征修飾詞的角度出發獲取一些更加具體的改進需求,并且驗證了提出商品改進需求獲取方法的有效性。筆者所提出的方法在進行產品特征和觀點詞識別時,需要根據相應的規則,因此,對在線商品評論的格式要求比較規范且不能夠識別出評論中包含的隱性產品特征。此外,試驗選取的有限數據可能導致結果的局限性,這些都是今后需要進一步研究的問題。
[1]HuM,LiuB.MiningandSummarizingCustomerReviews[A].Proceedingsofthe10thACMSIGKDDInternationalConferenceonKnowledgeDiscoveryandDataMining(KDD'04)[C].NewYork:ACM, 2004: 168~177.
[2]李實, 葉強, 李一軍.中文網絡客戶評論的產品特征挖掘方法研究[J].管理科學學報, 2009(2): 142~152.
[3]徐芳平. 基于在線評論的產品再設計需求研究[D].大連:大連理工大學, 2012.
[4]姜巍, 張莉, 戴翼,等.面向用戶需求獲取的在線評論有用性分析[J].計算機學報, 2013, 36(1): 119~131.
[5]崔建苓, 楊達, 李娟.RERM: 一種基于評論挖掘的需求獲取方法[J].計算機應用與軟件, 2015, 32(8): 28~33.
[6]張曉勇, 章成志, 周清清. 基于電商產品評論的產品概念層次體系自動構建研究[J]. 情報理論與實踐, 2016, 39(6): 120~125.
[編輯] 洪云飛
2016-11-18
國家自然科學基金項目(71371012);教育部人文社會科學規劃項目(13YJA630098)。
吳東勝(1990-),男,碩士生,現主要從事電子商務方面的研究工作。
王忠群(1965-),男,碩士,教授,現主要從事信息管理與信息系統方面的教學與研究工作,1144376229@qq.com。
TP311.52
A
1673-1409(2017)05-0044-05
[引著格式]吳東勝,王忠群,蔣勝,等.基于評論的商品改進需求獲取方法研究[J].長江大學學報(自科版),2017,14(5):44~48.