林 杰 王夢(mèng)嬌 張振宇
(同濟(jì)大學(xué) 經(jīng)濟(jì)與管理學(xué)院,上海 200092)
本文提出一種商品排序方法,首先運(yùn)用Apriori算法對(duì)商品特征進(jìn)行提取,并通過情感分析方法,建立商品各特征的情感詞典并計(jì)算每條評(píng)論中商品各特征的情感傾向,再根據(jù)商品特征情感傾向建立直覺模糊決策矩陣,運(yùn)用直覺模糊TOPSIS方法對(duì)備選商品進(jìn)行排序。
假設(shè)消費(fèi)者想要購買手機(jī),并且通過初步調(diào)查,確定了幾種可接受的商品,即備選商品。但是,由于時(shí)間和專業(yè)知識(shí)有限,消費(fèi)者無法有效地得到需要的評(píng)論信息,于是在幾種備選商品中搖擺不定,無法做出最終選擇。本文從該問題出發(fā),設(shè)計(jì)算法對(duì)備選商品進(jìn)行排名,為消費(fèi)者選擇最滿意的商品,其解決框架如圖1所示。

圖1 在線評(píng)論商品排序問題解決框架
以下符號(hào)用于表示問題中的集合和變量,將在本文中使用。
A={A1,A2,…,An}:n個(gè)備選商品的集合,其中Ai表示第i個(gè)備選商品,i=1,2,…,n,集合A可由消費(fèi)者決定。
F={f1,f2,…,fm}:m個(gè)特征的集合,從在線評(píng)論中挖掘的消費(fèi)者所重點(diǎn)關(guān)注的商品特征,其中fj表示第j個(gè)特征,j=1,2,…,m。

Q={q1,q2,…,qn}:備選商品的在線評(píng)論數(shù)量,其中,qi表示關(guān)于備選商品Ai的在線評(píng)論數(shù)量,i=1,2,…,n。

本文設(shè)計(jì)的問題是如何根據(jù)在線評(píng)論Dik和特征權(quán)重ωj,對(duì)備選商品A1,A2,…,An進(jìn)行排名,i=1,2,…,n,j=1,2,…,m,k=1,2,…,qi。
為了從在線評(píng)論Dik中提取出消費(fèi)者所重點(diǎn)關(guān)注的關(guān)于備選商品的商品特征,這里根據(jù)文獻(xiàn),給出一種基于在線評(píng)論信息挖掘的商品特征確定方法,具體過程描述如下:
首先,對(duì)評(píng)論中涉及的在線評(píng)論信息進(jìn)行分詞,并對(duì)分詞后的在線評(píng)論信息進(jìn)行詞性標(biāo)注。為準(zhǔn)確合理起見,這里運(yùn)用中國科學(xué)院計(jì)算技術(shù)研究所開發(fā)的分析系統(tǒng)( ICTCLAS: Institute of Computing Technology, Chinese Lexical Analysis System) 進(jìn)行在線評(píng)論信息的分詞處理,詞性標(biāo)注采用二級(jí)標(biāo)注方法。
其次,利用詞性標(biāo)注后的評(píng)論來創(chuàng)建關(guān)聯(lián)規(guī)則事務(wù)文件,并基于關(guān)聯(lián)規(guī)則Apriori算法來查找頻繁項(xiàng)集。這里參照同類研究文獻(xiàn),最小支持度取值為1%,不考慮3項(xiàng)以上的頻繁項(xiàng)。
在此基礎(chǔ)上,將找出的頻繁項(xiàng)集按照文獻(xiàn)定義的鄰近規(guī)則和獨(dú)立支持度分別進(jìn)行剪枝和修正,形成備選商品特征集合FTF。
然后,基于FTF分別構(gòu)建包含常見中文頻繁項(xiàng)名詞卻非商品特征的集合FFF(如一些常見商品品牌、口語化名詞及人稱名稱等)和包含單字名詞的備選特征的集合FSF,并將FTF過濾形成最終的商品特征集合F,即F=FTF-FFF-FSF。
通常情況下,不同特征的正向或負(fù)向情感詞典是不同的。一個(gè)詞可以同時(shí)屬于一個(gè)特征的正向情感詞典和另一個(gè)特征的負(fù)向情感詞典。例如,“高”屬于特征“像素”的正向情感詞典和特征“價(jià)格”的負(fù)向情感詞典。因此,有必要分別為每個(gè)特征建立正向和負(fù)向情感詞典。
首先,依據(jù)1.2中詞性標(biāo)注后的評(píng)論集,創(chuàng)建評(píng)論中針對(duì)特征fj的關(guān)聯(lián)規(guī)則事物文件,并基于關(guān)聯(lián)規(guī)則Apriori算法來查找其中的頻繁項(xiàng)集,形成特征fj的情感標(biāo)注集合。

(1)
(2)

(3)

本節(jié)采用一種算法計(jì)算每個(gè)評(píng)論的每個(gè)特征的正向、中性或負(fù)向情感傾向。該算法的主要思想如下:句子的情感傾向取決于句子中的情感詞,如果句子中正向情感詞的數(shù)量大于負(fù)向情感詞,則句子的情感傾向被認(rèn)為是正向的;如果句子中負(fù)向情感詞的數(shù)量大于正向情感詞,則句子的情感傾向被認(rèn)為是負(fù)向的;如果句子中沒有情感詞或者正向和負(fù)向的情感詞數(shù)量相同,那么句子的情感傾向被認(rèn)為是中性的;如果句子中有否定詞,則句子的情感傾向?qū)⒈活嵉梗唧w操作如下。
1.5.1直覺模糊數(shù)的計(jì)算
直覺模糊集理論是處理模糊性和猶豫的有用工具,直覺模糊數(shù)可以同時(shí)反映評(píng)論的支持、猶豫和反對(duì)程度。基于直覺模糊集理論,備選商品在線評(píng)論的情感傾向可以通過直覺模糊數(shù)簡單而完整地表示。

(4)


(5)

(6)


1.5.2TOPSIS方法
使用TOPSIS方法對(duì)備選商品進(jìn)行排序,其基本思想如下:在確定各屬性指標(biāo)權(quán)重的基礎(chǔ)上,歸一化原始數(shù)據(jù)矩陣,分別計(jì)算備選商品與最優(yōu)方案和最劣方案間的距離,獲得各備選商品與最優(yōu)方案的相對(duì)接近程度,作為評(píng)價(jià)優(yōu)劣的依據(jù)。具體算法步驟如下:
①根據(jù)備選商品的整體模糊數(shù)構(gòu)造決策矩陣A=(aij)n×m,其中aij=Yij,表示備選商品Ai的特征fj的直覺模糊數(shù),n為備選商品個(gè)數(shù),m為商品特征數(shù)。
②為了消除不同屬性間的量綱效應(yīng),使每個(gè)屬性特征都具有同等的表現(xiàn)力,首先對(duì)原始數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理。
(7)

(8)


(9)
⑥計(jì)算各方案的貼近度(綜合評(píng)價(jià)指數(shù)),并按照由大到小排列。
(10)
本文選取了京東商城五款手機(jī)的在線評(píng)論作為數(shù)據(jù)進(jìn)行實(shí)驗(yàn)。這五款手機(jī)分別是iPhone X、華為P10、美圖T8、vivo X9、OPPO R11S。利用爬蟲軟件共爬取評(píng)論5000條(每款手機(jī)1000條),對(duì)評(píng)論進(jìn)行處理,去除重復(fù)評(píng)論和垃圾評(píng)論,再對(duì)網(wǎng)絡(luò)評(píng)論數(shù)據(jù)集進(jìn)行降噪處理:將重復(fù)兩次或者兩次以上的商品評(píng)論語句全部刪除;剔除評(píng)論字?jǐn)?shù)小于5個(gè)的商品評(píng)論;刪除含有大量特殊字符、表情的商品評(píng)論數(shù)據(jù)。最終,從獲得的數(shù)據(jù)集中選取2000條評(píng)論(每款手機(jī)各400條)。
步驟① 運(yùn)用ICTCLA工具對(duì)評(píng)論數(shù)據(jù)進(jìn)行分詞處理和詞性標(biāo)注;
步驟② 創(chuàng)建關(guān)聯(lián)規(guī)則事務(wù)文件,基于關(guān)聯(lián)規(guī)則Apriori算法找出頻繁項(xiàng)集,并對(duì)其進(jìn)行剪枝和修正,形成備選商品特征集合;
步驟③ 由消費(fèi)者給出關(guān)于商品特征的權(quán)重矩陣W;


步驟⑥ 構(gòu)建每條評(píng)論、每個(gè)特征的情感傾向集合;
步驟⑦ 根據(jù)評(píng)論點(diǎn)贊數(shù),計(jì)算每條評(píng)論的權(quán)重,確定每個(gè)備選手機(jī)的直覺模糊數(shù);
步驟⑧ 構(gòu)建直覺模糊決策矩陣,運(yùn)用TOPSIS法對(duì)備選手機(jī)進(jìn)行排序。
依據(jù)2.2節(jié)中設(shè)計(jì)的實(shí)驗(yàn)算法,確定關(guān)于備選手機(jī)的特征及其對(duì)應(yīng)的情感詞典,如表1 所示。
再由消費(fèi)者根據(jù)提取的特征和自己的喜好來確定商品特征權(quán)重。假設(shè)消費(fèi)者針對(duì)六個(gè)特征(外觀、屏幕、拍照、電池、價(jià)格和系統(tǒng))的權(quán)重分別為W=(0.2,0.1,0.1,0.1,0.3,0.2)T。
計(jì)算可得由備選手機(jī)的直覺模糊數(shù)組成的TOPSIS決策矩陣,如表2所示。

表1 特征情感詞典部分展示

表2 直覺模糊決策矩陣A
根據(jù)TOPSIS算法,將手機(jī)整體直接模糊數(shù)進(jìn)行無量綱處理,結(jié)合特征權(quán)重,計(jì)算加權(quán)規(guī)范矩陣,如表3所示。
所有備選手機(jī)特征的理想點(diǎn)如表4所示。

表3 加權(quán)規(guī)范矩陣C

表4 TOPSIS算法的正、負(fù)理想點(diǎn)
再根據(jù)TOPSIS算法,求得每個(gè)手機(jī)的貼近度Ci,如表5所示。
由表5可得,在消費(fèi)者給定商品特征權(quán)重W=(0.2,0.1,0.1,0.1,0.3,0.2)T的情況下,備選手機(jī)排序?yàn)槿A為P10>IPHONEX>OPPO R11S>vivo X9>美圖T8, 即優(yōu)先價(jià)格、系統(tǒng)性能和外觀,最優(yōu)的選擇是華為P10。本方法建議消費(fèi)者購買華為P10。

表5 商品貼近度
根據(jù)對(duì)華為P10的評(píng)論也可以看出,多數(shù)評(píng)論都注明該手機(jī)系統(tǒng)流暢、性價(jià)比高,符合實(shí)驗(yàn)結(jié)果。而對(duì)于iPhone X的評(píng)價(jià)大多比較苛刻,這可能是因?yàn)閕Phone X的價(jià)格較高,用戶對(duì)其要求更高,導(dǎo)致其排名靠后。
本文提出了一種關(guān)于商品排序的新的分析方法。該方法解決問題遵循的思路如下:針對(duì)某一類別商品,首先由消費(fèi)者根據(jù)個(gè)人偏好給定備選商品集,通過爬蟲技術(shù)得到備選商品的評(píng)論集合;再通過對(duì)評(píng)論信息進(jìn)行信息挖掘和情感分析,確定備選商品的重要特征集合,構(gòu)建關(guān)于各商品特征的正負(fù)情感詞典,計(jì)算評(píng)論的情感傾向,得到商品直覺模糊數(shù);最后結(jié)合消費(fèi)者給出的商品特征權(quán)重,使用TOPSIS法確定備選商品的排序,得到最佳選擇,幫助消費(fèi)者做出購買決策。
本文所提出的方法按照商品特征對(duì)在線評(píng)論進(jìn)行提取,可以直觀展示每個(gè)商品特征的得分即排序情況,直接、快速地滿足了消費(fèi)者的需求,并且在消費(fèi)者給出商品特征權(quán)重的基礎(chǔ)上,給出了商品整體的排序結(jié)果。該方法充分考慮了消費(fèi)者的主觀需求和消費(fèi)者對(duì)于各商品特征的不同程度情感(正向、中性、負(fù)向),利用直覺模糊數(shù)全面反映了消費(fèi)者的不同情感向量,比以往研究更細(xì),彌補(bǔ)了僅考慮消費(fèi)者極性情感的不足。除此之外,本文還考慮了消費(fèi)者對(duì)于特征的偏好情況,更符號(hào)消費(fèi)者的實(shí)際購買需求。
總的來說,本文結(jié)合直覺模糊理論中的隸屬度、非隸屬度和猶豫度,提供了一種解決商品排序問題的有效思路。本文提出的方法具有可操作性和實(shí)際應(yīng)用價(jià)值,為解決當(dāng)前大數(shù)據(jù)時(shí)代普遍存在的使用在線評(píng)論信息的商品購買決策問題提供了一種新的決策技術(shù)或新途徑。