霍紅 張晨鑫
內(nèi)容摘要:本文從在線評(píng)論中的特征觀點(diǎn)詞出發(fā),爬取電商網(wǎng)站中的相關(guān)評(píng)論數(shù)據(jù),結(jié)合情感分析技術(shù),將信息熵作為改進(jìn)計(jì)量經(jīng)濟(jì)模型的重要參數(shù),得出其相關(guān)程度。結(jié)果發(fā)現(xiàn),平均星級(jí)、發(fā)布時(shí)間以及好評(píng)率都與購(gòu)買(mǎi)意愿顯著關(guān)聯(lián),而評(píng)論數(shù)量和評(píng)論深度與購(gòu)買(mǎi)意愿不存在明顯關(guān)聯(lián),在評(píng)論中出現(xiàn)較多的產(chǎn)品屬性不一定對(duì)購(gòu)買(mǎi)行為產(chǎn)生較大影響,這主要取決于產(chǎn)品功能和用戶體驗(yàn),所以建議商家要注意評(píng)論數(shù)據(jù)收集,著重注意影響較大的產(chǎn)品屬性的宣傳。
關(guān)鍵詞:在線評(píng)論 產(chǎn)品特征屬性 購(gòu)買(mǎi)意愿 情感分析 數(shù)據(jù)挖掘
文獻(xiàn)綜述
(一)產(chǎn)品特征屬性對(duì)消費(fèi)者購(gòu)買(mǎi)意愿的影響
在目前的研究中,學(xué)者在產(chǎn)品特征對(duì)購(gòu)買(mǎi)意愿的影響方向上的研究主要集中在4個(gè)方面,專家打分、模型分析、語(yǔ)義分析和經(jīng)濟(jì)學(xué)模型,下面對(duì)四種方法進(jìn)行介紹。
專家打分法是最直觀的在線評(píng)論特征觀點(diǎn)識(shí)別的方法,通過(guò)在領(lǐng)域內(nèi)知名專家與學(xué)者對(duì)該評(píng)論中產(chǎn)品的特征進(jìn)行評(píng)價(jià),Darby等將該方法用于產(chǎn)品信任度分析。但是這種方法存在弊端,領(lǐng)域內(nèi)專家的意見(jiàn)與顧客們的意見(jiàn)往往相左,這在信任型商品中尤為明顯,專家往往會(huì)注重商品的內(nèi)在屬性,而對(duì)于消費(fèi)者來(lái)說(shuō),只要可以使用就可以,就這一點(diǎn)而言,在線評(píng)論提供了比專家更為廣泛的用戶觀點(diǎn)采集渠道;其次,在線評(píng)論質(zhì)量參差不齊,偏口語(yǔ)化的表達(dá)比較多,評(píng)論質(zhì)量沒(méi)有一個(gè)準(zhǔn)確的衡量,還有一些學(xué)者將外包與眾包的思想引入,以解決用戶有用性感知不一致性的問(wèn)題,但是外包和眾包只是將受眾群體擴(kuò)大化,而不能代表廣大消費(fèi)者的意見(jiàn)。
基于模型的分析也是研究產(chǎn)品特征對(duì)消費(fèi)者購(gòu)買(mǎi)意愿影響的重要方法,一般分為兩種研究思路,一種為建立語(yǔ)義和句子結(jié)構(gòu)學(xué)習(xí)模型,Guo等建立了基于機(jī)器學(xué)習(xí)的句子結(jié)構(gòu)自學(xué)習(xí)模型來(lái)獲得的最佳參數(shù),對(duì)產(chǎn)品的特征重要程度進(jìn)行度量;另一種借助網(wǎng)絡(luò)分析理論,將每一個(gè)產(chǎn)品特征看作一個(gè)節(jié)點(diǎn),產(chǎn)品特征之間相互連接,形成產(chǎn)品特征網(wǎng)絡(luò),然后借助相關(guān)算法對(duì)模型進(jìn)行求解,得出每一個(gè)特征節(jié)點(diǎn)的權(quán)威度,如Kleinberg等將書(shū)籍與作者的特征作為網(wǎng)絡(luò)節(jié)點(diǎn),鏈接成網(wǎng)絡(luò),并使用HITS算法對(duì)每一個(gè)節(jié)點(diǎn)的權(quán)威度進(jìn)行測(cè)量,每一個(gè)節(jié)點(diǎn)的權(quán)威度就代表了該特征對(duì)消費(fèi)者行為影響的權(quán)重,但是這種方法在網(wǎng)絡(luò)構(gòu)建上沒(méi)有統(tǒng)一的方法。
使用計(jì)量經(jīng)濟(jì)模型挖掘產(chǎn)品的特征觀點(diǎn)與消費(fèi)者購(gòu)買(mǎi)意愿也是一種可行的方式。早期Goolsbee等提出Hedonic模型,考慮每種特征出現(xiàn)的次數(shù),將多次出現(xiàn)的特征設(shè)置較高的權(quán)重,但是這種方法沒(méi)有將產(chǎn)品特征屬性和情感詞放在一起研究;還有一些研究將評(píng)論的星級(jí)作為因變量,評(píng)論文本中的“產(chǎn)品特征觀點(diǎn)詞對(duì)”作為自變量,采用多變量二次回歸模型計(jì)算每一個(gè)產(chǎn)品特征屬性的重要度,這種方法重要在因變量的選擇上,Chevalier等在研究中使用該研究思路,得出不同星級(jí)的在線評(píng)論對(duì)消費(fèi)者行為的影響是不同的,有時(shí)一星級(jí)的評(píng)論會(huì)比五星級(jí)的評(píng)論更能影響消費(fèi)者行為,原因是一星級(jí)評(píng)論比五星級(jí)評(píng)論包含有消費(fèi)者更感興趣的產(chǎn)品特征屬性。
(二)在線評(píng)論情感分析
在線評(píng)論細(xì)粒度情感分析。情感分析又被稱為意見(jiàn)挖掘,是分析在線評(píng)論的語(yǔ)義,判斷用戶的情感傾向,比如用戶對(duì)該產(chǎn)品是“滿意”或“不滿意”,或判斷用戶的觀點(diǎn)是“贊成”或“反對(duì)”。
從學(xué)術(shù)角度看,學(xué)者們一般從粒度來(lái)研究情感分析。粗粒度情感分析出現(xiàn)較早,引用較多,適用于文檔級(jí)文本,早期的研究偏向于用模型的方法來(lái)解決主體情感判斷問(wèn)題,隨著機(jī)器學(xué)習(xí)技術(shù)的廣泛應(yīng)用,Chen等提出以半監(jiān)督機(jī)器學(xué)習(xí)的算法解決自然語(yǔ)言內(nèi)容分析,還有一些學(xué)者使用無(wú)監(jiān)督式機(jī)器學(xué)習(xí)的方法解決大量口語(yǔ)化的在線評(píng)論關(guān)鍵詞抽取問(wèn)題。細(xì)粒度情感分析是對(duì)特征觀點(diǎn)的詞語(yǔ)級(jí)的情感極性和強(qiáng)度分析,Kanayama等經(jīng)過(guò)大量的實(shí)驗(yàn),提出了細(xì)粒度情感分析的基本步驟,首先計(jì)算詞典的詞語(yǔ)原子極性,并且通過(guò)原子極性和各詞語(yǔ)之間的相關(guān)性得出每個(gè)評(píng)價(jià)詞的情感,再通過(guò)各詞語(yǔ)的情感得到句子的情感極性和強(qiáng)度,最后通過(guò)各句子的情感來(lái)判斷文本的整體情感。從各位學(xué)者的研究結(jié)果來(lái)看,基于語(yǔ)義的情感分析方法適合于較短的在線評(píng)論情感分析,而基于機(jī)器學(xué)習(xí)的情感分析方法更適合于文檔級(jí)的情感分析。
產(chǎn)品特征屬性與情感詞對(duì)的抽取。產(chǎn)品特征的抽取是細(xì)粒度情感分析的重要步驟,早期學(xué)者關(guān)于產(chǎn)品特征屬性的研究,一般將產(chǎn)品特征屬性和情感詞分開(kāi)抽取,且絕大部分采用統(tǒng)計(jì)學(xué)的方法。Zheng等利用統(tǒng)計(jì)分析的方法,研究在同一領(lǐng)域內(nèi)和不同領(lǐng)域內(nèi)特征詞的分布情況,并且以領(lǐng)域相關(guān)性為依據(jù),對(duì)產(chǎn)品特征屬性進(jìn)行排序,獲取中文領(lǐng)域內(nèi)的產(chǎn)品特征詞。但是從已有的研究結(jié)果中發(fā)現(xiàn),將產(chǎn)品特征屬性和情感詞作為一個(gè)整體抽取,能夠獲取的信息要多于分開(kāi)抽取。基于此,Bloom等提出情感評(píng)價(jià)單元這一概念,這一概念要求將產(chǎn)品特征屬性和評(píng)價(jià)該屬性的情感詞一起抽取出來(lái),還有一些學(xué)者提出了相似的方法,鄭麗娟等提出的情感本體都是與其相似的概念。基于產(chǎn)品特征屬性與情感詞對(duì)的識(shí)別方法一般分為兩種:基于統(tǒng)計(jì)的方法和基于語(yǔ)義的方法。
基于統(tǒng)計(jì)學(xué)的方法是將評(píng)論中對(duì)產(chǎn)品特征屬性和其評(píng)價(jià)詞中的高級(jí)詞匯,作為統(tǒng)計(jì)特征,再通過(guò)臨近原則來(lái)判斷相應(yīng)觀點(diǎn)。Hu等采用無(wú)監(jiān)督式機(jī)器學(xué)習(xí)來(lái)挖掘產(chǎn)品特征屬性及情感詞,并基于人工標(biāo)注的褒貶詞典,找出句子中表達(dá)主觀性的詞匯,再定義一個(gè)以主觀性詞匯為中心、大小固定的窗口,將窗口中的名詞或名詞短語(yǔ)作為特征。綜上,基于統(tǒng)計(jì)的方法自動(dòng)化程度高,可移植性強(qiáng),但準(zhǔn)確率較低;基于語(yǔ)義的方法是將語(yǔ)言學(xué)知識(shí)引入數(shù)據(jù)挖掘中,用某種語(yǔ)言規(guī)則和句法規(guī)則來(lái)識(shí)別與提取特征觀點(diǎn)。Back等人工定義了評(píng)價(jià)對(duì)象和評(píng)價(jià)短語(yǔ),并采用多個(gè)共現(xiàn)模板來(lái)描述評(píng)價(jià)詞語(yǔ)和評(píng)價(jià)對(duì)象之間的修飾關(guān)系,然而,由于模板過(guò)于簡(jiǎn)單且修飾關(guān)系僅停留在詞語(yǔ)表面,在模板匹配的過(guò)程中,會(huì)產(chǎn)生大量的候選評(píng)價(jià)詞語(yǔ)和候選評(píng)價(jià)對(duì)象,需要人工篩選來(lái)完成情感評(píng)價(jià)單元的獲取。總體而言,基于語(yǔ)義的方法準(zhǔn)確率較高,但可移植性較低。
觀點(diǎn)詞的情感判斷。帶有情感傾向的觀點(diǎn)詞是判斷網(wǎng)絡(luò)評(píng)論情感傾向的標(biāo)準(zhǔn),所以有必要對(duì)評(píng)論中的情感詞進(jìn)行情感傾向和強(qiáng)度的判斷。一般分為基于情感詞典的辦法和基于不同詞性組合兩種辦法。
朱嫣嵐等使用WordNet定義的詞匯關(guān)聯(lián)關(guān)系來(lái)計(jì)算情感詞和一組情感傾向已知的距離,從而判斷情感強(qiáng)度和情感極性,根據(jù)詞典的語(yǔ)義相似度和語(yǔ)義相關(guān)度,對(duì)不同數(shù)目的基準(zhǔn)詞進(jìn)行實(shí)驗(yàn),實(shí)驗(yàn)的結(jié)果表明,詞匯傾向性判斷的準(zhǔn)確性隨著基準(zhǔn)詞的數(shù)量增加而增加;何躍等基于同義詞典的情感褒貶度計(jì)算情感強(qiáng)度,也得到良好的分類效果;同時(shí)計(jì)算同義詞和反義詞的種子詞頻率也是經(jīng)常被應(yīng)用在情感詞強(qiáng)度的測(cè)定上;任遠(yuǎn)遠(yuǎn)等又將此方法進(jìn)行細(xì)化,以詞組的形式進(jìn)行情感強(qiáng)度的計(jì)算。基于詞典的方法是起源較早的情感強(qiáng)度分析方法,但是它的準(zhǔn)確性要取決于詞典的類型和使用方法,所以該方法可移植性較高,但是準(zhǔn)確性較低。
從以上的研究來(lái)看,學(xué)者們對(duì)抽取特征觀點(diǎn)詞的方法已經(jīng)有了一定的研究,而對(duì)于每一種產(chǎn)品屬性對(duì)消費(fèi)者購(gòu)買(mǎi)意愿影響程度的研究則相對(duì)較少,所以本文引入信息熵作為對(duì)消費(fèi)者認(rèn)知程度的衡量,以此為切入點(diǎn)深入探尋每一種產(chǎn)品屬性對(duì)消費(fèi)者購(gòu)買(mǎi)意愿的影響。
研究模型構(gòu)建
(一)研究框架
本文的研究步驟是,首先抽取在線評(píng)論中的產(chǎn)品特征屬性和觀點(diǎn)詞,并且進(jìn)行情感分析,然后對(duì)所有的產(chǎn)品屬性變量進(jìn)行聚合,通過(guò)信息熵的形式表現(xiàn)出來(lái),并通過(guò)結(jié)合控制變量,構(gòu)建計(jì)量經(jīng)濟(jì)模型,最后通過(guò)實(shí)時(shí)評(píng)論和銷量的變化,對(duì)每一種產(chǎn)品屬性對(duì)是否具有影響力進(jìn)行估計(jì)與判斷,研究框架如圖1所示。
通過(guò)以上的研究框架,首先應(yīng)設(shè)立產(chǎn)品特征屬性的集合F={f1,f2,f3,f4,…,fn},對(duì)F的情感信息集合E={e1,e2,e3,e4,…,ek},與每種產(chǎn)品特征對(duì)消費(fèi)意愿的影響程度集合為Θ={θ1,θ2,θ3,θ4,…,θn},其中in表示產(chǎn)品特征屬性fn重要程度,本研究的目的是通過(guò)情感分析算法抽取產(chǎn)品特征屬性F,并且計(jì)算與之對(duì)應(yīng)的情感詞的強(qiáng)度S,并且建立情感影響銷量的計(jì)量經(jīng)濟(jì)模型,最后挖掘出各個(gè)產(chǎn)品特征屬性的重要度Θ。
(二)模型構(gòu)建
信息增益與信息熵。面對(duì)海量的在線評(píng)論數(shù)據(jù),消費(fèi)者每閱讀一條在線評(píng)論,都會(huì)對(duì)這種商品有一個(gè)更加全面的認(rèn)識(shí),這就是信息增益,無(wú)論是否用戶真的了解評(píng)論的內(nèi)容,若不了解,則為對(duì)該種產(chǎn)品產(chǎn)生了信息增益,若知曉該評(píng)論的內(nèi)容,那么也是鞏固了該信息。
信息增益一般由信息熵表示,令集合S={s1,s2}代表在線評(píng)論的分類空間,其中s1、s2分別表示評(píng)論有用和無(wú)用(可以通過(guò)隨機(jī)投票來(lái)決定),公式(1)表示在線評(píng)論信息熵。
(1)
在線評(píng)論是一種用戶生成內(nèi)容,真實(shí)性無(wú)法進(jìn)行核實(shí),所以在本研究中假設(shè)所有的在線評(píng)論內(nèi)容都是真實(shí)的。當(dāng)消費(fèi)者通過(guò)閱讀在線評(píng)論,來(lái)進(jìn)一步增進(jìn)對(duì)該產(chǎn)品的認(rèn)識(shí),直到最后消除對(duì)該產(chǎn)品的陌生感,而產(chǎn)品特征屬性就是在消除陌生感的過(guò)程中提供一定的信息,設(shè)該產(chǎn)品為p,當(dāng)用戶已經(jīng)知曉該種產(chǎn)品的某一種特征f時(shí),所產(chǎn)生的信息熵如公式(2)所示。
(2)
根據(jù)公式(1)和公式(2)可以計(jì)算產(chǎn)品特征屬性f的信息增益,Divergence(f)表示產(chǎn)品特征f屬性在消除用戶不確定性上所產(chǎn)生的信息增益值用公式(3)來(lái)表示:
(3)
評(píng)論文本中的情感詞是非常豐富的,尤其是中文文本,例如“不是很合適”和“很不合適”對(duì)消費(fèi)意愿的影響都是有差異的,可見(jiàn)情感詞的強(qiáng)度對(duì)購(gòu)買(mǎi)意愿的影響也是較大的,所以模型中再引入一個(gè)變量Strength(f),最后引入分?jǐn)?shù)Score(f)將其量化,所以最后該評(píng)論的最終得分如公式(4)所示:
Score(f)=Divergence(f)×Strength(f) (4)
改進(jìn)的計(jì)量經(jīng)濟(jì)模型。計(jì)量經(jīng)濟(jì)模型是經(jīng)濟(jì)學(xué)領(lǐng)域中比較成熟的模型之一,其基本理論是產(chǎn)品需求量與產(chǎn)品的價(jià)格和特征屬性服從線性關(guān)系,公式(5)為基本計(jì)量經(jīng)濟(jì)模型的公式表達(dá):
ln(Dk)=αk+βln(pk)+γk (5)
Dk表示產(chǎn)品k的實(shí)時(shí)需求量,αk表示除價(jià)格之外的變量集合,如品牌、產(chǎn)品功能、顏色等,γk為擾動(dòng)變量,該變量服從正態(tài)分布γk =(0,δ2)。
從現(xiàn)有的研究來(lái)看,消費(fèi)者對(duì)在線評(píng)論的關(guān)注不是僅局限于文檔級(jí)評(píng)論,而對(duì)在線評(píng)論中所描述的產(chǎn)品特征屬性與形容其的情感詞,特征級(jí)的在線評(píng)論更容易影響消費(fèi)者意愿。公式(5)不能完整地表示各個(gè)特征變量,所有的變量都被整合在αk中,在產(chǎn)品的生命周期中,產(chǎn)品的硬件參數(shù)一般不會(huì)改變,但是產(chǎn)品特征的評(píng)論會(huì)隨著時(shí)間的變化而變化。
潛在消費(fèi)者會(huì)通過(guò)瀏覽在線評(píng)論來(lái)對(duì)產(chǎn)品的不確定性,當(dāng)收集到了足夠多的產(chǎn)品特征屬性評(píng)論信息時(shí),就可以計(jì)算每一個(gè)產(chǎn)品特征屬性的重要性,所以將公式(5)進(jìn)行改進(jìn)和豐富,改進(jìn)后的公式為公式(6):
ln(Dk)=αk+δk+βln(pk)+γk (6)
其中αk為產(chǎn)品的內(nèi)生屬性,δk為產(chǎn)品的外生屬性。
αk作為產(chǎn)品的內(nèi)生屬性,定義有很多種,其中學(xué)者們最為認(rèn)可的就是將在線評(píng)論發(fā)布的時(shí)間作為產(chǎn)品的內(nèi)生屬性。原因有二:其一,每一種產(chǎn)品都有生命周期,在生命周期的每一個(gè)階段,需求都是不同的;其二,在線評(píng)論是一種有時(shí)效性的用戶生成內(nèi)容,時(shí)間的差異會(huì)造成在線評(píng)論效價(jià)的變化。因此αk可以豐富為:
αk=αTk (7)
其中,Tk表示產(chǎn)品上市與發(fā)表評(píng)論的時(shí)間差。
產(chǎn)品外生屬性指的是除產(chǎn)品本身所具有的各種特征之外的屬性。對(duì)在線評(píng)論的早期研究中,學(xué)者們將評(píng)論數(shù)量、好評(píng)率以及銷售排名這些外顯型的屬性作為研究對(duì)象,發(fā)現(xiàn)當(dāng)產(chǎn)品內(nèi)生屬性相同的情況下,評(píng)論數(shù)量、好評(píng)率以及銷售排名都會(huì)對(duì)銷量產(chǎn)生一定的影響,所以,本研究中將評(píng)論數(shù)量、好評(píng)率以及銷售排名均作為外生屬性加入模型中,同時(shí)本研究同時(shí)將用戶對(duì)產(chǎn)品的關(guān)注度、用戶特征和評(píng)論深度加入其中,用戶的關(guān)注度作為直接影響產(chǎn)品看點(diǎn)的重要變量,而已有研究指出,用戶的偏好是不一致的,用戶的關(guān)注點(diǎn)相互獨(dú)立并且與市場(chǎng)特征的分布一致,用戶特征可以根據(jù)社交網(wǎng)絡(luò)圈進(jìn)行聚類,評(píng)論的深度是產(chǎn)品在線評(píng)論的重要特征,已有的研究指出,當(dāng)回復(fù)評(píng)論越多,這條評(píng)論的有用性就會(huì)顯著增加,評(píng)論的有用性直接影響用戶對(duì)產(chǎn)品的認(rèn)知度,所以將以上變量加入模型中。基于以上分析,外生屬性可表示為公式(8):
δk=μ1logNk+μ2logADk+μ3logATk+μ4log(Rk)i-1+μ5logBk+μ6logDEk+μ7logVk (8)
其中Nk表示產(chǎn)品k的評(píng)論信息總量;ADk表示產(chǎn)品k的評(píng)論好評(píng)率;ATk表示產(chǎn)品k的關(guān)注度;Rk表示產(chǎn)品k的銷售排名,因?yàn)橐话阃ㄟ^(guò)第三方網(wǎng)站平臺(tái)是不可能看到產(chǎn)品的具體銷售數(shù)量,但是由于京東商城網(wǎng)站有每一種類商品銷售的實(shí)時(shí)排名,所以本研究為可行性考慮,采用產(chǎn)品的銷售排名來(lái)近似代替產(chǎn)品的銷量;Bk表示購(gòu)買(mǎi)產(chǎn)品k的用戶人群特征;DEk表示產(chǎn)品k的在線評(píng)論深度(一般只考慮置頂評(píng)論的追加評(píng)論數(shù)量);Vk表示產(chǎn)品的特征向量,具體表達(dá)式用公式(9)表達(dá),這些變量就構(gòu)成了產(chǎn)品外生屬性。
(9)
在已有的研究中,學(xué)者們往往將在線評(píng)論當(dāng)作是原子對(duì)象,忽略了評(píng)論中涉及的產(chǎn)品特征屬性與情感詞。本文將研究對(duì)象定位為“產(chǎn)品特征屬性與情感詞對(duì)”,通過(guò)改進(jìn)計(jì)量經(jīng)濟(jì)模型,建立產(chǎn)品特征屬性與情感詞對(duì)的計(jì)量經(jīng)濟(jì)模型,模型見(jiàn)公式(10):
ln(Dk)=αTk+μ1logNk+μ2logADk+μ3logATk+μ4log(Rk)i-1+μ5logBk+μ6logDEk+μ7logVk+βln(pk)+γk (10)
實(shí)驗(yàn)設(shè)計(jì)
(一)數(shù)據(jù)收集及預(yù)處理
本研究的實(shí)驗(yàn)數(shù)據(jù)均來(lái)自京東商城網(wǎng)上平臺(tái)熱水器的產(chǎn)品信息和評(píng)論信息。為了保證模型的準(zhǔn)確性和真實(shí)性,利用多線程爬蟲(chóng)從2016年9月開(kāi)始跟蹤爬取,到2018年1月爬取結(jié)束(新產(chǎn)品會(huì)重新接入爬取),記錄產(chǎn)品的品牌、價(jià)格、銷售排名及評(píng)論文本等。本研究將產(chǎn)品特征屬性與情感詞對(duì)作為原子研究對(duì)象,采集的重點(diǎn)為:評(píng)論數(shù)量、評(píng)論時(shí)間、評(píng)論者信息、好評(píng)率、評(píng)論有用性投票、評(píng)論星級(jí)、上傳圖片及評(píng)論深度等。如上文所說(shuō),京東商城不會(huì)提供產(chǎn)品的具體銷售數(shù)量,但是會(huì)公布銷售排名,以其表示銷量;使用Bing的趨勢(shì)搜索——XRank表示用戶的關(guān)注度;以熱水器為目標(biāo)商品,因?yàn)檫@種產(chǎn)品的更新?lián)Q代很慢,而且一種產(chǎn)品的在銷售時(shí)間也比其它小型家電要長(zhǎng)。共采集包括史密斯、海爾等系列產(chǎn)品共6個(gè)品牌、325種產(chǎn)品的21.5萬(wàn)條數(shù)據(jù)信息,平均每個(gè)產(chǎn)品被評(píng)論613.27次,跟蹤的產(chǎn)品的品牌和數(shù)量如表1所示。
本研究以第一條在線評(píng)論的發(fā)布時(shí)間作為產(chǎn)品發(fā)布時(shí)間。理論上,評(píng)論對(duì)消費(fèi)意愿的影響是即時(shí)的,但是這會(huì)存在數(shù)據(jù)過(guò)于稀疏的問(wèn)題,因此本文以月為單位,即假設(shè)上一月的評(píng)論信息會(huì)影響下一月的銷售排名。
(二)“產(chǎn)品特征觀點(diǎn)對(duì)”的構(gòu)建
產(chǎn)品特征觀點(diǎn)提取的是細(xì)粒度情感分析的重要部分,現(xiàn)有的方法大都是基于英文評(píng)論展開(kāi)的。英文的評(píng)論句式固定、語(yǔ)法嚴(yán)謹(jǐn),而中文的評(píng)論句式口語(yǔ)化嚴(yán)重、語(yǔ)法不規(guī)范、句子成分缺失等問(wèn)題,這在一定程度上增加了識(shí)別的難度。基于英文與中文的差別,英文的提取方法不能直接應(yīng)用在中文上。本研究基于中文口語(yǔ)化嚴(yán)重等特點(diǎn),利用語(yǔ)義關(guān)系計(jì)算和分詞標(biāo)注的方法進(jìn)行識(shí)別提取。
“特征觀點(diǎn)詞對(duì)”的識(shí)別。對(duì)于產(chǎn)品特征觀點(diǎn)對(duì)的識(shí)別,具體來(lái)說(shuō),是一種半監(jiān)督目標(biāo)記機(jī)器學(xué)習(xí)的方法,產(chǎn)品屬性分為顯式屬性與隱式屬性,可以先挖掘顯式屬性,再少量挖掘一些隱式屬性,由于本研究是基于中文語(yǔ)料的研究,所以不用現(xiàn)有詞典,而是自建詞庫(kù),找到特征觀點(diǎn)的同義詞和近義詞,從而進(jìn)行抽取,并進(jìn)行分析。在匹配過(guò)程中,將產(chǎn)品特征標(biāo)注為F(Feature),情感詞標(biāo)注為O(Opinion),匹配失敗的就從實(shí)詞序列中刪除。
通過(guò)對(duì)現(xiàn)有的在線評(píng)論數(shù)據(jù)的分析,發(fā)現(xiàn)共4種特征觀點(diǎn)的配對(duì)模式,分別為:FO模式,單一特征和單一的觀點(diǎn)詞,直接生成特征觀點(diǎn)對(duì),這種模式較容易識(shí)別;FFO模式,多個(gè)特征和一個(gè)統(tǒng)一觀點(diǎn),這種模式所描述的特征較豐富,而觀點(diǎn)則比較統(tǒng)一;FOO模式,單一特征和多個(gè)觀點(diǎn),這種模式相比于前兩種,觀點(diǎn)表達(dá)就相對(duì)復(fù)雜,一個(gè)特征觀點(diǎn)就包含了多種情感觀點(diǎn);FFOOFFOO模式,這是中文里比較常見(jiàn)的表達(dá)當(dāng)時(shí),多個(gè)特征屬性和多個(gè)情感詞不規(guī)則排列,這樣的詞對(duì)是最難抽取的,同時(shí)也是觀點(diǎn)表達(dá)內(nèi)容最豐富的。
數(shù)據(jù)的收集與情感強(qiáng)度分析。已有的在線評(píng)論系統(tǒng)的星級(jí)選項(xiàng)最多是5顆星。如果該評(píng)論是3顆星,那么很難說(shuō)明其具體的情感傾向。因此,本研究將情感強(qiáng)度分為7個(gè)層級(jí)(-3至3),分別為負(fù)面、中性、正面,數(shù)值的絕對(duì)值表示強(qiáng)度的級(jí)別。具體數(shù)值如表2所示。
對(duì)情感詞的提取主要應(yīng)該提取形容產(chǎn)品特征的形容詞、程度副詞、有轉(zhuǎn)折性的連詞以及有修飾性的實(shí)詞,將這幾種詞素組成情感詞對(duì)取出,較為合適,而一般研究都將句子中詞語(yǔ)的情感強(qiáng)度作為句子整體的情感強(qiáng)度。因此,將用戶的整體星級(jí)打分當(dāng)作對(duì)情感詞的標(biāo)注,這種標(biāo)注方式類似發(fā)放調(diào)查問(wèn)卷,實(shí)現(xiàn)了對(duì)詞匯情感強(qiáng)度的重復(fù)定義。標(biāo)注規(guī)則如表3所示。
最后利用關(guān)鍵詞檢索的方式,將特征觀點(diǎn)詞對(duì)導(dǎo)入SentiStrength中自動(dòng)計(jì)算情感強(qiáng)度并輸出,分?jǐn)?shù)范圍為-3至3分。
結(jié)果分析
(一)數(shù)據(jù)預(yù)處理結(jié)果
經(jīng)過(guò)一系列的數(shù)據(jù)處理得到以下結(jié)果,首先是評(píng)論數(shù)量分布圖如圖2所示。從圖2中可以看出超過(guò)50%的產(chǎn)品評(píng)論數(shù)量低于10000條,而且評(píng)論數(shù)量大于10000條的產(chǎn)品數(shù)量總體上呈遞減態(tài)勢(shì)。其次是當(dāng)銷售排名與評(píng)論數(shù)量的關(guān)系,如圖3所示,從圖3上可以看出,當(dāng)期銷售排名與評(píng)論數(shù)量有明顯關(guān)系,且呈負(fù)相關(guān)在評(píng)論數(shù)量為26000和30000時(shí)出現(xiàn)小幅上揚(yáng),應(yīng)該是有些產(chǎn)品上市期間已經(jīng)很長(zhǎng),市場(chǎng)保有量已經(jīng)趨于飽和,銷量逐漸下降,不排除市場(chǎng)上有一些經(jīng)久不衰的產(chǎn)品,但是屬于少部分,尤其是熱水器這樣更新較快的產(chǎn)品,所以這些因素可以忽略。再次是評(píng)論星級(jí)與銷售排名的關(guān)系,具體如圖4所示,從4圖中可以看出評(píng)論的星級(jí)與銷售排名沒(méi)有顯著關(guān)系,只有5星級(jí)和4星級(jí)的評(píng)論能夠帶來(lái)可觀的銷量,其它的排名均無(wú)明顯變化,所以通過(guò)星級(jí)來(lái)判斷產(chǎn)品的銷量是不可取的。最后是情感得分與銷售排名的關(guān)系,具體如圖5所示,其中刻度“-3”表示情感得分在[-3,-2]之間,從圖5中可以看出情感得分與銷售排名關(guān)系顯著,呈負(fù)相關(guān)關(guān)系,所以情感得分對(duì)銷量起到促進(jìn)作用,當(dāng)情感得分為正數(shù)時(shí),對(duì)銷量的影響尤為顯著。
(二)產(chǎn)品特征屬性重要度
計(jì)算模型中各自變量與因變量的相關(guān)性,本研究中用到SPSS軟件,以產(chǎn)品的銷售排名為因變量,平均星級(jí)、發(fā)布時(shí)間、產(chǎn)品價(jià)格、好評(píng)率、評(píng)論數(shù)量、用戶人群特征、評(píng)論深度和特征向量作為自變量,通過(guò)軟件計(jì)算相關(guān)性,結(jié)果如表4所示。
從表4中可以看出,銷售排名與平均星級(jí)、發(fā)布時(shí)間以及好評(píng)率都有顯著的相關(guān)性,但是在結(jié)果中意外的發(fā)現(xiàn),產(chǎn)品評(píng)論的數(shù)量與評(píng)論深度,都與銷售排名的相關(guān)性不大,原因應(yīng)該是并非所有購(gòu)買(mǎi)該產(chǎn)品的人都會(huì)發(fā)表自己的評(píng)論,且京東網(wǎng)站的評(píng)價(jià)系統(tǒng)是沒(méi)有時(shí)間限制的,評(píng)論深度越深,可能是對(duì)該產(chǎn)品的質(zhì)量越存疑,在系統(tǒng)中與商家或與其他有同樣疑問(wèn)的消費(fèi)者互動(dòng),可能不會(huì)出現(xiàn)過(guò)大的相關(guān)度。產(chǎn)品特征向量與銷售排名相關(guān)性不大的原因可能是由于其它自變量的影響較大,弱化了特征效用;產(chǎn)品價(jià)格與銷售排名相關(guān)性不大可能原因是,現(xiàn)在的消費(fèi)者注重的是產(chǎn)品的性價(jià)比,性價(jià)比與產(chǎn)品質(zhì)量與價(jià)格均有關(guān)系,所以僅就價(jià)格而言,是不會(huì)對(duì)產(chǎn)品的銷量有過(guò)多的影響。
通過(guò)人工方法對(duì)已經(jīng)通過(guò)計(jì)算機(jī)自動(dòng)抽取的產(chǎn)品特征屬性進(jìn)行篩選,并咨詢熱水器方面的專家,最后篩選出10個(gè)產(chǎn)品特征,如表5所示,由于是通過(guò)軟件進(jìn)行的自動(dòng)篩選,所以篩選出的產(chǎn)品特征屬性可信度較高。
從表5中可以發(fā)現(xiàn),抽取到共10個(gè)常見(jiàn)產(chǎn)品特征,消費(fèi)者對(duì)燒水速度、外觀以及使用難易程度比較關(guān)心,但是數(shù)量多不一定代表影響消費(fèi)者購(gòu)買(mǎi)意愿的權(quán)重高,表6中顯示了各特征屬性的權(quán)重,這些權(quán)重來(lái)自公式(10)的模型,可以看出外觀、加熱類型、觸摸面板、價(jià)格以及控制方式是最重要的產(chǎn)品特征,而難易程度、燒水速度、預(yù)約洗浴、容積與包裝則權(quán)重較低,但是并不意味著這些產(chǎn)品特征屬性對(duì)購(gòu)買(mǎi)意愿沒(méi)有影響,只是影響較小。
通過(guò)表5與表6的數(shù)據(jù)可以發(fā)現(xiàn),燒水速度、外觀以及使用難易是產(chǎn)品評(píng)論中提及最多的產(chǎn)品特征屬性,而外觀、加熱類型以及觸摸面板是影響權(quán)重最高的產(chǎn)品特征屬性。一方面,表明評(píng)價(jià)的頻率與產(chǎn)品特征屬性的重要度不存在必然關(guān)系;另一方面,表明了采用信息增益的方法來(lái)處理產(chǎn)品特征屬性的有效性,例如燒水速度是評(píng)論頻率最高的產(chǎn)品屬性,但用戶認(rèn)為這是熱水器最基本的特征屬性之一,而且與同層次的產(chǎn)品相比,加熱的速度差異實(shí)屬不大,因此該特征的權(quán)重值遠(yuǎn)不如評(píng)論的數(shù)量,而加熱類型很少會(huì)在評(píng)論中出現(xiàn),可能原因是其具有一定的專業(yè)性,購(gòu)買(mǎi)熱水器的用戶大部分是不了解熱水器的具體工作方式,但是商家一般在產(chǎn)品介紹中將該方式(單膽加熱或雙膽加熱)列出,用戶在購(gòu)買(mǎi)之前一般都會(huì)先閱讀產(chǎn)品介紹頁(yè)面,再來(lái)查看在線評(píng)論頁(yè)面,所以就出現(xiàn)在評(píng)論中出現(xiàn)較少的產(chǎn)品特征,卻對(duì)產(chǎn)品的購(gòu)買(mǎi)意愿產(chǎn)生較大的影響。
管理啟示
首先,從商家的角度出發(fā),現(xiàn)在市場(chǎng)上的商品一般包含兩類屬性:主觀屬性與客觀屬性,從理論上講,搜索型產(chǎn)品包含有很多的客觀屬性,這類產(chǎn)品的商品介紹比較重要,消費(fèi)者可以通過(guò)產(chǎn)品參數(shù)的對(duì)比,例如電腦內(nèi)存大小、汽車(chē)發(fā)動(dòng)機(jī)排量等,而對(duì)于體驗(yàn)型產(chǎn)品來(lái)說(shuō),商家所提供的產(chǎn)品介紹無(wú)法滿足消費(fèi)者對(duì)這類產(chǎn)品的需求,例如藥品、書(shū)籍等一些產(chǎn)品,可見(jiàn)在線評(píng)論中所傳達(dá)的一些情感信息有時(shí)會(huì)比商家提供的產(chǎn)品介紹更為重要,本文以用戶的角度進(jìn)行產(chǎn)品評(píng)論信息挖掘,并將產(chǎn)品各產(chǎn)品特征屬性對(duì)消費(fèi)意愿的影響程度進(jìn)行量化,為商家在提高體驗(yàn)型或信任型產(chǎn)品銷售量上提供了可行的方法。
其次,本文對(duì)用戶偏好的識(shí)別具有一定的啟示。其一,在線評(píng)論是消費(fèi)者集體智慧的表現(xiàn),這與現(xiàn)在以商家為中心的經(jīng)營(yíng)理念不同,集體智慧的傾向才是未來(lái)消費(fèi)的具體方向,同時(shí)對(duì)產(chǎn)品的改進(jìn)也是建立在大眾對(duì)產(chǎn)品各特征屬性的不同傾向程度上,與原來(lái)由商家指定重要特征和將少數(shù)權(quán)威專家的意見(jiàn)作為參考相比更具普適性;其二,產(chǎn)品特征屬性對(duì)購(gòu)買(mǎi)意愿影響的重要程度,可以作為用戶偏好模型的建立的重要依據(jù),通過(guò)本研究的方法,可以從海量的評(píng)論文本中篩選出消費(fèi)者真正感興趣的方面,在現(xiàn)在主流的電子商務(wù)網(wǎng)站首頁(yè)一般有“為你推薦”或“猜你喜歡”等類似板塊,這樣的個(gè)性化推薦板塊的核心算法和界面設(shè)計(jì)都要用到產(chǎn)品特征屬性對(duì)購(gòu)買(mǎi)意愿的影響程度作為基礎(chǔ),本研究對(duì)提升這兩個(gè)模塊的準(zhǔn)確性提供了一種參考。
最后,對(duì)于商家的在線廣告而言,本研究的方法也提供了新的視角。現(xiàn)在的產(chǎn)品介紹頁(yè)面,基本上以商家自我意識(shí)明顯,突出自家產(chǎn)品優(yōu)勢(shì),在介紹頁(yè)面大量介紹產(chǎn)品的客觀屬性,但是客觀屬性未必是消費(fèi)者在購(gòu)買(mǎi)時(shí)所感興趣的方面。使用本研究的方法,可以將篩選出消費(fèi)者感興趣的產(chǎn)品特征屬性,并且重點(diǎn)加以宣傳,這樣不僅可以提高廣告的效果,還可以提高廣告投放的精準(zhǔn)度,宣傳針對(duì)消費(fèi)者的重要的產(chǎn)品特征屬性。
參考文獻(xiàn):
1.DARBY M,KAMI E.Free competition and the optimal amount of fraud [J].Journal of Law and Economics,1973,16(1)
2.GUO J L,PENG J E,et.al.An opinion feature extraction approach based on a multidimensional sentence analysis model [J].Cybernetics and Systems,2013,44(5)
3.KLEINBERG J.Authoritative sources in a hyperlinked environment [J].Journal of the ACM,1999,46(5)
4.GOOLSBEE A,CHEVALIER J.Measuring prices and price competition online:Amazon.com and Barnes and Noble.com[J].Quantitative Marketing and Economics,2003,1(2)
5.CHEVALIER J A,MAYZLIN D.The effect of word of mouth on sales:Online book reviews [J].Journal of Marketing Research,2006,43(3)
6. CHEN,CHEN Z Y.An unsupervised approach for person name component bipolarization using principal analysis[J].IEEE TKDE,2012,24(11)
7.KANAYAMA H,NASUKAWA T.Unsupervised lexicon induction for clause-level detection of evaluations [J]. Natural Language Engineering,2015,18(1)
8.ZHENG Y,YE L.Extracting product features from Chinese customer reviews[C].The 3rd International Conference on Intelligent System and Knowledge Engineering,2008
9.BLOOM K,GARG N.Extracting appraisal expressions [C].HLT-NAACL.PA,2007
10.鄭麗娟,王洪偉.基于情感本體的在線評(píng)論情感極性及強(qiáng)度分析:以手機(jī)為例[J].管理工程學(xué)報(bào),2017, 31(2)
11. 朱嫣嵐,閔錦,周雅倩等.基于HowNet的詞匯語(yǔ)義傾向計(jì)算[J].中文信息學(xué)報(bào),2006,1(1)
12.何躍,尹小佳,朱超.基于情感及影響力的微博用戶群體特征分析—以A手機(jī)為例[J].數(shù)據(jù)分析與知識(shí)發(fā)現(xiàn),2017,1(10)
13.任遠(yuǎn)遠(yuǎn).中文網(wǎng)絡(luò)評(píng)論的產(chǎn)品特征提取及其情感傾向判定[D].中國(guó)科學(xué)技術(shù)大學(xué)管理學(xué)院,2015