吉余崗,李依桐,石 川
(1.北京郵電大學(xué) 計(jì)算機(jī)學(xué)院,北京 100876; 2.智能通信軟件與多媒體北京市重點(diǎn)實(shí)驗(yàn)室(北京郵電大學(xué)),北京 100876)
融合異質(zhì)網(wǎng)絡(luò)與主題模型的方面分預(yù)測
吉余崗1,2,李依桐1,2,石 川1,2*
(1.北京郵電大學(xué) 計(jì)算機(jī)學(xué)院,北京 100876; 2.智能通信軟件與多媒體北京市重點(diǎn)實(shí)驗(yàn)室(北京郵電大學(xué)),北京 100876)
針對傳統(tǒng)方面分預(yù)測模型只考慮內(nèi)容信息而缺乏對評論網(wǎng)絡(luò)結(jié)構(gòu)的分析,提出了融合異質(zhì)信息網(wǎng)絡(luò)和主題模型構(gòu)建方面分預(yù)測算法(HINToAsp)。首先,從意見短語角度構(gòu)建了評論主題挖掘模型(Phrase-PLSA),有效整合評論信息和評分信息進(jìn)行方面主題挖掘;進(jìn)而,考慮用戶、評論和商品之間的結(jié)構(gòu)信息,提出了在“用戶-評論-商品”異質(zhì)信息網(wǎng)絡(luò)上的主題傳播模型模型,用于刻畫用戶特性、商品屬性;最后,基于隨機(jī)游走框架有效整合內(nèi)容信息和結(jié)構(gòu)信息,進(jìn)行精準(zhǔn)的方面分預(yù)測。通過在大眾點(diǎn)評(Dianping)和TripAdvisor數(shù)據(jù)集上和四元組PLSA(QPLSA)、高斯分布的情緒評估(GRAOS)模型及情緒均衡主題模型(SATM)的準(zhǔn)確度對比實(shí)驗(yàn),證明了HINToAsp算法的有效性,可以更好地用于商品的推薦系統(tǒng)。
方面分預(yù)測;異質(zhì)信息網(wǎng)絡(luò);主題模型;結(jié)構(gòu)信息;推薦系統(tǒng)
近年來,電商平臺和團(tuán)購網(wǎng)站蓬勃發(fā)展,逐漸改變了人們的生活和消費(fèi)方式。在這些平臺上,用戶可以通過打分和撰寫評論來對商品的各方面質(zhì)量進(jìn)行評價(jià), 商品的評價(jià)信息會極大影響后續(xù)消費(fèi)者的流量[1]。為了從這些大量的評價(jià)信息中快速總結(jié)出商品各方面的質(zhì)量優(yōu)劣進(jìn)而用于商品推薦,人們開始關(guān)注方面分預(yù)測研究。
方面分預(yù)測的主要任務(wù)是預(yù)測用戶對商品各方面的評分。為了實(shí)現(xiàn)有效的方面分預(yù)測,通常需要選擇有效的文本表示模型來表征文字評論信息。而主題模型因其低維密實(shí)和解釋性強(qiáng)等原因,受到研究者的青睞[2-3]。
傳統(tǒng)的主題模型,如概率潛在語義分析(Probabilistic Latent Analysis,PLSA)[4]和潛在狄利克雷分布(Latent Dirichlet Allocation,LDA)[5]等,常用于分析單詞的主題分布,因此,這些模型用于挖掘評論主題時(shí),忽視評論中意見短語強(qiáng)烈的主題指向。針對評論信息的特性,Lu等[6]提出一種改進(jìn)的PLSA模型來識別評論短語的主題。
當(dāng)前,方面分預(yù)測算法多從內(nèi)容信息角度來提取特征,如總分和評論的主題分布,卻忽視用戶和商品間的關(guān)聯(lián)特征。而用戶對不同商品的不同評分和評論,實(shí)際上構(gòu)建出一個(gè)典型的異質(zhì)信息網(wǎng)絡(luò)(Heterogeneous Information Network,HIN)[7], 而HIN中包含了豐富的結(jié)構(gòu)特征,廣泛用于解決推薦系統(tǒng)問題[8]。
鑒于前人的研究,本文考慮內(nèi)容信息和結(jié)構(gòu)信息,提出融合異質(zhì)信息網(wǎng)絡(luò)和主題模型的方面分預(yù)測算法HINToAsp。首先,從評論短語和總分角度構(gòu)建了一種Phrase-PLSA模型,用于識別短語的主題;然后,提出了一種基于評論行為的異質(zhì)信息網(wǎng)絡(luò),通過評論的主題分布傳遞給用戶和商品來刻畫用戶特性和商品屬性;最后,在隨機(jī)游走框架下將內(nèi)容信息和結(jié)構(gòu)信息有效整合后預(yù)測方面分。
本文主要貢獻(xiàn)如下:
1)基于用戶對商品的評論數(shù)據(jù),構(gòu)建了評論行為的異質(zhì)信息網(wǎng)絡(luò),有效刻畫用戶特性和商品屬性;
2)分別基于Phrase-PLSA和HIN來發(fā)現(xiàn)評論數(shù)據(jù)的內(nèi)容信息和結(jié)構(gòu)信息,并提出了一種隨機(jī)游走框架將兩者有效整合;
3)在中文和英文評論數(shù)據(jù)集上不同規(guī)模的方面分預(yù)測實(shí)驗(yàn),有效證明了所提算法的有效性和泛化性能。
結(jié)合評論和評分信息成為解決方面分預(yù)測的關(guān)鍵技術(shù)。
Zheng等[9]提出一種評價(jià)表達(dá)模式的LDA (Appraisal-Expression-Patterns-based LDA,AEP-LDA)模型,自動從評論中提取方面詞;Wang等[10]提出潛在方面評分分析模型(Latent Aspect Rating Analysis Model,LARAM)算法,從方面級角度分析評論中的觀點(diǎn),并以此來預(yù)測用戶對各方面的評分;文獻(xiàn)[11]提出通過外部知識、總分分布以及情感詞語詞典等同步提取方面主題及對應(yīng)評分;Li等[12]提出了一種考慮用戶評分偏好影響的PLSA模型。但這些模型普遍只考慮了文本內(nèi)容信息,忽視了評論網(wǎng)絡(luò)中豐富的結(jié)構(gòu)信息。
異質(zhì)信息網(wǎng)絡(luò)常用于建模社會媒體系統(tǒng)中不同類型的對象和對象間繁雜的交互關(guān)系。許多推薦方法通過HIN來整合各類信息:Shi等[13]提出了異質(zhì)網(wǎng)絡(luò)上的電影推薦系統(tǒng)(Heterogeneous network Recommendation,HeteRecom),通過元路徑包含的語義信息計(jì)算電影之間的相似性; Yu等[14]基于元路徑隱藏特征建模用戶和商品之間的內(nèi)在聯(lián)系,分別從全局及個(gè)性化角度設(shè)計(jì)推薦模型; Sun等[15]提出了在科研學(xué)術(shù)網(wǎng)絡(luò)上主題建模,并構(gòu)建科研學(xué)術(shù)異質(zhì)網(wǎng)絡(luò)用于挖掘論文作者相似性; 張邦佐等[16]提出融合異質(zhì)信息網(wǎng)絡(luò)和矩陣分解進(jìn)行總分預(yù)測。這些研究表明,在異質(zhì)信息網(wǎng)絡(luò)上的結(jié)構(gòu)信息是可靠合理的。
PLSA模型通過期望最大化(Expectation Maximization, EM)算法學(xué)習(xí)相關(guān)參數(shù)。圖1是PLSA的概率圖模型。

圖1 PLSA模型概率圖Fig. 1 Probabilistic graph of PLSA model
圖1中,d表示一篇文檔,z表示隱含主題或方面,w表示文檔中的詞語。p(di)表示文檔di出現(xiàn)的概率,p(zk|di)表示文檔di中出現(xiàn)主題z為k的概率,是一個(gè)多項(xiàng)分布。p(wj|zk)表示主題k下出現(xiàn)詞語wj的概率,也是一個(gè)多項(xiàng)分布。圖1中d、w為可觀測變量,主題z為隱藏變量,則可觀測數(shù)據(jù)(di,wj)的聯(lián)合概率分布如下:
(1)
其中:i∈{1,2,…,M},M為文檔集大小,j∈{1,2,…,N},N為詞的總數(shù),k∈{1,2,…,K},K表示主題總數(shù)。通過EM算法來學(xué)習(xí)式(1)中的參數(shù)p(wj|zk)和p(zk|di)。
異質(zhì)信息網(wǎng)絡(luò)是一種以有向圖為數(shù)據(jù)結(jié)構(gòu)的特殊的信息網(wǎng)絡(luò),可以包含多類型對象以及多類型的邊。
定義1 異質(zhì)信息網(wǎng)絡(luò)。給定一個(gè)模式(A,R),其中A表示實(shí)體集,R表示關(guān)系集。信息網(wǎng)絡(luò)被定義為有向圖G=(V,E),其中對象類型映射函數(shù)為Φ:V→A,關(guān)系類型映射函數(shù)為Ψ:E→R。每個(gè)對象v∈V屬于某一特定的對象類型Φ(v)∈A,每條邊e∈E屬于某一特定的關(guān)系類型Ψ(e)∈R。當(dāng)對象種類|A|>1或關(guān)系種類|R|>1時(shí),此網(wǎng)絡(luò)即為異質(zhì)信息網(wǎng)絡(luò)。

異質(zhì)信息網(wǎng)絡(luò)可以有效融合更多的結(jié)構(gòu)信息、包含更豐富的語義,是數(shù)據(jù)挖掘領(lǐng)域的一個(gè)新的方向,異質(zhì)信息網(wǎng)絡(luò)用于推薦時(shí),可以更加細(xì)致地描述用戶和商品間的關(guān)系。
方面分預(yù)測的主要挑戰(zhàn)是評論的文本建模以及和評分的結(jié)合。本文提出一種基于異質(zhì)信息網(wǎng)絡(luò)和主題模型的方面分預(yù)測算法(Aspect rating prediction method based on Heterogeneous Information Network and Topic model, HINToAsp),分別從內(nèi)容信息和結(jié)構(gòu)信息兩個(gè)角度構(gòu)建了Phrase-PLSA和Review HIN模型。通過Phrase-LDA,以短語為單位構(gòu)建主題模型,挖掘出短語的主題分布;進(jìn)而通過Review HIN充分考慮用戶和商品間的鏈接信息,有效刻畫用戶行為特性和商品屬性;通過隨機(jī)游走框架將兩部分結(jié)合一起。模型結(jié)構(gòu)如圖2所示。

圖2 HINToAsp模型Fig. 2 HINToAsp model
其中,陰影框表示Review HIN的網(wǎng)絡(luò)模式,陰影框中箭頭表示鏈路連接關(guān)系;右側(cè)為Phrase-PLSA概率圖模型。涉及的概念定義如下。
用戶(User):用戶u表示用戶集合U中的一人。
物品(Item):物品s表示物品集合S中的一個(gè)商品(如大眾點(diǎn)評數(shù)據(jù)中的餐館)。
評論(Review):評論d表示用戶u對物品s的文本評價(jià)信息。
短語(Phrase):由從評論d中抽取的一對詞語〈h,m〉組成,h表示先行詞,m表示修飾詞。
先行詞(Head Term):先行詞h描述方面信息。
修飾詞(Modifier Term):修飾詞m描述情感信息。
總評分(Overall Rating):每條評論d對應(yīng)的總評分r,通常為1~5的整數(shù)評分。
方面(Aspect):方面z表示物品s的一個(gè)屬性或方面。
方面評分(Aspect Rating):方面評分az表示物品s在z方面的打分。
本文提出一種改進(jìn)的Phrase-PLSA模型,用于融合評論和評分等內(nèi)容信息進(jìn)行主題挖掘和方面分預(yù)測,圖3為對應(yīng)的概率圖。

圖3 改進(jìn)的Phrase-PLSA模型概率圖Fig. 3 Probabilistic graph of improved Phrase-PLSA model
Phrase-PLSA采用EM算法推導(dǎo)參數(shù)迭代計(jì)算公式,詳細(xì)推導(dǎo)過程如下。
E步中,需要構(gòu)造下界函數(shù)L0,計(jì)算公式如下:
(2)

q(zk)=p(zk|h,m,r,d;Λold)=
(3)
因此,每次迭代過程中,式(2)中的const只與上一輪的結(jié)果有關(guān),只需最大化L即可:

lgp(hjh,mjm,rs,di,zk|Λ)
(4)
其中:p(hjh,mjm,rs,di,zk|Λ)=p(mjm|rs,zk)p(hjm|zk)p(zk|di)p(rs|di)p(di),Nh為先行詞總數(shù),Nm表示修飾詞總數(shù)。

(5)
計(jì)算得到:
p(mjm|rs,zk) ∝
n(hjh,mjm,rs,di)p(zk|hjh,mjm,rs,di;Λold)
(6)
因此p(mjm|rs,zk)的更新函數(shù)為:
p(mjm|rs,zk)=
(7)
同理,其他參數(shù)的更新函數(shù)為:
p(hjh|zk)=
(8)
(9)
(10)
(11)
在購物或消費(fèi)過程中,不同用戶對不同商品撰寫對應(yīng)的評論文本,這種行為構(gòu)成了一種評論網(wǎng)絡(luò),如圖4(a)所示。本文提出構(gòu)建基于評論的異質(zhì)網(wǎng)絡(luò),其模式如圖4(b)所示。網(wǎng)絡(luò)中有用戶(U)、商品(S)、評論(D)等三種類型的節(jié)點(diǎn),同時(shí)包含了多種元路徑及其蘊(yùn)含的物理意義,如u1d1s1表示用戶u1對商品s1撰寫評論d1。

圖4 評論異質(zhì)信息網(wǎng)絡(luò)及其模式Fig. 4 Structure of Review HIN and its’ schema
主題在評論D和與其相關(guān)的用戶U和商品S間傳播。給定一條評論的主題分布p(zk|di),一個(gè)用戶u的主題分布按式(12)計(jì)算:
(12)
其中:Du表示由u撰寫的評論集合。相似地,一個(gè)商品s的主題分布的計(jì)算公式如下:
(13)
另一方面,主題分布也可以從用戶U和商品S傳播到評論D中。根據(jù)通過主題模型估算出的評論的內(nèi)在主題分布,提出如下主題傳播算法:
(14)
其中:di是用戶u對商品s的評價(jià)。ξ表示主題傳播過程中,傳播偏好參數(shù),用于調(diào)節(jié)Phrase-PLSA中挖掘的主題分布和Review HIN上傳播的主題分布的權(quán)重影響:ξ為0表示算法僅考慮Review HIN部分;ξ為1表示算法僅考慮Phrase-PLSA部分,稱之為HINToAsps。
為驗(yàn)證模型有效性,需要將預(yù)測的方面評分與真實(shí)的方面評分對比。由于預(yù)測方面應(yīng)當(dāng)與語料庫中的要求的方面相對應(yīng),因此在構(gòu)建模型時(shí)需要給每個(gè)方面預(yù)設(shè)部分先驗(yàn)詞語,如后文4.1節(jié)。
在實(shí)驗(yàn)中,方面z加入先驗(yàn)知識,計(jì)算公式為:
p(hjm|zk)=
(15)
其中:τ(hjm,zk)表示詞語的先驗(yàn)信息,當(dāng)hjm的主題為zk時(shí),τ(hjm,zk)=1,否則τ(hjm,zk)=0。
方面識別 根據(jù)從模型中學(xué)習(xí)的參數(shù),基于式(16)計(jì)算出對應(yīng)的phrase屬于的方面。

(16)
方面分預(yù)測 給定若干短語{〈h,m〉}所描述的實(shí)體e時(shí),預(yù)測方面z上的得分az。預(yù)測公式如下:
(17)
融合HIN和Phrase-PLSA的HINToAsp算法的具體步驟如下。
輸入 評論集D,對應(yīng)評論短語集{〈h,m〉},集合R,用戶集U,商品集S,評論短語先驗(yàn)信息;
輸出 每個(gè)phrase屬于的主題及對應(yīng)評分。
1) 隨機(jī)初始化p(mjm|rs,zk)、p(hjh|zk)、p(zk|di)、p(di)、p(rs|di)依據(jù)式(15)更新p(hjm|zk)。
2) E步:計(jì)算給定參數(shù)p(mjm|rs,zk)、p(hjh|zk)、p(zk|di)、p(rs|di)、p(di)時(shí)隱藏變量的后驗(yàn)概率,即p(hjh,mjm,rs,di,zk|Λ)。
3) M步:最大化下界函數(shù)L0,根據(jù)式(7)~(11)更新參數(shù)p(mjm|rs,zk)、p(hjh|zk)、p(zk|di)、p(rs|di)、p(di)。
4) 返回步驟2)繼續(xù)迭代,直至收斂結(jié)束迭代。
5) 依據(jù)式(16)計(jì)算得到在Phrase-PLSA上挖掘的評論短語主題。
6) 根據(jù)式(12)~(13)將評論集合的主題傳遞給與其相關(guān)的用戶集U和商品集S。
7) 根據(jù)式(14)將用戶U和商品(如餐館)S的主題分布傳播到相關(guān)的評論集合D。
8) 返回步驟5)繼續(xù)迭代直至收斂結(jié)束迭代。
9) 固定p(zk|di),重復(fù)步驟2)~4)的EM迭代,直至收斂結(jié)束迭代。
10) 依據(jù)式(16),(17)計(jì)算融合Phrase-PLSA和HIN信息,得到每條評論短語的主題及對應(yīng)評分。
本章在大眾點(diǎn)評(Dianping)和TripAdvisor的數(shù)據(jù)集上進(jìn)行了不同規(guī)模的實(shí)驗(yàn),驗(yàn)證了HINToAsp的有效性和泛化性能。
實(shí)驗(yàn)選取數(shù)據(jù)集為大眾點(diǎn)評和TripAdvisor應(yīng)用上采集的數(shù)據(jù)集。大眾點(diǎn)評是一個(gè)集合餐飲娛樂等商家的中文社會媒體平臺,消費(fèi)者可以在上面對商家的“口味”“服務(wù)”“環(huán)境”等方面評分,并撰寫評論。與“大眾點(diǎn)評”相似,TripAdvisor上用戶的評價(jià)包括了總分,英文評論以及在“價(jià)值”(Value)“服務(wù)”(Service)和“食物”(Food)方面上評分。數(shù)據(jù)集的統(tǒng)計(jì)信息如表1所示。
數(shù)據(jù)預(yù)處理 主要是從評價(jià)中抽取短語,由于兩個(gè)數(shù)據(jù)集是不同語言的,所以需要不同的預(yù)處理過程。TripAdvisor數(shù)據(jù)集的預(yù)處理過程與文獻(xiàn)[1]相似,過程為:1)利用POS(Part-Of-Speech) Tagging標(biāo)注詞性;2)根據(jù)詞性標(biāo)注及文獻(xiàn)[1]中的規(guī)則提取短語;3)采用Porter Stemmer進(jìn)行詞根還原。而處理大眾點(diǎn)評數(shù)據(jù)集時(shí),不需要詞根還原,但在標(biāo)注詞性之前需要分詞。本文采用Word Segmenter中文分詞工具。
先驗(yàn)信息 本文選取先驗(yàn)評論短語見表2。

表2 兩個(gè)數(shù)據(jù)集上的先驗(yàn)詞語Tab. 2 Prior terms of two datasets
實(shí)驗(yàn)采用均方根誤差(Root Mean Square Error, RMSE)和皮爾遜相關(guān)系數(shù)(Pearson Correlation Coefficient, PCC)兩個(gè)評價(jià)指標(biāo)來評價(jià)模型有效性。其中: RMSE用于衡量預(yù)測值和真實(shí)值之間的誤差,值越小則算法效果越好;PCC用于衡量集合數(shù)據(jù)之間的線性關(guān)系,比較預(yù)測值和實(shí)際值是否有相同的趨勢變化,值越接近于1則相關(guān)性越強(qiáng)。RMSE和PCC的計(jì)算公式如下:
(18)

(19)
本文實(shí)驗(yàn)和三個(gè)方面分預(yù)測的代表性方法四元組PLSA(Quad-tuples PLSA,QPLSA)[17]、高斯分布的情緒評估(Gaussian distribution for RAting Over Sentiments,GRAOS)模型[18]及情緒均衡主題模型(Sentiment-Aligned Topic Model,SATM)[11]進(jìn)行了準(zhǔn)確度效果對比;此外,還對比了只使用主題模型而忽略異質(zhì)網(wǎng)絡(luò)的HINToAsp的模型,稱之為
HINToAsps。
QPLSA提出了一個(gè)四元組概率隱藏語義分析模型,四元組是指先行詞、修飾詞、實(shí)體和評分; GRAOS是一個(gè)半監(jiān)督的LDA模型。模型從帶有總評分的訓(xùn)練數(shù)據(jù)中挖掘出帶有打分的方面信息,用于分析未被打分的數(shù)據(jù)的總評分; SATM提出了情感排列主題模型,引入了情感詞典和總評分分布這兩類額外的信息用于評分預(yù)測。
采用RMSE評價(jià)模型方面分預(yù)測的準(zhǔn)確性,設(shè)定主題個(gè)數(shù)K=3,實(shí)驗(yàn)在規(guī)模分別為25%、50%、75%、100%數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果見表3。其中,HINToAsp的參數(shù)ξ的取值為4.4節(jié)中的最優(yōu)取值,在大眾點(diǎn)評數(shù)據(jù)集中ξ設(shè)置為0.9,TripAdvisor數(shù)據(jù)集中ξ設(shè)置為0.85。

表3 實(shí)驗(yàn)結(jié)果Tab. 3 Experimental resilt
由表3比較后發(fā)現(xiàn),相對于對比的方法,在兩個(gè)數(shù)據(jù)集合的各規(guī)模數(shù)據(jù)集上,HINToAsp模型的RMSE的數(shù)值均最小,預(yù)測精度最高。而沒有引入HIN的HINToAsps效果和QPLSA、SATM模型的效果持平,比GRAOS算法效果差。據(jù)此,驗(yàn)證了引入結(jié)構(gòu)信息能夠有效提高評分預(yù)測的準(zhǔn)確性,以及HINToAsp模型的有效性。此外,在大部分情況下,HINToAsp模型預(yù)測結(jié)果的PCC值更好,將方面評分預(yù)測問題擴(kuò)展為方面推薦問題時(shí),HINToAsp算法可以取得更好的效果,推薦的結(jié)果更接近真實(shí)排名。
綜合分析表3,盡管GRAOS在預(yù)測精度上效果也比較好,但是其PCC值是幾個(gè)模型中最差的,而本文算法效果在兩個(gè)指標(biāo)上的效果均最好。
在HINToAsp模型中,給定參數(shù)ξ調(diào)節(jié)主題挖掘模型和主題傳播模型的貢獻(xiàn)度。ξ取值為0至1中的實(shí)數(shù)。當(dāng)ξ=1時(shí),主題傳播模型不生效,只使用主題挖掘模型部分。參數(shù)ξ的取值由參數(shù)實(shí)驗(yàn)決定。實(shí)驗(yàn)結(jié)果見圖5。
由圖5(a)可知,大眾點(diǎn)評數(shù)據(jù)集上,ξ=0.9時(shí),取得最好的效果,ξ=1時(shí),模型效果不是最好,因此可見,不能盲目使用結(jié)構(gòu)信息。由圖5(b)可知, TripAdvisor數(shù)據(jù)集上ξ=0.85時(shí)取得最好預(yù)測效果。
本文提出了一種基于異質(zhì)信息網(wǎng)絡(luò)和主題模型的方面分預(yù)測算法HINToAsp。從內(nèi)容信息和結(jié)構(gòu)信息角度分別構(gòu)建了基于PLSA的主題挖掘模型以及基于HIN的主題傳播模型;充分考慮了評論、評分等文本信息以及用戶和商品之間構(gòu)成的鏈接信息。本文通過和其他算法如QPLSA、SATM的對比,驗(yàn)證了HINToAsp算法的有效性。參數(shù)實(shí)驗(yàn)表明,恰當(dāng)引入結(jié)構(gòu)信息可以更加高效地進(jìn)行評分預(yù)測和在評分預(yù)測基礎(chǔ)上的推薦任務(wù)。

圖5 參數(shù)實(shí)驗(yàn)結(jié)果Fig. 5 Parameter experimental results
References)
[1] MOGHADDAM S, ESTER M. On the design of LDA models for aspect-based opinion mining[C]// Proceedings of the 21st ACM International Conference on Information and Knowledge Management. New York: ACM, 2012: 803-812.
[2] 林曉勇, 代苓苓, 史晟輝, 等. 基于主題模型的矩陣分解推薦算法[J]. 計(jì)算機(jī)應(yīng)用, 2015, 35(S2): 122-124.(LIN X Y, DAI L L, SHI S H, et al. Matrix factorization recommendation based on topic model [J]. Journal of Computer Applications, 2015, 35(S2): 122-124.)
[3] 王春龍, 張敬旭. 基于 LDA 的改進(jìn) K-means 算法在文本聚類中的應(yīng)用[J]. 計(jì)算機(jī)應(yīng)用, 2014, 34(1): 249-254. (WANG C L, ZHANG J X. Improved K-means algorithm based on latent Dirichlet allocation for text clustering[J]. Journal of Computer Applications, 2014, 34(1): 249-254.)
[4] HOFMANN T. Probabilistic latent semantic indexing[C]//Proceedings of the 22nd Annual International ACM SIGIR Conference on Research and Development in Information Retrieval. New York: ACM, 1999: 50-57.
[5] BLEI D M, NG A Y, JORDAN M I. Latent Dirichlet allocation[J]. Journal of Machine Learning Research, 2003, 3(1): 993-1022.
[6] LU Y, ZHAI C X, SUNDARESAN N. Rated aspect summarization of short comments[C]// Proceedings of the 18th International Conference on World Wide Web. New York: ACM, 2009: 131-140.
[7] SUN Y, HAN J, ZHAO P, et al. RankClus: integrating clustering with ranking for heterogeneous information network analysis[C]// Proceedings of the 12th International Conference on Extending Database Technology: Advances in Database Technology. New York:ACM, 2009: 565-576.
[8] SHI C, LI Y, ZHANG J, et al. A survey of heterogeneous information network analysis[J]. IEEE Transactions on Knowledge and Data Engineering, 2017, 29(1): 17-37.
[9] ZHENG X, LIN Z, WANG X, et al. Incorporating appraisal expression patterns into topic modeling for aspect and sentiment word identification[J]. Knowledge-Based Systems, 2014, 61(2): 29-47.
[10] WANG H, LU Y, ZHAI C X. Latent aspect rating analysis without aspect keyword supervision[C]// Proceedings of the 17th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. New York: ACM, 2011: 618-626.
[11] WANG H, ESTER M. A sentiment-aligned topic model for product aspect rating prediction[EB/OL].[2016- 11- 20]. http://www.anthology.aclweb.org/D/D14/D14-1126.pdf.
[12] LI Y, SHI C, ZHAO H, et al. Aspect mining with rating bias[C]// Proceedings of the 2016 Joint European Conference on Machine Learning and Knowledge Discovery in Databases. Berlin: Springer International Publishing, 2016: 458-474.
[13] SHI C, ZHOU C, KONG X, et al. HeteRecom: a semantic-based recommendation system in heterogeneous networks[C]// Proceedings of the 18th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. New York: ACM, 2012: 1552-1555.
[14] YU X, REN X, SUN Y, et al. Personalized entity recommendation: a heterogeneous information network approach[C]// Proceedings of the 7th ACM International Conference on Web Search and Data Mining. New York: ACM, 2014: 283-292.
[15] SUN Y, HAN J. Mining heterogeneous information networks: a structural analysis approach[J]. ACM SIGKDD Explorations Newsletter, 2013, 14(2): 20-28.
[16] 張邦佐, 桂欣, 何濤,等. 一種融合異構(gòu)信息網(wǎng)絡(luò)和評分矩陣的推薦新算法[J]. 計(jì)算機(jī)研究與發(fā)展, 2014, 51(S2):69-75.(ZHANG B Z, GUI X, HE T, et al. A novel recommender algorithm on fusion heterogeneous information network and rating matrix[J]. Journal of Computer Research and Development, 2014, 51(S2): 69-75.)
[17] LUO W, ZHUANG F, ZHAO W, et al. QPLSA: Utilizing quad-tuples for aspect identification and rating[J]. Information Processing and Management, 2015, 51(1): 25-41.
[18] LUO W, ZHUANG F, CHENG X, et al. Ratable aspects over sentiments: predicting ratings for unrated reviews[C]// Proceedings of the 2014 IEEE International Conference on Data Mining. Piscataway, NJ: IEEE, 2014: 380-389.
This work is partially supported by the National Natural Science Foundation of China (61375058), the National Basic Research Program (973 Program) of China (2013cb329606), the Co-construction Project of Beijing Municipal Commission of Education.
JIYugang, born in 1993, Ph. D. candidate. His research interests include data mining, machine learning.
LIYitong, born in 1992, M. S. Her research interests include data mining, machine learning.
SHIChuan, born in 1978. Ph. D., professor. His research interests include data mining, machine learning, evolutionary computing.
Aspectratingpredictionbasedonheterogeneousnetworkandtopicmodel
JI Yugang1,2, LI Yitong1,2, SHI Chuan1,2*
(1.SchoolofComputerScience,BeijingUniversityofPostsandTelecommunications,Beijing100876,China;2.BeijingKeyLaboratoryofIntelligentTelecommunicationSoftwareandMultimedia
(BeijingUniversityofPostsandTelecommunications),Beijing100876,China)
Concerning the problem that traditional aspect rating prediction methods just pay attention to textual information while ignoring the structural information in the review network, a novel Aspect rating prediction method based on Heterogeneous Information Network and Topic model (HINToAsp) was proposed for effectively integering textual information and structural information. Firstly, a new review topic model of opinion phrases called Phrase-PLSA (Phrase-based Probabilistic Latent Semantic Analysis) was put forward to integrate textual information of reviews and ratings for mining aspect topics. And then, considering the rich structural information among users, reviews, and items, a topic propagation model was designed by the aid of constructing “User-Review-Item” heterogeneous information network. Finally, a random walk framework was used to combine textual information and structural information effectively, which insured an accurate aspect rating prediction. The experimental results on both Dianping corpora and TripAdvisor corpora demonstrate that HINToAsp is more effective than recent methods like the Quad-tuples PLSA (QPLSA) model, the Gaussian distribution for RAting Over Sentiments (GRAOS) model and the Sentiment-Aligned Topic Model (SATM), and has better performance on recommendation system.
aspect rating prediction; Heterogeneous Information Network (HIN); topic model; structural information; recommendation system
2017- 05- 11;
2017- 05- 31。
國家自然科學(xué)基金資助項(xiàng)目(61375058);國家973計(jì)劃項(xiàng)目(2013cb329606);北京市教育委員會共建項(xiàng)目。
吉余崗(1993—),男,江蘇泰州人,博士研究生,CCF會員,主要研究方向:數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí); 李依桐(1992—),女,北京人,碩士,主要研究方向:數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí); 石川(1978—),男,北京人,教授,博士,CCF會員,主要研究方向:數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)、演化計(jì)算。
1001- 9081(2017)11- 3201- 06
10.11772/j.issn.1001- 9081.2017.11.3201
(*通信作者電子郵箱shichuan@bupt.edu.cn)
TP391
A