電子商務(wù)中基于潛在類回歸模型的農(nóng)產(chǎn)品個(gè)性化推薦方案

2017-09-16 08:36:15彭潔徐劍暉陳超

江蘇農(nóng)業(yè)科學(xué) 2017年12期

彭潔+徐劍暉+陳超

摘要：針對(duì)現(xiàn)有電子商務(wù)中農(nóng)產(chǎn)品個(gè)性化推薦方案精度較低的問題，提出一種基于潛在類回歸模型（latent-class regression model，簡(jiǎn)稱LCRM）和組群偏好的個(gè)性化推薦方案。首先，收集農(nóng)產(chǎn)品的評(píng)價(jià)信息，進(jìn)行預(yù)處理，提取出每個(gè)評(píng)價(jià)者的特征-意見值對(duì)。然后，利用LCRM根據(jù)整體與特征評(píng)價(jià)，將具有相同愛好的評(píng)價(jià)者進(jìn)行分組，構(gòu)建組群偏好，并計(jì)算單個(gè)評(píng)價(jià)者的偏好。最后，通過計(jì)算用戶與組群偏好的相似度來定位組群，通過計(jì)算用戶與該組群中評(píng)價(jià)者偏好的相似度來定位農(nóng)產(chǎn)品，最終列出推薦表。結(jié)果表明，該方案能夠準(zhǔn)確為用戶推薦所需的農(nóng)產(chǎn)品，推薦列表中農(nóng)產(chǎn)品的命中率達(dá)到了83%，同時(shí)具有較低的計(jì)算復(fù)雜度。

關(guān)鍵詞：電子商務(wù)；農(nóng)產(chǎn)品個(gè)性化推薦；潛在類回歸模型；組群偏好

中圖分類號(hào)： TP391文獻(xiàn)標(biāo)志碼： A文章編號(hào)：1002-1302（2017）12-0274-05

現(xiàn)今，利用網(wǎng)絡(luò)進(jìn)行日常商業(yè)交易的互聯(lián)網(wǎng)用戶越來越多，許多公司利用網(wǎng)絡(luò)來銷售他們的商品和服務(wù)。由于冷藏運(yùn)輸條件的改善，水果、蔬菜等農(nóng)產(chǎn)品也開始融入到電子商務(wù)中[1]。在電子商務(wù)中，對(duì)于一個(gè)特定的商品，顧客面臨多個(gè)選擇，常處于困惑和迷失狀態(tài)。對(duì)于網(wǎng)站管理員而言，評(píng)估提供的商品和服務(wù)是否迎合用戶，為用戶提供感興趣的個(gè)性化商品推薦單至關(guān)重要[2]。

目前學(xué)者提出了多種電子商務(wù)推薦方案，例如Huang提出了一種基于知識(shí)決策支持的推薦方案，將推薦問題轉(zhuǎn)化成約束滿意問題，通過知識(shí)庫檢測(cè)商品和用戶偏好的匹配度，查找與用戶首選最接近的商品來生成推薦列表[3]。然而，這種方案僅依靠評(píng)價(jià)特征詞出現(xiàn)的頻率來定位商品，準(zhǔn)確率較低。Krohn-Grimberghe等提出了一種基于評(píng)價(jià)特征分析的推薦方案，從眾多評(píng)價(jià)中提取特征，采用多關(guān)系矩陣分解（multi-relational matrix factorization，簡(jiǎn)稱MRMF）來搭建用戶對(duì)商品和特定特征觀點(diǎn)之間相關(guān)性的模型，從而預(yù)測(cè)客戶所需商品的可能性[4]。然而，這種方案的局限性在于并沒有強(qiáng)調(diào)新用戶“不完全偏好”現(xiàn)象。Jain等提出了一種基于線性回歸模型（linear regression model，簡(jiǎn)稱LRM）的推薦方案，利用評(píng)價(jià)者評(píng)論形成評(píng)價(jià)者偏好，根據(jù)用戶和該偏好的相似度來定位商品[5]。然而，該方案僅匹配用戶與單個(gè)評(píng)價(jià)者的偏好，沒有考慮其他用戶評(píng)價(jià)中的商品潛在信息，一定程度上影響了推薦精度。另外，現(xiàn)有的推薦方案主要是應(yīng)用在電影、圖書、電子產(chǎn)品等商品，對(duì)農(nóng)產(chǎn)品的個(gè)性化推薦研究較少。鄭云飛等設(shè)計(jì)了一種農(nóng)產(chǎn)品協(xié)同過濾推薦系統(tǒng)[6]，但主要側(cè)重于軟件系統(tǒng)的構(gòu)建，對(duì)推薦方案的描述較少，且效果不佳。將高效的個(gè)性化推薦技術(shù)應(yīng)用到農(nóng)產(chǎn)品推薦中，將會(huì)有助于農(nóng)產(chǎn)品電子商務(wù)和農(nóng)業(yè)地區(qū)經(jīng)濟(jì)的發(fā)展，具有重要的意義[7-8]。

偏好模型基于多屬性效用理論（multi-attribute utility theory，簡(jiǎn)稱MAUT）[9]，根據(jù)用戶偏好，利用匹配工具將所有商品進(jìn)行排序從而給出推薦。然而，傳統(tǒng)偏好模型盡管可以基于交互式偏好技術(shù)來了解買家的需求，但所得出的偏好不完整且不準(zhǔn)確。另外，現(xiàn)有基于偏好模型的推薦方案中，大多僅考慮根據(jù)單個(gè)評(píng)價(jià)者對(duì)商品的評(píng)價(jià)信息建立偏好，沒有充分挖掘商品評(píng)價(jià)中其他客戶有價(jià)值的評(píng)價(jià)信息，不能很好地為新用戶進(jìn)行推薦。

為此，本研究針對(duì)農(nóng)產(chǎn)品的個(gè)性化推薦應(yīng)用，提出一種基于潛在類回歸模型（latent-class regression model，簡(jiǎn)稱LCRM）的推薦方案[10]。利用LCRM根據(jù)整體與特征評(píng)價(jià)，將具有相同愛好的評(píng)價(jià)者進(jìn)行分組，構(gòu)建組群偏好，并計(jì)算單個(gè)評(píng)價(jià)者的偏好。通過計(jì)算用戶與組群偏好的相似度來定位組群，通過計(jì)算用戶與該組群中評(píng)價(jià)者偏好的相似度來定位農(nóng)產(chǎn)品，最終給出推薦列表。結(jié)果表明，本研究方案能夠準(zhǔn)確地為客戶推薦所需的農(nóng)產(chǎn)品。

1方案架構(gòu)

根據(jù)現(xiàn)有的偏好啟發(fā)式技術(shù)，可以推導(dǎo)出當(dāng)前新買家對(duì)農(nóng)產(chǎn)品特征的偏好，并基于多屬性效用理論進(jìn)行模型化：prefu={（fi，wui）|1≤i≤n}。其中prefu表示用戶偏好；fi表示從所有評(píng)價(jià)中提取的第i個(gè)特征；wui表示特征fi對(duì)應(yīng)的偏好權(quán)重，但是，由此推導(dǎo)出的偏好事實(shí)上并不完整[11]。因此，為了生成當(dāng)前買家的精確推薦，其核心理念是：區(qū)分買家固有偏好與農(nóng)產(chǎn)品評(píng)價(jià)者間的相似性。其中，亟待解決的問題有：（1）根據(jù)買家提供的評(píng)價(jià)信息來恢復(fù)評(píng)價(jià)者的多特征偏好；（2）建立當(dāng)前買家和評(píng)價(jià)者間的偏好相關(guān)性；（3）預(yù)測(cè)買家的完整偏好，并作出推薦。

純粹地計(jì)算評(píng)價(jià)中特征的發(fā)生頻率并不能真實(shí)地體現(xiàn)評(píng)價(jià)者的偏好權(quán)重，因此，須要引入更先進(jìn)的學(xué)習(xí)方法，用以綜合考慮評(píng)價(jià)者的整體評(píng)價(jià)和特征級(jí)意見。此外，單個(gè)評(píng)價(jià)者生成的信息是有限的，所以提出方法中須包含多個(gè)評(píng)價(jià)者，生成它們的偏好相似性，并構(gòu)建組群的偏好。

本研究的基本思想是，根據(jù)所有評(píng)論信息（包括整體評(píng)價(jià)和特征觀點(diǎn)評(píng)價(jià)），首先將評(píng)論者分組創(chuàng)建無監(jiān)督集群，目的是建立組群偏好來代表1個(gè)組群評(píng)論者的共同喜好。同時(shí)，使用組群級(jí)偏好調(diào)整評(píng)論者級(jí)偏好。在下一次迭代循環(huán)中，再使用評(píng)論者級(jí)偏好來改善組群結(jié)果。當(dāng)2種類型的偏好都穩(wěn)定不變的時(shí)候，迭代終止。然后通過計(jì)算機(jī)用戶與組群偏好和評(píng)價(jià)者級(jí)偏好的相似度來定位農(nóng)產(chǎn)品。本研究推薦系統(tǒng)的工作流程主要由三大步驟構(gòu)成，如圖1所示。

步驟1：對(duì)評(píng)價(jià)進(jìn)行預(yù)處理，進(jìn)行特征級(jí)意見挖掘，用以確定每個(gè)評(píng)價(jià)者的特征-意見值〈feature，opinion_value〉對(duì)。意見（opinion）表示評(píng)價(jià)者對(duì)特征的積極、中性或負(fù)面的評(píng)價(jià)。

步驟2：利用潛在類回歸模型生成評(píng)價(jià)者組群的偏好（組群級(jí)偏好），然后推斷出評(píng)價(jià)者的權(quán)重偏好（評(píng)價(jià)者級(jí)偏好）。該模型集成了4個(gè)評(píng)價(jià)元素：評(píng)價(jià)者對(duì)農(nóng)產(chǎn)品的整體評(píng)價(jià)；評(píng)價(jià)中每個(gè)特征相關(guān)聯(lián)的意見；特征發(fā)生頻率（作為1種先驗(yàn)知識(shí)進(jìn)行建模）；評(píng)價(jià)者推薦的農(nóng)產(chǎn)品。endprint

步驟3：根據(jù)步驟2輸出的評(píng)價(jià)者級(jí)偏好和組群級(jí)偏好，計(jì)算用戶偏好和組群偏好的相似度，再計(jì)算用戶偏好與組群中評(píng)價(jià)者偏好的相似度，最終定位相關(guān)農(nóng)產(chǎn)品，并返回排名前N的農(nóng)產(chǎn)品。同時(shí)通過評(píng)價(jià)任務(wù)測(cè)試當(dāng)前買家的目標(biāo)選擇（即買家打算購買的農(nóng)產(chǎn)品）是否存在反饋農(nóng)產(chǎn)品列表中。該步驟通過組群偏好機(jī)制，來解決僅依靠單個(gè)評(píng)價(jià)者偏好所產(chǎn)生的不穩(wěn)定性。文中相關(guān)符號(hào)及說明如表1所示。

2預(yù)處理：提取特征-意見值對(duì)

在推導(dǎo)評(píng)價(jià)者權(quán)重偏好前，須先對(duì)原始評(píng)價(jià)文本進(jìn)行預(yù)處理，轉(zhuǎn)化生成特征-意見值〈feature，opinion_value〉對(duì)。本表1涉及的符號(hào)及說明

符號(hào)含義REV={rev1，…，revM}表示M個(gè)評(píng)價(jià)者的集合P={p1，…，p|P|}P個(gè)農(nóng)產(chǎn)品的集合SREV×P評(píng)價(jià)者-農(nóng)產(chǎn)品對(duì)的集合，其中（revi，pj）∈S表示一個(gè)評(píng)價(jià)者revi對(duì)農(nóng)產(chǎn)品pj發(fā)表的評(píng)價(jià)F={f1，…，fn}表示從所有評(píng)價(jià)中提取的不相同特征rijrij表示評(píng)價(jià)者revi給農(nóng)產(chǎn)品pj的評(píng)價(jià)Rij評(píng)價(jià)者revi給農(nóng)產(chǎn)品pj的整體評(píng)價(jià)等級(jí)Xij=[xij1，…，xijn]在評(píng)價(jià)rij中關(guān)于特征F的觀點(diǎn)值Wrevi=[wi1，…，win]評(píng)價(jià)者revi的權(quán)重偏好，其中wi1是特征fi∈F的權(quán)重，若評(píng)價(jià)者對(duì)該特征沒有評(píng)價(jià)，則權(quán)重為0c=[c1，…，ck]評(píng)價(jià)者的k個(gè)組群Wck=[wck1，…，wckn]組群ck的偏好，其中wck1是特征fi∈F的組群權(quán)重偏好z=[z1，…，zM]具有M個(gè)評(píng)價(jià)者的組群，zi=k時(shí)表示評(píng)價(jià)者revi屬于組群ck

研究實(shí)施2個(gè)步驟來生成特征-意見值對(duì)：

步驟1：從評(píng)價(jià)中提取特征并對(duì)同義詞特征進(jìn)行分組。本研究中使用Core-NLP包的詞性標(biāo)記（part-of-speech，簡(jiǎn)稱POS）來提取常見的名詞和名詞短語，用以識(shí)別潛在的候選特征。此外，評(píng)價(jià)者常常用不同的詞表示相同的農(nóng)產(chǎn)品特征，為此，本研究定義了種子詞集合，利用WordNet工具[12]，通過計(jì)算詞匯與種子詞的相似度來對(duì)同義特征進(jìn)行分組。這種處理有助于識(shí)別可靠的特征表述，并有效地對(duì)詞匯進(jìn)行分組。

步驟2：量化意見值。本研究評(píng)估每個(gè)意見詞的情緒強(qiáng)度（也叫做極性值），為此，研究中對(duì)每個(gè)意見詞s提供3種極性值：積極性、消極性、客觀性，分別記為Pos（s）、Neg（s）和Obj（s），范圍從0.0到1.0，并滿足Pos（s）+Neg（s）+Obj（s）=1。然后，將3種分值綜合為單一的情感評(píng)分：Os=Neg（s）×Rmin+Pos（s）×Rmax+Obj（s）×Rmin+Rmax2。其中，Rmin和Rmax分別表示最小和最大規(guī)模。設(shè)置Rmin=1、Rmax=5；Os范圍為從1到5。

3基于潛在類回歸模型的計(jì)算偏好

通常，一些暢銷農(nóng)產(chǎn)品有多個(gè)評(píng)價(jià)，因此，單一評(píng)價(jià)者提供的信息是非常有限的。在基于傳統(tǒng)回歸模型的方法中，稀疏現(xiàn)象可能會(huì)導(dǎo)致過度擬合問題，因?yàn)樵u(píng)價(jià)者權(quán)重偏好的絕對(duì)偏差完全取決于自身評(píng)價(jià)。此外，根據(jù)傳統(tǒng)回歸模型推導(dǎo)的權(quán)重偏好值的范圍處于多元高斯分布均值μ附近，由于輸出結(jié)果受到均值μ的約束，所以不能充分反映評(píng)價(jià)者的真實(shí)偏好。為此，本研究利用潛在類回歸模型，通過固有偏好與其他評(píng)價(jià)者之間相似性的比較，來準(zhǔn)確地估計(jì)評(píng)價(jià)者的權(quán)重偏好。

3.1LCRM簡(jiǎn)述

LCRM起源于市場(chǎng)營銷領(lǐng)域，用于市場(chǎng)細(xì)分工作，致力于尋找潛在客戶。根據(jù)他們的偏好，劃分為相對(duì)較小的同質(zhì)組群。具體來說，LCRM方法假設(shè)整個(gè)族群可以通過有限數(shù)量的劃分進(jìn)行定義（每個(gè)劃分代表了市場(chǎng)分割中的1個(gè)消費(fèi)者組群），所以LCRM的首要目標(biāo)是按組群級(jí)來評(píng)估每個(gè)劃分的回歸模型[13]。因此，LCRM可以根據(jù)單一實(shí)體的回歸值相關(guān)知識(shí)（例如：來自單個(gè)消費(fèi)者），利用整個(gè)族群結(jié)構(gòu)生成組群。當(dāng)實(shí)體具有最高的隸屬概率時(shí)，將其分配給唯一的組群。

本研究利用LCRM同時(shí)獲得所有評(píng)價(jià)者的偏好和組群級(jí)偏好，不僅要考慮評(píng)價(jià)者的自身信息，還將其與其他評(píng)價(jià)者間相似的固有偏好進(jìn)行合并，解決僅依靠單一評(píng)價(jià)者信息帶來的不準(zhǔn)確性問題。

3.2計(jì)算組群級(jí)和評(píng)價(jià)者級(jí)偏好

根據(jù)LCRM模型，首先假設(shè)將所有的評(píng)價(jià)者劃分為k個(gè)組群C={c1，c2，…，ck}。整體評(píng)級(jí)Rij的似然概率函數(shù)定義如下：

Pro（Rij|Xij，F(xiàn)）=∑kk=1πkPro（Rij|Xij，ck）。（1）

其中：F表示所有參數(shù)集；πk表示組群ck的先驗(yàn)概率；Xij是與評(píng)價(jià)者revi的F特征相關(guān)聯(lián)的意見值向量。在公式（1）中，Pro（Rij|Xij，ck）給出了整體評(píng)價(jià)Rij的條件概率，其中revi屬于組群ck：

Pro（Rij|Xij，ck）=Pro（Rij|Xij，Wrevi）·Pro（Wrevi|ck）。（2）

式中：Wrevi表示評(píng)價(jià)者revi的權(quán)重偏好；Pro（Rij|Xij，Wrevi）給出了Wrevi的似然度和特征意見向量Xij。這里，可以從組群級(jí)偏好分布中推導(dǎo)得到評(píng)價(jià)者級(jí)偏好。該偏好可能是一種均值為Wck（組群級(jí)偏好）、協(xié)方差為∑k的多元高斯分布：

Pro（Wrevi|ck）=Pro（Wrevi|Wck，∑k）～N（Wrevi|Wck，∑k）。（3）

此外，組群級(jí)偏好分布N（Wrevi|Wck，∑k）具有不確定性，基于KL散度模擬如下：

Pro（Wck，∑k）=exp{-ψ·KL[N（Wck，∑k）|N（μ0，I）]}。（4）

其中，μ0表示評(píng)價(jià)中特征發(fā)生頻率的集合。

由于整體評(píng)價(jià)Rij已知，因此，可以估計(jì)評(píng)價(jià)者屬于某一組群的概率。

qk（revi）=∏（revi，pj）∈S πjk·Pro（Rij|Xij，ck）∑ch∈Cπjh·Pro（Rij|Xij，ch）。（5）endprint

此外，可以合理假設(shè)，推薦相同農(nóng)產(chǎn)品的評(píng)價(jià)者中，誰的偏好相關(guān)性更高，因此，推薦農(nóng)產(chǎn)品pj的分布πj={-πj1，…，πjk}可作為模擬的先驗(yàn)概率，其中revi屬于確定的組群。所有觀察S（收集的評(píng)價(jià)者-農(nóng)產(chǎn)品對(duì)）的完全混合對(duì)數(shù)似然度定義如下：

L（Φ|S）=∑（revi，pj）∈Slog （∑kk=1πk·Pro（Rij|Xij，ck））。（6）

進(jìn)一步推導(dǎo)公式（7）、（9），分別用于推導(dǎo)組群級(jí)偏好和評(píng)價(jià)級(jí)偏好：

W^ck=（Nk∑k-1+ψ·I）-1（∑k-1∑Mzi=kWrevi+ψ·I·μ0）。（7）

當(dāng)

∑^k=1ψ∑Mzi=k（Wrevi-Wck）（Wrevi-Wck）T+（Nk-ψ2ψ）2I1/2-Nk-ψ2ψIT。（8）

W^revi=1N（revi）∑（revi，pj）∈S（XijXTijσ2+∑k-1）-1（Rij-WTreviXij）σ2+∑k-1Wck。（9）

上式中，N（revi）為評(píng)價(jià)者revi提出的評(píng)價(jià)數(shù)。

然后，通過期望-最大化（expectation maximization，簡(jiǎn)稱EM）算法估計(jì)參數(shù)集：Φ={z1，…，zM，Wc1，…，Wck，∑1，…，∑k，Wrev1，…，WervM}，通過以下2步迭代過程確定最大對(duì)數(shù)似然度。

3.2.1期望步驟（E）根據(jù)個(gè)體評(píng)價(jià)者偏好Wrevi，更新評(píng)價(jià)者組群分配、組群級(jí)偏好分布和組群先驗(yàn)概率。

（1）組群分配zi（如果評(píng)價(jià)者revi屬于組群revi，則zi=k），公式：

zi=arg maxkqk（revi）。（10）

式中，qk（revi）與公式（5）相關(guān)。只有當(dāng)獲得最高概率時(shí)，評(píng)價(jià)者才分配給組群。

（2）對(duì)于每個(gè)組群，組群級(jí)偏好Wck用公式（7）進(jìn)行更新。

（3）組群的先驗(yàn)概率（即，πj={-πj1，…，πjk}）可視為多項(xiàng)分布，并通過拉普拉斯平滑更新：

πjk=∑（revi，pj）∈SIzi=k+λN（pj）+K×λ。（11）

式中，N（pj）表示農(nóng)產(chǎn)品pj的評(píng)價(jià)數(shù)，平滑參數(shù)變化范圍λ∈[0，1]。

3.2.2最大化步驟（M）在該步驟中，旨在通過公式（9）更新評(píng)價(jià)者偏好Wrev1。

重復(fù)E和M步驟，直到方程（6）收斂。最終，將所有評(píng)價(jià)者劃分為k個(gè)不相交組群，并獲得每個(gè)組群生成的組群級(jí)偏好Wck和每個(gè)評(píng)價(jià)者的評(píng)價(jià)級(jí)偏好Wrevi。

4基于偏好相似度生成推薦

本研究通過2個(gè)步驟來精確生成當(dāng)前買家推薦：（1）計(jì)算買家與評(píng)價(jià)者組群的相似度，將買家分類到最相關(guān)組群；（2）計(jì)算買家與該組群中評(píng)價(jià)者的相似度來定位農(nóng)產(chǎn)品。買家和組群間的偏好相似度計(jì)算如下：

sim（Wu，Wck）=11+∑i=1n[wfi（u）-wfi（ck）]2。（12）

式中，Wu表示買家聲明的權(quán)重偏好；Wck表示組群ck的組群級(jí)偏好。

為買家選擇具有高相似度值的組群。在該組群中對(duì)應(yīng)的評(píng)價(jià)者級(jí)偏好中，尋找與當(dāng)前買家最相似的k個(gè)評(píng)價(jià)者。評(píng)價(jià)者和當(dāng)前買家間的相似度計(jì)算公式：

sim（Wu，Wrevi）=11+∑wfi∈Wu[wfi（u）-wfi（revi）]2。（13）

式中，wfi（u）是基于特征的當(dāng)前買家權(quán)重偏好fi；wfi（revi）是第i個(gè)評(píng)論者。

然后，由這k個(gè)評(píng)價(jià)者生成得到農(nóng)產(chǎn)品池，計(jì)算得到農(nóng)產(chǎn)品pj的預(yù)測(cè)評(píng)分，其匹配程度表明了買家的潛在興趣：

PredictionScore（u，pj）=∑revi∈ci⌒K^（revi，pj）∈Ssim（Wu，Wrevi）×Rij∑revi∈ci⌒K^（revi，pj）∈Ssim（Wu，Wrevi）。（14）

式中：ci表示最相關(guān)組群；K表示k最相近評(píng)價(jià)者集合；Rij為評(píng)價(jià)者對(duì)農(nóng)產(chǎn)品的整體評(píng)價(jià)；sim（Wu，Wrevi）為買家u和評(píng)價(jià)者revi間的偏好相似度。將具有較高評(píng)分的前N個(gè)農(nóng)產(chǎn)品生成推薦列表，并推薦給買家。

5試驗(yàn)與分析

5.1試驗(yàn)設(shè)置及數(shù)據(jù)集

試驗(yàn)中從1個(gè)電子商務(wù)網(wǎng)站上獲取一些農(nóng)產(chǎn)品（水果、蔬菜等）的網(wǎng)上銷售數(shù)據(jù)集。對(duì)于每個(gè)文本，對(duì)評(píng)價(jià)者的評(píng)價(jià)分配等級(jí)為1～5星。首先清理數(shù)據(jù)集：（1）移除少于4個(gè)特征的評(píng)價(jià)（包括那些太短或沒有意義的字符）[14]；（2）移除少于10個(gè)評(píng)價(jià)的農(nóng)產(chǎn)品。清理過程確保每個(gè)評(píng)價(jià)都包含相當(dāng)量的信息，每個(gè)農(nóng)產(chǎn)品都有充分的評(píng)價(jià)用于分析[15]。該步驟之后，農(nóng)產(chǎn)品數(shù)據(jù)集有122種農(nóng)產(chǎn)品，一共18 251個(gè)評(píng)價(jià)。其中，每個(gè)評(píng)價(jià)者在農(nóng)產(chǎn)品上只給出1條評(píng)價(jià)。數(shù)據(jù)集的詳細(xì)信息如表2所示。

5.2性能指標(biāo)

使用命中率和平均倒數(shù)排名（mean reciprocal rank，簡(jiǎn)稱MRR）作為試驗(yàn)指標(biāo)。

命中率（H@N）主要用于檢測(cè)所選擇目標(biāo)是否出現(xiàn)在N推薦集中（試驗(yàn)中，N設(shè)置為5、10、20）。它返回用戶選擇命

5.3結(jié)果與分析

將2種現(xiàn)有商品推薦方案應(yīng)用到農(nóng)產(chǎn)品推薦中，并將本研究方案與這2種方案和僅利用評(píng)論者級(jí)偏好的本研究方案進(jìn)行比較，4種方案分別為：（1）本研究方案（LCRM+評(píng)價(jià)者級(jí)偏好+組群級(jí)偏好）；（2）LCRM+評(píng)價(jià)者級(jí)偏好；（3）文獻(xiàn)[4]方案（MRMF）；（4）文獻(xiàn)[5]方案（LRM）。另外，試驗(yàn)中設(shè)置推薦列表長度N為5、10、20等3種情況。

由圖2可以看出，基于LCRM的方案能夠獲得較優(yōu)的性能，因?yàn)榛谫I家和評(píng)論者之間的相似關(guān)系建立特征偏好，同時(shí)也表明LCRM在推導(dǎo)單個(gè)評(píng)論者特征偏好時(shí)比傳統(tǒng)回歸模型更加精確。然而，文獻(xiàn)[5]中傳統(tǒng)LRM純粹依靠評(píng)論者自身提供的信息進(jìn)行偏好提取，在稀疏評(píng)論的情況下，不可避免地存在偏見和過擬合現(xiàn)象，從而影響了推薦精度。endprint

另外，本研究方案比LCRM+評(píng)價(jià)者級(jí)偏好的方案的命中率更高，這是因?yàn)楸狙芯糠桨覆粌H考慮了評(píng)價(jià)者級(jí)偏好，還考慮了組群級(jí)偏好。通過關(guān)聯(lián)志趣相投的評(píng)論者，能夠更精確地預(yù)測(cè)買家未聲明的偏好。

圖3描述了4種方案在MRR方面的比較結(jié)果。可以看出，本研究方案獲得了優(yōu)越的性能。這表明，本研究方案不僅能夠提高推薦表中客戶所需農(nóng)產(chǎn)品命中的數(shù)量，還能提高客戶真正所需農(nóng)產(chǎn)品在列表中排名位置，使其能夠更好地呈現(xiàn)在客戶面前。4種方案的平均命中率分別為85.5%、79.20%、74.80%、57.00%，本研究方案比其他3種方案分別提高7.95%、14.30%、50.00%；4種方案的MRR分別為0076、0.068、0.062、0.034。

5.4時(shí)間復(fù)雜度分析

對(duì)于算法的時(shí)間復(fù)雜度，主要是計(jì)算偏好中參數(shù)估計(jì)所消耗的時(shí)間。其中，LCRM的期望-最大化（EM）算法中的E步驟耗費(fèi)O（max（|S|，n）×k×n2）步操作，M步驟耗費(fèi) O（k×n3+|S|n2）步操作，其中k表示組群數(shù)；n表示農(nóng)產(chǎn)品特征數(shù)。假設(shè)LCRM經(jīng)t次迭代后收斂，則LCRM的計(jì)算復(fù)雜度為O（t×max（|S|，n）×k×n2）。

相比之下，傳統(tǒng)回歸模型要計(jì)算協(xié)方差矩陣的行列式，花費(fèi)O（n3）步操作，它的復(fù)雜度為O（t×M×n3），其中M為評(píng)價(jià)者數(shù)。由于M遠(yuǎn)大于k，所以該復(fù)雜度要高于本研究LCRM方案。

6結(jié)束語

提出了一種基于潛在類回歸模型的農(nóng)產(chǎn)品電子商務(wù)個(gè)性化推薦方案。利用LCRM將具有相同愛好的評(píng)價(jià)者進(jìn)行分組，構(gòu)建組群偏好。通過計(jì)算用戶與組群偏好的相似度來定位組群，計(jì)算用戶與該組群中評(píng)價(jià)者偏好的相似度來定位農(nóng)產(chǎn)品，最終給出推薦列表。試驗(yàn)結(jié)果表明，提出的方案所生成的推薦列表中農(nóng)產(chǎn)品的命中率達(dá)到了83%，且能夠?qū)⒖蛻羲柁r(nóng)產(chǎn)品排到列表前端。同時(shí)，相比于傳統(tǒng)回歸模型，本研究方案具有較低的計(jì)算復(fù)雜度。

提出的方案中，集群是不相交的，這意味著每個(gè)評(píng)論者只能隸屬于一個(gè)集群。在今后的工作中，將考慮允許存在相交集群，使每個(gè)評(píng)論者可分配給多個(gè)集群，以此進(jìn)一步提高本研究方案的適用范圍。

參考文獻(xiàn)：

[1]劉琦，苑金鳳，王倩，等. 農(nóng)產(chǎn)品網(wǎng)購意愿研究綜述[J]. 江蘇農(nóng)業(yè)科學(xué)，2014，42（4）：401-403.

[2]王偉，徐平平，王華君，等. 基于概率回歸模型和K-最近鄰的電子商務(wù)個(gè)性化推薦方案[J]. 湘潭大學(xué)自然科學(xué)學(xué)報(bào)，2016，38（1）：97-100.

[3]Huang S L. Designing utility-based recommender systems for e-commerce：evaluation of preference-elicitation methods[J]. Electronic Commerce Research and Applications，2011，10（4）：398-407.

[4]Krohn-Grimberghe A，Drumond L，F(xiàn)reudenthaler C，et al. Multi-relational matrix factorization using bayesian personalized ranking for social network data [C]. Proceedings of the fifth ACM International Conference on Web Search and Data Mining. Washington：Seattle，2012：173-182.

[5]Jain G，Mishra N，Sharma S. CRLRM：Category based recommendation using linear regression model[C]. Proceedings of the 2013 Third International Conference on Advances in Computing and Communications. India：Cochin，2013：29-31.

[6]鄭云飛，夏帥，譚武坤. 基于用戶的農(nóng)產(chǎn)品協(xié)同過濾推薦系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J]. 農(nóng)業(yè)網(wǎng)絡(luò)信息，2014，10（9）：49-53.

[7]李冰潔，丁疆輝. 冀中南地區(qū)農(nóng)村居民電子商務(wù)應(yīng)用及其空間影響[J]. 江蘇農(nóng)業(yè)科學(xué)，2016，44（4）：572-577.

[8]王爍. 云環(huán)境下個(gè)性化農(nóng)業(yè)產(chǎn)銷信息匹配推薦系統(tǒng)的研究和實(shí)現(xiàn)[D]. 北京：中國農(nóng)業(yè)科學(xué)院，2014：18-22.

[9]王崇，李一軍. B2C環(huán)境下基于多屬性效用理論的消費(fèi)者行為模式[J]. 系統(tǒng)管理學(xué)報(bào)，2010，19（1）：62-67.

[10]Moors G. Ranking the ratings：a latent-class regression model to control for overall agreement in opinion research[J]. International Journal of Public Opinion Research，2010，22（1）：93-119.

[11]許棣華，王志堅(jiān)，林巧民，等. 一種基于偏好的個(gè)性化標(biāo)簽推薦系統(tǒng)[J]. 計(jì)算機(jī)應(yīng)用研究，2011，28（7）：2573-2575.

[12]Gan M. Cousin：a network-based regression model for personalized recommendations[J]. Decision Support Systems，2015，26（8）：361-373.

[13]Thiene M，Galletto L，Scarpa R，et al. Determinants of WTP for prosecco wine：a latent class regression with attitudinal responses[J]. British Food Journal，2013，115（2）：279-299.

[14]Zhang Y. Analysis and comparative of e-commerce personalized recommendation[J]. Journal of Chemical and Pharmaceutical Research，2014，55（2）：6762-6765.

[15]Kuang G，Li Y. Using fuzzy association rules to design e-commerce personalized recommendation system[J]. Telkomnika Indonesian Journal of Electrical Engineering，2014，12（2）：321-332.李晨曦，吳克寧，劉霈珈，等. 土地利用變化及社會(huì)經(jīng)濟(jì)驅(qū)動(dòng)因素——以京津冀地區(qū)為例[J]. 江蘇農(nóng)業(yè)科學(xué)，2017，45（12）：279-283.endprint

江蘇農(nóng)業(yè)科學(xué)2017年12期

江蘇農(nóng)業(yè)科學(xué)的其它文章: 海南島八門灣紅樹林沉積物重金屬有效態(tài)空間分異特征; 荊半夏葉柄一步成苗組培快繁體系的優(yōu)化; 農(nóng)桿菌介導(dǎo)FaCBL1基因轉(zhuǎn)化紅顏草莓的研究; 秸稈改良茶園土壤對(duì)氮磷吸附特性的研究; 脫硫石膏改良土壤過程中的磷遷移規(guī)律及影響因素分析; 亞洲百合不定芽的誘導(dǎo)及再生植株的建