融合口碑和地理位置的競爭關系量化模型*

2020-05-13 04:51:42李艾鮮喬少杰元昌安

計算機與生活 2020年5期

關鍵詞：模型

李艾鮮，喬少杰，韓楠，元昌安，黃萍，彭京，周凱

1.成都信息工程大學網(wǎng)絡空間安全學院，成都 610225

2.成都信息工程大學軟件工程學院，成都 610225

3.成都信息工程大學軟件自動生成與智能服務四川省重點實驗室，成都 610225

4.成都信息工程大學管理學院，成都 610103

5.南寧師范大學，南寧 530001

6.四川省公安廳，成都 610014

1 引言

識別競爭對手、量化競爭關系是幫助企業(yè)、商家保持核心競爭力的重要方法[1]。現(xiàn)有研究通過專利挖掘[2-3]、用戶評論[4-5]挖掘等方法識別競爭對手，鮮有競爭關系量化研究。翟東偉[6]構(gòu)建主題-機構(gòu)模型對專利機構(gòu)的主題和競爭關系進行分析。Rodriguez 等人[7]提出了一種基于圖形核的度量方法識別競爭對手。陳元等人[8]從Web 用戶評論中構(gòu)建企業(yè)競爭情報挖掘模型獲取企業(yè)產(chǎn)品競爭情報。聶卉等人[9]通過Word2Vec 結(jié)合依存語法分析在線評論進行領域特征詞典構(gòu)建和用戶觀點抽取。上述工作僅實現(xiàn)了競爭情報的挖掘和競爭對手的識別，不能反映出實體間競爭關系的強弱。Yang 等人[10]提出主題因子圖模型來量化推斷企業(yè)間的競爭關系，但采用半監(jiān)督學習方法，其實用性有限。上述研究均未考慮地理位置對競爭關系的影響，顯然存在局限。

研究動機：口碑傳播已被證明對消費者的購買決策起著重要的作用[11]。通過融合消費者口碑與地理位置信息進一步改進現(xiàn)有競爭關系挖掘方法，提升模型的實用性、客觀性和準確性。電商企業(yè)可以將本文提出的新方法應用于評論特征抽取、評論內(nèi)容中的企業(yè)競爭對手識別，將競爭關系發(fā)現(xiàn)與量化輸出相結(jié)合，克服傳統(tǒng)的競爭關系挖掘方法不考慮地理位置信息影響的缺點。融合消費者口碑和實體空間位置兩大因素，科學地量化實體間競爭關系。

2 理論基礎

本文中定義的實體包括但不限于企業(yè)、商店、餐廳等。首先給出競爭關系網(wǎng)絡的定義。

定義1（競爭關系網(wǎng)絡）網(wǎng)絡G=(V,E,S,L)，V是實體的集合，E?V×V表示實體間的關系，S表示該實體所有消費者的評論，L代表實體的地理位置。

定義2（實體主題模型）實體的全部消費者評論集合θd的主題模型是單詞{P(w|θd)}的多項分布。一個餐廳ei的所有消費者評論是從餐廳的主題模型θd中抽樣形成的。

定義3（困惑度[12]）用來度量一個概率分布或概率模型預測結(jié)果的好壞程度，定義如下所示：

其中，p(w)表示LDA（latent Dirichlet allocation）模型中任意一個詞w的概率，定義為：

式（2）中，w代表詞，z代表主題，d代表文檔，N表示測試集中出現(xiàn)的所有詞的數(shù)量（不排重）。p(z|d)表示從文檔d抽取主題z的概率值，p(w|z)表示從主題z中抽取詞w的概率值。因為LDA 是詞袋模型，困惑度是語料庫的極大似然估計，即所有詞的概率乘積，因此對于未知分布的數(shù)據(jù)集，其困惑度的值越小，說明主題模型越好，記錄該條件下LDA 主題模型取得的主題數(shù)量為K（K為最優(yōu)值）。

定義4（空間相鄰關系）當兩個實體在地理空間中的最短路徑小于或等于給定閾值ξ時，稱兩個實體空間相鄰，用neighbor表示，定義如下：

當空間中兩個實體滿足式（3）時，說明空間中的實體對象ei和ej相鄰。

3 競爭關系量化

本文基于消費者口碑（用戶評論）和地理位置信息設計了LTM（location &topical model）模型，量化實體間競爭關系，輔助實體進行商業(yè)決策。

3.1 消費者口碑主題提取

消費者口碑是由消費者評論文本構(gòu)成的文檔數(shù)據(jù)，LDA 模型將主題視為詞匯的概率分布，文檔是主題的隨機混合[13]。本文通過LDA 主題模型提取實體消費者評論的主題與主題詞。根據(jù)主題模型提出的主題和主題詞分布，綜合咨詢專家意見和評價，建立“主題-特征”規(guī)則。依次對所有口碑評論進行規(guī)則匹配，統(tǒng)計規(guī)則匹配頻率計算口碑相似度。

本文把實體i記為ei，其對應的所有消費者口碑評論視為一篇文檔。假設有n個實體，那么對應n篇文檔。假設有K個主題，則實體i的文本中的第j個詞匯wij可以表示為：

式中，d為n篇文檔的集合，zi是潛在變量，代表第j個詞匯標簽wij取自該主題，p(wij|zi)是詞匯wij屬于主題zi的概率，p(zi|d)表示給定主題zi屬于當前文本的概率。

主題提取先統(tǒng)計d中出現(xiàn)過的詞匯（不計重）W，制作詞匯表，現(xiàn)假設K個主題形成D個文本，以W個唯一性詞匯表示，記φk=p(wij|zi=k)為主題zi下W個詞匯的多項分布，其中wij是W個唯一性詞匯表中的詞匯。記θn=p(zi|d)為文檔d在K個主題上的多項分布。于是，文檔d中詞匯w的概率可表示為：

LDA 模型在上作Dirichlet(α)的先驗概率假設，在上同樣作Dirichlet(β)的先驗假設，得到LDA 模型各層參數(shù)之間依賴關系的數(shù)學表述[14]如下：

LDA 主題提取模型需要給定數(shù)據(jù)集和主題的數(shù)量K，根據(jù)定義3 采用困惑度來確定K的取值。

3.2 消費者口碑相似度量化

在消費者口碑中，競爭關系越大的實體，其消費者的評論相似度越高。某商店消費者評論出現(xiàn)頻率最高的詞匯是“好喝”“干凈”“服務”，其中“好喝”是針對奶茶口味，“干凈”是針對設備，“服務”是針對店鋪環(huán)境的。相似評論說明：在A 商店消費的消費者，有很大可能會在與A 相似度高的B 商店消費。因此需要對消費者口碑進行相似度量化。

根據(jù)主題模型建立“主題-特征”規(guī)則。依次對n篇文檔利用式（6）進行規(guī)則匹配。

“主題-特征”在本文檔中出現(xiàn)則為匹配成功，否則為失敗。以某一餐廳的評論為例，存在規(guī)則“foodnice”，則在該餐廳的所有用戶口碑評論中搜索“foodnice”是否同時存在，若存在則匹配成功，score=1；反之失敗，score=0 。為了得每個實體的規(guī)則匹配分數(shù)，設計打分函數(shù)Sei：

式（7）為統(tǒng)計匹配成功的頻率，式中ei代表第i個實體用戶評論數(shù)據(jù)，作為函數(shù)的輸入；R代表規(guī)則數(shù)量；D代表規(guī)則數(shù)量；ni表示ei中詞的數(shù)量；scored代表第i個實體匹配規(guī)則r后得到的分數(shù)。匹配完D個規(guī)則后，實體i獲得一個分數(shù)score。

式（8）用于計算用戶評論相似度。simij表示實體i與j的相似度。sim值越小，說明實體相似度越大。

算法1消費者口碑量化算法

算法1 的基本思想為：LDA 主題提取過程（第1行～第10 行），從參數(shù)為α的Dirichlet 分布中抽樣生成第i個文檔ni的主題分布θn；從參數(shù)為β的Dirichlet 分布中抽樣生成第k個主題的詞分布φk；對于每一個詞wij及其所屬主題zi，首先從多項式分布θn中抽樣得到zi=p(zi|θn)，然后從多項式分布φk中抽樣得到wij=p(wij|zi,φk)；求口碑相似度（第11 行～第15 行）。算法中的采樣方法為Gibbs 采樣[15]。參數(shù)說明如表1 所示。

Table 1 Parameters and description of algorithm 1表1 算法1 參數(shù)及說明

時間復雜性分析：算法1時間復雜度為O(K×N)，其中K表示主題數(shù)量，N表示文檔的總數(shù)。

3.3 地理位置相似度量化

本節(jié)設計了符合地理位置屬性在實際生活中對競爭關系影響特點的相似度量化函數(shù)。dis是距離矩陣，disij表示餐廳i與餐廳j之間的距離。算法的核心是將具有相似距離關系的餐廳聚集到一起，并賦予它們相同的影響因子α，最終由實體距離影響力量化函數(shù)M(disij)輸出實體距離影響力量化結(jié)果。

根據(jù)定義4，以存在相鄰關系的實體i、j的相鄰關系neighbor(ei,ej)作為聚類的初始值，使用KNN（Knearest neighbor）算法對實體的經(jīng)度緯度進行聚類得到n個簇，記為C，C={C1,C2,…,Cn}。實際生活中，距離的遠近將影響實競爭關系的強弱。把地理位置具有相似的點聚集到一起，同一個簇內(nèi)，在地理位置屬性上存在相似關系。不同的簇則相似性較弱。在互聯(lián)網(wǎng)中，相距較遠的實體也可能存在競爭關系。以美團為例，理發(fā)店A 和理發(fā)店B 相距5 km，但其主營業(yè)務一樣，任然存在競爭關系。單純地考慮距離來評價競爭關系會夸大距離對結(jié)果的影響，這顯然是不合理的，因此本文引入地理位置屬性影響因子α={α1,α2,…,αn}，定義如下：

式中，Ci為簇i內(nèi)點的數(shù)量，n表示簇的數(shù)量。α的作用包括：（1）調(diào)整距離對競爭關系的影響，強化簇內(nèi)競爭關系，弱化簇間競爭關系；（2）給相似點賦相同的權(quán)重值，簡化參數(shù)。

由實體距離影響力量化函數(shù)：

輸出實體距離影響力量化結(jié)果，式（10）中disij表示一個二維矩陣，矩陣的行代表實體ei，矩陣的列代表實體ej，矩陣第i行第j列存放ei到ej的距離。M(disij)值越小，說明競爭關系越強。

3.4 LTM 模型

在圖G=(V,E,S,L)中，矩陣E中的值表示競爭關系的強弱。本文提出競爭關系量化函數(shù)φij，融合3.1節(jié)及3.2 節(jié)消費者口碑量化結(jié)果simij、實體地理位置屬性影響力量化結(jié)果M(disij)，其公式為：

Eij表示實體i與實體j競爭關系歸一化結(jié)果：

競爭關系量化算法參數(shù)說明如表2 所示。

Table 2 Parameters and description of algorithm 2表2 算法2 參數(shù)及說明

算法2競爭關系量化算法

算法2 工作原理：計算競爭關系量化值φij（第1行～第5 行）；查找φij中的最大值（第6 行），查找φij中的最小值（第7 行）；對競爭關系量化結(jié)果進行歸一化處理（第8 行～第12 行）。

時間復雜性分析：通過分析算法2，可知其時間復雜度為O(N2)，N表示實體數(shù)量。

4 實驗結(jié)果與分析

實驗使用的數(shù)據(jù)為美國肯塔基州北部的城市Louisville地區(qū)Yelp網(wǎng)站上的餐廳數(shù)據(jù)，包含2 375個餐廳ID 及其地理位置屬性和66 156 條用戶評論。實驗硬件平臺為：Intel?CoreTMi5-4200M CPU 2.50 GHz，操作系統(tǒng)平臺為Windows 10。

4.1 主題提取與相似度計算

在主題提取階段，通過多次迭代得到困惑度變化曲線，并確定最佳主題數(shù)。實驗中發(fā)現(xiàn)輸入相同主題數(shù)，困惑度會有細微的波動。因此同一主題數(shù)采用多次實驗取均值得到一條穩(wěn)定的困惑度曲線。

如圖1 所示，當主題數(shù)量為60 時，困惑度曲線穩(wěn)定收斂，說明該條件下模型對于實驗數(shù)據(jù)集中的有效信息擬合較好，因此最佳的主題數(shù)取值為60。

Fig.1 Curve of perplexity圖1 困惑度曲線

根據(jù)主題提取結(jié)果，經(jīng)過咨詢領域?qū)＜遥喜⑾嗨浦黝}后，得到如表3 所示的規(guī)則。

Table 3 Rules table of“Topic-Feature”表3“主題-特征”規(guī)則表

通過3.2 節(jié)的方法對數(shù)據(jù)集中的2 375 個餐廳進行打分，本文以其中5 家餐廳為例，結(jié)果如表4 所示。根據(jù)式（8）計算餐廳之間的相似度，矩陣的行數(shù)表示i實體，列數(shù)表示j實體，simij表示餐廳i和餐廳j的消費者口碑相似度。

4.2 競爭關系量化

以表4 所述餐廳為例根據(jù)定義4 計算餐廳i與餐廳j之間的距離，實驗將閾值θ設置為1 000 m，則數(shù)據(jù)中具有neighbor關系的點有20 個。實驗中采用KNN 聚類算法，使用歐氏距離作為度量函數(shù)，把地理位置屬性相似的餐廳聚為一類，重復20 次，選聚類結(jié)果和neighbor關系點重合度最高的結(jié)果作為實驗的聚類結(jié)果。根據(jù)聚類結(jié)果，由式（9）計算得到α值，其值是簇內(nèi)的餐廳距離計算的權(quán)重，實驗中簇與簇之間的α取0.02。

Table 4 Rating score of rules matching表4 規(guī)則匹配評分表

根據(jù)式（10）計算餐廳競爭關系地理位置屬性影響力量化結(jié)果M(disij)。根據(jù)3.4 節(jié)所提方法，得到最終的餐廳間競爭關系量化結(jié)果。可視化數(shù)據(jù)集中前5 個餐廳之間的競爭關系，如圖2 所示。

Fig.2 Visualized results of competitive relationship圖2 競爭關系量化結(jié)果

使用僅考慮口碑對競爭關系影響的TM（topical model）模型進行對比實驗，其結(jié)果如圖3 所示。

Fig.3 Comparison results of TM and LTM models圖3 TM 與LTM 模型對比實驗結(jié)果

圖3 橫軸Rij代表餐廳i與餐廳j進行比較，縱軸Eij代表餐廳i與餐廳j的競爭關系量化結(jié)果，由于篇幅限制圖3 僅給出實驗的前10 個量化結(jié)果。通過圖3 可以發(fā)現(xiàn)：（1）TM 模型曲線波動很大，說明僅僅靠用戶口碑評論量化競爭關系容易會出現(xiàn)極端情況；（2）以第5 個點和第6 個點為例，餐廳之間的競爭關系幾乎為0，這顯然不符合日常規(guī)律。因此僅僅靠口碑量化競爭關系是不準確的，因為同類餐廳的用戶評論用詞的重合度容易出現(xiàn)極端情況，不能很好地描述餐廳實際的競爭關系。圖3 中LTM 模型在考慮地理位置屬性后，對競爭關系的刻畫符合實際情況。以Yelp 網(wǎng)站而言，不論餐廳在城市的哪個角度，都不應該出現(xiàn)競爭關系為0 的情況，因為消費者完全可以驅(qū)車前往，即使是相距很遠的餐廳也應該存在競爭關系。綜上，LTM 模型能較好地刻畫餐廳之間的競爭關系。

5 結(jié)束語

本文考慮消費者口碑和實體地理位置屬性，提出LTM 模型，量化表達消費者口碑和地理位置屬性對實體競爭關系的影響。未來的研究工作包括：（1）進一步挖掘?qū)嶓w競爭關系影響因素，例如時間屬性對競爭關系的影響；（2）現(xiàn)有競爭關系量化算法存在大量重復計算，設計新的算法降低時間復雜度，提升時間效率。