梁家富, 李家華
(廣州科技職業技術大學 信息工程學院, 廣東, 廣州 510550)
隨著互聯網的快速發展,社交媒體飛速成長,大量的外賣評論產生。外賣評論留言與商家的銷量存在巨大的利益關系,誘發個別商家通過違規手段構建虛假評論。虛假評價迷惑性大,消費者難以識別,會誤導消費者進行網上點餐。當前,外賣餐飲一般都是采用人工統計的方式收集,無法適應大規模評論的精確統計要求。為了構建公平的外賣環境,迫切需要一種自動化的手段收集外賣評論信息并判斷信息虛假性質,壓制外賣購買的虛假評論,維持公平穩定的外賣環境。
很多學者對本文評價數據進行了大量虛假測評和研究分析。岳文應[1]提出了基于Doc2Vec與SVM整合的文本聚類模型,對象是聊天信息的檢測,判別信息虛假性和判斷該信息是否被阻擋。黃欣欣[2]利用Ott黃金數據集,基于word2vec和CNN結合,構建CNN模型結構,生成CNN模型。王晨超[3]提出采用Doc2vec和DNN結合模型對語料文本進行聚類分析。
本文在隨機森林模型的基礎上,融合在探究詞義相關上有優越性的Doc2vec句向量,提出一種新的基于RF模型和句向量的文本表示方式——隨機森林句向量模型(Doc-RF)。這模型保留了RF模型的優勢,同時增加了文本詞義信息。Doc2ve在通過訓練文本的短語,結合上下文的段落向量,可以準確解析不同語境中的詞語義,再與隨機森林模型對文本整體性集合,全面地提高文本模型在語義環境研究中的精度[4]。
2014年Mikolov團隊在Word2vec算法的理論基礎上提出改進的Doc2Vec模型,Word2vec模型的基本理論是:依據上下文的詞語進行預測下一個詞語出現的幾率。Word2vec模型如果給定上下文的訓練集,通過訓練得到詞向量,將詞向量級聯或者求和作為特征值,可以預測下一個詞語出現概率[5]。公式如下:
(1)
如果計算的是多分類問題,預測需要分類器最后一層使用層次(softmax),目標公式如下:
(2)
這里eywi是對數函數,把每個單詞當作一個類別,任務輸出層的每個詞的計算公式如下:
y=a+bf(wn-k,…,wn+k;W)
(3)
其中,a和b都是softmax參數,函數f則是wn-k,…,wn+k從詞向量矩陣W中的級聯或者求平均。
Doc2Vec與Word2vec應用近似,Doc2Vec訓練對象是句向量,Word2vec訓練對象是詞向量[6]。Doc2Vec模型增加一個段落向量paragraph id,它的長度與詞向量相等,具有固定長度,具有對新鮮樣本更好的適應能力。Doc2Vec有兩種模型:Distributed Memory (DM)和Distributed Bag Of Words(DBOW)。DBOW是基于目標單詞預測上下文出現的概率,而PV-DM是從已知的上下文預測目標單詞[7]。本文采用PV-DM進行研究,如圖1所示。

圖1 PV-DM向量模型

(4)
式中,X隨著參數j變動,導致袋外誤差增加越快,精度減小得越大,則表示該參數越重要。研究現有成果得到,隨機森林算法可以防止刪除重要的參數。
本質上RF模型就是一種決策樹,通過對分類樹的邊和節點進行甄辨,得到預測目標。隨機森林算法流程如圖2所示。

圖2 隨機森林算法流程
隨機森林模型在數據噪聲大時會出現擬合情況,選用的屬性過多會影響RF的結果。Doc2Vec算法具有較好的泛化能力,能以局部特征預測下一個詞語,生成精準的段落向量數據集[9]。因此,將Doc2Vec的局部泛化信息與隨機森林模型高效的集成信息融合進行訓練向量學習,使Doc2Vec_RF既充分使用全部語料庫的內容,又保留段落與文檔上下文的相關語義,新的詞向量擁有更精確的自然語言處理甄別能力和預測能力。
Doc-RF模型如圖3所示。它是由文本預處理、文本向量構建和隨機森林預測評分三個階段構成。

圖3 Doc-RF模型總體框架
文本預處理階段,主要是對外賣評價預料庫通過AliWS(Alibaba Word Segmenter)詞法分析系統、停用詞過濾和增加序列號等方式進行數據預處理。文本向量構建階段,Doc-RF模型是文檔、段落主題、單詞組成的高維語義空間,外賣評價語料庫是一系列獨立的評價語句組成,把每句評價句子采用Doc2Vec模型進行訓練得到文本向量。RF預測評分階段,就是充分利用本文向量拆分、RF訓練和預測功能完成預測評分。最后,使用混淆矩陣進行模型的評估。

Doc-RF模型的總體框架的訓練過程其步驟可總結如下。
(1) 對外賣評價數據集進行數據預處理,采用AliWS詞法分析系統,對數據集的評價內容列進行分詞。
(2) 基于停用詞數據集使用停用詞過濾組件對外賣評價內容預處理,得到語料庫DOC文檔。
(3) 在語料庫中添加段落號append_id,滿足Doc2Vec算法的基本要求。
(4) 利用Doc2Vec算法進行短文本分析,得到語料庫的短文本向量表,通過join內連接,把短文本向量表和評價內容列合并,組成新的短文本向量表。
(5) 使用拆分組件采用“按比例拆分”0.7比例進行切分短文本向量表,得到兩份文本向量表。大比例的向量表是提供給隨機森林模型進行訓練學習的,小比例的向量表是用了預測驗證使用。
(6) 采用隨機森林算法對大比例向量表進行模型生成,得到由各100個子樹組成的森林模型。
(7) 利用預測組件對RF訓練結果開展預測評分,得到預測向量表。
(8) 最后使用混淆矩陣組件對向量表進行統計分析,得到預測結果數據和評估報告。
本實驗的開發環境采用阿里云機器學習PAI實驗室,模型開發與訓練使用Studio-PAI可視化建模平臺,大數據計算機服務使用MaxCompute平臺。使用的數據集來自阿里云天池實驗室對外開放的公共數據,數據集的內容是外賣評論數據庫。本項目的數據集由兩部分構成,一是語料庫共11 987條,二是停用詞庫共746條。外賣評論數據庫如圖4所示。

圖4 外賣評論數據庫
訓練集經過停用詞過濾和增加序列號等處理后,語料庫采用Doc2Vec算法訓練詞向量,向量模型的參數設定如:單詞的特征緯度一般是[0,1 000],本文采用100;語言模型本文采用cbow模型;單詞窗口大小為5;截斷的最小詞頻為5;采用Hierarchincal Softmax;Negative Sampling設定為5;向下采樣值一般是1e-3或者1e-5,本文取值為1e-3;開始學習速率0.025;訓練的迭代次數為1;windows是否隨機,本文采用“不隨機,其值有Windows參數指定”。訓練集經過Doc2Vec運行之后,輸出的文本向量表。
隨機森林模型的參數設置如:森林中樹的個數(0,1 000],本文采用100;單棵樹在森林中的位置,采用id3、cart、c4.5算法在森林中均分;單棵數隨機特征數范圍[1,N],采用log2N;葉結點數據的最小個數為2;葉結點數據個數占父節點的最小比例[0,1],設為0;單棵樹的最大深度[1,∞),設為默認無窮大;單棵樹輸入的隨機數據個數(1 000,1 000 000),設為100 000。經過Doc-RF模型訓練后生產f0-f99棵子樹,其中f0子樹結構如圖5所示。

圖5 Doc-RF模型下f0子樹結構
本項目模型使用F-measure(F1)對外賣評價預測效果進行綜合評價,F1就是一個綜合衡量準確率(Precision,P)和召回率(Recall,R)的metric[10]。采用正確率、召回率和F1等評價指標來衡量模型的效果,對應公式如式(5)~式(7):
(5)
(6)
(7)
本文為了進一步驗證Doc-RF模型對外賣評價方面的預測作用,本文選取幾種經典的算法與Doc-RF算法進行橫向比較。經過篩選,本文選用邏輯回歸二分類、GBDT二分類、SVM以及樸素貝葉斯作為比較算法。性能評價指標主要是正確數、錯誤數、總計、準確率、精確率、召回率和F1指標。在保證其他操作一致的條件下,進行了5種算法的實驗。實驗結果見表2。

表2 五種預測方式的實驗結果
分析表2可知,使用邏輯回歸二分類、GBDT二分類、RF、SVM和樸素貝葉斯算法進行外賣評價時,在準確率和召回率上差異不是特別大。
(1) 在正確數指標中,SVM算法以2 326正確數排行第一,與此同時SVM算法在錯誤數指標中也是排行第一,這是因為SVM算法的召回率高達97.00%,參與運算的數據總計3 240也是第一的。
(2) 在精確率上,GBDT二分類算法以78.99%占據第一名。
(3) 在準確率上,隨機森林算法以78.60%的準確率排在榜首。在F1綜合指標中,隨機森林算法F1指標值為85.42%以微弱的優勢排在第一位。
綜上所述,隨機森林算法在外賣評價預測系統中比邏輯回歸二分類、GBDT二分類、SVM和樸素貝葉斯算法更優,符合外賣評價預測系統的設計要求。
本文提出了一種基于隨機森林和Doc2Vec算法的外賣評價預測模型,使得該模型既能結合數據集的全局信息,又利用段落向量在上下文的相關性,通過隨機森林算法較精確地預測外賣評價的語義信息。Doc2Vec模型依據段落特征從外賣評價數據集中提取出詞語義信息,建立段落向量和詞向量之間的相關性,采用隨機森林算法分類樹的預測優勢,得到預測的混淆矩陣評估報告。實驗說明,基于隨機森林模型的預測效果優于邏輯回歸二分類、GBDT二分類、SVM和樸素貝葉斯等模型,應用性更強,能夠解決外賣評價的虛假質量問題。