(揚州大學 信息工程學院,江蘇 揚州 225127)
基于BP神經網絡的用戶評論意愿預測研究
李丹丹,李亞琴,朱雨晴
(揚州大學 信息工程學院,江蘇 揚州 225127)
本文基于BP神經網絡建模、預測電商平臺用戶評論意愿,測試結果表明BP網絡可以很好地用于用戶評論意愿建模和預測。
BP神經網絡;用戶評論;意愿;預測
隨著web2.0技術的廣泛應用,用戶生成內容的網絡社區得到了前所未有的快速發展,但同時我們注意到在電商平臺的用戶往往在購物前樂意參考其他用戶分享的消費體驗,而不愿意主動貢獻自己的購物經驗。對于電商企業和電商平臺而言,如何有效識別用戶分享購物體驗或消費評論背后的動因,具有非常重要的理論和實踐意義。基于此,本研究試圖運用神經網絡的方法識別預測用戶評論意愿。
神經網絡模型是一種基于機器學習的非參數回歸方法,可以較好地處理非線性問題,具有適用面廣,抗噪能力強的特點,無需假定變量的分布,適合解決無先驗分布假定條件下的預測問題。現有研究表明,影響電商平臺用戶在線消費評論意愿的因素眾多(如電商平臺技術因素、用戶心理因素、社會因素、跨文化因素等),運用傳統的統計回歸分析方法往往很難達到預期的分析目的,而BP神經網絡模型的自身特征和較強的學習功能,通過對歷史數據樣本的學習,掌握預測對象與影響因素之間的函數映射關系,能夠較好地達到評估預測電商平臺用戶在線消費評論意愿傾向的研究目的,同時還可用于分析不同影響因素的重要性程度。本文將集中運用神經網絡強有力的學習和聯想泛化能力,在電商平臺用戶在線消費評論系統中運用BP神經網絡來建模,以甄別不同用戶評論意愿。
1、數據預處理
本文根據現有相關研究結果,以九個影響因素:感知有用性(PU)、感知易用性(PEOU)、互惠(RE)、聲譽(REP)、社交(SI)、樂于助人(EH)、感知樂趣(FE)、經濟報酬(ER)和評論成本(RC)作為自變量,評論意愿(INT)為因變量,樣本采用用戶評論意愿問卷調查取得的中美兩國用戶數據。在對所有變量相應測度項的值取平均后,對數據進行歸一化(標準化)處理。處理的目的是將輸入輸出數據限制在[0,1]區間內。常用的變換式為:
式(2-1)中,Xi表示輸入或輸出數據,Xmin表示輸入(出)數據的最小值,Xmax表示輸入(出)數據的最大值。
本文為便于評估電商平臺用戶在線消費評論意愿,對評論意愿因變量測度項值取平均后的數值,重新進行了分類和編碼。將用戶評論意愿分為兩類:愿意和不愿意,凡均值小于4的表示不愿意(重新用編碼“0”表示),凡均值大于等于4的表示愿意(重新用編碼“1”表示),數據處理后的評論意愿因變量用符號BPint表示。
2、網絡參數設置
(1)網絡結構。BP神經網絡往往由網絡結構(神經元間的連接)、激活函數和學習規則決定。本研究以九個影響因素(自變量)為神經網絡的輸入層神經元節點,用戶評論意愿(INT)為因變量即目標輸出層,輸出層節點數為2(本文將評論意愿與否,設為二值分布),建立用戶在線消費評論意愿神經網絡預測模型。網絡結構往往較難確定,其中輸入層和輸出層節點數根據影響因素和研究目的確定即可,而隱含層節點數的確定則相對較困難,因為隱含層神經元節點數過多可能出現網絡過度擬合現象,如果神經元節點數過少的話,則可能出現網絡無法達到學習收斂性與函數逼近精度的要求。目前隱含層節點數確定常采用試湊法,即從較少的隱含層節點數開始,然后逐漸增加節點數訓練網絡,從中選擇網絡誤差最小時對應的神經元節點數。在試湊時也可以借助于一些經驗公式來粗略估計節點數,常用的幾種估算隱含層神經元節點數的經驗公式有:

上式(2-2)、(2-3)和(2-4)中,m為隱含層神經元節點數,n為輸入層神經元節點數,L為輸出層神經元節點數,a為1~10間的常數。對隱含層數的確定,通常先考慮設一個隱含層,當一個隱含層的神經元節點數很多仍不能改善網絡性能時,才考慮再增加隱含層數量。本文經過多次試驗,發現當一個隱含層且其神經元節點數為7時,網絡具有很好的學習收斂效果,并且誤差最小。
根據現有文獻對電商平臺用戶在線消費評論意愿影響因素的研究,結合BP神經網絡特點,本文最終采用快速訓練法的網絡結構:輸入層神經元節點數n為9,一個隱含層,其神經元節點數m為7,輸出層節點數L為2,即9-7-2的網絡結構。
(2)激活函數。根據本研究樣本數據特點,本文輸入層到隱含層的傳遞函數采用S型雙曲正切函數(tanh-sigmoid)。由于本研究的因變量為分類變量,所以隱含層到輸出層的激活函數選用柔性最大值函數(Softmax),以柔化輸出值,減小值之間的差。
(3)學習規則。為確保模型的泛化能力,本研究采用調整的共軛梯度優化算法,允許誤差為 (即訓練錯誤的最小相對變化),最初學習率為0.4。
3、網絡測試
本文運用SPSS神經網絡分析功能中的多層感知器(multilayer perception, MLP)方法評估預測電商平臺用戶在線消費評論意愿。為防止網絡訓練過度,將中國和美國樣本數據隨機分成訓練集、測試集和驗證集三部分。其中訓練集主要用于估計網絡參數,進行網絡建模,測試集主要用于防止網絡訓練過度,而驗證集則用于檢驗評估最終網絡模型。
由于本研究樣本數據量相對較少,因此采用批處理的訓練方法,以使總誤差最小。相應地采用調整的共軛梯度優化算法估計權重值。中國和美國樣本網絡訓練結果見表1,對于中國樣本,表1中表明123位愿意發表評論的受試用戶中有115位分類正確,42位不愿意發表評論的受試用戶中有28位分類正確,整體上86.7%訓練個案分類正確,三部分樣本的錯誤預測率大致相同(10%左右);而對于美國樣本,64位愿意發表評論的受試用戶中有56位分類正確,38位不愿意發表評論的受試用戶中有22位分類正確,整體上76.5%訓練個案分類正確,三部分樣本的錯誤預測率大致相同(20%左右)。
本文基于BP神經網絡預測電商平臺用戶評論意愿,結果表明BP網絡可以很好地用于用戶評論意愿建模和預測。這對于電商企業和平臺充分利用和合理激勵用戶參與消費評論,從而促進商品銷售,具有非常重要的實踐意義。
[1] 李亞琴.電商平臺用戶在線評論意愿研究[D].南京大學,2016.
[2] (澳)尼格內維特斯基.人工智能:智能系統指南(英文版第2版)[M].北京:機械工業出版社,2005: 176-188.
[3] 韓力群.人工神經網絡教程[M].北京:北京郵電大學出版社,2006: 74-75.
(責任編輯:高 博)
揚州大學2016年大學生學術科技創新基金項目,“社會化商務平臺用戶在線消費推薦意愿研究”,項目編號:20160412;“電商平臺用戶評論意愿影響因素研究”,項目編號:20160443。
李亞琴