丁文強,苗 虹
(江蘇科技大學經濟管理學院,江蘇 鎮江 212003)
隨著信息技術的不斷發展,應用程序(APP)如雨后春筍般出現在各大應用市場中,APP 開發者之間的競爭異常激烈。應用市場允許開發者發布以及用戶購買、下載、評論APP,用戶可以根據使用體驗給APP 打出最低1 星、最高5 星的評分。Palomba 等[1]研究表明,星級評分和用戶評論對開發團隊的盈利有重大影響,低星級的APP 往往很難在應用市場中生存下來,大量優質評論能使APP 獲得更高曝光度,負面評論則會使開發者面臨損失。研究表明,當評論數量達到一定規模時,低認知需求用戶受評論數量的影響較大,高認知需求用戶受評論質量的影響較大[2];而對于體驗型產品而言,評論數量對用戶的影響更為明顯[3]。因此,開發者通常會通過推出試用版本的方式積累原始用戶,通過擴充功能、進階增值服務等方式獲得盈利。
在互聯網時代,越來越多的用戶愿意通過在線評論的方式分享自身使用體驗,這些評論包含大量有價值的信息。潛在用戶除了通過開發者介紹的信息了解APP 外,還會借助用戶評分進行決策,在線評論成為其獲取信息的重要來源[4-5]。然而,不少消費者都有過給出好評等級卻寫出負面評論的經歷,消費者擔心給出差評會受到賣家的報復,從而違心給出正面評價[6]。評論星級與文本之間的不一致性使得高星級評論中也有著差評的存在,用戶的識別難度大大增加[7]。鑒于此,本文擬探究用戶是否會對開發者在試用版本后推出增值收費服務等營利行為作出負面評價,以及新版本軟件的功能、質量與開發團隊推送頻率等對用戶差評意愿的影響。
文本挖掘是從文本中提取出高質量信息的過程,其應用多集中在商品以及企業產品評價方面。目前,有許多學者面向APP 評論進行文本挖掘研究,例如胡甜媛等[8]將評論體現的反饋定義為軟件滿足的需求、存在的問題以及未達到的期望,通過構建評價對象與評價觀點抽取規則,有效挖掘體現使用反饋的APP 用戶評論;呂宏玉等[9]針對APP 用戶特性,提出基于挖掘范圍識別和關聯規則的APP評論特征方法;張莉曼等[10]從APP 用戶需求表達狀態和表達過程出發,剖析用戶需求的3 種表達形式,從用戶生成數據中聚合需求信息,生成高價需求情報,然后再推送給需求者;Zhou 等[11]以亞馬遜生態系統為例,利用LDA 模型提取與客戶需求相關的主題,并使用KANO 模型對客戶需求進行定量分類;Kim 等[12]利用LDA 模型對Twitter 用戶發布的信息進行挖掘,從而更加高效地對用戶進行好友推薦和內容推送;王欣研等[13]提出學術APP 在線評論主題語義關聯研究方法,基于詞向量相關性獲得主題語義關聯,構建語義關聯圖譜,為APP 平臺運營者完善功能提供了參考依據。以上研究多從用戶需求和軟件特征的角度進行文本挖掘。本文嘗試從開發者的角度分析評論文本,通過開發者將應用免費上架后再向用戶推送付費版本這一行為,研究用戶作出負面評價的影響因素。
本文研究框架如圖1 所示。首先采集APP 的用戶評論,對數據進行預處理;然后從用戶評論集中人工篩選出500 條好評和500 條差評,分為訓練集和測試集,采用邏輯回歸模型進行評論分類,篩選出差評文本。利用LDA 模型對差評集合進行主題提取,生成文檔—主題矩陣詞匯—主題矩陣,并展示可視化結果。通過上述實驗結果,驗證開發者在試用版本后推出增值收費服務等營利行為是否會得到用戶差評,以及是否存在某些因素對此起到調節作用。

Fig.1 Research framework圖1 研究框架
LDA 主題模型是包含文檔、主題、詞項3 種結構的3 層貝葉斯概率模型[14],其利用概率統計思想對文檔進行建模,能將文檔集中每篇文檔的主題以概率分布的形式給出,通過判斷文本的相似性進行更深層次的語義挖掘,將文本中隱藏的主題挖掘出來。
LDA 模型的原理如圖2 所示。首先定義一個包含m 個文檔的文檔集合D(d1,d2…dm)、主題集合T,字典中有V個詞匯。已知每個文檔包含n 個詞匯,則Nm表示第m 篇文章中的詞匯量,Wm,n表示第m 個文檔中的第n 個詞。文本集中隱藏了k 個主題(T1,T2…Tk),Zm,n表示第m 個文檔中第n 個詞的主題。每個文檔都有各自的主題,服從Dirichlet分布,參數為α,則對于第m 個文檔,其主題分布θm 為Dirichle(tα)。主題中的詞匯服從Dirichlet 分布,參數為β,則對于任意一個主題K,其詞分布φk 為Dirichle(tβ)。α、β為模型中的超參數,影響著模型主題分布與詞匯分布的平滑度。兩個隱含變量θ 和φ 分別表示文檔集D 中d 文檔對應到不同主題的概率和主題集T 中k 主題生成不同單詞的概率,其中θ 為K 維向量,φ 為v 維向量。

Fig.2 LDA model圖2 LDA 模型
LDA 的聯合概率計算方法如式(1)所示,式中w 為已知變量,先驗參數可參考前人經驗確定;z 為某篇文章的所有主題,可由θ 確定。LDA 的訓練過程主要為確定θ 和φ 值的過程,這些參數一旦確定,對于新加入的文檔,可以認為主題詞—詞分布的φ 是穩定的,參照Gibbs Sampling 公式確定θ 和φ。

LDA 生成文本的步驟見表1。

Table 1 LDA model test generation steps表1 LDA 模型生成文本步驟
邏輯回歸模型[15]是一種經典的分類算法,適用于對用戶評論數據進行分類。其訓練速度較快,且具有較好的分類效果,是使用最為廣泛的分類方法之一。該模型可根據一組自變量輸入計算出歸屬每種類別的概率,常使用二項邏輯回歸方法,即類別只有0 和1 兩種,其條件概率分布表示為:

式中,x∈Rn 為輸入,稱為實例特征;Y∈(0,1)為輸出,兩個分類可以對評論是好評還是差評進行判斷;w∈Rn 和b∈R為參數;w 為權值向量,對應每個輸入特征的權重;b為偏置。
APPexchange(https://APPexchange.salesforce.com/)是saleforce推出的應用平臺,現今已上架3 000多種APP,擁有上萬在線用戶,旨在為用戶提供大量優質APP。利用Python+Selenium 的方法采集APPexchange平臺中免費APP的用戶評論數據,共有14 290條,刪除非英文評論、無意義評論(“Waste Time”“Highly Recommended”)以及顯示異常評論等,得到14 068條有效評論。爬取的部分數據內容如圖3所示。

Fig.3 Partial test data display圖3 部分試驗數據展示
由于用戶在平臺中的評論比較隨意,不可避免地會出現很多與研究主題無關的無效評論,因此對數據進行預處理有助于提升模型效率,處理方法主要分為以下3 種:①分詞。進行數據處理時,計算機理解的最小處理單位為單詞,因此需要將語句拆分成有意義的單詞;②去除停用詞。分詞結果中通常會出現很多無意義的符號,使用停用詞表刪除文本中的連詞、量詞、介詞等無意義詞語,剔除無用標點,可以提高檢索效率、優化內存,文本處理時若遇到停用表中的詞,系統會停止處理,將其扔掉;③次干提取,詞形還原。去除相似單詞的詞綴,得到單詞詞根,否則主題模型會將這些單詞當作不同的實體進行處理,詞形還原則是利用上下文語境將單詞還原成詞根。
對采集到的評論信息進行人工標注,得到好評和差評各500 條。做好標簽,正面評論用1 表示,負面評論用0 表示,采用空間向量表示預處理后的詞組,組成語料庫。將語料庫以7∶3 的比例劃分為訓練集和測試集,利用邏輯回歸算法對訓練矩陣進行分類器訓練,將訓練好的分類器運用到測試矩陣中進行預測,然后對模型效果進行評估,最后調用訓練好的邏輯回歸模型對采集到的評論進行分類。
經過訓練,得到如圖4 所示的試驗結果,可以看出各項模型評價指標均大于0.9,說明預測效果較為理想。使用訓練好的分類器對用戶評論進行分類,可形成用戶差評集合。

Fig.4 Logical regression model evaluation圖4 邏輯回歸模型評估
LDA算法需要確定超參數α和β,以及主題數量k。實踐中常將超參數α和β值設置為0.1和0.01[16],本文亦是如此。
確定主題數量是構建LDA 模型的難點,主題數量影響著整個模型性能的優劣。當主題數目過多時,會產生很多無明顯意義的主題;當主題數目過少時,主題粒度過大,一個主題包含多層語義。目前主題數量常基于困惑度和主題連貫性確定[17],由于困惑度依賴概率和詞頻,沒有考慮到詞匯在用戶評論中的上下文聯系,因此本文選擇后者確定用戶評論集的最佳主題數量[18]。通過Python 自帶的模型方法確定主題數量,根據LDA 提取的主題相似度計算相應得分,得分越高,模型質量越好。將主題數量分別設置為10、15、20、25、30,通過網格搜索法(Grid Search)進行調參。由圖5(彩圖掃OSID 碼可見)可以看出,當主題數量為10 時效果最好,當主題數量繼續縮小時,評分仍會繼續上升,但主題數目過少時會造成一個評論包含多個主題的情況,不利于分析提取的主題。經過多次試驗,最終設定主題數量為10。

Fig.5 Number of themes圖5 主題數量
通過LDA 模型對用戶差評集合進行分析,得到文檔—主題矩陣和主題—詞匯矩陣。表2 為運行LDA 模型后得到的主題—詞匯矩陣,展示了評論集合中出現的與10 個主題相關的特征詞。圖6 為主題4 包含的前30 個主題詞,特征詞“APP、free、pay”共現在部分軟件版本升級的差評集中,說明確實存在開發者先將APP 免費上架,在限免一段時間后推送增值服務的情況,最終有用戶針對該現象給出了負面評價。由此證實,將付費APP 偽裝成免費型上架,后期再推送付費版本會對用戶差評行為產生影響。

Table 2 Theme-vocabulary matrix表2 主題—詞匯矩陣

Fig.6 PyLDAvis visualization圖6 PyLDAvis 可視化圖
通過pyLDAvis 對主題進行可視化,將圖6 中的關鍵詞導入到主題詞關聯圖中(見圖7),發現了關鍵詞“email、address、day”,說明開發者可能會通過電子郵件的方式向用戶推送營銷信息,且較為頻繁。關鍵詞“pay、version、feature、upgrade”聯系緊密,說明更新版本可能會增加新的功能適配用戶需求,如果用戶對新版本感到滿意可能會接受付費行為,但當升級版本沒有達到預期效果時會給出差評。
從提取的主題中可以看出,導致用戶差評行為的因素有很多,需要對這些因素的重要程度進行比較。Pyldavis 左側面板展示了LDA 模型分類出的不同主題,主題氣泡大小可顯示主題強度,氣泡越大說明該主題的重要程度越高,氣泡之間的距離表示兩個主題之間的相似程度。根據以上信息繪制圖8,可以看出,主題4 占比為10.7%,說明付費APP 偽裝成免費APP 上架,后期進行收費的主題較為靠前,且與主題1 的12.5%較為接近。前3 個主題反映的是開發團隊的支持與服務、APP 的適配程度和程序包解決方案等問題。后幾個主題解讀效果不是很好,主要為APP 的賬戶、插件、設置等出現的問題以及對開發團隊的反饋。總體來說,開發者將APP 上架于免費專區,后期進行增值服務的行為容易造成用戶不滿,開發者需提升更新后版本的質量,達到物超所值的效果。

Fig.7 Keywords association chart圖7 關鍵詞關聯圖譜

Fig.8 Proportion of themes圖8 各主題占比
本文基于邏輯回歸算法對APP 的評論集進行分類,篩選出差評數據,然后利用LDA 模型分析評論數據,探究是否存在開發者在試用版本后推出進階收費服務等營利行為,以及這一現象與用戶差評行為的關系。實驗結果表明,開發者將應用免費上架后再向用戶推送付費版本的行為是用戶作出差評的原因之一,尤其是當開發團隊頻繁地對用戶推送付費版本信息時,更有可能導致用戶給予差評;付費版本的質量和功能可能會對用戶差評行為起到調節作用。
當使用免費版本的用戶達到一定規模時,開發團隊為獲取更高利潤,往往會推出付費或高級版本進行營利行為,如果未做好營銷推廣工作可能會導致用戶給予差評,影響APP 下載量。開發者應合理制定價格策略,注重與用戶的溝通。如果付費版本的功能與免費版相比得到明顯提升,且價格合理,相信用戶樂意進行付費版本的嘗試。
本文研究方法仍存在一定局限性,根據實際需求調整pyldavis 中參數λ 的值可以得到更有意義的主題詞。此外,LDA 模型超參數的設定會影響主題模型的結果,因此在今后研究中將考慮更多參數對試驗結果的影響,而不是參照其他文獻的推薦值,以便模型更加擬合試驗數據。