黃霜聆,謝 健,李 榮,康湖濱
(廣東東軟學院信息管理與工程學院,廣東佛山)
由于移動通信技術的飛速發展,人們越來越離不開移動通信技術帶來的便捷。這導致各個移動運營商越來越重視客戶的網絡使用體驗。據統計,北京移動用戶體驗影響因素主要有語音業務和上網業務,影響語音業務和上網的業務還有其他因素。因此客戶滿意度成為了體現各大運營商市場運營狀況的重要體現。根據客戶投訴,對影響用戶體驗的問題進行解決,是提升客戶滿意度的方法。本次研究需要擬通過分析影響用戶滿意度的各種因素,為決策提供依據,從而實現更早、更全面提升用戶滿意度,中國移動通信集團北京公司采用不同辦法對用戶的體驗影響因素進行研究。
本文的數據來源主要是MathorCup 高校數學建模比賽中北京移動用戶體驗影響因素研究問題的數據。樣本包含了4 個附件,對于語音業務用戶滿意度而言有54 個,對于上網業務滿意度有124 個;對于語音業務用戶滿意度預測值有43 個,對于上網業務用戶滿意度預測值有86 個。根據數據整理出相關特征數據如表1 所示。

表1 移動用戶體驗影響因素相關特征數據
為了使模型有較高的精確度并且確保結果的準確率高,對數據進行預處理:對數據進行探索進行缺失值和異常值的查看;進行特征編碼、標簽編碼、獨熱編碼、特征的刪除、異常值處理、缺失值處理;利用Python 內置函數查看缺失值。對于語音業務用戶滿意度有脫網次數、當月MOU 等。對于上網業務用戶滿意度有愛奇藝、夢幻西游等;利用最值歸一化和均值方差歸一化對數據進行異常值處理;利用零值填充和KNN 模型對數據進行缺失值處理。
隨機森林[1]具有很高的預測準確率,對異常值和噪聲有很強的容忍度,能夠處理高維數據,有效地分析非線性、具有共線性和交互作用的數據,能夠在分析數據的同時給出變量重要性評分。使用斯皮爾曼相關性分析影響語音業務和上網業務的主要因素,建立隨機森林模型求解出最終結果。
3.1.1 斯皮爾曼相關性分析
斯皮爾曼是衡量兩個變量的依賴性的無母數指標。利用單調方程評價兩個統計變量的相關性。若數據中沒有重復值,且當兩變量完全單調相關時,斯皮爾曼相關系數為+1 或-1。因此,設n 為樣本數量,f 為數據x和y之間的等級差。fi為第i個數據對的位次值之差,ρ為相關系數。因此可以建立如下模型:
3.1.2 基于隨機森林對重要因素打分
設VIM 為變量重要性評分,Gini 指數用GI 來表示,假設有m 個特征a1,a2,a3,……,ac,現在要計算出每個特征aj的指數評分V,即第j 個特征在RF 所有決策樹中節點分裂不純度的平均改變量[2]。隨機森林分類器原理示意圖如圖1 所示。

圖1 隨機森林分類器原理示意圖
首先需要對Gini 指數進行計算,就是從節點m 中隨機抽取兩個樣本,其類別標記不一致的概率,設k為有k 個類別,pmk表示節點m 中類別k 所占的比例。因此可以建立如下模型:

如果,特征aj在決策樹中出現的節點在集合M中,那么可以計算aj在第i 棵樹的重要性。設特征為aj,具體模型如下:
如果,在RF 中有n 棵樹,那么模型會變為:
最后,把所求的的重要性評分做一個歸一化處理,具體模型如下:
3.1.3 因變量與自變量
根據對以上模型建立與求解,得到語音業務和上網業務的對應因變量影響排序。對于語音業務而言,可以將語音通話整體滿意度、網絡覆蓋與信號強度、語音通話穩定性和語音話清晰度看做因變量,其余看做自變。對于上網業務而言,將上網整體滿意度、網絡覆蓋與信號強度、手機上網速度和手機上網穩定性看做因變量,其余看做自變量。使用隨機森林模型[4]對其進行重要性特征排序,得到結果語音業務中通話中有雜音、聽不清、斷斷續續,等影響因素重要性較高。上網業務中網絡信號差/沒有信號,重定向次數等影響因素重要性較高。
利用隨機森林進行結果預測,是通過投票得出最終結果。在此過程中會對數據集進行隨機抽樣,因此進行平衡數據集。針對于平衡數據集而言,采用的方法有上采樣、下采樣和混合采樣。為了提高模型和最終結果的精確度,對參數進行調參,提高精確度。得到最終結果。
3.2.1 利用隨機森林進行結果預測
通過對模型進行比較,選擇隨機森林模型對結果進行預測[3],隨機森林算法采用Boot-strap 重抽樣技術從原始數據集隨機抽樣,構成n 個不同的樣本數據集,根據這些數據集搭建n 個不同決策樹模型,根據這些決策樹模型的平均值(針對回歸模型)或者投票情況(針對分類模型)獲取最終結果。
3.2.2 平衡數據集
通過對語音業務中的語音通話整體滿意度,網絡覆蓋與信號強度,語音通話穩定性,語音通話清晰度;上網業務中的上網整體滿意度,網絡覆蓋與信號強度,手機上網速度和手機上網穩定性的數據集進行觀察,發現數據不平衡。針對于語音通話整體滿意度而言,觀察到有1~10 的評分,對其進行分類處理,并且統計出各評分的占比,具體如圖2 所示。

圖2 語音通話整體滿意度評分占比
對圖進行觀察,發現評分為10 的占比為58.11%超過了50%,最小的為評分2,只有0.77%,得到評分不平衡的結論,進行平衡數據集。采用基于上采樣、下采樣和混合采樣的方法比較出最優平衡數據集的方法。通過以上方法的采用,導入平衡數據集的模型,得到了八個因變量對應的最好平衡數據集的方法,得到每個因變量使用的方法以及方法精度。
一共使用三種平衡數據集的方法,分別為Neighbourhood Cleaning Rule,Edited Nearest Neighbours和Repeated Edited Nearest Neighbours。第一種方法使用3 個最近鄰刪除不符合此規則的樣本。第二種方法應用最近鄰算法,通過刪除與鄰域“不夠一致”的樣本來“編輯”數據集。第三種方法是Edited Nearest Neighbours 的擴展,通過多次重復該算法形成Edited Nearest Neighbours。
這里選取了語音通話整體滿意度為例。通過三個平衡數據集的方法進行比較后,選擇了精度較高的Neighbourhood Cleaning Rule 方法。得到平衡數據集過后的1~10 的評分占比都變成10%。
3.2.3 模型調參
為了提高模型的精度以及預測結果的精度,對八個因變量使用的模型利用網格搜索法進行模型調參。網絡搜索方法主要用于模型調參,幫助找到一組最合適的模型設置參數,使得模型的預測值達到更好的效果,通過交叉驗證的方法去尋找最優的模型參數。
對于語音通話整體滿意度而言,首先制定一個參數。隨后對其進行訓練,得到了第二個參數max_depth為10。再對其進行訓練,得到第三個參數min_samples_split 為2。最后對第三個參數進行訓練,得到第四個參數max_features 為0.2。表明一共有四個參數。得到模型交叉驗證過后精度。
3.2.4 結果
通過平衡數據集,模型調參提高精度模型精確度為89%,得到最終預測結果,結果如表2 所示。

表2 語音業務預測評分和上網業務預測評分
基于隨機森林模型對影響因素進行打分和結果預測,幫助北京移動公司更好分析出影響用戶語音通話滿意度和上網業務滿意度的主要影響因素,可以讓北京移動公司以后更加著重于這方面從而提高用戶的體驗度。此方法同時對當代社會手機的發展有比較大的影響作用。手機公司可以通過此模型進行語音和上網業務的改進,提高用戶滿意度和提升自己的業績。