張治高



摘要:電信運營商擁有天量的通話詳單和短信詳單,用戶的通話及短信同時也伴隨著巨大的行為數據產生。過對電信運營商的移動通信用戶的通話及短信清單,利用多元回歸的預測模型,建立了穩定交往模型。利用最小二乘估計的方法,通過SPSS軟件計算出模型的未知參數。計算出用戶間穩定交往指數,為運營商提高存量用戶的忠誠度,減少用戶流失提供了數據依據。
關鍵詞:多元線性回歸; 預測模型;SPSS;交往圈
中圖分類號:TP393? ? ? ? 文獻標識碼:A
文章編號:1009-3044(2019)25-0305-03
1 引言
數據挖掘中使用的相關算法來自大量、不完整、隨機、模糊中提取有用的數據、正確、全面、未知、用戶感興趣的知識等。建立數學模型,用來決策支持的模型,提供預測性決策支持的方法、過程、工具[1]。數據挖掘通常是指通過算法從大量數據中搜索隱藏在其中的信息的過程。隨著互聯網時代的到來和數據大爆發,數據挖掘技術普遍而且迫切地應用于各個領域,比如金融、電信、保險、互聯網等行業。它通過運用整理、分析、總結、推理等方法對大量地數據進行處理,從而對實際問題進行指導和分析,獲得相關預測結果以做出更有利的決策[2]。
在電信行業,用戶之間的互通行為,一般稱之為交往。這種交往關系不但可以發現用戶的交往圈范圍,還可以挖掘競爭對手,為用戶維穩、策反營銷提供信息支持。人們總是試圖憑借一個或者若干個指標衡量兩個用戶之間的交往密切程度。那么,這個衡量交往密切程度的指標,我們統稱之為交往指數。早期一般通過互通(語音、短信等)次數、時長來考察交往情況,效果不理想。原因是人與人之間的相互作用在一段時間內相對穩定,但總是在變化;此外,單個聯系人的數量和長期的互操作性不足以表明這種交互是穩定的。因此,要想尋找用戶的穩定交往群體,必須要從時間、交往次數、交往方式和交往時刻分布等多個角度來綜合衡量交往的穩定性。
2 算法及相關軟件介紹
2.1 多元回歸的預測模型
回歸分析是探索變量之間的相關性和依賴性的有效方法。總體回歸模型[3]反映了變量間關系的總體趨勢,線性總體回歸模型形式簡單、參數的估計與檢驗也相對容易,是最為常見的總體回歸模型。
2.3 SPSS軟件介紹
SPSS軟件是目前較為流行的統計分析軟件,在醫學、經濟、教育和通信等相關領域的應用有分廠顯著成果,界面非常友好,能夠非常全面的滿足統計工作提出的各種個性化的需求。SPSS軟件包含了統計學眾多方面的基本內容,且擁有非常強的圖標生成功能,有較為理想的交互界面,通過錄入的相關數據,就能夠快速得出相應的統計結果。
2.4 GBase數據庫介紹
GBase 是南大通用數據技術有限公司研發的自主品牌的數據庫,目前在國內具有較高的品牌知名度,符合國家自出創新戰略要求,是國內第一事務處理性能的數據庫。GBase 8a 已經廣泛運用聯通、移動、電信多個省的經營分析、大數據平臺等關鍵業務系統[6]。
3 建模過程及結果分析
3.1 數據預處理
通過通話詳單與短信詳單作為數據基礎進行分析,取近三個月的通話詳單及短信詳單。選取某市運營商移網用戶短信和通話記錄詳單,此次數據分析以201809、201810、201811三個月的通話詳單(BSS&CBSS話單)、短信詳單(BSS&CBSS短信)為模型輸入條件,共計27.8億條。
通過通話詳單與短信詳單中有需要清理的干擾數據,sp服務號碼,個人及企業廣告推銷號碼等都需要剔除,否則將影響結果的正確性。
在GBase數據庫中借助 SQL 語句對原數據集進行預處理,主要進行了以下步驟:
(1)服務和sp廣告推銷號碼剔除:由于這些號碼的開始位數以及長度有固定的特征,因此可以在GBase數據庫中通過長度和key value的查詢將其剔除;
(2)個人及企業廣告推銷號碼過濾:這些號碼的絕大多數的通話行為是主叫用戶且產生的話務量異常巨大,與被叫用戶的聯系只是短期的。此類號碼定義為廣告推銷號碼,它們在形式上與普通客戶號碼沒有區別,不能通過簡單的數據庫條件過濾獲得,所以只能通過號碼的通話特征進行甄別過濾。
3.2 穩定交往模型構建
(1)建模方法
用戶之間的交往越復雜,隨機性越強。在電信運營商可以獲得的數據中,主要是能夠反映用戶親密度的信息發生的聯系數量、聯系發生的時間間隔、聯系發生的時間段以及聯系發生的時間。
顯然,擁有更多聯系的用戶之間存在更大的親密關系。隨著數量的增長,聯系的親密度在增加。線性函數可以大致地刻畫出數量對親密度的影響程度。
分析交往圈的交往痕跡,淡化交往形式,以交往軌跡的均勻性確定交往圈的穩定性,重點獲取過去三個月的穩定交往圈作為話務分析的重點交往圈。建立模型:
(2)計算月、旬、周、三天、日交往系數
用戶的交往系數,也就是用戶間聯系的可能性,根據用戶近三個月歷史通話、短信詳單,抽取3000W用戶詳單數據作為訓練樣本,取最后一天聯系結果,通過SPSS軟件,根據普通最小二乘法的參數估計方法,計算出模型中的系數,根據系數即各窗口的比重,將系數依據經驗修正,得到交往系數為a=0.4、b=0.32、c=0.16、d=0.08、e=0.04。
3.3 計算穩定交往指數
利用SPSS軟件,根據穩定交往模型計算穩定交往值。輸出穩定交往圈清單,如表1。
3.4 結果分析
由實驗結果得出用戶間的穩定交往指數。為便于量化穩定交往指數,用戶交往指數最高值為10。提高了算法的執行效率,為用戶交往圈的快速建立有一定指導意義,尤其是對于10億量級的數據。
基于用戶間穩定交往指數的計算結果,將單個用戶的穩定交往指數結果求和,計算得出單個用戶交往圈的大小,值無上限,值越高代表用戶交往圈越穩固廣泛。用戶的交互圈的價值與用戶的ARPU值(每個用戶平均貢獻的電信服務收入的價值)正相關。
4 結論
基于多元線性回歸分析原理,應用統計軟件SPSS對電信運營商的通話及短信詳單進行統計分析,建立數學模型,得出用戶間穩定交往指數。結果表明,用戶交互圈與ARPU值之間存在正相關關系。
綜上所述,隨著移動通信技術的發展,運營商擴展數據挖掘的應用,從數據挖掘入手,結合自身發展實際,利用數據挖掘技術進行科學的統計分析,為企業發展和決策提供科學的數據參考,促進企業自我發展目標的科學實現。
參考文獻:
[1] 張晴,高廣銀,賈波.數據挖掘技術在超市營銷系統中的應用[J].軟件工程,2016,19(05):35-38.
[2] 張慧,徐勇.數據挖掘中SVM模型與貝葉斯模型的比較分析——基于電信客戶的流失分析[J].平頂山學報,2016,31(2):68-73.
[3] 郭存芝,杜延軍,李春吉.計量經濟學—理論.方法.Eviews 應用[M].科學出版社,2008.
[4] 冷建飛,高旭,朱嘉平.多元線性回歸統計預測模型的應用[J].統計與決策,2016(07):82-85.
[5] 鄒樂強.最小二乘法原理及其簡單應用[J].科技信息,2010(23):282-283.
[6] 王明斌,尹紹宏.淺析從Sybase移植到GBase 8a國產數據庫方法[J].科技展望,2016,26(22):17.
【通聯編輯:代影】