基于數據挖掘對X移動公司數據業務匹配模型的研究

2010-12-31 00:00:00黃家玉鄒月青

商場現代化 2010年26期

[摘要] 電信行業競爭激烈，而營銷環境的變化使得業務的發展面臨的重重的挑戰，文章將結合電信行業的實際，打破以往單一模型分析數據業務的方式，通過結合數據挖掘的方法構建多個模型對數據業務進行分析，得出客戶業務的推薦指數，完善X移動公司的服務模式。

[關鍵詞] 匹配模型類型偏好模型關聯分析因子分析

隨著移動電話市場普及率的提高，電信市場的競爭日趨白熱化，電信業務如彩鈴、無線音樂俱樂部、飛信、手機郵箱、手機證劵、天氣預報、手機報、手機視頻、手機游戲、號碼管家、來電提醒等的營銷也面臨著諸多挑戰:一是市場競爭日益強烈。電信重組為移動公司帶來更多機會與挑戰，如何利用有限的營銷資源盡可能的占領、擴大、鞏固市場成為關鍵。二是管理制度日益規范。移動集團為規范經營服務行為，充分保障廣大客戶權益，在全公司實施中國移動客戶服務“五條禁令”，嚴格營銷活動的開展尺度，增加了各省公司的營銷難度。三是產業轉型帶動營銷模式轉變。新業務種類繁多，根據產品特性尋找目標客戶的傳統營銷模式越來越無法適應“以客戶為中心”的個性化營銷需求;挖掘客戶潛在需要，提供定制化的產品服務包的營銷模式成為必須。四是消費者維權意識增強。隨著社會的發展，消費者對個人隱私和人權意識逐步增強，簡單粗暴地主動營銷方式不僅會對客戶造成打擾，甚至會引發客戶逆反心理，對企業造成負面的影響。為了應對挑戰，本文講打破以往用單一模型分析模式，使用Clementine 11.1數據挖掘工具，并結合數據挖掘的方法構建數據關聯模型、類型偏好模型和匹配模型，得出客戶業務的推薦指數，完善移動公司的服務模式。

一、理論介紹

1.數據挖掘

數據挖掘，就是從存放在數據庫，數據倉庫或其他信息庫中的大量的數據中獲取有效的、新穎的、潛在有用的、最終可理解的模式的非平凡過程。

2.關聯分析

(1)關聯分析的定義

關聯分析是指如果兩個或多個事物之間存在一定的關聯，那么其中一個事物就能通過其他事物進行預測.它的目的是為了挖掘隱藏在數據間的相互關系。

(2) 關聯規則挖掘的過程

首先，連接數據，進行數據準備;其次給定最小支持度和最小可信度，利用數據挖掘工具提供的算法發現關聯規則;最后，可視化顯示，理解和評估關聯規則。

(3)Apriori算法

Apriori算法是一種最有影響的挖掘布爾關聯規則頻繁項集的算法。其核心是基于兩階段頻集思想的遞推算法。該關聯規則在分類上屬于單維、單層、布爾關聯規則。在這里，所有支持度大于最小支持度的項集稱為頻繁項集，簡稱頻集。

3.因子分析

因子分析是根據其相關程度將多個實測變量轉換成相互之間互不關聯或關聯性很低的綜合指標的統計方法。它主要是解釋在總變動中各因素的影響程度和計算在總變動中各因素變動所占的份額(即貢獻率)。

二、模型的構建

1.建模準備

數據庫中有些入網的客戶中不乏有一年反復入網兩次或兩次以上的用戶(即跳蚤用戶)，還有許多為了完成既定或階段性的銷售目標的用戶(即自養增收用戶)，還有一些客戶為了提高渠道評級，獲取更高級別的星級評定及相應補貼(渠道養卡用戶)等，這些用戶都屬于無效業務用戶。所以，在數據庫選取數據時應將這些用戶進行剔除。

根據X移動的內部資料，通過分析客戶的特點，根據用戶交往圈、通話行為模式、終端IMEI等判定從入網的客戶。此外對于渠道養卡的用戶，可以根據客戶使用的產品、ARPU、主叫時長、用戶狀態、消費情況等進行判斷，一般若客戶使用無月租的產品、在網時長不超過3個月、ARPU不低于5月等疑似養卡的號碼，提取數據時應將其剔除。其中數據來源于X移動公司的數據庫。

2.建模分析

(1)數據業務的關聯模型

數據業務的關聯模型主要是使用了Apriori作為關聯模型的基本算法，挖掘數據業務之間的關聯關系。

① 模型的具體步驟如下:

第一，從X移動公司數據庫導出相關的數據，并對數據進行缺失值處理、數據的標準化等處理。

第二，設置建模參數，本文中的支持度是指訂購前項業務的用戶在所有用戶中的比例;置信度是指訂購了前項所示業務的情況下，訂購后項業務的概率。本文設置支持度閾值為0.06%，置信度閾值為1%。

第三，運行后得到部分結果如表1所示:

表1 關聯規則示例表

關聯規則示例

后項前項支持度置信度

Music_club_mark=1Cailing_mark=1 and mms_mark = 1 and mont_sms_mark=10.33%38.43%

從表1的分析結果我們可以看出，在樣本用戶中有0.33%的用戶同時是彩鈴、彩信、夢網短信和無線音樂俱樂部的活躍用戶;在同時是彩鈴、彩信、夢網短信活躍用戶中，38.43%的用戶同時是無線音樂俱樂部的活躍用戶;即規則(彩鈴+彩信+夢網短信)活躍用戶和無線音樂俱樂部活躍用戶的置信度為38.43%。

第四，模型進行驗證

將5、6月新增用戶與模型預測的目標客戶進行比對，得到模型的查全率、提升度等指標，以評價新業務模型的效果。其中，候選用戶是指4月某項制定新業務的未定購用戶;篩選用戶是根據模型預測為某項指定新業務的營銷目標用戶;新增活躍用戶是指候選用戶在5、6兩個月新增為某項指定新業務活躍用戶;查全率為篩選用戶中新增活躍用戶數/候選用戶中的活躍用戶數;提升度為查全率/篩選用戶比例。查全率和提升度呈反比的關系，即查全率越高，提升度就越低。

通過計算各業務的查全率和提升度可知，模型總體效果較好，對業務進行匯總，模型篩選了22.5%的候選用戶(按人次計算)，查全率為62.6%，提升倍數為2.8倍。并且模型對于彩鈴、飛信等成熟型業務預測效果很好，查全率較高，提升效果明顯。但是手機視頻、手機游戲等導入期業務由于活躍用戶少，關聯關系未體現出來，模型查全率較低。

② 結論

綜上，關聯規則模型適用于已經發展成熟，客戶群已經體現明顯特征的業務之間關聯關系的預測，查全率較高，提升效果明顯。但是不適用于導入期業務。導入期用戶量很少，與其他業務的關聯特征不明顯;并且用戶主要由于初期營銷活動刺激等原因，可能并非為真正需要或者感興趣的用戶。因此我們引入了數據業務類型偏好模型。

⑵數據業務的類型偏好模型

數據業務類型偏好模型是根據用戶某業務使用情況評估用戶對某業務的偏好程度，采用100分制進行評分。

①類型偏好計算過程:

第一，業務類型劃分。根據業務屬性和所滿足的用戶需求對業務進行分類，并鑒別業務之間的關系，區分互補或替代型業務。

第二，業務分等評分。根據業務訂購/非訂購，活躍/非活躍情況分別賦予不同評分，并對于可以衡量業務使用程度的，根據客戶使用程度的分布劃分檔次，評定不同的分數。

第三，類型評分匯總。同一業務不同指標之間賦予不同權重，得出單一業務的評分，不同業務之間采取逐級衰減的方式評分，同一類型各個業務評分匯總得到用戶類型偏好積分。

計算類型偏好得分，計算公式為:

其中: i-- 數據業務類型序號;j -- 某類型下的業務序號;Hi-- 類型偏好得分;Wj--第j個業務的衰減系數;h(I，j) -- 業務偏好得分，表示第i個類型的第j項業務偏好得分。以彩鈴為例，如下表2所示

第五，對模型進行驗證，將5、6月新增用戶與模型預測的目標客戶進行比對，得到模型的查全率、提升度等指標，以評價新業務模型的效果。通過分析可知，模型總體效果不如關聯模型，對業務進行匯總，模型篩選了40.2%的候選用戶(按人次計算)，查全率為65.2%，提升倍數為1.6倍。模型保持了較高的查全率，尤其是對于手機視頻、手機游戲等導入期業務，查全率提升明顯，可以對關聯模型進行有效的修正。模型的整體提升度不高，基本上低于關聯規則模型。

整體而言，類型偏好模型整體效果不如關聯模型，但對于部分導入期業務提升效果明顯。

②結論

類型偏好模型挖掘了業務之間的邏輯關系，實現了定量和定性分析的結合，對于導入期業務預測效果好于關聯規則模型。但是對于成熟型業務，類型偏好模型的結果不夠精確，模型預測的提升度指標不如關聯模型。

⑶數據業務的匹配模型

從上文的分析可知，數據業務關聯關系和類型偏好模型都是反映了數據業務之間的關聯關系，類型偏好模型彌補了關聯模型不能反映導入期業務之間的關聯關系的不足，因此將兩個結合起來構建一個數據業務匹配模型。主要采用因子方法構建數據業務匹配模型。

①數據業務的匹配模型具體步驟如下:

選取相關指標，將關聯模型中產生的產品關聯的置信度和類型偏好模型產生的類型偏好指數合并之后導入Clementine 11.1文件，對數據進行規范化處理，并對各項業務進行因子分析，運行后，以彩鈴為例，因子綜合得分等式為:F=0.62531*Zcailing_mark_for+0.37469 * Zcailing_mark_for_1 -0.0114

然后將相關的值帶入上面的公式，得到該用戶在彩鈴這一項的推薦指數，對該用戶的各項業務進行評估，最終得到客戶的業務的最優推薦指數。

對數據業務匹配模型進行檢驗:將5、6月新增用戶與模型預測的目標客戶進行比對，得到模型的查全率、提升度等指標，以評價模型的效果。

表3 匹配模型的查全率和提升度

業務類型篩選用戶比例查全率提升度

彩鈴32.77%55.56%1.70

無線音樂俱樂部26.89%68.39%2.54

飛信23.98%55.34%2.31

手機郵箱32.38%77.38%2.39

手機證券36.35%84.62%2.33

天氣預報17.07%25.73%1.51

手機報33.76%59.36%1.76

手機視頻30.36%70.90%2.34

手機游戲24.42%69.05%2.83

號簿管家27.82%50.42%1.81

來電提醒1.67%2.83%1.70

從上表3數據可以看出，匹配模型結合了關聯模型和類型偏好模型的優點，整體效果有了一定的提升，成熟型和導入期業務大部分預測效果較好。

②結論

數據業務匹配模型綜合挖掘業務之間的關系，效果好于單一的關聯模型和類型偏好模型，并且比單一的模型具有更好的預測效果，可以采用它對不同業務使用計算推薦指數，并且對推薦指數進行排序，并根據推薦閾值確定推薦用戶，并能夠分業務輸出推薦用戶。

三、總結

第一，模型具有很強的應用性。模型不僅能確定待多項業務的優先級，還能確定某業務是否適合推薦，非常適用于產品的整合營銷。由于在不同業務上預測效果良好，同樣也適用于分業務篩選營銷用戶。

第二，客戶-產品匹配技術創新。模型依據業務-特征匹配程度，科學評估業務推薦指數，實現客戶級別的適配業務推薦，改進了傳統對客戶進行細分，然后進行細分群體和業務之間匹配的方法匹配較粗糙的缺點。

第三，模型應用的創新。突破傳統通過單個產品找客戶的營銷模式，形成針對客戶需求偏好提供相應產品并在與客戶接觸時刻觸發營銷的產品整合營銷模式，避免分散式多次營銷對客戶造成的重復打擾和大量營銷資源的浪費。

參考文獻:

[1]段云峰吳唯寧李劍威韓潔: 數據倉庫及其在電信領域中的應用，電子工業出版社，2003

[2]陳志泊:數據倉庫與數據挖掘，清華大學出版社，2009

[3]于秀林任雪松:多元統計分析，中國統計出版社，2009

商場現代化2010年26期

商場現代化的其它文章: 基于項目管理的市場開發模式研究; 網絡環境下區域經濟發展與高職教育人才信息整合研究; 科學發展觀視野下地方政府社會管理職能轉變探究; 試論銀行保險的價值創造機理; 節約型企業會計研究; 我國個人所得稅稅制現狀及建議