999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于數(shù)據(jù)挖掘的用戶信息分析構(gòu)件系統(tǒng)

2010-08-15 00:52:53
科技傳播 2010年19期
關(guān)鍵詞:數(shù)據(jù)挖掘用戶分析

羅 曦

閩江學院計算機科學系,福建福州 350108

0 引言

我國的移動通信企業(yè)經(jīng)過前幾年的高速發(fā)展,現(xiàn)在正步入緩慢增長期,各移動運營商之間的競爭越來越激烈,用戶資源成了企業(yè)競爭的焦點。大量而頻繁的用戶流失給企業(yè)造成了巨大的損失。成功挽留一個即將離網(wǎng)的用戶比重新發(fā)展一個新用戶所需的成本要低,因此,預測用戶流失的可能性,分析用戶流失原因,同時對現(xiàn)有用戶進行進一步細分以及高低價值用戶分析,采取針對性的措施調(diào)整市場策略,增加用戶滿意度,減少用戶流失,提高用戶消費水平,充分占有市場,是移動通信企業(yè)在激烈市場競爭中制勝的關(guān)鍵。

基于構(gòu)件的系統(tǒng)開發(fā)不僅能提高系統(tǒng)的質(zhì)量和效率而且能適應業(yè)務流程的變化。同時,構(gòu)件化軟件開發(fā)是軟件開發(fā)人員面對新市場需求的一種新型軟件研發(fā)技術(shù)和提高軟件生產(chǎn)效率和保證軟件質(zhì)量的新型策略。

通過數(shù)據(jù)挖掘技術(shù)對用戶特征分析是目前移動通信企業(yè)商業(yè)智能技術(shù)應用的熱點之一,開發(fā)此類構(gòu)件具有較大的實用價值。

1 系統(tǒng)設(shè)計理念

本系統(tǒng)采用構(gòu)件化的軟件設(shè)計原理,選取數(shù)據(jù)挖掘中既高效又適合用于用戶信息分析的ID3算法,采用平臺獨立、可移植性強的Java技術(shù)實現(xiàn),基于JavaBean的處理構(gòu)件,每一個處理模塊都封裝成獨立的小型構(gòu)件,可方便的運用與軟件開發(fā)以及自定義組裝個性化的新型構(gòu)件:

具體解決辦法如下:

1)采用基于構(gòu)件的設(shè)計與開發(fā)方法;

2)采用J2SE的平臺標準進行JavaBean的設(shè)計,既保證了構(gòu)件的安全性和高效性,又可以方便地進行平臺移植和系統(tǒng)移植;

3)根據(jù)數(shù)據(jù)挖掘中數(shù)據(jù)的篩選原則,采用ID3算法,對用戶信息中的敏感信息進行篩選;

4)采用XML和properties做配置文件,對構(gòu)件可能依賴的運行環(huán)境進行獨立化,實現(xiàn)軟件模塊的解耦;

5)采用基于數(shù)據(jù)挖掘中的ID3算法為底層設(shè)計;

6)提供軟件開發(fā)者以使用接口,可方便的與現(xiàn)有系統(tǒng)進行無縫集成;

7)對處理后的數(shù)據(jù)提供導出接口,可直接導出數(shù)據(jù),也可導出中間數(shù)據(jù)集以便用于與下一系統(tǒng)模塊的鏈接。

2 構(gòu)件實現(xiàn)的關(guān)鍵點

2.1 領(lǐng)域內(nèi)定義業(yè)務問題

業(yè)務問題定義要明確數(shù)據(jù)挖掘技術(shù)解決的是何種問題,對用戶流失管理來說就是要定義何為流失。電信運營商的用戶流失有3方面的含義:1)指用戶從一個電信運營商轉(zhuǎn)網(wǎng)到其他電信運營商,這是流失分析的重點;2)指用戶ARPU(指每用戶月平均消費量)降低,從高價值用戶成為低價值用戶;3)指用戶自然流失和被動流失。在用戶流失分析中有兩個核心變量:財務原因/非財務原因、主動流失/被動流失。用戶流失可以相應分為4種類型:其中非財務原因主動流失的用戶往往是高價值的用戶。他們會正常支付服務費用,并容易對市場活動有所響應。這種用戶是電信企業(yè)真正需要保住的用戶。

2.2 用戶信息數(shù)據(jù)的預處理

數(shù)據(jù)挖掘的處理對象是大量的數(shù)據(jù),這些數(shù)據(jù)一般存儲在數(shù)據(jù)庫系統(tǒng)中,是長期積累的結(jié)果。但往往不適合直接挖掘,需要做數(shù)據(jù)的預處理工作,一般包括數(shù)據(jù)的選擇(選擇相關(guān)的數(shù)據(jù))、凈化(消除冗余數(shù)據(jù))、轉(zhuǎn)換、歸約等。數(shù)據(jù)預處理工作準備是否充分,對于挖掘算法的效率乃至正確性都有關(guān)鍵性的影響。

2.3 ID3算法的Java語言實現(xiàn)

根據(jù)ID3算法的策略和設(shè)計思想,用Java語言設(shè)計相應數(shù)據(jù)結(jié)構(gòu)和模型類進行實現(xiàn),由于需要結(jié)合Java語言的特性和設(shè)計規(guī)則才能使得實現(xiàn)的算法具有高效率和高準確性。

2.4 數(shù)據(jù)格式化過程對應配置信息的自動裝載

由于數(shù)據(jù)的格式(即量化)過程需要依賴配置的配置規(guī)則,而各個字段配置的量化規(guī)則分布在不同的規(guī)則文件中,需要設(shè)計一種機制使其能自動識別自身對應的配置文件并自動加載,而不需要程序員手動去實現(xiàn)。

3 關(guān)于構(gòu)件模型的描述

本文ID3 決策樹分類算法應用于移動通信企業(yè)用戶信息分析構(gòu)件具體的實現(xiàn)過程分為以下幾個步驟:

1)數(shù)據(jù)準備:從歷史用戶數(shù)據(jù)庫表中抽取流失用戶和忠誠用戶作為訓練集,對其他的流失用戶和忠誠用戶再進行抽樣 得到測試集;流失用戶與忠誠用戶的比例與離網(wǎng)率相當。從移動通信業(yè)務數(shù)據(jù)庫中的定單表、帳單表、用戶信息表等相關(guān)表 中經(jīng)過數(shù)據(jù)清洗抽取出用戶自然屬性、用戶消費行為、用戶通話情況等信息放入數(shù)據(jù)庫相關(guān)的表中,并給表中的每個用戶賦予是否流失、高價值或低價值用戶、是否欠費的標志;

2)建立模型:使用改進的 ID3 決策樹算法建立決策樹模型;

3)驗證和評價模型:使用測試集的數(shù)據(jù)對所生成的模型 進行驗證和評價,如果模型的檢驗率、誤檢率、覆蓋率以及花費的時間開銷都能基本達到要求的話,則證明該模型是有效且合適的;

4)結(jié)果運用:根據(jù)決策樹模型對當前在網(wǎng)高低價值用戶區(qū)分、是否欠費分析預測、用戶進行流失預測,將概率較大的用戶名單及其對應的判斷規(guī)則(原因)提交給業(yè)務部門加以用戶關(guān)懷和用戶挽留,提升用戶價值、減少欠費用戶數(shù)量,降低用戶流失率。

4 性能測試分析

由于用戶信息分析3個構(gòu)件的設(shè)計原理相似,以下僅以用戶流失預測分析構(gòu)件為例進行性能的測試與分析。

4.1 測試集的研究與選擇

訓練集和測試集的選取一直是數(shù)據(jù)挖掘中有待研究的問題,至今尚未找到完全令人滿意的解決方案。根據(jù)我們的實驗和相關(guān)的數(shù)據(jù)挖掘?qū)嵺`,我們知道,對訓練集輕微的擾動,都可能造成生成的決策樹有較大的差異。訓練集的合理選擇一直是決策樹挖掘中的一大難題。同時,測試集的選取又涉及分類準確性的評估問題。

隨著業(yè)務的進行和時間的推移,數(shù)據(jù)源中的業(yè)務數(shù)據(jù)總是在不斷地增加。如何從業(yè)務數(shù)據(jù)源中選取合適的數(shù)據(jù)集進行挖掘?qū)⒊蔀橐粋€難題。如果選擇全部的、不斷增漲中的數(shù)據(jù)源,則會造成:

1)由于在不同的時間存在不同的訓練集,從而生成不同的分類器。即不同的訓練集生成不同的決策樹。同時,由于測試集的不同,就會產(chǎn)生不同的評估結(jié)果。

2)隨著數(shù)據(jù)源中數(shù)據(jù)的快速增漲,決策樹的生成速度和準確性的評估過程將會明顯變慢,并最終可能超過現(xiàn)有硬件的承載能力,使人無法容忍。因而,通常的做法是對業(yè)務數(shù)據(jù)源進行抽樣,選取出一個大小適中的數(shù)據(jù)集。保證選取出的數(shù)據(jù)集樣本盡可能地包含有全部業(yè)務數(shù)據(jù)源的信息。

一般的方法是從業(yè)務數(shù)據(jù)源中隨機地抽取出一些數(shù)據(jù)項組成挖掘數(shù)據(jù)集,這樣抽取的樣本才具有代表性。我們在本項目軟件中使用的方法和步驟是:

1)首先,對業(yè)務數(shù)據(jù)源中的數(shù)據(jù)記錄在與挖掘無關(guān)的某個屬性(測試屬性和預測屬性之外的其它屬性)上進行排序;

2)然后,從前至后隨機地選取出一定數(shù)量的數(shù)據(jù)項至挖掘數(shù)據(jù)集中;

3) 選擇不同的無關(guān)屬性,重復以上兩步,最終選取出大小合適的數(shù)據(jù)集。

但是,由于本項目中的用戶流失為稀少結(jié)果,我們不得不采用過抽樣的方法,希望較稀少的結(jié)果占模型集的10%~40%的比例附近。

4.2 實例測試結(jié)果

運用決策樹分析結(jié)論來對公司主動流失用戶的具體情況進行分析,可以看出在費用變化率大的人群中中年人群用戶最易流失,這是因為這一部分人大多有相對穩(wěn)定的工作、收入相對較高,基本上每人都有自己的移動通信工具,孩子較大且大多在外讀書或已經(jīng)上班,家中很少有人在,因使用頻率低而銷戶。

實驗結(jié)果表明,使用該算法進行用戶信息的分析和預測是可行的和有效的,它可以幫助管理者更好地了解用戶的流失、高低價值以及是否欠費受哪些因素的影響,以便在今后的市場營銷中有針對性地對那些反面概率高的用戶做好服務工作,防止用戶的流失以及劣化引發(fā)的經(jīng)營危機,這對于提高公司的競爭力、改善用戶關(guān)系具有重要意義。

5 結(jié)論

由于數(shù)據(jù)挖掘的要求的海量數(shù)據(jù)和高性能執(zhí)行效率,本構(gòu)件在數(shù)據(jù)分析上尚不能承受大于萬條以上的數(shù)據(jù)量,此數(shù)量級為本構(gòu)件的性能瓶頸,因此需要本構(gòu)件還需在今后的研究中運用數(shù)據(jù)結(jié)構(gòu)的原理和思想進一步優(yōu)化其設(shè)計從而提高數(shù)據(jù)量的瓶頸和執(zhí)行速度。此外,由于用戶分析需要用戶的資料,但目前通信領(lǐng)域各通信運營商的用戶資料尚屬于秘密資料,因此無法獲得完全真實的用戶數(shù)據(jù),暫只能以調(diào)研當前各運營商營業(yè)時使用的用戶信息結(jié)構(gòu)為依據(jù)進行數(shù)據(jù)的模擬,在今后的進一步研究中還需根據(jù)獲得的調(diào)研信息不斷晚上模擬數(shù)據(jù)的設(shè)計。從總體上看,本構(gòu)件的設(shè)計已基本符合當前對構(gòu)件化軟件的開發(fā)要求和智能分析軟件的功能需求,并成功地將二者進行結(jié)合,實現(xiàn)了對用戶信息的智能化分析。

[1]關(guān)佶紅,申浩蕻.基于軟件重用技術(shù)的軟件開發(fā)方法研究[J].計算機與現(xiàn)代化,2000(1).

[2]原欣偉,覃正,盧致遠.基于耦合性分析的事務構(gòu)件識別方法研究[J].控制與決策,2004(9).

[3]石雙元,陳瓊,吳新明.基于構(gòu)件的信息開發(fā)框架[J].計算機工程與科學,2004(9).

[4]許峰丁珂,王志堅.基于JavaBeans的軟件構(gòu)件復用技術(shù)研究[J].計算機工程,2007(5).

[5]宋旭東,王毅,劉曉冰,張通學.基于構(gòu)件的綜合決策支持系統(tǒng)[J].計算機工程,2008(7).

[6]梁循.數(shù)據(jù)挖掘算法與應用[M].北京:北京大學出版社,2006.

[7]楊芙清,梅宏.構(gòu)件化軟件設(shè)計與實現(xiàn)[M].北京:清華大學出版社,2008.

猜你喜歡
數(shù)據(jù)挖掘用戶分析
探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
隱蔽失效適航要求符合性驗證分析
電力系統(tǒng)不平衡分析
電子制作(2018年18期)2018-11-14 01:48:24
基于并行計算的大數(shù)據(jù)挖掘在電網(wǎng)中的應用
電力與能源(2017年6期)2017-05-14 06:19:37
關(guān)注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
電力系統(tǒng)及其自動化發(fā)展趨勢分析
關(guān)注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
關(guān)注用戶
商用汽車(2016年4期)2016-05-09 01:23:12
一種基于Hadoop的大數(shù)據(jù)挖掘云服務及應用
如何獲取一億海外用戶
主站蜘蛛池模板: 九色视频一区| 国产精品无码作爱| 欧美高清视频一区二区三区| 国产精品免费p区| 国内精品久久人妻无码大片高| 男人的天堂久久精品激情| 日本午夜影院| 日韩无码真实干出血视频| 最新亚洲av女人的天堂| 国产成人在线小视频| 欧美日韩资源| 台湾AV国片精品女同性| 久久婷婷六月| 91九色视频网| 国产日韩欧美中文| 免费观看欧美性一级| 国产男人的天堂| 国产乱子伦精品视频| 欧美午夜在线视频| 波多野结衣亚洲一区| 狠狠色丁香婷婷综合| 亚洲中文制服丝袜欧美精品| 亚洲天堂啪啪| 波多野结衣亚洲一区| 亚卅精品无码久久毛片乌克兰| 久久精品波多野结衣| 色综合狠狠操| 国产真实乱子伦精品视手机观看| 97国产成人无码精品久久久| 亚洲午夜福利在线| 亚洲色婷婷一区二区| 日本在线国产| aaa国产一级毛片| 久久久久久久久18禁秘| 久久国产精品娇妻素人| 久久久久亚洲精品成人网| 黄色网站在线观看无码| 国产精品美人久久久久久AV| 在线观看的黄网| 亚洲精品视频网| 国产成人一区在线播放| 日韩欧美中文字幕一本| 日韩欧美中文| 久久 午夜福利 张柏芝| 中文字幕中文字字幕码一二区| 免费a在线观看播放| 精品国产一区二区三区在线观看 | 在线观看精品国产入口| 亚洲区一区| 青草娱乐极品免费视频| 成人福利在线观看| 精品人妻AV区| 国产精品片在线观看手机版| 亚洲人成网18禁| 久久男人视频| 国产69精品久久| 午夜a级毛片| 色视频久久| 在线网站18禁| 91精品视频在线播放| 日韩东京热无码人妻| 国产男女免费完整版视频| 婷婷丁香在线观看| 九色视频最新网址 | 日韩视频免费| 久久国产精品77777| 操国产美女| 伊人成人在线| 免费三A级毛片视频| 美女免费黄网站| 人与鲁专区| 日韩一级二级三级| 性欧美在线| 国产第八页| 亚洲不卡网| 日韩高清在线观看不卡一区二区| 亚洲天堂免费| 国产美女91视频| 久久久久免费看成人影片| 91小视频版在线观看www| 国产午夜精品一区二区三| 一本大道香蕉久中文在线播放|