999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

民航旅客訂票行為細分及群體特征分析

2015-12-20 06:58:26徐冰宇
計算機工程與設計 2015年8期
關鍵詞:模型

馮 霞,徐冰宇,盧 敏

(1.中國民航大學 計算機科學與技術學院,天津300300;2.中國民航信息技術科研基地,天津300300)

0 引 言

越來越多的航空公司開始實行客戶關系管理系統(customer relationship management,CRM)[1],并對旅客進行細分[2],希望發現具有不同價值的旅客群,并針對不同價值的旅客群實行不同的營銷策略,提升航空公司服務質量,從而提高航空公司收益。然而客戶細分工作在民用航空業起步比較晚,發展比較落后。目前航空公司大多數是按旅客購買機票的票價或者其累計的里程距離進行細分,例如營銷專家Bob Stone提出了RFM 法[3];南京航空航天大學的羅亮生等對傳統的RFM 指標做了適當的調整,確定了L,R,F,M,C這5個指標為航空公司客戶價值發現的參數[4]。實際上,上述民航旅客細分方法只是發現了旅客的價值,并未指出旅客群體的行為特征,如旅客具備何種乘機習慣等,進而無法支撐航空公司面向不同行為偏好群體的旅客開展個性化營銷。

為了解決上述問題,本文基于民航旅客訂票數據并結合傳統RFM 模型,提出一種TCSDG (time,class,seat,discount,group)模型,模型的核心思想是:采用旅客出行時間、艙位、座位和票價折扣描述旅客的乘機習慣,并使用K-means算法對旅客聚類,進而將旅客劃分為若干個簇。由于民航旅客訂票數據規模巨大,傳統K-means算法難以處理。為此,本文提出了基于Hadoop的K-means并K-means行化算法以應用于大規模民航旅客訂票數據的旅客細分。

1 基于TCSDG 的民航旅客行為偏好模型

1.1 傳統RFM 模型

RFM 模型是由營銷專家鮑比斯通 (Bob Stone)提出的。在民航領域,R 指旅客最近一次乘坐飛機距離當前日期的天數;F 指旅客在某一段時間內乘坐飛機的次數;M指旅客購買機票的機票票價。RFM 模型認為那些最近出行時間較短、出行頻率較高以及所購買的機票票價較高的旅客是相對價值較高的旅客,即航空公司需要關注的旅客[5,6]。

1.2 TCSDG 模型的構建

RFM 模型由于容易理解、計算簡單等特點廣泛被各行業用于客戶關系管理。然而也正是因為其只使用R、F、M這3個屬性來對旅客進行評價,忽略了旅客的其它屬性,并不能全面的反映旅客的行為偏好,因此本文根據實際旅客訂票數據的特點結合傳統的RFM 模型提出一種更為全面反映旅客行為偏好的TCSDG 模型。模型中的各參數含義如下:T:Time,表示旅客出行時間;C:Class,表示旅客所在艙位;S:Seat,表示旅客所在座位;D:Discount,表示旅客購票的折扣;G:Group,表示旅客是否跟團出行。

選擇這5個參數是因為這5個參數在旅客訂票時是由旅客根據自己的意愿選擇的,且對航空公司不同航班的客座率有直接影響,進而影響航空公司總體收入。由于實際訂票數據的格式不能直接通過TCSDG 模型進行計算,因此按如下方法進行處理。

對于參數T,由于出行時間是連續的時間值,而旅客對出行時間的偏好主要體現為對不同時間段的偏好。本文將時間離散成3個時間段,0時0分~11時59分為上午,12時00分~17時59分為下午,18時00分~23時59分為晚上。

對于參數C,實際中艙位代碼有F 艙 (頭等艙公布價),A 艙 (頭等艙免折),C 艙 (公務艙公布價),D 艙(公務艙免折),Y 艙 (普通艙公布價)等。對于航空公司,艙位類型主要有頭等艙、商務艙和經濟艙三大類。本文將F艙、A 艙處理為F=1;將C艙、D 艙處理為C=1;將其它艙位代碼處理成Y=1。

對于參數S,反映了旅客對于靠窗或者不靠窗座位的偏好。目前國內的座位分布主要以中國國際航空公司 (簡稱國航)和中國南方航空公司 (簡稱南航)兩個航空公司為代表,其中國航座位分布中座位代碼A、F 代表靠窗座位,而南航座位分布中座位代碼A、K 代表靠窗。本文將座位代碼A、K、F處理為S=1,其它則S=0。

對于參數D,因為同旅客可能有多條訂票記錄,本文使用旅客所有訂票記錄中折扣的平均值。

對于參數G,若訂票記錄中有團隊名則G=1,沒有則G=0。

2 基于TCSDG 模型的旅客聚類

通過構建1.2節中提出的TCSDG 模型,我們可以得到旅客的行為偏好,為了進一步對旅客進行細分,通過聚類算法可以將具有相同行為偏好的旅客聚成一簇。算法流程如圖1所示。

圖1 基于TCSDG 模型的旅客細分

聚類是一種重要的數據挖掘算法,其目標是將數據集劃分為若干簇,使得同一簇內的點相似度較高,而不同簇中的點相似度較低[7,8]。K-means是經典的聚類算法,其應用已比較成熟,相比于其它聚類算法,其有易于理解,收斂速度快等特點。K-means具體算法步驟如下:

輸入:待聚類數據集N 以及簇的數目k。

輸出:使平方誤差最小的k個簇。

(1)從數據集N 中選擇k 個對象作為初始簇中心mi(i=1,2,3,…,k);

(2)根據式 (1)計算數據集N 中每個元素p到k個簇中心的距離d(p,mi);

(3)找到每個元素p最小的d(p,mi)并將元素p歸入與mi所屬的簇中;

(4)遍歷數據集N 中所有元素,使用式 (2)更新mi簇中心的值;

(5)重復步驟 (2),直到平方誤差小于設定值。

這里的距離公式使用歐式距離,即

其中s=(xs1,xs2,…,xsn),t=(xt1,xt2,…,xtn)是兩個n維數據對象。

更新簇中心公式如下

式中:mk——第k個簇的簇中心,nk——第k個簇中元素個數。

平方誤差定義如下

式中:p——簇Ci的元素,k——簇數。

3 基于TCSDG 模型的民航旅客細分并行算法

在面對航空公司海量歷史訂票數據時,單機由于受內存、處理能力等方面限制,表現為計算時間過長甚至無法進行計算。因此,本文結合Hadoop并行計算平臺將基于TCSDG 模型的旅客聚類算法并行化。

3.1 Hadoop

Hadoop是Apache公司開發的分布式系統基礎架構,可以使用它將大量廉價設備組成一個分布式集群,構成一個高性能的并行計算平臺。Hadoop框架的核心是分布式文件系統 (Hadoop distributed file system,HDFS)和MapReduce,前者實現了海量數據的存儲,后者提供了海量數據的計算模型。MapReduce借鑒了函數編程的思想,將大規模的數據處理任務抽象成Map和Reduce兩種操作。在Map函數中處理一系列鍵值對<key,value>,并處理輸出一系列中間鍵值對<key,list<values>>,所有具有相同key值的value值傳給同一個Reduce函數,Reduce函數接收Map函數輸出的鍵值對,并對每一個key 按需要計算value值,并輸出鍵值對<key,value>[9-11]。

3.2 并行化K-means聚類算法

K-means算法的主要思想是將數據集中的每個元素分配到離它距離最近的類簇中,并使得所有類簇中平方差最小;使用K-means算法在讀取元素以及分配不同元素到其最近的類簇時的操作是相互獨立的,這也給算法并行化提供基礎。

并行化K-means算法流程如下:

步驟1

初始化k個中心點,將k個中心點的信息存入HDFS,信息包括簇標示符,該中心點向量。

步驟2

Map過程:

輸入key-value值 (數據偏移量,內容);

計算此點與哪個中心點距離最近;

輸出key1-value1值 (簇號,元素值);

Reduce過程:

輸入key1-value1值 (簇號,元素值);

計算此類新的中心點,質心距離等,更新HDFS中中心點向量信息;

輸出key2-value2值 (簇號,此簇所有元素內容);

步驟3

計算每個類中新的中心點與原來中心點的距離,若距離大于給定閾值則重復步驟2,若距離小于給定值則輸出結果。

在步驟1中由于并行計算時每臺計算節點均需要訪問簇中心的信息,因此將簇中心信息存儲于HDFS中,使得集群中的每臺計算機均可以讀寫。

在步驟2中,計算元素和不同簇中心點的距離只需要讀取HDFS中的簇中心信息,因此可以將不同的數據塊分給不同的節點進行并行計算,集群的節點通過Map函數按<key,value>的形式讀入部分數據,其中key為數據記錄偏移量,value為一行記錄內容,計算此元素與各簇中心的距離,并標記此元素所屬最近的簇類;然后輸出<key1,value1>,其中key1是距離最近的簇的標示符,value1 標示該元素值。Reduce函數接收Map 函數的輸出值,所有key值相同的value會被傳到一個Reduce函數中,因此一個Reduce函數中包含一個簇的所有元素信息。在Reduce函數中可以計算新的聚類簇中心以及每一簇的平方誤差,更新HDFS中的簇中心信息并根據平方誤差決定算法是否繼續迭代,Reduce函數輸出<key2,value2>,其中key2表示簇標示符,value2表示屬于該簇的所有元素的信息。

4 實驗及分析

4.1 實驗平臺及數據

實驗中搭建了1臺控制節點,4臺計算節點的Hadoop并行計算集群,集群中電腦配置為Inter(R)Core(TM)2 Quad 2.89Ghz Cpu,4GB 內 存,電 腦 操 作 系 統 為Ubuntu12.0,Hadoop版本為1.0.4。

本文中采用的實驗數據為中國民航訂座系統中2010年1月至2011 年12 月兩年的真實訂票數據,數據大小為50GB,有17個屬性,本文只列舉使用到的屬性,樣例數據見表1,為了保護旅客隱私,我們使用加密算法將身份證加密,但是可以保證每個旅客對應唯一的身份證ID。

表1 樣例數據

4.2 并行K-means聚類算法有效性和高效性驗證

為了驗證并行K-means算法的有效性,我們分別使用并行K-means算法和傳統K-means算法對標準數據集iris(鳶尾花)數據集進行聚類,結果見表2、表3。

表2 傳統K-means聚類結果

表3 并行化K-means聚類結果

從表2、表3中可以看出,并行K-means聚類算法的效果和傳統K-means算法效果一致,其中中心點有微小差異是因為在選取初始聚類中心時采用隨機選取的方式。

為了驗證并行K-means算法的高效性,我們從實驗數據中分別截取1000 條、2000 條、…、500000 條記錄,使用并行K-means算法和普通K-means算法分別進行聚類,兩種算法耗時見表4。

表4 傳統K-means算法和并行K-means算法消耗時間對比

從表4可以看出,當數據量較小時 (少于5×104條)時,傳統K-means執行時間較短,這是因為并行K-means算法消耗了大量時間讀取數據以及進行節點間通信;隨著數據量增大,讀取數據以及節點間通信消耗的時間對并行Kmeans算法的整體運行時間影響逐漸減小,并行K-means算法逐漸優于傳統K-means算法;當數據量增加到足夠大時,傳統K-means算法會受制于內存、計算能力等因素而難以處理,而并行K-means算法使用HDFS存儲文件則不受影響。

4.3 旅客TCSDG 特征計算

實驗數據中有部分贓數據 (例如被取消訂單的記錄、團隊名缺失的記錄),需要對數據清洗,刪除被取消的訂單數據,補全缺失的數據項等。

由于訂票數據中存在同一旅客具有多條訂票記錄的情況,我們需要將一個旅客的多條訂票數據處理成一條數據,首先按照1.2節方法計算每條記錄的TCSDG 特征值,然后按照數據中的ID 值,將同一ID 的數據進行合并。由于數據量的龐大性,且計算不同ID 的TCSDG 特征值間相互獨立,采用Hadoop并行計算平臺進行計算。以表1的樣例數據為例,按TCSDG 模型預處理后的結果見表5。

表5是表1樣例數據按照TCSDG 模型計算并將相同ID 的旅客數據合并的特征值。例如,表1中第2、3行數據代表同一旅客17001217.的記錄,在表5 中已處理成一條數據,表示旅客17001217.乘坐下午航班1次,乘坐晚上航班1次,購買經濟艙1次,購買頭等艙1 次,兩次均坐在靠窗的位置,兩次平均折扣1.001,兩次均是單獨出行。

4.4 基于TCSDG 模型的旅客聚類

K-means算法的初始聚類簇數k對算法具有很大的影響,然而在對具體數據進行聚類時k 值通常是不確定的[12]。我們分別將k值設定為2、4、6、…、22等多個值進行聚類,并計算最終聚類結果的平方誤差,計算結果如圖2所示。

從圖2中可以看出隨著k值的增加,聚類結果的平方誤差在減小,這不難理解,k值越大則聚出的簇越多,極限情況當每一個元素單獨成一簇時,則平方誤差為0。在圖2中當k<14時,平方誤差的降幅較大,當k>14時,平方誤差的降幅較平穩,因此本文中將初始類簇個數k 設置為14。

表5 旅客TCSDG 特征值

圖2 不同初始k值聚類平方誤差

在確定初始類簇個數后,對4.3節中得到的旅客TCSDG 特征數據按照3.2節提出的并行K-means聚類算法進行聚類,聚類后各簇不同行為偏好的人數比例見表6,第一列表示簇編號,其中每一行表示一簇中不同偏好的人數占此簇人數的比例,每一行的上午、下午、晚上人數百分比和為100%;每一行的經濟艙、商務艙、頭等艙人數百分比和為100%、每一行靠窗、不靠窗人數百分比和為100%,每一行團隊、單獨人數百分比和為100%,每一行折扣為此簇旅客購票折扣平均值。

為了更好的看出每簇旅客的行為偏好,我們將其中幾簇的旅客統計成圖,如圖3~圖5所示。

表6 聚類結果

圖3 第一簇旅客行為偏好

圖4 第二簇旅客行為偏好

圖3~圖5分別是第一、二、三簇旅客的乘機時間、乘機艙位、座位等信息的比例。可以看出第一簇的旅客偏向乘坐下午和晚上的航班,偏向選擇經濟艙,對座位位置不太敏感,偏向團隊出行,偏向6折的機票;第二簇的旅客對出行時間不太敏感,偏向選擇經濟艙,部分選擇頭等艙,偏向靠窗的座位,偏向單獨出行,偏向選擇7至8折機票;第三簇的旅客對出行時間不太敏感,偏向選擇經濟艙,部分選擇頭等艙和商務艙,偏向選擇不靠窗的座位,偏向單獨出行,偏向3 折機票;……剩下其它類簇的信息從表6中也都可以看出,這樣有利于航空公司有針對的營銷,對不同行為偏好的類簇提供不同的個性化推薦服務,比如對第一簇中的旅客推薦下午和晚上時間的航班,推薦經濟艙,推薦6折的機票;對第二簇中的旅客推薦經濟艙和頭等艙,推薦靠窗的座位,推薦7折的機票;對第三簇的旅客推薦不靠窗的位置,推薦折扣較低的機票等。

圖5 第三簇旅客行為偏好

5 結束語

旅客是航空公司最重要的收入來源,如何提升航空公司服務,將航空公司的旅客按不同需求劃分成不同的群體,并針對不同需求的群體提供個性化的推薦服務一直是航空公司客戶管理工作的重點。本文提出一種TCSDG 模型來描述旅客行為偏好,并根據旅客的不同行為偏好等對旅客進行更全面的細分,有利于改善航空公司個性化的營銷服務;并將本文提出的算法結合Hadoop并行計算平臺使得本文算法可以并行計算,從而可以對航空公司海量的訂票數據進行處理。

[1]Liu Y,Ram S,Lusch RF.Multicriterion market segmentation:A new model,implementation,and evaluation [J].Marketing Science,2010,29 (5):880-894.

[2]FANG Anru,YE Qiang,LU Qi,et al.Customer segmentation framework model based on data mining [J].Computer Engineering,2009,35 (19):251-253 (in Chinese). [方安儒,葉強,魯奇,等.基于數據挖掘的客戶細分框架模型 [J].計算機工程,2009,35 (19):251-253.]

[3]XU Xiangbin,WANG Jiaqiang,TU Huan,et al.Customer classification of E-commerce based on improved RFM model[J].Journal of Computer Applications,2012,32 (5):1439-1442 (in Chinese). [徐翔斌,王佳強,涂歡,等.基于改進RFM 模型的電子商務客戶細分 [J].計算機應用,2012,32(5):1439-1442.]

[4]LUO Liangsheng,ZHANG Wenxin.Research of method customer segment of airlines based on database of frequent flyer[J].Modern Business,2008 (23):54-55 (in Chinese).[羅亮生,張文欣.基于常旅客數據庫的航空公司客戶細分方法研究 [J].現代商業,2008 (23):54-55.]

[5]SHUAI Bin,DENG Shaowei,HUANG Lixia.Railway express freight consumer market segmentation based on improved RFM model[J].Journal of Railway Science and Engineering,2014,11 (1):112-117 (in Chinese).[帥斌,鄧紹蔚,黃麗霞.基于改進RFM 模型的鐵路快捷貨運客戶市場細分方法[J].鐵道科學與工程學報,2014,11 (1):112-117.]

[6]LV Bin,ZHANG Jindong.Commercial bank marketing decision analysis based on RFM model[J].Statistics and Decision Making,2013,29 (14):65-67 (in Chinese). [呂斌,張晉東.基于RFM 模型的商業銀行營銷決策分析 [J].統計與決策,2013,29 (14):65-67.]

[7]TONG Xuejiao,MENG Fanrong,WANG Zhixiao.Optimization to k-means initial cluster centers[J].Computer Engineering and Design,2011,32 (8):2721-2723 (in Chinese).[仝雪姣,孟凡榮,王志曉.對k-means初始聚類中心的優化[J].計算機工程與設計,2011,32 (8):2721-2723.]

[8]ZHOU Aiwu,YU Yafei.The research about clustering algorithm of K-Means [J].Computer Technology and Development,2011,21 (2):61-65 (in Chinese). [周愛武,于亞飛.K-Means 聚 類 算 法 的 研 究 [J].計 算 機 技 術 與 發 展,2011,21 (2):61-65.]

[9]LU Jiaheng.Hadoop in action [M].Beijing.China Machine Press,2011 (in Chinese).[陸家恒.Hadoop實戰 [M].北京:機械工業出版社,2011.]

[10]White T.Hadoop:The definitive guide [M].O’Reilly Media,Inc,2009.

[11]CUI Jie,LI Taoshen,LAN Hongxing.Design and development of the mass data storage platform based on Hadoop [J].Journal of Computer Research and Development,2012,49(S1):12-18(in Chinese). [崔杰,李陶深,蘭紅星.基于Hadoop的海量數據存儲平臺設計與開發 [J].計算機研究與發展,2012,49 (S1):12-18.]

[12]ZHOU Shibing,XU Zhenyuan,TANG Xuqing.Method for determining optimal number of clusters in [J].Journal of Computer Applications,2010,30 (8):1995-1998 (in Chinese).[周世兵,徐振源,唐旭清.K-means算法最佳聚類數確定方法 [J].計算機應用,2010,30 (8):1995-1998.]

猜你喜歡
模型
一半模型
一種去中心化的域名服務本地化模型
適用于BDS-3 PPP的隨機模型
提煉模型 突破難點
函數模型及應用
p150Glued在帕金森病模型中的表達及分布
函數模型及應用
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
3D打印中的模型分割與打包
主站蜘蛛池模板: 伊人成人在线| 国产亚洲精品自在久久不卡| 99免费在线观看视频| 久久性视频| 免费无码AV片在线观看国产| 97久久免费视频| 无码一区中文字幕| 久久香蕉欧美精品| 亚洲欧美在线综合一区二区三区| 国产爽爽视频| 麻豆国产精品一二三在线观看| 亚洲国产日韩欧美在线| 91午夜福利在线观看| 熟妇无码人妻| 国产在线自揄拍揄视频网站| 国产午夜无码片在线观看网站| 亚洲人成电影在线播放| 亚洲精品老司机| 欧美一区二区三区欧美日韩亚洲| 日本a∨在线观看| 免费jjzz在在线播放国产| 青青久久91| 亚洲三级视频在线观看| 国产污视频在线观看| 午夜无码一区二区三区| 在线不卡免费视频| 亚洲av色吊丝无码| 亚洲国产成人麻豆精品| 亚洲精品无码不卡在线播放| 国产精品吹潮在线观看中文| 超碰91免费人妻| 无遮挡国产高潮视频免费观看| 啪啪国产视频| 熟妇人妻无乱码中文字幕真矢织江 | 国产资源免费观看| 97超级碰碰碰碰精品| 99热这里只有精品2| 色综合久久无码网| 久久伊人久久亚洲综合| 精品国产成人a在线观看| 日韩欧美国产综合| 国产色婷婷视频在线观看| 精品视频一区二区观看| 尤物视频一区| 手机精品视频在线观看免费| 尤物视频一区| 国内精品小视频福利网址| 国产麻豆福利av在线播放| 激情六月丁香婷婷四房播| 日韩欧美中文| 国产成人高清精品免费软件| 亚洲色图欧美视频| 亚洲色图狠狠干| 国产95在线 | 国产成人一区| 99re经典视频在线| 久久青草热| 国产中文一区二区苍井空| 亚洲综合极品香蕉久久网| 国产女人18水真多毛片18精品| 亚洲区第一页| 国内毛片视频| 亚洲品质国产精品无码| 在线欧美一区| 在线人成精品免费视频| 无码国产偷倩在线播放老年人| 在线网站18禁| 国产麻豆精品在线观看| 免费无码又爽又黄又刺激网站| AV老司机AV天堂| 亚洲中文字幕日产无码2021| 久久久受www免费人成| 欧洲成人在线观看| 久久久受www免费人成| 青青热久麻豆精品视频在线观看| 亚洲欧美在线看片AI| 亚洲小视频网站| 国产成人亚洲欧美激情| 欧美综合一区二区三区| 中文字幕日韩久久综合影院| 大学生久久香蕉国产线观看| 尤物国产在线|