999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于RBM-BPNN的民航潛在高價值旅客預測

2019-09-13 03:36:40劉澤君
計算機應用與軟件 2019年9期
關鍵詞:分類價值特征

徐 濤 劉澤君 盧 敏

1(中國民航大學計算機科學與技術學院 天津 300300)2(中國民航信息技術科研基地 天津 300300)3(民航旅客服務智能化應用技術重點實驗室 北京 101318)

0 引 言

近年來,隨著航空市場迅猛發展,民航企業合作競爭日益增強。為了提高競爭力,航空公司推行了常旅客計劃。然而,由于常旅客計劃的門檻較高并且反饋的利益較少,導致了當前消費尚少,但潛在價值較高的旅客群流失,不利于航空公司長遠的利益發展。因此,如何預測旅客的價值成長趨勢并發現潛在高價值旅客,先于其他競爭對手將其發展為高忠誠度高價值旅客成為了航空公司重點關注的問題。

目前,國內外關于潛在客戶預測的研究主要運用基于特征分類的行為分析方法。林友芳等[1]構建旅客同行關系網絡,統計同行行為特征,利用多層感知器進行分類預測。喬珂等[2]從高鐵客票數據中選擇了6類乘客價值影響因素作為分類指標,采用LCM模型進行高鐵旅客的潛在類別分析。Nakahara等[3]從銷售信息中歸納出客戶購買行為特征,并用聚類算法發現潛在客戶。

總體來看,上述方法都是先用統計方法提取潛在客戶行為特征,再用機器學習模型進行分類預測。然而,民航潛在高價值旅客與低價值旅客往往存在特征相似性,統計方法提取的特征帶有主觀色彩,難以準確表達潛在高價值旅客特征信息,因而影響分類預測準確性。

為解決以上問題,本文將RBM[4]和BPNN[5]相結合。一方面,BPNN能發現旅客行為特征與價值類別之間復雜的非線性關系,相比其他分類模型具有更強的泛化和容錯能力,更適用于民航潛在高價值旅客預測問題。另一方面, RBM能夠自動提取特征,無需經驗支持或人工干預,可以保證旅客行為特征的客觀性、全面性,從而提高BPNN的分類預測效果。

本文提出了一種基于RBM-BPNN的潛在高價值旅客預測方法。首先依據航空公司的發展需求,設計民航潛在高價值旅客定義方法,并設置旅客類別標簽;然后利用RBM自動提取潛在高價值旅客和低價值旅客的行為特征;最后根據旅客行為特征,利用BPNN進行民航旅客的分類預測,從而發現潛在高價值旅客。

1 預測模型構建

民航潛在高價值旅客預測的關鍵有兩點:一是定義潛在高價值旅客,不同領域有不同的價值定義方式,民航領域的價值定義方式應符合航空公司的發展需求;二是設計擁有優秀的民航潛在高價值旅客特征表達能力和良好的特征學習能力的分類預測模型。

1.1 潛在高價值旅客定義

潛在高價值旅客定義分為兩步:計算旅客價值、設置旅客類別標簽。

1.1.1計算旅客價值

采用RFM模型(Recency Frequency Monetary)[6]作為民航旅客價值的衡量標準。RFM模型包含三項價值指標:最近一次消費時間與當前時間之差R、最近消費頻率F和最近消費金額M。根據RFM模型,將旅客pi的價值表示為:

value(pi)=αi·βT

(1)

式中:αi=(Ri,Fi,Mi)表示旅客pi的價值向量,αi的各分量表示旅客pi最近乘機日期與當前日期之差(此項為負值)、近期乘機次數以及近期乘機金額的歸一化值;β=(βR,βF,βM)表示權值向量,用于確定各分量在價值中的占比,一般由民航業背景結合專家經驗確定。

1.1.2設置旅客類別標簽

為了進行有監督的分類學習,需要劃分價值類別,設置旅客類別標簽。一般而言,潛在高價值旅客是指當前價值較低,未來一段時間后價值較高的旅客。記T為當前時刻,T′為未來某一時刻,V為價值閾值,表示高價值與低價值的分界限,根據旅客整體的價值分布,由價值衡量指標計算得到。若旅客在T時刻的價值小于V,在T′時刻的價值大于等于V,則稱其為潛在高價值旅客,價值曲線如圖1(I)所示。反之,若旅客在T時刻的價值小于V,在T′時刻的價值仍然小于V,則稱為低價值旅客,價值曲線如圖1(II)所示。

圖1 旅客價值曲線圖

T時刻到T′時刻的時間差|T-T′|的長短與民航業發展特征密切相關,對于航空公司而言,若該時段設置的過長,旅客對航空公司現階段發展的作用不大;若該時段設置的過短,旅客的出行次數不足以形成行為偏好。綜合考慮,將該時段設定為一年。航空公司可依據旅客上一年的出行記錄預測其在下一年的價值,做出相應的決策。

定義價值閾值V。從旅客歷史出行記錄中可以獲得旅客的近期消費情況,利用RFM模型計算出旅客價值并降序,根據20-80原則[7],價值排名在前20%的旅客創造了80%的利潤,可視為高價值旅客。

設置旅客類別標簽。一年后,旅客的價值會呈現不同的發展趨勢,從而形成四種類別。其中:高價值旅客為兩年均表現為高價值的旅客;異常旅客為在上一年表現為高價值且在下一年表現為低價值的旅客;潛在高價值旅客為在上一年表現為低價值且在下一年表現為高價值旅客的旅客;低價值旅客為兩年均表現為低價值的旅客。旅客類別劃分如圖2所示。

圖2 旅客類別劃分

1.2 RBM-BPNN分類預測模型

RBM是無監督學習模型,由可視層和隱藏層組成,其隱藏層能夠擬合可視層分布,常用于各領域的特征提取問題。BPNN是有監督學習模型,由輸入層、隱藏層和輸出層組成,能夠通過復雜的函數變換發現輸入和輸出之間的關系,常用于各領域的分類預測問題。本文結合二者的優點,提出RBM-BPNN分類預測模型,模型由一個RBM和一個BPNN組成,結構如圖3所示。

設RBM可視層節點vi的數目為m,代表m維輸入屬性,隱藏層節點rhj的數目為n,代表n個行為特征。則RBM的能量函數為:

(2)

式中:ai為vi的偏置;bj為rhj的偏置;wij為兩層之間的連接權重。θ={w,a,b}為RBM中所有參數,根據式(2)可得到(v,rh)的聯合概率分布為:

(3)

(4)

RBM的節點只有激活(1)、抑制(0)兩種狀態,且激活狀態條件獨立,則有:

(5)

(6)

式中:σ(x)=(1+e-x)-1為Sigmoid激活函數。

采用對比散度算法(Contrastive divergence,CD)[8],通過式(5)、式(6)對可視層和隱藏層進行重構,更新參數θ,當從隱藏層得到的可視層節點分布與原樣本的分布最大程度相近時,認為該隱藏層為可視層的另外一種表達,是輸入數據的特征,θ={w,a,b}條件下的式(5)即為行為特征的表達式。

將從RBM得到的輸出特征作為BPNN的輸入,增強BPNN的分類預測效果。設BPNN隱藏層節點bhk的數目為s;輸出層節點ul的數目為2,代表兩類分類結果;wjk為輸入層到隱藏層的權重;wkl為隱藏層到輸出層的權重;ck為隱藏層的偏置;dl為輸出層的偏置。則BPNN隱藏層節點輸出為:

(7)

預測結果的表達式為:

(8)

設yl為實際樣本標簽,在得到期望輸出之前,BPNN轉入反向傳播階段,誤差函數為:

(9)

1.3 基于RBM-BPNN的民航潛在高價值旅客預測

基于RBM-BPNN的民航潛在高價值旅客預測的思想為:根據上一年表現為低價值的民航旅客的行為屬性,利用RBM-BPNN分類預測模型判斷其是潛在高價值旅客還是低價值旅客。高價值旅客和異常旅客非本文研究的重點,不作討論。基于RBM-BPNN的民航潛在高價值旅客預測方法的實現步驟如下:

Step1根據RFM模型劃分旅客類別,設置民航旅客類別標簽,將上一年處于低價值的旅客的類別標簽及行為屬性組成樣本,劃分訓練集和測試集。

Step2RBM-BPNN分類預測模型初始化,隨機賦值RBM的參數wij、ai、bj和BPNN的參數wjk、wkl、ck、dl。

Step3RBM訓練。輸入訓練集,使用CD算法進行RBM訓練,提取旅客行為特征,重構誤差滿足要求后保存RBM網絡結構及參數θ={w,a,b}。記v和rh分別為初始可視層和隱藏層,v′和rh′分別為重構后的可視層和隱藏層,η1為RBM學習率,則RBM各參數的更新準則為:

(10)

Step4樣本重組。用RBM的隱藏層rh替換BPNN的輸入層,作為旅客的行為特征,將旅客的類別標簽及行為特征重組為樣本。

Step5BPNN訓練。使用誤差反向傳播法[9]逐層調整BPNN的權重和偏置,學習旅客行為特征與價值類別之間的關系,訓練誤差SE達到目標精度后保存BPNN網絡結構及參數wjk、wkl、ck、dl。記η2為BPNN學習率,則BPNN各參數更新準則為:

wkl←wkl+η2bhk(yl-ul)

dl←dl+η2(yl-ul)

(11)

Step6分類預測。確定RBM-BPNN分類預測模型的網絡結構后輸入測試集,采用保存的RBM參數θ={w,a,b}和BPNN參數wjk、wkl、ck、dl進行旅客的分類預測,得到預測結果。

2 實 驗

實驗所用的數據集是中國民航旅客訂座記錄(Passenger Name Record, PNR),選取2010年后的某年X及次年全部旅客的出行數據進行實驗。根據RFM價值模型和20-80原則,可以得到X年的潛在高價值旅客和低價值旅客數目(如表1所示)。

表1 數據集統計信息

2.1 數據預處理

PNR數據集中,一條記錄僅代表一名旅客的一次訂票信息。為了不損失信息的反映一名旅客多次出行的情況,需要將同一名旅客的多條記錄合并,這既反映旅客全部出行的選擇,又反映其對于選擇的偏好。

原始PNR數據集含有10個屬性,分別是性別、出生年份、航空公司、起飛日期、起飛時間、艙位、座位號、座位行號、折扣和航線距離。對于原數據集的離散型屬性(性別、出生年份、航空公司、起飛日期、艙位、座位行號、座位號),將其值域內的每一個取值作為一個子屬性,并依次記錄旅客對于每個子屬性選擇的頻次;對于原數據集的連續型屬性(起飛時間、折扣、航線距離),先將屬性離散化,用相應的離散區間替換連續屬性值,再依次記錄旅客對于每個離散區間選擇的頻次。

又因RBM的訓練要求節點為二值0-1變量,因此對合并后的數據做二元化處理。對于一名旅客只能取唯一值的自然屬性(性別、出生年份),將每個屬性劃分為0、1二值;對于一名旅客可取多值的屬性(航空公司、起飛日期、艙位、座位行號、座位號、起飛時間、折扣、航線距離),分為零、低、中、高四項,每項設定閾值。最終,輸入樣本維度為2 288維(如表2所示)。

表2 屬性維度統計信息

2.2 實驗評價指標

實驗選取精確度、召回率和F1值三個指標評估方法的性能。

2.3 實驗及結果分析

從處理后的數據集中隨機抽取潛在高價值旅客樣本及低價值旅客樣本各8 000條,組成16 000條訓練樣本;隨機抽取潛在高價值旅客樣本及低價值旅客樣本各2 000條,組成4 000條測試樣本進行實驗。

參數wij、wjk、wkl、ai、bj、ck、dl的初始值通常為從一組均值為0,標準差為0.01的正態分布中抽取的隨機值;RBM可視層節點vi數目m為2 288,與輸入樣本維度一致;BPNN輸出層節點ul數目l為2;RBM重構誤差小于2%時停止訓練,BPNN目標精度設為0.1。

為測試本文方法的性能,進行了兩種不同的實驗。

1) 確定RBM-BPNN分類預測模型的最佳參數。RBM隱藏層節點數目n以及BPNN隱藏層節點數目s是對模型輸出結果影響最大的參數,需要通過多次訓練,對比尋找合適的值。

RBM隱藏層節點數目n取100到2 100,每次訓練增加200。從圖4可以看出,當隱藏層節點數設為700時三項指標最高,因此,將RBM隱藏層節點數目設為700。

圖4 RBM隱藏層節點數目對結果的影響

BPNN隱藏層節點數s取50到650,每次訓練增加50。從圖5可以看出,當隱藏層節點數設為150時,精確度和F1值最高,且召回率較高,因此,將BPNN隱藏層節點數目設為150。

圖5 BPNN隱藏層節點數目對結果的影響

2) 不同行為分析方法的對比。令n=700,s=150,將本文提出的基于RBM-BPNN的民航潛在高價值旅客預測方法(簡稱RBM-BPNN方法)與BPNN方法、DT方法、PCA-BPNN方法在相同的數據集上進行對比。其中,BPNN方法與DT方法采用了14個統計特征,包括性別、年齡、月平均出行次數、平均里程數、空閑時間出行比例、正常時間出行比例、繁忙時間出行比例、頭等艙出行比例、商務艙出行比例、經濟艙出行比例、平均折扣、節假日出行比例、工作日出行比例、周末出行比例。PCA-BPNN方法利用經典的PCA特征提取算法從原始數據中抽取特征,再輸入 BPNN進行分類預測。不同方法的實驗結果如表3所示。

表3 方法的對比 %

通過實驗可以看出:

(1) BPNN方法在三項指標上均高于DT方法,這說明BPNN比DT具有更強的自適應能力,更適用于PNR數據集。

(2) BPNN方法和DT方法的三項指標均低于80%,說明基于特征分類的行為分析方法無法精確有效地發現潛在高價值旅客。這是由于統計方式提取的特征具有較強的主觀性,難以合理地表示原始數據,是導致分類效果欠佳的重要原因。

(3) RBM-BPNN方法在三項指標上均高于BPNN方法和DT方法,說明RBM-BPNN方法比基于特征分類的行為分析方法更能有效識別潛在高價值旅客。這是由于RBM以概率計算方式自動選取性能良好特征,摒棄冗余特征,發現隱藏特征,所提取的特征比統計特征更為客觀。

(4) RBM-BPNN方法在三項指標上均高于PCA-BPNN方法,說明RBM提取的特征比PCA提取的特征性能更好。這是由于RBM的特征提取過程是以擬合輸入為目的,特征能夠較為精確地代表原始數據;而PCA的特征提取過程是以去相關性為目的,忽略了特征之間的相關性和差異性,使得特征喪失了對數據的解釋性,難以精確地反映原始數據的信息。

從對比實驗的結果可見,基于RBM-BPNN的民航潛在高價值旅客預測方法具有更高的旅客分類準確率和民航潛在高價值旅客預測能力。

3 結 語

本文將RBM的無監督特征提取與BPNN的有監督分類功能相結合,提出了基于RBM-BPNN的民航潛在高價值旅客發現方法,對民航旅客未來的價值類別進行了預測。實驗結果表明,與基于特征分類的行為分析方法相比,本文方法可以明顯提高民航潛在高價值旅客發現效果。由于RBM-BPNN分類預測能夠直接從原始數據集中自動提取并分類特征,無需經驗支持或人工干預,因此可以用于不同領域的行為分析問題。

猜你喜歡
分類價值特征
分類算一算
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
分類討論求坐標
數據分析中的分類討論
教你一招:數的分類
抓住特征巧觀察
一粒米的價值
“給”的價值
線性代數的應用特征
河南科技(2014年23期)2014-02-27 14:19:15
主站蜘蛛池模板: 97超级碰碰碰碰精品| 在线看片免费人成视久网下载| 亚洲aⅴ天堂| 日本欧美视频在线观看| 114级毛片免费观看| 日韩视频免费| 精品欧美一区二区三区久久久| 亚洲系列无码专区偷窥无码| 免费看av在线网站网址| 在线色国产| 亚洲一区二区三区香蕉| 久久久久久久久久国产精品| 免费看av在线网站网址| 99精品伊人久久久大香线蕉| 久久人人爽人人爽人人片aV东京热| 日韩在线第三页| 老司机午夜精品网站在线观看 | 99视频有精品视频免费观看| 国产99在线| 久久精品亚洲中文字幕乱码| 伊人久久青草青青综合| 综合人妻久久一区二区精品| 人禽伦免费交视频网页播放| 麻豆AV网站免费进入| 免费高清a毛片| 欧美成人二区| 三级欧美在线| 欧美全免费aaaaaa特黄在线| 99九九成人免费视频精品| 久久香蕉国产线看精品| 国产精品高清国产三级囯产AV| 日韩精品免费一线在线观看| 免费观看成人久久网免费观看| 国产视频只有无码精品| 在线色国产| 亚洲区欧美区| 久久www视频| 四虎成人在线视频| 国产凹凸视频在线观看| 99re经典视频在线| 国产97公开成人免费视频| 91在线视频福利| 青青草原国产精品啪啪视频| 国产幂在线无码精品| 99热这里只有精品在线播放| 国产成人久久综合777777麻豆| 曰韩免费无码AV一区二区| 伊人色婷婷| 亚洲资源站av无码网址| 欧美日韩精品一区二区在线线 | 久久久久九九精品影院| 国产在线精彩视频论坛| 婷婷亚洲视频| 国产日产欧美精品| 亚洲欧美另类专区| 99热这里只有精品2| 啪啪啪亚洲无码| 色婷婷成人网| 日韩欧美国产综合| 伊人久久福利中文字幕| 欧美亚洲另类在线观看| 狠狠色综合网| 国产麻豆另类AV| 欧美成人在线免费| 第一页亚洲| 亚洲αv毛片| 欧美爱爱网| 制服丝袜一区| 福利在线不卡| 国产精品香蕉在线| 丝袜美女被出水视频一区| 亚洲无码高清免费视频亚洲| 国产一级小视频| 青青草国产一区二区三区| 欧美日韩第二页| 亚洲一区二区成人| 亚洲精品大秀视频| 亚洲三级成人| 91青青草视频在线观看的| 久久久久国产一级毛片高清板| 日韩毛片在线播放| 亚洲无码在线午夜电影|