999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

鐵路客運旅客群體劃分算法的研究

2022-01-04 01:28:34郝曉培單杏花王煒煒
鐵路計算機應用 2021年12期
關鍵詞:特征

郝曉培,單杏花,王煒煒

(1. 中國鐵道科學研究院 研究生部,北京 100081;2. 中國鐵道科學研究院集團有限公司 電子計算技術研究所,北京 100081)

在高速鐵路線路建設及運營初期,巨大的建設成本導致其主要依靠政府補貼維持運營。2013年3月,隨著原中華人民共和國鐵道部實行政企分開,高速鐵路運營模式出現了新的變化,市場化運營嶄露頭角;2015年底,中華人民共和國國家發展和改革委員會規定,2016年1月1日起,鐵路部門可基于運輸市場競爭狀況、服務設施條件差異、客流分布變化規律、旅客承受能力和需求特點等,自主制定時速200 km以上的高速鐵路動車組列車票價;2018年12月,原中國鐵路總公司更名為中國國家鐵路集團有限公司,從全民所有制改為公司制,以更加市場化的方式,靈活參與客運市場競爭?;谑袌鎏攸c、服務設備條件差異、客流分布變化規律、旅客承受能力及鐵路網特點等進行自主定價,使其更靈活、更市場化[1]。

鐵路旅客需求的多樣化趨勢促使鐵路部門將服務模式從政策驅動型逐漸轉變為市場驅動型及客戶驅動型。交通行業競爭的焦點已轉移到細分旅客市場、提高服務質量、維系客戶關系上。近幾年鐵路客運已構建了完善的用戶畫像及產品畫像[2],為旅客群體劃分提供了數據基礎??蛻羧后w劃分是指,根據一個或多個屬性將客戶劃分到不同的群組,同一群組下的客戶相似度較高,不同群組的客戶差異較大。通過將客戶分到正確的類別,對現有及預期客戶作截面分析,針對不同截面提取顯著特征,即可對客戶構成較準確的認識,使服務和營銷定位更加精確。

1 旅客群體劃分算法概述

旅客群體劃分常用算法有:經驗描述法、聚類算法、決策樹法、RFM(Recency-Frequency-Monetary)分析法[3]等??筛鶕脠鼍?、業務數據特點及業務功能選擇適合的算法。

(1)經驗描述法基于專家意見進行特征選取及特征值范圍劃分,適用于業務簡單、特征較少的服務場景。

(2)聚類算法可基于鐵路客運用戶畫像系統發現不同的旅客群組,找到不同群組的特征,從而解決旅客分類問題。

(3)決策樹法根據構建的用戶特征,利用信息增益,選擇最優特征及分割點,從而實現旅客自動化分群。適用于人群特征維度低、特征取值多的場景。

(4)RFM分析法計算用戶的最近一次消費時間、消費頻率、消費金額等,并為每個特征設定閾值,基于3個特征高于閾值和低于閾值的限定,將群體分成8類,主要用于快消品的群體分析。

鐵路客運旅客數據作為一種典型的數據源,包含了大量的旅客購票及出行行為數據,通過使用統計學、機器學習等方式構建完善的用戶畫像系統;鐵路客運旅客數據也包含了海量的社交網絡數據,即同行關系及購票關系,為鐵路旅客群體劃分提供了重要的數據支撐。因此,需引入社交網絡對用戶畫像特征進行修正和完善,提高聚類效果。

2 旅客群體劃分算法設計

本文在鐵路客運用戶畫像系統的基礎上,構建特征處理,社交網絡特征傳播,群體聚類3個模塊對鐵路客運旅客群體進行劃分,如圖1所示。

圖1 算法設計

2.1 特征處理

特征處理是指對結構化及非結構化的原始數據進行處理和加工,將雜亂的數據通過計算、組合、轉換等方法轉化為特征數據,并使用主成分分析等方法對特征數據進行選擇的過程,主要方法如下。

(1)數據清洗

發現并修正原始數據中存在的可識別的錯誤,主要包括缺失值處理[4]和異常值檢測及處理。

(2)數據規范化

在用機器學習對模型進行訓練的過程中,樣本數據包含數值型、枚舉型等。為得到性能更優的模型,需要對不同類型的特征進行處理,主要操作包括數據無量綱化及連續變量離散化。

(3)特征衍生與提取

模型構建過程中,需要從現有的特征中構造一些特征。針對特征過多的樣本,為降低模型復雜度,防止過擬合,需要進行降維處理,主要包括特征衍生及特征提取。

2.2 社交網絡特征傳播

2.2.1 社交網絡概述

目前,鐵路部分旅客出行頻次較低,統計類特征不完善,存在一定量的特征缺失,需要采用策略對其進行完善。本文主要采用社交網絡特征傳播的方式進行特征優化,利用其鄰居節點的特征及權重,對其自身特征進行完善。在旅客社交網絡中,旅客不再是用戶畫像特征的信息載體,其個體與其他旅客之間的購票關系及同行關系對整個鐵路客運社交網絡中的信息產生、特征演化、知識傳播過程發揮著重要作用。本文在旅客特征的基礎上,將旅客關系網絡與相鄰節點的旅客特征信息交互融合,對旅客特征進行完善。

社交網絡G(V,L) 作為網絡的一種,由節點與連接節點的邊組成,節點集合為節點總數;邊的集合為邊的總數;li連 接的節點屬于節點集合V,其社交特征傳播規律也與復雜網絡理論研究的基本規律相同。

2.2.2 社交網絡算法

為完善鐵路旅客特征值,本文主要從網絡視角對旅客特征進行迭代更新,根據鐵路旅客間的同行關系、購票關系等構建網絡結構,模擬PageRank[5]算法的隨機跳轉思路,對網絡中的旅客節點特征進行迭代運算,直至數值穩定為止。

基于PageRank算法原理,特征傳播過程主要分為3個階段。

(1)網絡初始階段:旅客作為網絡節點,旅客之間的購票關系及同行關系形成網絡的連接,網絡連接的權重定義為購票次數及同行關系次數,圖2是以4個節點為例的關系網絡。

圖2 以4個節點為例的關系網絡

(2)特征初始階段:基于特征處理生成的旅客特征作為網絡節點的屬性,每個節點與相鄰節點的重要性是不同的。本文將相鄰節點和該節點購票及出行的總次數與所有相鄰節點和該節點購票及出行的總次數的比值作為權重,即:其中 ,fij表示節點i為節點j購票的次數及節點i與節點j同行次數的總和;n代表節點i相鄰節點的個數 。Wij越大,說明節點j的特征對節點i的影響力越大。針對每一個特征值,都需要基于網絡結構對其進行更新;

(3)特征值更新階段:針對確定的特征變量,進行迭代運算。每一次計算都將原來的特征值與該節點相鄰節點的特征值加權求和并求最大值,作為新的特征值不斷迭代,直至特征值趨于穩定。以節點i的特征值xit為例,其計算公式為

2.3 群體聚類

特征處理及社交網絡特征傳播分別對旅客特征信息進行計算及優化。聚類算法主要基于優化過的特征進行用戶群體分類,常用的分類算法有Kmeans算法[6]。該算法原理相對簡單,可解釋性強,運行速度快,被廣泛應用于客戶分群、精準營銷的業務場景中,取得良好的效果。然而,業務數據的不同會導致K-means算法訓練的難度加大,主要體現在聚類中心初始值的選擇及相似度度量算法上。為解決K-mean算法存在的問題,本文針對這兩方面進行了優化。

2.3.1 初始聚類中心

傳統的K-means算法采用隨機的策略進行初始聚類中心的選擇,選擇不當易造成聚類結果波動,陷入局部最小解,也易受到噪音數據的影響,較難發現非球狀的樣本簇。為解決該問題,本文采用密度指標結合最大最小距離法[7]進行初始聚類中心的選擇。

初始聚類中心選擇步驟如下

(1)計算所有樣本的平均距離dc:

其中,dij代表樣本i與j之間的歐式距離。

(2)密度pi表 示落在以樣本對象xi為 中心;dc為半徑的區域內的樣本對象的數量:

(3)計算該樣本的最大密度點,將其作為第1個初始聚類中心c1,以解決選取局限性問題。

(4)采用最大最小距離法及密度法選擇出其他的初始聚類中心,基于公式din)}(i=1,2,···,n)挑 選樣本對象xj, 即xj到樣本xi的最大最小距離為disti, 將樣本平均距離dc范圍內的所有樣本點中樣本密度值最大的對象作為第2個初始聚類中心c2。不斷重復該過程以找到所有的聚類中心,通過該方式選擇的初始聚類中心,分布密度高,且較為接近最終的聚類中心,可有效減少聚類過程的迭代次數。

2.3.2 相似度度量算法

傳統的K-means算法主要采用歐式距離計算樣本相似度,針對樣本特征進行統一處理,不區分特征重要性。然而,鐵路旅客的不同特征之間的相似度是有差異的。為區別對待旅客樣本特征,本文將樣本與樣本之間的權重距離作為相似度度量依據,基于信息熵來計算特征權重,信息熵較小的賦予較小的權重,反之,則賦予較大的權重[8],權重計算方式如下。

(1)構建樣本特征矩陣A:

其中,n表示樣本個數;m表示特征數;代表第j個樣本的第i個特征。

(3)計算特征信息熵H(i):

(4)計算特征維度上的差異系數ri:

(5)計算特征權重wi:

3 實例分析

3.1 特征處理

為驗證模型的有效性,本文隨機抽取某客運區段、一定時間內、某車次的30 000名旅客的所有出行行為數據(包括非本區段)作為數據集。通過特征處理整理出的數據特征維度包括:出行頻次、動車組出行比例、一線及新一線城市出行比例、購買保險比例、打印發票比例、假日出行比例、平均同行人數、高端席別比例等,初始特征統計如表1所示。

表1 初始特征

出行頻次及平均同行人數的數據值不在[0,1],需要進行歸一化處理。

3.2 特征更新

特征更新策略主要基于PageRank算法思想,根據節點本身的特征及鄰節點的特征進行調整,并對調整后的特征進行歸一化處理,得到最終的旅客特征。

3.3 聚類

將特征處理及特征更新后的數據通過改進的Kmeans算法進行聚類,得到6個類別,對聚類結果進行處理,得到各類別平均特征值如表2所示,群體比例分布如圖3所示。

由表2可知,類別1出行頻率較低,且大部分是在節假日出行;類別2與類別1相近,但是其出行一線及新一線城市的比例較高;類別3所有的特征相對均衡;類別4~類別6出行頻次相對較高,動車組所占比例較高,且打印發票(報銷憑證)比例較高,可以定義為商務出行群體。由圖3可知,該車次類別4~類別6群體所占比例接近75%,大部分為商務人群出行,可針對該車次的服務進行相應的策略配置,為票價調整提供決策依據。

圖3 群體比例分布

表2 各類別平均特征值

4 結束語

本文通過鐵路客運用戶畫像系統構建旅客特征,同時基于旅客購票關系及同行關系,利用PageRank算法思想優化完善旅客特征,作為旅客群體分類的數據特征;分析了K-means聚類算法存在的缺點,對初始聚類中心節點的選擇及相似度度量算法進行了優化,從數據特征及聚類算法優化等方面提高了聚類的準確性及穩定性;對實際的生產數據進行了驗證,效果較明顯。然而,本文只局限于考慮旅客特征,尚未考慮區段及車次的特征,下一步可將旅客與產品進行相關分析,豐富數據種類,以提高分析效果,作出更精準的營銷策略。

猜你喜歡
特征
抓住特征巧觀察
離散型隨機變量的分布列與數字特征
具有兩個P’維非線性不可約特征標的非可解群
月震特征及與地震的對比
如何表達“特征”
被k(2≤k≤16)整除的正整數的特征
中等數學(2019年8期)2019-11-25 01:38:14
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
詈語的文化蘊含與現代特征
新聞傳播(2018年11期)2018-08-29 08:15:24
抓住特征巧觀察
基于特征篩選的模型選擇
主站蜘蛛池模板: 午夜日b视频| 香蕉eeww99国产在线观看| 亚洲欧洲AV一区二区三区| 久久久久青草线综合超碰| 日韩欧美国产精品| 波多野结衣一区二区三视频| 久久婷婷国产综合尤物精品| 午夜福利视频一区| 人妻精品久久久无码区色视| 亚洲欧美自拍一区| 激情综合图区| 色综合色国产热无码一| 在线观看亚洲人成网站| 色婷婷亚洲十月十月色天| 播五月综合| 久久久久国产一区二区| 99在线观看精品视频| 国产精品久久久久久搜索| 色综合狠狠操| 欧美一级片在线| 久久综合AV免费观看| 国产成年无码AⅤ片在线| 亚洲欧洲免费视频| 国产精品一线天| 一级黄色欧美| 国产一区二区网站| 波多野结衣一区二区三区88| 青草精品视频| 天天色综网| 国产美女丝袜高潮| 国产精品亚洲综合久久小说| 第九色区aⅴ天堂久久香| 日韩免费视频播播| 18禁色诱爆乳网站| 在线看片中文字幕| 麻豆精品久久久久久久99蜜桃| 伊人久久久大香线蕉综合直播| 嫩草影院在线观看精品视频| 久久亚洲高清国产| 亚洲AV无码久久天堂| 精品国产成人高清在线| 精品日韩亚洲欧美高清a| 国产激情在线视频| 国产欧美在线观看精品一区污| 国产精品亚欧美一区二区| 中文字幕在线看| 999在线免费视频| 亚洲高清中文字幕在线看不卡| 国产不卡国语在线| 91福利免费| 亚洲欧州色色免费AV| 伊人久久大香线蕉成人综合网| 婷婷五月在线视频| 国产精品美乳| 青草精品视频| 91av成人日本不卡三区| 精品视频91| 综合天天色| 国产新AV天堂| 欧美不卡视频在线| 欧美性精品不卡在线观看| 呦视频在线一区二区三区| 五月天综合网亚洲综合天堂网| 黄色网站不卡无码| 亚洲欧美日韩天堂| 国产美女91呻吟求| 亚洲天堂网2014| 国产精品蜜臀| 一级不卡毛片| 国产精品亚洲专区一区| 欧美狠狠干| 婷婷五月在线| 国产爽爽视频| 亚洲人成影院午夜网站| 欧美成a人片在线观看| 欧美乱妇高清无乱码免费| 免费国产一级 片内射老| 亚洲最大情网站在线观看| julia中文字幕久久亚洲| 全部免费特黄特色大片视频| 国产精品视频系列专区| 中字无码av在线电影|