魏寶紅 周 慶
(1. 西安鐵路職業技術學院 陜西西安 710014;2. 陜西易通人力資源開發有限責任公司 陜西西安 710014)
隨著市場經濟的深入,鐵路運輸企業如何能把握住市場脈搏,滿足旅客對出行交通工具和旅途服務的需求,贏得運輸市場,提高鐵路運營效率,是擺在鐵路部門面前的關鍵問題,旅客出行行為研究就顯得非常重要。為了準確地研究其行為,筆者采用Aprior方法從模糊的、隨機的實際應用數據中提取隱含的、有用的信息。通過對大量業務數據進行抽取、轉換和處理,從中提取輔助管理決策的關鍵性數據,對旅客進行細分,以地域、收入水平、偏好等大量的旅客歸類,明確旅客服務增殖的目標乘客。
該論文以西成高鐵客運通道為例,對西成高鐵的旅客特征和乘客價值進行分析,利用Aprior技術探討高鐵旅客用戶行為和需求,為鐵路運輸管理者建言獻策,也為日后其他高鐵客運專線運營提供參考價值。
旅客出行行為是指旅客為某一目的出行(通勤、探親、出差、休閑)乘坐高鐵從出發地到目的地的移動的行為。本研究于2019年11月和12月期間,收集了西成高鐵在該年的11月1日至11月30日鐵路客戶服務中心系統后臺日志數據,所獲取的數據跨越30天,數據總量共達到了3.67GB。該系統的日志數據詳細記錄了旅客乘坐西成高鐵的出行及獲得相關服務的信息,如旅客證件信息、旅客進出站記錄、購票記錄、改簽及退換票記錄、接入網絡的IP地址及終端信息、乘坐車次、列車發車時間、旅客使用高鐵訂餐相關服務的記錄等。
為進一步明確西成高鐵旅客用戶行為與其對西成高鐵服務的需求,我們從中篩選了部分利用西成高鐵增值服務比較頻繁的旅客用戶,對其利用西成高鐵增值服務的相關數據信息進行了獲取與挖掘。通過對用戶登陸鐵路服務系統以及車站安檢系統中的用戶行為數據與其IP地址和其預留在中鐵路服務系統中的個人身份信息進行匹配,我們獲得了用戶個人信息、用戶使用高鐵服務的信息,這些數據約占到了總記錄數的32.75%。用戶通過鐵路服務系統所能夠獲得的高鐵服務主要有車票查詢服務、列車運行信息查詢服務、人工售票服務、自助售票服務、人工檢票服務、自助檢票服務、便捷通道服務、站內咨詢服務、餐飲服務、商品零售服務、WIFI與電源服務、醫療服務、睡眠膠囊服務、時刻表售賣服務、托運服務、休閑娛樂服務等服務。
Aprior算法的基本思想是以遞歸的方式反映從數據集中尋找出現頻次多的項集,進而產生選項集,對達到最小支持度要求的候選項集進行保留,而刪除那些不滿足要求的數據。在該算法執行的過程中,通常將最大前項數據的閾值設置為1,而小最置信度數據設置為10%,其具體流程如圖1所示。

圖1 基于Aprior算法流程圖
表1顯示了基于Aprior算法的西成高鐵旅客用戶數據聚類結果。可以看出通過數據聚類,鐵路服務系統各項服務之間的關聯規則被揭示出來。車票查詢和自助售票兩項服務之間的關聯性最強,其次是列車運行和車票查詢兩項服務,再次是自助售票和自助檢票,說明旅客用戶利用西成高鐵出行最基本的幾項服務之間具有比較高的關聯性,并且也是置信度最高的幾項關聯規則,這說明西成高鐵的大部分旅客用戶在利用鐵路服務系統進行車票與列車相關查詢操作后,會選擇優先到車站的自助設備上完成購票、取票或檢票等操作,西成高鐵若要宣傳和推廣自身的增值服務,將這些基本服務與增值服務建立起相應的關聯關系是當務之急。置信度比較高的關聯規則還有便捷通道和托運服務之間關聯規則,說明西成高鐵的許多旅客用戶在選擇通過車站提供的便捷通道進入候車區域后,還會選擇將使用車站提供的托運服務使自己享受到進一步的便捷服務。此外,我們還發現了便捷通道與休閑娛樂、站內咨詢與餐飲服務、休閑娛樂與WIFI電源、商品零售與休閑娛樂、列車運行與托運服務、自助檢票與WIFI電源等服務之間關聯性,這些關聯規則的揭示,都有利于西成高鐵對當前的系統與服務進行改進,更好地提升用戶對西成高鐵服務的利用率。

表1 關聯規則發現的高鐵增值業務

?
總體來看,本研究運用K-means算法和Aprior算法對西成高鐵旅客用戶的出行及其活動行為進行分析,揭示了西成高鐵旅客用戶行為與需求進行了挖掘。通過K-means算法進行聚類分析,我們得出了六個類:第1類用戶對西成高鐵路服務系統的利用及其出行行為與活動處于中等水平,其目的主要以一般服務的使用為主,這類旅客用戶對西成高鐵增值服務的使用頻次并不高,因此西成高鐵可重點關注這類用戶在出行目的地及其在出行過程中的服務使用記錄,有針對性地為這些旅客推薦一些出行或休閑相關的信息,以使滿足這類旅客用戶的出行需求;第2類旅客用戶的出行次數以及出行中的活動行為數量都相對較少,且增值服務使用行為所占的比重相對較高,其桌面端的用戶占多數,這與本研究之前所得出的結論保持一致。針對這類用戶,西成高鐵在進行高鐵服務精確推送的同時,還可通過各種系統服務平臺與短信等渠道為其推薦更多的服務、資源供其選擇;第3類僅包含26個記錄,且該聚類下的一般服務使用次數、增值服務使用次數、出行中的活動次數、活動持續時間、利用高鐵服務數量的值均要遠大于其他五個類,該類存在異常的情況,故而舍去;第4類和第5類用戶屬于兩類行為相反的用戶群,第4類的用戶屬于以一般服務使用為主要目的,主要利用桌面端設備進行操作,會在鐵路服務系統中留下比較多的服務使用記錄,以獲取精確的服務項目的用戶群,該類用戶進行其他的情況相對較少,而第5類的用戶屬于更愿意利用鐵路服務系統中其他服務的用戶,這類用戶以利用智能設備為主;第6類用戶一般服務行為和增值服務使用行為的頻次上都不算多,但其活動記錄的次數卻達到了117.54次,說明這類用戶比較喜歡漫無目的在鐵路服務系統進行相關無關操作,這類用戶利用西成高鐵出行的需求并不明確,需要為之提供必要的指導。
另外,從基于Aprior算法的西成高鐵旅客用戶數據聚類結果揭示的各項服務之間的關聯規則來看,車票查詢和自助售票兩項服務之間的關聯性最強,其次是列車運行和車票查詢兩項服務,再次是自助售票和自助檢票,說明旅客用戶利用西成高鐵出行最基本的幾項服務之間具有比較高的關聯性,并且也是置信度最高的幾項關聯規則。置信度比較高的關聯規則還有便捷通道和托運服務之間關聯規則,說明西成高鐵的許多旅客用戶在選擇通過車站提供的便捷通道進入候車區域后,還會選擇將使用車站提供的托運服務使自己享受到進一步的便捷服務。這些關聯規則的揭示,都有利于西成高鐵對當前的系統與服務進行改進,更好地提升用戶對西成高鐵服務的利用率。