999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于有監督機器學習的旅客購票行為建模分析

2023-11-30 11:32:10張鐙月彭超華
科技與創新 2023年22期
關鍵詞:特征模型

張鐙月,彭超華

(1.上海對外經貿大學國際經貿學院,上海 201600;2.南通大學機械工程學院,江蘇南通 226019)

隨著社會經濟的發展,中國高速鐵路的運營里程也經歷了爆發式增長。高速鐵路大大減少了人們的出行時間,提升了出行品質,同時以安全、換乘方便、乘坐舒適著稱。但是選擇高鐵還是傳統的火車出行,對不同的人來說,有不同的意愿。

為了更合理地研究旅客出行購票行為的規律,為鐵路部門提供一些建議和意見,本文首先確立了旅客出行影響因素模型的基本架構,建立旅客購票行為與影響因素關系的數學模型。

隨后基于Scott-Knott 檢驗對旅客購票行為的機器學習模型實證研究進行考核,從11 種有監督機器學習算法中選擇泛化能力最好的機器學習模型,以此為基礎建立旅客購票行為的計算模型,針對學生購票行為進行預測。

針對一定區域、特定階段、具有代表性人群的購票行為進行探索性研究,分析高鐵客運量與傳統火車客運量的規律。

1 旅客購票行為與影響因素關系建模

1.1 數據預處理

本文所用的數據來自于2019年江蘇省研究生數學建模科研創新實踐大賽。共有161 人參與了信息統計,統計的特征如表1 所示。

表1 統計特征名稱及簡稱

由于其中的一些指標無法表現出可區分的特征,因此本文需要剔除統計特征中的學號信息及起點終點信息。

旅客效用函數模型的求解依賴于經濟性、快捷性、方便性、舒適性及安全性,而量化這些指標的基本特征可以概括為里程、行駛時長、個人收入及票價。本文對上述基本特征進行了可視化分析。

從分析結果來看,行駛里程在500~2 000 km 的人數占據了絕大部分,這符合火車/高鐵長途出行的基本屬性;其次統計到的行駛時長普遍在0~15 h,考慮到火車/高鐵的行駛速度,這也與行駛里程相呼應;再次本文所研究的人群是學生群體,他們普遍的個人支配收入為2 000 元左右,這也決定了他們主要選擇的購票價格為0~800 元。

考慮到旅客的個人可支配收入會對后續多個特征產生影響,本文對參與調查的學生群體的個人收入情況進行了三分位數分箱處理,以此將學生群體劃分為高收入、中等收入及低收入群體,并進行0、1、2 編碼,統計結果如表2 所示。

表2 學生群體收入劃分

1.2 各特征影響及相互影響建模分析

結合上文初篩后的特征,本文給出了各特征相互耦合影響的示意圖,如圖1 所示。

圖1 各特征相互耦合影響圖

從指標篩選過程中可知,效用函數的求解還依賴于各交通工具的費率及旅客的時間價值。此處使用旅客的旅途時間價值替代時間價值,因此各交通工具的費率及旅途時間價值數學定義如下:

式中:Ri為第i種交通方式的平均費率的數值;Fi為票價的數值;Li為第i種交通方式的運行里程的數值;V(Ti)為旅途時間價值的數值;Ti為出行時間的數值。

引入這2 個特征后,對標簽和特征進行Pearson相關性檢驗,結果如表3 所示。

表3 各特征與標簽的Pearson 相關性檢驗

在引入費率和時間價值這2 個標簽后,其與標簽的Pearson 相關性檢驗結果超過了0.65,表現出了強相關性,因此,將2 個標簽考慮在內使結果更加理想。

1.3 基于Fisher-Score 準則對特征影響程度建模分析

Fisher-Score 準則是由DUDA 等在2012 年提出的一種有監督的特征選擇算法[1]。它根據是否隸屬于同一個標簽的特征的特征值進行篩選。該準則對于每個特征的評估得分描述如下:

式中:nj、μij、μi及uij2分別為類中的樣本數、特征fi的平均值、類j中樣本的特征fi的平均值及類j中樣本的特征fi的方差值。

此外,Fisher-Score 準則可以視為拉普拉斯分數的一個特例,與拉普拉斯分數類似,它也可以通過貪婪選擇原則類似獲得具有最大Fisher 分數的特征來獲得前個特征。基于上述評分模型,本文對上節通過了Pearson 相關性檢驗的10 個特征進行模型求解,結果如表4 所示。

表4 各特征Fisher-Score 得分

從各特征的得分及排序結果來看,時間價值和費率這2 個特征的影響程度均超過了0.7,在10 個特征中是最高的。

其次是行駛時長和票價這2 個特征的得分超過了0.2,但相比于時間價值和費率,這2 個指標的重要性明顯降低。

其余的6 個特征的得分均未超過0.1,該結果表明這6 個特征的重要程度不及前面4 個特征。

1.4 旅客購票行為的機器學習模型實證研究

1.4.1 分析流程及偽代碼

尋找最優的有監督學習算法,并以該算法為基礎,建立可以預測旅客購票行為的數學模型。

分析流程圖和項目執行偽代碼分別如圖2 及圖3所示。

圖2 分析流程圖

1.4.2 模型準備

常用的11 種有監督機器分類器學習算法如表5所示。

表5 有監督學習算法分類

1.4.3 顯著性檢驗

使用Scott-Knott 檢驗[2]為本文考慮的所有方法(總共11 種)進行排序和分組。Scott-Knott 檢驗嘗試將這些不同的方法劃分到具有顯著性差異的秩中(α=0.05)。具體來說,Scott-Knott 檢驗使用分層聚類分析為每個方法設置不同的秩。首先將所有方法基于平均性能(基于AUC 或F1指標)劃分成2 組。如果處在一組內的方法仍存在顯著差異性,則其會迭代使用上述過程將該組內的方法繼續分組,直至組內的方法之間不存在顯著差異性為止。

1.4.4 結果分析

執行圖2 所示的流程及圖3 的偽代碼,并對模型訓練的結果進行Scott-Knott 檢驗,檢驗的結果如圖4所示。從查準率P來看,梯度提升樹(Gradient Boosting Decision Tree,GBDT)優于隨機森林(Random Forest,RF)及后面其他的有監督學習算法;從查全率R來看,二次判別分析( Quadratic Discriminant Analysis Algorithm,QDA)優于RF(隨機森林)及后面的其他算法;從F1的檢驗結果來看,RF(隨機森林)在11 種有監督學習算法中的效果最好;從AUC(Area Under Curve,ROC 曲線下與坐標軸圍成的面積)的檢驗結果來看,同樣是RF(隨機森林)表現出了最優的泛化能力。綜上所述,RF(隨機森林)是這11 種有監督學習算法中泛化能力最好的算法,因此,本文將基于RF(隨機森林)建立可供計算的具體旅客購票行為的數學模型。

圖4 檢驗結果

1.4.5 旅客購票行為計算模型建模

基于1.4.4 節對11 種機器學習模型的實證研究,選定了泛化能力最好的隨機森林模型進行進一步的研究,它執行的主要流程如下。

1.4.5.1 產生訓練集

隨機森林采用的是有放回的無權重抽樣。該方法先使用Bootstrap 抽樣從原數據集中每次抽取n個訓練樣本,共進行k輪抽取,得到k個訓練集,然后每次使用一個訓練集來訓練得到一個模型,最后將得到的k個模型采用投票的方式得到分類結果。Bagging 抽樣方法是以可重復的獨立隨機抽樣為基礎的,在原數據集中的每個樣本都有可能被抽到,但在重復多次后,有的樣本是不能被抽取到的,不能抽到的概率是(1-1/N)N,N為原始數據集中樣本的個數。

1.4.5.2 節點分裂與特征選取

隨機森林采用的CART ( Classification and Regression Tree)決策樹就是基于基尼系數進行特征選擇,基尼系數的選擇標準就是每個子節點達到最高的純度,即落在子節點中的所有觀察都屬于同一個分類,此時基尼系數最小,純度最高,不確定度最小。對于一般的決策樹,假如總共有k類,樣本屬于第k類的概率為pk,則該概率分布的基尼(Gini)指數為:

由此可見,基尼指數越大,不確定性就越大;基尼系數越小,不確定性越小,數據分割越徹底。而CART 樹是二叉樹,上式又可以表示為:

在遍歷每個特征的每個分割點時,當使用特征A=a,將D劃分為2 個子集,即D1(滿足A=a的樣本集合)、D2(不滿足A=a的樣本集合)。則在特征A=a的條件下D的基尼指數為:

隨機森林中的每棵CART 決策樹都是通過不斷遍歷這棵樹的特征子集的所有可能的分割點,尋找Gini系數最小的特征的分割點,將數據集分成2 個子集,直至滿足停止條件為止。

1.4.5.3 森林形成與算法執行

重復上面單棵決策樹樣本抽樣和構建每棵決策樹2 個步驟,就建立了大量沒有剪枝的決策樹,這些決策樹的組合就構成了隨機森林模型。隨機森林模型的最終分類結果是根據模型中每棵決策樹的分類結果通過投票的形式得出的,得票最多的分類結果就是算法的輸出結果。

2 旅客購票行為建模

2.1 效用函數模型

當運輸通道內出現供城際旅客可選的交通工具為i種時,每種交通工具對應的效用值大小可用效用函數式來對不同交通工具特定的效用進行標定,城際旅客總是喜好效用值較低的交通方式,其數學表達式為:

式中:λn為第n項影響因素的權重值;為第i種交通工具的第n項影響因素,即上文中的票價、運行時間、方便性、舒適度及安全性。

2.2 機器學習模型

為了研究旅客購票行為發生的潛在規律,從數據本身出發,通過建立合適的機器學習模型訓練分類器,然后對數據集進行交叉驗證,并通過包括查準率P、查全率R、查準率和查全率的調和平均1/F1及ROC 曲線下的面積AUC 的值對機器學習模型泛化性能力進行評估。各指標的數學定義如下:

式中:TP和FP分別為混淆矩陣的真正例和假反例的數值;xi和yi分別為ROC 曲線的坐標點的數值。

將上文中的票價、運行時間、方便性、舒適度及安全性這些參數視為特征,將旅客的購票行為視為標簽,建立有監督的機器學習的模型,其示意圖如圖5所示。

圖5 旅客購票行為機器學習模型

3 旅客購票行為預測分析

通過1.4 節的建模分析與求解,建立了基于隨機森林的有監督機器學習模型。為了提高模型的準確性和泛化能力,本文對所擁有的數據進行訓練,進而得到訓練好的學習器。用該學習器預測下一年寒假每個學生的購票行為,預測結果如表6 所示。

表6 下一年寒假每個學生的購票行為結果預測

將表6 預測的結果進行可視化,如圖6、圖7 所示。由圖6 與圖7 可知,購買火車票的人數約為22 人,約占總人數的25.88%;購買高鐵票的人數約為63 人,約占總人數的74.12%。從預測的結果可知,雖然旅客購票行為受多方面因素制約,但是大部分學生在回程過程中還是更愿意選擇高鐵出行。

圖6 購買不同種類車票的人數分布

圖7 購買不同種類車票的人數占比分布

4 結束語

本文選定的區域為南京—上海、特定階段為寒暑假期間、研究的代表性人群為大學生群體。其中南京—上海的軌道交通有京滬普鐵、滬寧城際及京滬高鐵。以黎暉關于《鐵路出行方式選擇行為模型研究》[3]的結論為基礎進行討論。總體上看,各鐵路中性別分布比較均勻,在年齡分布上主要是18~45 歲的青年。各鐵路乘客的學歷分布呈現較大差異,京滬高速與滬寧城際乘客的學歷較高,大部分乘客為本科及以上學歷,而京滬普鐵乘客以本科以下學歷居多。在職業分布上,滬寧城際和京滬高鐵主要服務對象為職員和學生,而這2 類群體在普鐵占比較少。乘客收入分布特征為京滬高鐵高于滬寧城際高于京滬普鐵。而從出行目的來看,滬寧城際和京滬高鐵中均有30%以上的客流為出差客流,京滬普鐵則相對較少。

同時,筆者基于MNL(Multinomial Logit Model,離散選擇模型)對乘客的出行意愿和影響因素進行了分析。結果表明,年齡對京滬普鐵產生顯著的正效應,乘客年齡越大,選擇京滬普鐵的概率越大。隨著學歷的增加,旅客選擇普通鐵路的概率降低。職業對京滬普鐵具有突出的顯著作用,尤其是對學生出行和職員出行的吸引力較低,這也側面反映了節約時間、正點率高是學生與職員2 類群體的主要訴求。

上述研究結論表明了滬寧干線每天都有存在必要的需求,可稱這些需求為基礎需求Q。本文選定的人群為大學生群體,大學生經濟是典型的“候鳥型”經濟,由大學生寒暑假所造成的車站客流量擁堵也是具有“候鳥型”特征的,將這種“候鳥型”客流量稱為Q′。Q和Q′的疊加勢必會給鐵路交通帶來較大的負擔。但是從研究結果來看,Q′是可以通過相應的計算方法和數學方法進行估算的。

因此,只有大致把握Q′的規模,才能使鐵路局管理人員提前做好車輛車次等計劃的安排。為了從更一般的角度描述對Q′的估計,給出以下解決方案:①鐵路管理部門通過校園實地問卷調查或者面向大學生網上問卷調查獲取相關信息;②鐵路管理局通過后臺比對篩選相應的調查對象;③結合后臺數據與問卷調查數據形成有效的數據集;④對數據集進行特征工程處理;⑤進行機器學習訓練,并預測結果。

猜你喜歡
特征模型
一半模型
抓住特征巧觀察
重要模型『一線三等角』
新型冠狀病毒及其流行病學特征認識
重尾非線性自回歸模型自加權M-估計的漸近分布
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
抓住特征巧觀察
3D打印中的模型分割與打包
FLUKA幾何模型到CAD幾何模型轉換方法初步研究
主站蜘蛛池模板: 黄色网页在线播放| 激情无码视频在线看| 曰韩免费无码AV一区二区| 亚洲美女一区| 成人在线观看一区| 欧美人与动牲交a欧美精品| 亚洲不卡影院| 亚洲AV无码久久精品色欲| 无码专区在线观看| 欧美一区二区自偷自拍视频| 伊人色在线视频| 国产成人无码AV在线播放动漫| 无码'专区第一页| 亚洲品质国产精品无码| 国产精品永久不卡免费视频| 91精品啪在线观看国产91| 99精品热视频这里只有精品7| 亚洲高清日韩heyzo| 五月天在线网站| 一级全黄毛片| 亚洲最黄视频| 波多野结衣一区二区三区四区视频 | 69国产精品视频免费| 在线综合亚洲欧美网站| 亚洲乱码视频| 国产成人乱无码视频| 国内嫩模私拍精品视频| 国产乱肥老妇精品视频| 91欧美亚洲国产五月天| 国产一区二区三区精品久久呦| 亚洲熟女中文字幕男人总站| 国产精品无码久久久久AV| 五月天综合网亚洲综合天堂网| 国产在线观看高清不卡| 国产91小视频在线观看| 日本免费一级视频| 精品国产免费观看| 曰AV在线无码| 欧美亚洲国产日韩电影在线| 国产黑丝视频在线观看| 婷婷五月在线| 亚洲欧洲自拍拍偷午夜色| 尤物亚洲最大AV无码网站| 永久免费av网站可以直接看的 | 国产成在线观看免费视频| 很黄的网站在线观看| 亚洲一区国色天香| 国产午夜人做人免费视频| 久久午夜夜伦鲁鲁片无码免费| 久久精品中文字幕免费| 91无码国产视频| 国产亚洲精品97AA片在线播放| 国产第四页| 毛片在线播放网址| 亚洲无限乱码一二三四区| 无码电影在线观看| 亚洲综合二区| 老司机aⅴ在线精品导航| 国产精品网址你懂的| 丰满人妻被猛烈进入无码| 五月天婷婷网亚洲综合在线| 999精品色在线观看| 99精品国产自在现线观看| 亚洲一区二区黄色| 91小视频版在线观看www| 亚洲欧美在线综合图区| 欧美日韩另类在线| 国产精品观看视频免费完整版| 国产色伊人| 人妻21p大胆| 国产美女在线免费观看| 黄色三级毛片网站| 一级做a爰片久久毛片毛片| 中文字幕有乳无码| 午夜精品久久久久久久无码软件| 欧美一区二区自偷自拍视频| 亚洲精品国产精品乱码不卞| 五月激情综合网| 五月天久久综合国产一区二区| 亚洲六月丁香六月婷婷蜜芽| 国产成人精品一区二区不卡| 伊人精品视频免费在线|