999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于鐵路出行數(shù)據(jù)的旅客常住地智能識別算法研究

2018-12-01 07:04:54郭根材
鐵路計(jì)算機(jī)應(yīng)用 2018年11期
關(guān)鍵詞:鐵路

郭根材

(中國鐵道科學(xué)研究院集團(tuán)有限公司 電子計(jì)算技術(shù)研究所,北京 100081)

人口流動性是經(jīng)濟(jì)社會發(fā)展的一個重要指標(biāo),人口以流動方式追求經(jīng)濟(jì)社會目標(biāo)而形成的較長時間的自由遷徙和異地生活狀況。由于升學(xué)、工作等原因,我國居民身份證號中包含的居住地信息與居民實(shí)際的常住地有較大差異。掌握旅客常住地信息有助于根據(jù)居住地人均收入推斷旅客的消費(fèi)水平,為個性化產(chǎn)品推薦提供基礎(chǔ)。

目前,獲取常住地信息的方法主要有常住人口、戶籍登記、人口普查、大數(shù)據(jù)分析等。文獻(xiàn)[1]以年度人口變動調(diào)查為基礎(chǔ),通過調(diào)查指標(biāo)之間的關(guān)系、人口變動自身特征與抽查的情況,分析我國各地區(qū)常住人口的推算方法;文獻(xiàn)[2]以第六次上海市流動人口普查數(shù)據(jù)為對象,通過分析變量離散趨勢、空間分布等探討了上海流動人口的分布特征;文獻(xiàn)[3]描述和分析了區(qū)域人口遷移流動的實(shí)際狀況,構(gòu)建了常住-戶籍人口缺口指標(biāo)來觀察我國分地區(qū)人口遷移流動態(tài)勢;文獻(xiàn)[4]結(jié)合人口普查數(shù)據(jù)與GIS數(shù)據(jù),系統(tǒng)分析了武漢城市圈常住人口空間分布特征;文獻(xiàn)[5]提出分布式存儲與計(jì)算,大數(shù)據(jù)技術(shù)成為數(shù)據(jù)分析重要手段,文獻(xiàn)[6]基于移動通信運(yùn)營商的即時通話記錄數(shù)據(jù)所表征的用戶行為對人口的流動性進(jìn)行判斷和測度,這些研究為常住地識別提供了較好的基礎(chǔ)。

本文參考上述研究結(jié)果,分析了利用鐵路出行數(shù)據(jù)推斷旅客常住地的主要影響因素,結(jié)合大數(shù)據(jù)技術(shù)設(shè)計(jì)了基于邏輯判斷的旅客常住地智能識別算法,并進(jìn)行了案例驗(yàn)證。

1 常住地界定

根據(jù)聯(lián)合國經(jīng)濟(jì)和社會事務(wù)部統(tǒng)計(jì)司在《人口和住房普查原則與建議》中的建議,常住地可按照以下標(biāo)準(zhǔn)界定:(1)在最近12個月的大部分時間一直居住的地方,不包括因度假或工作引起的短暫出行;(2)至少在最近12個月一直居住的地方,不包括因度假或工作引起的短暫出行[1]。

旅客出行一般是從常住地出發(fā)經(jīng)過一個或多個目的地后返回常住地,完成一次出行。對于普通旅客,旅客在目的地的停留時間要遠(yuǎn)小于在常住地停留的時間。鐵路出行數(shù)據(jù)可以描述旅客乘坐火車的出行軌跡,通過分析旅客的出行記軌跡、在目的地的停留時間,利用邏輯判斷、概率計(jì)算等方法可以判斷旅客每次出行的起點(diǎn),從而可以利用旅客一年以上的出行數(shù)據(jù)推斷旅客的常住地。

2 基于出行數(shù)據(jù)識別常駐地

2.1 影響因素

利用鐵路旅客出行數(shù)據(jù)推斷常住地信息,受出行數(shù)據(jù)質(zhì)量影響,主要有:

(1)出行次數(shù)過少。部分旅客在統(tǒng)計(jì)周期內(nèi)的出行次數(shù)過少,不能形成有效的出行回路,無法在出行起點(diǎn)與出行終點(diǎn)之間確定常住地,這些旅客的常住地不能通過鐵路出行數(shù)據(jù)進(jìn)行識別。

(2)行程不連續(xù)。綜合交通背景下,旅客可組合多種交通方式完成出行,導(dǎo)致鐵路出行數(shù)據(jù)在整個行程上是不連續(xù)的,該類型旅客需要結(jié)合其他交通方式的出行數(shù)據(jù)進(jìn)行判斷。

(3)多出行起點(diǎn)。鐵路出行數(shù)據(jù)可能構(gòu)成多個出行回路,旅客出行時可能存在多個不同的出行起點(diǎn),該情況下可選取比重最大的出行起點(diǎn)作為常住地。

(4)目的地最大停留時間。根據(jù)不同的出行目的,旅客在目的地的停留時間一般會有一個時間上限,當(dāng)旅客在目的地的停留時間過長時旅客可能存在多個常住地,該情況有效無法識別旅客常住地。

2.2 基本概念

根據(jù)鐵路出行數(shù)據(jù)識別旅客常住地的影響因素,通過統(tǒng)計(jì)判斷、概率計(jì)算推斷鐵路旅客常住地,設(shè)計(jì)了基于鐵路旅客出行數(shù)據(jù)的常住地智能識別算法。為描述算法,給出了行程、差旅、差旅集合的定義。

(1)行程是指旅客從一個城市到達(dá)另一個城市的出行信息,包括出發(fā)城市、到達(dá)城市、出發(fā)時間和到達(dá)時間。

(2)差旅是指旅客從常住地出發(fā)通過乘坐多趟列車到達(dá)目的地,最后返回常住地的行程集合,由多個行程構(gòu)成。

(3)差旅集合是指旅客在指定時間段內(nèi)的差旅集合,差旅出發(fā)城市是影響常住地判斷的重要因素。

2.3 算法流程

單名旅客的常住地智能識別算法流程如下:

(1)選取某一旅客在指定時間內(nèi)的行程數(shù)據(jù),并按照旅客的出行時間排序,構(gòu)建行程集合;初始化識別參數(shù),設(shè)置行程判斷序號i=0;

(2)設(shè)置i=i+1,從旅客的第i個行程進(jìn)行深度搜索;如果i<行程集合數(shù)量,執(zhí)行下一步,否則執(zhí)行(7);

(3)設(shè)置深度搜索序號j=i;

(4)選取行程j和行程j+1,判斷行程j的到達(dá)城市與行程j+1的出發(fā)城市是否相同,如果相同,執(zhí)行下一步,否則i=j執(zhí)行(2);

(5)判斷行程j到達(dá)與行程j+1出發(fā)的間隔時間是否小于最大停留時間,如果是,執(zhí)行下一步,否則設(shè)置i=j并執(zhí)行(2);

(6)判斷行程i的出發(fā)城市與行程j+1的到達(dá)城市是否相同,如果相同,根據(jù)i至j+1的所有行程構(gòu)成一個差旅,并添加在差旅集合中,設(shè)置i=j+1并執(zhí)行(2);如果不同,設(shè)置j=j+1并執(zhí)行(4);

(7)統(tǒng)計(jì)差旅集合的差旅個數(shù),如果差旅集合的差旅數(shù)量為0,旅客常住地為未知,否則執(zhí)行下一步;

(8)統(tǒng)計(jì)差旅集合的差旅出發(fā)城市及次數(shù),選取次數(shù)最大的出發(fā)城市為常住地。

3 案例

3.1 計(jì)算平臺

鐵路作為大眾化交通工具,服務(wù)旅客數(shù)量龐大,傳統(tǒng)的單個服務(wù)器程序很難在短時間內(nèi)推算所有旅客的常住地。本文利用Scala語言在鐵路客運(yùn)大數(shù)據(jù)平臺上實(shí)現(xiàn)常住地識別算法。鐵路客運(yùn)大數(shù)據(jù)平臺分為外部系統(tǒng)層、數(shù)據(jù)層、存儲層、分析層、展示訪問層和應(yīng)用層[7],可實(shí)現(xiàn)鐵路旅客群體分析應(yīng)用[8]。該平臺由1個控制節(jié)點(diǎn)、2個管理節(jié)點(diǎn)、19個數(shù)據(jù)節(jié)點(diǎn)組成,SPARK版本為1.6。利用鐵路旅客出行記錄推斷旅客常住地,2017年旅客出行記錄條數(shù)為30.46億,旅客數(shù)量約4.45億人。

3.2 算法實(shí)現(xiàn)

算法參數(shù)目的地旅客最大停留時長為30天,基于SPARK的旅客常住地識別核心偽代碼,如圖1所示。

圖1 旅客常住地識別算法偽代碼

在鐵路客運(yùn)大數(shù)據(jù)平臺提交作業(yè),平臺將計(jì)算作業(yè)劃分為3個任務(wù)、5個階段的運(yùn)算過程,SPARK作業(yè)流程圖,如圖2所示。SPARK運(yùn)算通過一系列彈性分布式數(shù)據(jù)集(RDD,Resilient Distributed Datasets)的轉(zhuǎn)換,實(shí)現(xiàn)分布式讀取數(shù)據(jù)、數(shù)據(jù)重新分區(qū)、常住地識別、結(jié)果轉(zhuǎn)換等計(jì)算流程,最終將計(jì)算結(jié)果寫入鐵路客運(yùn)大數(shù)據(jù)平臺的分布式數(shù)據(jù)倉庫HIVE中。圖2中黃色部分為常住地核心算法,實(shí)現(xiàn)分布式推算旅客常住地。

在運(yùn)算過程中通過對數(shù)據(jù)的重新分區(qū)與分組降低了作業(yè)的內(nèi)存使用規(guī)模與執(zhí)行單元數(shù)量。通過SPARK運(yùn)算,推算出我國鐵路近兩年服務(wù)旅客的常住地信息,識別率為67.7%。

4 結(jié)束語

圖2 推算旅客常住地SPARK作業(yè)流程圖

本文設(shè)計(jì)了基于鐵路出行數(shù)據(jù)推算旅客常住地的識別算法,該算法可以推算出鐵路旅客的常住地信息,識別率為67.7%,為常住地的獲取提供了一種新思路。受旅客出行次數(shù)、行程是否連續(xù)等因素影響,算法的識別率可結(jié)合其他交通方式的出行數(shù)據(jù)進(jìn)一步提高,并利用計(jì)算結(jié)果進(jìn)行常住人口分析與預(yù)測[9-10]。

猜你喜歡
鐵路
鐵路是怎么發(fā)明的
沿著中老鐵路一路向南
云南畫報(2021年12期)2021-03-08 00:50:54
一路歡聲一路歌 中老鐵路看點(diǎn)多
云南畫報(2021年12期)2021-03-08 00:50:28
鐵路通信承載網(wǎng)常用接口協(xié)議轉(zhuǎn)換應(yīng)用研究
基于AutoLISP的鐵路信號電纜統(tǒng)計(jì)軟件設(shè)計(jì)
《鐵路通信設(shè)計(jì)規(guī)范》TB10006-2016解讀(二)——承載網(wǎng)
鐵路通信線路維護(hù)體制改革探索與實(shí)踐
鐵路青年的搞洪時刻
近代鐵路土地的征購及其實(shí)現(xiàn)——以萍鄉(xiāng)鐵路為例
無人機(jī)在鐵路工程建設(shè)中的應(yīng)用與思考
主站蜘蛛池模板: www.精品国产| 少妇精品久久久一区二区三区| 国产日韩丝袜一二三区| 精品国产乱码久久久久久一区二区| 极品国产一区二区三区| 波多野结衣无码AV在线| 色综合天天视频在线观看| 天天爽免费视频| 性色一区| av一区二区三区在线观看| 免费中文字幕一级毛片| 又爽又大又黄a级毛片在线视频| 国产丝袜无码精品| 亚洲国产天堂久久九九九| 操国产美女| 日本三级欧美三级| 亚洲婷婷六月| 欧美国产在线一区| 亚洲中文精品人人永久免费| 亚洲第一成年网| 在线观看免费黄色网址| 色妞永久免费视频| 亚洲AV无码一二区三区在线播放| 亚洲精品你懂的| 永久在线精品免费视频观看| 国产特级毛片| 国产精品观看视频免费完整版| 国产女人爽到高潮的免费视频 | 欧美高清视频一区二区三区| 国产乱码精品一区二区三区中文| 精品国产美女福到在线不卡f| 精品国产自在现线看久久| 国产呦精品一区二区三区下载 | 亚洲狠狠婷婷综合久久久久| 欧美另类精品一区二区三区| 国产成人高清精品免费5388| 91麻豆国产精品91久久久| 成年免费在线观看| 欧美国产日韩在线| 99久久精品免费看国产电影| 成人国产一区二区三区| 一区二区在线视频免费观看| 国产剧情一区二区| 日韩免费毛片视频| 国产99在线| 在线精品自拍| 亚洲区第一页| 一级黄色片网| 日韩精品无码不卡无码| 日韩国产亚洲一区二区在线观看| 国产一级二级在线观看| 国产91无码福利在线| 亚洲不卡无码av中文字幕| 欧美日韩动态图| 91精品啪在线观看国产60岁| 日韩不卡免费视频| 国产麻豆91网在线看| 激情六月丁香婷婷| 精品久久国产综合精麻豆 | 欧美午夜理伦三级在线观看| 午夜在线不卡| 亚洲福利视频一区二区| 国产成人亚洲欧美激情| 五月六月伊人狠狠丁香网| 毛片免费在线视频| 国产视频大全| 久久久久青草线综合超碰| 五月丁香在线视频| 色综合久久综合网| 久久综合色88| 国产男女XX00免费观看| www亚洲精品| 日本午夜在线视频| 国产第一福利影院| 国产成人凹凸视频在线| 日韩高清欧美| 日韩精品成人网页视频在线 | 欧美19综合中文字幕| 久无码久无码av无码| 亚洲国产精品一区二区高清无码久久 | 亚洲人在线| 日本不卡在线视频|