999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于新浪微博的公交系統(tǒng)數(shù)據(jù)采集及分析

2015-04-12 00:00:00任敏谷文林華雪東
現(xiàn)代電子技術(shù) 2015年9期

摘 要: 為充分利用大數(shù)據(jù)時(shí)代的海量數(shù)據(jù),提出一種基于新浪微博的公交系統(tǒng)數(shù)據(jù)采集及分析方法。通過Web Crawler從新浪微博抓取所需時(shí)空范圍內(nèi)的公交微博,分析公交微博發(fā)布的時(shí)間與空間分布規(guī)律;隨后采用KMP算法統(tǒng)計(jì)并剔除冗余轉(zhuǎn)發(fā)及回復(fù)微博,提取并分析公交相關(guān)的熱點(diǎn)話題;基于中科院ICTCLAS算法進(jìn)行中文分詞處理,刪除停用詞后統(tǒng)計(jì)詞頻,生成關(guān)鍵詞的詞云。最后通過南京市范圍內(nèi)的8 913條公交微博進(jìn)行實(shí)例驗(yàn)證與分析,結(jié)果表明,該方法可以從海量的微博數(shù)據(jù)中提取公交相關(guān)數(shù)據(jù)并進(jìn)行分析,分析數(shù)據(jù)量大且有時(shí)效性,分析結(jié)果可為公交系統(tǒng)管理的優(yōu)化與改善、公交政策的制定提供數(shù)據(jù)支撐。

關(guān)鍵詞: 微博; 公交系統(tǒng); 數(shù)據(jù)抓取; 中文分詞; 大數(shù)據(jù)

中圖分類號: TN911?34; U491.14 文獻(xiàn)標(biāo)識碼: A 文章編號: 1004?373X(2015)09?0159?04

Abstract: To take full advantage of huge data in big data age, the method is proposed to collect and analysis data in public transport system with Sina Weibo. In the required time and space range, public transport Weibo is captured from Sina Weibo by web crawler. Time and space distribution rule which is published by public transport Weibo is analyzed, the redundant forwards and replies in Weibo are calculated and removed by KMP algorithm, and related hot topics of public transport are pulled and analyzed. ICTCLAS algorithm proposed by Chinese Academy of Sciences is applied to process Chine word segmentation, calculate word?frequency after delete the stop words, and generate keywords cloud. Verification and analysis on 8913 tips public transport Weibo in Nanjing. The results show that the related data of public transport is captured and analyzed from huge Weibo data, with the character of large data analysis and timeliness of the proposed method. The outcomes of analysis provide data support for optimization and improvement of public transport managing, and set up public transport policy.

Keywords: Weibo; public transport system; data capture; Chinese word segmentation; big data

0 引 言

現(xiàn)代交通科學(xué)是一門多學(xué)科交叉與多技術(shù)融合的科學(xué),其研究工作很大程度上是基于對交通數(shù)據(jù)的采集與分析而逐層展開的。傳統(tǒng)的交通數(shù)據(jù)采集方法為交通調(diào)查,至今已有超過75年的歷史[1],主要是通過郵件、電話、網(wǎng)絡(luò)、入戶、街訪等方式展開。近年來,為了彌補(bǔ)傳統(tǒng)方法不能獲取乘客在交通系統(tǒng)變化下的出行行為的不足,SP+RP融合的調(diào)查方法開始在交通研究及工程實(shí)踐領(lǐng)域得到廣泛的運(yùn)用[2]。除此之外,隨著信息、通信及視頻檢測技術(shù)的發(fā)展,包含交通流量、交通事故、公交上下客等在內(nèi)的交通數(shù)據(jù),均可以實(shí)現(xiàn)數(shù)據(jù)的自動(dòng)化實(shí)時(shí)采集與傳輸,并且數(shù)據(jù)的精度高[3]。但是,上述方法由于存在著數(shù)據(jù)時(shí)效性差、人工勞動(dòng)量大、數(shù)據(jù)采集設(shè)備投資大且不可移動(dòng)等缺陷,限制了調(diào)查方法的應(yīng)用范圍,很難應(yīng)對目前巨量數(shù)據(jù)的采集存儲要求。

車聯(lián)網(wǎng)、大數(shù)據(jù)與云時(shí)代的到來,為交通研究提供巨量數(shù)據(jù)的同時(shí),對數(shù)據(jù)的獲取與存儲方式也提出了更多的要求,傳統(tǒng)的交通數(shù)據(jù)采集方式亟待變革。近年來,以新浪微博為代表的社交網(wǎng)站的興起,產(chǎn)生了數(shù)以億計(jì)的交通相關(guān)數(shù)據(jù),有待交通研究者合理的挖掘與利用。據(jù)統(tǒng)計(jì),在2013年,新浪微博有超過1 080萬條的微博包含關(guān)鍵詞“交通事故”,而包含“公交”關(guān)鍵詞的微博數(shù)量更是超過了7 020萬條。此外,微博作為我國交管部門發(fā)布交通信息,獲取群眾意見的重要途徑,目前,已有3 699個(gè)交警部門開設(shè)了官方的微博賬號,每天實(shí)時(shí)地發(fā)表交通路況、交通政策等信息,同時(shí),微博用戶則通過“@XX交警”的方式提交反饋。在國外,雖然已有一些利用社交網(wǎng)站的交通數(shù)據(jù)進(jìn)行居民出行行為分析及數(shù)據(jù)采集的研究[4?6],但是相關(guān)研究少且仍處于起步階段。為充分發(fā)揮與利用大數(shù)據(jù)時(shí)代海量數(shù)據(jù)的優(yōu)勢,本文依托新浪微博,以城市公交系統(tǒng)數(shù)據(jù)采集為例,綜合運(yùn)用計(jì)算機(jī)技術(shù)、信息檢索與挖掘技術(shù),通過對公交相關(guān)微博抓取、處理并分析微博數(shù)據(jù),通過對分析結(jié)果的可視化顯示,揭示城市公交出行的時(shí)空分布規(guī)律,探尋公交系統(tǒng)的熱點(diǎn)話題及問題,為政府交通部門、公交公司及交通決策者的公交系統(tǒng)的管理和政策制定提供數(shù)據(jù)支持。

1 研究框架及流程

基于新浪微博的公交數(shù)據(jù)采集及分析框架流程圖,如圖1所示。可以看出,基于新浪微博的公交數(shù)據(jù)采集主要包含三個(gè)步驟:

(1) 微博數(shù)據(jù)的抓取。采用Web Crawler方法從新浪微博抓取包含所需關(guān)鍵詞的微博,并根據(jù)微博發(fā)布的時(shí)間和發(fā)布人的地點(diǎn)信息分析公交出行的時(shí)空分布規(guī)律。

(2) 轉(zhuǎn)發(fā)及回復(fù)微博的剔除。通過字符串匹配處理以統(tǒng)計(jì)轉(zhuǎn)發(fā)微博及回復(fù)微博的數(shù)量,將冗余的轉(zhuǎn)發(fā)及回復(fù)微博刪除,并根據(jù)轉(zhuǎn)發(fā)數(shù)量排序獲取公交系統(tǒng)的熱點(diǎn)話題。

(3) 中文詞處理。包含了中文分詞與停用詞刪除兩個(gè)部分。通過ICTCLAS算法對每條微博進(jìn)行分詞,刪除結(jié)果中的停用詞后,統(tǒng)計(jì)并分析微博中的公交關(guān)鍵詞。

由于本文的研究并不過多涉及計(jì)算公式,所有的過程均依托新浪微博的數(shù)據(jù),以文本檢索領(lǐng)域的成熟算法為主展開。本文采用的算法均為相關(guān)研究方向的成熟算法,關(guān)于算法的具體描述及代碼,限于本文的篇幅就不再詳述。Eisenhardt很早就提出可以通過案例建立理論并驗(yàn)證研究的有效性[7],下文選取江蘇省南京市區(qū)域內(nèi)的微博數(shù)據(jù)作為案例來具體闡述。

2 案例研究

2.1 微博抓取

微博數(shù)據(jù)的抓取主要有兩種方法。一種是通過新浪微博的官方API工具(http://open.weibo.com/),該工具可以實(shí)現(xiàn)包含微博搜索與下載、微博新建與刪除、微博用戶查詢等在內(nèi)的幾乎全部的微博功能,并且不需要很強(qiáng)的編程能力即可直接調(diào)用。但是該方法由于主要面向微博應(yīng)用的開發(fā)者,對目前的交通研究和數(shù)據(jù)采集工作而言并不方便,存在諸如使用時(shí)間、功能、請求次數(shù)等的限制。第二種方法則是利用Web Crawler(可譯成網(wǎng)絡(luò)爬取,或者網(wǎng)絡(luò)蜘蛛)技術(shù)進(jìn)行公交數(shù)據(jù)的抓取。Web Crawler是一種廣泛運(yùn)用于搜索引擎(如百度,Google等)的網(wǎng)絡(luò)文本爬取技術(shù)。通過設(shè)定特定的關(guān)鍵詞及限制條件,Crawler可以自動(dòng)爬取特定的網(wǎng)頁并存儲所需數(shù)據(jù)[8]。此外,Web Crawler技術(shù)還具有易移植的優(yōu)點(diǎn),若想將本文用于新浪微博的公交數(shù)據(jù)爬取代碼移植至騰訊微博平臺,其過程并不復(fù)雜。

本文抓取的對象為新浪微博,抓取的時(shí)間范圍為2014年1月6日—2月23日,共計(jì)49天,抓取的數(shù)據(jù)包含微博正文,微博發(fā)布時(shí)間,微博發(fā)布用戶所在地。表1所示為相關(guān)微博的基本信息。由表1可知,在選定的時(shí)間范圍內(nèi),共有包含“公交”關(guān)鍵詞的微博數(shù)超過435萬條,日平均近8.9萬條。考慮到本文研究的人力及時(shí)間所限,特別選定江蘇省南京市作為本次研究的空間范圍。最終共抓取包含“公交”和“南京”關(guān)鍵詞的微博8 913條。需要說明的是,后文的分析及處理均基于抓取的8 913條微博而展開。

2.2 轉(zhuǎn)發(fā)及回復(fù)微博剔除

如同電子郵件系統(tǒng)中的轉(zhuǎn)發(fā)與回復(fù)功能,在新浪微博中也存在轉(zhuǎn)發(fā)微博及回復(fù)微博。特別是對于一些熱門的話題,其相關(guān)微博的轉(zhuǎn)發(fā)量往往很大。通過對多余的轉(zhuǎn)發(fā)及回復(fù)微博進(jìn)行剔除,一方面可以減少微博數(shù)據(jù)的數(shù)量,進(jìn)而降低數(shù)據(jù)的存儲空間消耗、處理時(shí)間消耗。另一方面,通過對轉(zhuǎn)發(fā)及回復(fù)微博數(shù)量的統(tǒng)計(jì)及排序,可以揭示出當(dāng)下微博用戶關(guān)心的熱點(diǎn)交通話題。

對于轉(zhuǎn)發(fā)及回復(fù)微博的剔除操作,主要是通過字符串匹配技術(shù)來實(shí)現(xiàn)。本文中采用該領(lǐng)域最為常用的KMP算法[9]實(shí)現(xiàn)該步驟。通過KMP算法對轉(zhuǎn)發(fā)及回復(fù)微博的識別,最終共剔除多余轉(zhuǎn)發(fā)微博3 972條,回復(fù)微博242條。剔除操作后,剩余包含關(guān)鍵詞的不重復(fù)微博共計(jì)4 699條。

2.3 分詞及停用詞處理

中文分詞是指將一個(gè)漢字序列分割成單獨(dú)的詞的過程。中文分詞是進(jìn)行交通文本挖掘的基礎(chǔ),分詞結(jié)果的好壞將對交通信息的采集與后續(xù)分析產(chǎn)生很大的影響。以“南京市長江大橋撞車了”這條交通路況微博為例,采用好的算法可以得到“南京市/長江大橋/撞車了”的分詞結(jié)果,而不好的算法則可能得到“南京/市長/江大橋/撞車了”的結(jié)果,這與該微博原本表達(dá)的意思區(qū)別很大。本研究采用由中國科學(xué)院開發(fā)的開源分詞算法ICTCLAS[10],對抓取的4 699條微博進(jìn)行分詞處理。通過該算法對抓取微博的分詞處理,一方面可以統(tǒng)計(jì)每個(gè)詞的詞頻,進(jìn)而提取出乘客最為關(guān)心的公交關(guān)鍵詞;另一方面,只有經(jīng)過分詞處理的結(jié)果才能用于機(jī)器學(xué)習(xí)算法的訓(xùn)練,為后續(xù)實(shí)現(xiàn)計(jì)算機(jī)自動(dòng)公交微博數(shù)據(jù)采集、分類提供支撐。

在分詞操作后,還需要對分詞的結(jié)果進(jìn)行一定的處理,刪除一些沒有實(shí)際意義的功能詞,如:“的”、“了”、“呢”、“嗎”、“雖然”、“而且”等。這類詞語被統(tǒng)稱為停用詞。本文采用了哈爾濱工業(yè)大學(xué)的停用詞表[11]進(jìn)行結(jié)果比對,將相同的詞從分詞結(jié)果中刪除。

通過對4 699條微博進(jìn)行分詞、統(tǒng)計(jì)詞頻并刪除停用詞后,共獲得不重復(fù)的詞語22 501個(gè)。

3 分 析

3.1 時(shí)空分布分析

圖2為2014年1月6日—2月23日,含有“公交”關(guān)鍵詞的所有微博在全國的空間分布圖。由圖可以清楚地看出,在北京市和廣東省發(fā)布的包含“公交”的微博數(shù)據(jù)最大,49天內(nèi)用戶發(fā)布微博近80萬條。其次,是整個(gè)沿海。此外,中部的四川省也有較多的微博。其余包括西南、西北、華北和東北大部分區(qū)域的微博數(shù)量較少。這主要是由于:一方面,東南沿海區(qū)域囊括了中國科技與經(jīng)濟(jì)最為發(fā)達(dá)的區(qū)域,該區(qū)域的微博總發(fā)布量高;更重要的是,該區(qū)域的居民公交出行需求大,對公交系統(tǒng)的建議及意見也多。可以認(rèn)為采用新浪微博采集公交數(shù)據(jù)更加適用于我國經(jīng)濟(jì)較發(fā)達(dá)的地區(qū),包含沿海地區(qū)及四川。

表2則反映了微博發(fā)布的時(shí)間分布信息(僅針對抓取的微博)。由表2可以清楚地看出,南京居民發(fā)布公交相關(guān)微博隨時(shí)間呈現(xiàn)出顯著的規(guī)律。從每日的時(shí)間段來看,每日的睡眠時(shí)段的微博數(shù)量最少,而7時(shí)—17時(shí)的微博最多,這與人的生活作息規(guī)律是相吻合的。而從周末至周一,每日的微博發(fā)布數(shù)量開始增長,到周二達(dá)到每周微博發(fā)布數(shù)量的最大值。隨后微博的發(fā)布數(shù)量開始下降,直至周末微博的數(shù)量最少。造成周二微博發(fā)布數(shù)量最大的原因可能有2個(gè):若周一至周五,南京市的公交服務(wù)水平與乘客發(fā)布微博的概率不變(或變化不大),則周二南京市的公交乘客多于其他天;若周一至周五,南京市的公交乘客數(shù)量不變(或變化不大),則周二南京公交系統(tǒng)的服務(wù)水平高于(或低于)其他天。對于南京的公交公司而言,需要更加關(guān)注周二的公交系統(tǒng)與服務(wù)。

3.2 熱點(diǎn)話題分析

表3所示為通過微博轉(zhuǎn)發(fā)量統(tǒng)計(jì)得出的公交相關(guān)熱點(diǎn)話題。由表3可以看出,在研究時(shí)間內(nèi),南京市民非常關(guān)注的3條微博主要包含了交通安全、交通污染防治與新能源利用以及南京政府對公交系統(tǒng)的相關(guān)行為三個(gè)方面。而同一時(shí)期,南京公交還推出了一項(xiàng)鼓勵(lì)市民乘坐公交的換乘優(yōu)惠政策并發(fā)布了微博,但是該政策的相關(guān)微博轉(zhuǎn)發(fā)數(shù)量并不高。這說明了相比于公交運(yùn)營政策的調(diào)整,在本文的研究期內(nèi),南京市民更加關(guān)心公交系統(tǒng)的安全及污染問題。

3.3 關(guān)鍵詞及詞云分析

表4給出了分詞操作后的高頻詞表及其對應(yīng)的詞頻。表4是對轉(zhuǎn)發(fā)熱點(diǎn)話題的補(bǔ)充,可以揭示一些轉(zhuǎn)發(fā)量不大,但是被較多個(gè)體所關(guān)注的公交熱點(diǎn)問題。該表中的一些具有顯著交通意義的詞語已加粗顯示。可以發(fā)現(xiàn),關(guān)鍵詞“擠”出現(xiàn)了465次,說明乘客認(rèn)為南京市公交的環(huán)境較為擁擠,需要改善。“優(yōu)惠”和“換乘”分別出現(xiàn)了465次和431次,但是相關(guān)的微博轉(zhuǎn)發(fā)數(shù)量不大,說明市民對于該優(yōu)惠政策的關(guān)注更多的是出于個(gè)體層面的討論,側(cè)面反應(yīng)了對于該政策存在爭議、還未達(dá)成共識的現(xiàn)實(shí)。“南京零距離”(南京本地新聞節(jié)目,以犀利報(bào)道與解決市民問題而出名)、“問”、“問題”則說明了市民通過微博對公交系統(tǒng)提出問題,并尋求解決的狀態(tài)。

4 結(jié) 論

從交通研究與數(shù)據(jù)的關(guān)系出發(fā),首先探求大數(shù)據(jù)時(shí)代社交網(wǎng)站中交通相關(guān)數(shù)據(jù)的數(shù)量,提出了基于新浪微博的公交數(shù)據(jù)采集及分析的框架及流程。通過Web Crawler從新浪微博抓取所需的包含公交關(guān)鍵詞的微博數(shù)據(jù),并分析公交微博發(fā)布的時(shí)間與空間分布規(guī)律。隨后,依托經(jīng)典的模式匹配算法——KMP算法,統(tǒng)計(jì)并剔除冗余轉(zhuǎn)發(fā)及回復(fù)微博,獲取微博中的公交熱點(diǎn)話題。基于中科院ICTCLAS算法進(jìn)行中文分詞處理,刪除停用詞后統(tǒng)計(jì)詞頻,生成關(guān)鍵詞的可視化詞云。最后,采用2014年1月6日—2月23日南京市區(qū)域內(nèi)的8 913條公交微博,驗(yàn)證了本文方法的可行性。最終的結(jié)果表明,含有大量公交數(shù)據(jù)的新浪微博可為公交部門的公交系統(tǒng)優(yōu)化與公交政策的制定提供數(shù)據(jù)層面的支撐。

參考文獻(xiàn)

[1] EFTHYMIOU D, ANTONIOU C. Use of social media for transport data collection [J]. Procedia?Social and Behavioral Sciences, 2012, 48: 775?785.

[2] 劉志明,鄧衛(wèi),郭唐儀.基于 RP/SP 調(diào)查的非集計(jì)模型在交通方式分擔(dān)率預(yù)測的應(yīng)用[J].交通運(yùn)輸工程與信息學(xué)報(bào),2008,6(3):59?64.

[3] 劉偉銘,徐名海.基于模糊邏輯:徑向基函數(shù)網(wǎng)絡(luò)協(xié)作系統(tǒng)的交通事件自動(dòng)檢測算法[J].土木工程學(xué)報(bào),2004,37(3):93?98.

[4] HASAN S, ZHAN X, UKKUSURI S V. Understanding urban human activity and mobility patterns using large?scale location?based data from online social media [C]// Proceedings of the 2nd ACM SIGKDD International Workshop on Urban Computing. New York: ACM, 2013: 111?115.

[5] LIU Yu, SUI Zheng?wei, KANG Chao?gui, et al. Uncovering patterns of inter?Urban trip and spatial interaction from social media check?In data [J/OL]. [2014?12?30]. www.plosone.org/ar....0086026.

[6] COLLINS C, HASAN S, UKKUSURI S V. A novel transit rider satisfaction metric: rider sentiments measured from online social media data [J]. Journal of Public Transportation, 2013, 16(2): 21?45.

[7] EISENHARDT K M. Building theories from case study research [J]. Academy of Management Review, 1989, 14(4): 532?550.

[8] 李勇,韓亮.主題搜索引擎中網(wǎng)絡(luò)爬蟲的搜索策略研究[J].計(jì)算機(jī)工程與科學(xué),2008,30(3):4?6.

[9] 魯宏偉,魏凱,孔華鋒.一種改進(jìn)的KMP高效模式匹配算法[J].華中科技大學(xué)學(xué)報(bào):自然科學(xué)版,2006,34(10):41?43.

[10] 哈工大信息檢索研究中心.哈工大信息檢索研究中心同義詞詞林?jǐn)U展版[EB/OL].[2001?10?26].http://ir.hit.edu.cn/demo/ltp/Sha?ring_Plan.htm.

主站蜘蛛池模板: 亚卅精品无码久久毛片乌克兰| 成人午夜网址| 欧美国产日韩另类| 亚洲国产欧美自拍| 无码在线激情片| 香蕉久久国产超碰青草| 亚洲人精品亚洲人成在线| 欧美亚洲一区二区三区在线| 欧美成人第一页| 污视频日本| 8090成人午夜精品| a毛片基地免费大全| 狼友av永久网站免费观看| 99成人在线观看| 国产精品香蕉| 亚洲天天更新| 国产真实乱人视频| 无码区日韩专区免费系列| 欧美国产另类| 欧美啪啪精品| 国产精品网址你懂的| 在线精品亚洲国产| vvvv98国产成人综合青青| 精品欧美视频| 日韩a在线观看免费观看| 激情综合网址| 动漫精品中文字幕无码| 不卡网亚洲无码| 全裸无码专区| 中文字幕无码中文字幕有码在线| 久久精品国产精品一区二区| 亚洲乱强伦| 亚洲欧美在线综合一区二区三区| 99这里只有精品在线| 国产欧美日韩免费| 麻豆国产精品一二三在线观看| 中文字幕2区| 婷婷丁香色| 欧美亚洲国产精品第一页| 亚洲男人的天堂在线| 18禁高潮出水呻吟娇喘蜜芽| 91麻豆国产在线| 成年人免费国产视频| 亚洲视频一区| 香蕉精品在线| 亚洲国产欧美国产综合久久| 色精品视频| 亚洲国产精品无码久久一线| 亚洲无线一二三四区男男| 亚洲日韩Av中文字幕无码| 色婷婷视频在线| 亚洲综合色婷婷| 国产一级在线播放| 国产迷奸在线看| 欧洲亚洲一区| 777国产精品永久免费观看| 亚洲国产中文在线二区三区免| 996免费视频国产在线播放| 91口爆吞精国产对白第三集| 国产成人久视频免费| 国产成人啪视频一区二区三区| 一区二区三区四区日韩| AV熟女乱| 97久久免费视频| 黄色在线不卡| 国产一级精品毛片基地| 国产日韩欧美中文| 制服无码网站| 国产永久无码观看在线| 欧美综合激情| 国产在线精品香蕉麻豆| 国产在线第二页| 最近最新中文字幕免费的一页| 久久亚洲天堂| 国产成人AV大片大片在线播放 | 久久国产精品影院| 国产18在线播放| 色哟哟色院91精品网站| 日本欧美视频在线观看| 一本久道久综合久久鬼色| 99九九成人免费视频精品| 日韩麻豆小视频|