999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

Hadoop在客票日志處理系統中的應用

2014-10-10 07:28:24戴琳琳閻志遠梅巧玲
鐵路計算機應用 2014年5期
關鍵詞:系統

苗 凡,戴琳琳,閻志遠,梅巧玲

(中國鐵道科學研究院 電子計算技術研究所,北京 100081)

Hadoop在客票日志處理系統中的應用

苗 凡,戴琳琳,閻志遠,梅巧玲

(中國鐵道科學研究院 電子計算技術研究所,北京 100081)

借助Hadoop技術提出了一種新的架構,用于處理客票系統中產生的海量交易日志。首先將多個業務的數據收集起來并以一定的格式存儲在hase與hive中,然后對平臺中的數據進行建模分析從中提取出有價值的關鍵業務信息。目前該系統已經開發完成,切實提高了客票系統維護與運營的水平和效率。

Hadoop;大數據;客票系統;日志處理系統

鐵路客票發售與預訂系統(簡稱客票系統)經過十余年的發展已實現了全國聯網售票,目前互聯網注冊用戶達7 000多萬,每天用戶的登錄量達數百萬,產生的交易日志達數百Gbyte,這非常有益于聚合數據,用于了解旅客如何使用系統,同時還可以用于解決系統出現的異常問題。比如旅客無法購票或無法取票,開發人員可以根據相關日志發現問題并進行調試。為了使開發與維護人員快速的發現問題,系統中的原始日志至關重要。

由于交易日志的數據量巨大,常規的數據庫已遠遠不能在本文可以接受的時間內給出想要的結果,而且受制于傳統單機有限的計算機能力和存儲能力,所以本文選擇基于分布式計算的系統,利用其開放的接口進行日志的信息處理。Apache下的開源框架Hadoop是一個容易開發和并行處理大規模數據的分布式計算平臺,同時并行計算中存在的問題如分布式存儲、負載均衡、容錯處理、工作調試、網絡通信等也都由Hadoop負責。本文將簡單介紹Hadoop,包括HDFS和Mapreduce的組成與工作原理,并設計一種基于Hadoop的日志分析系統。

1 Hadoop相關技術

1.1 HDFS

HDFS是一個可擴展的分布式文件系統,與其它文件系統相比它同樣提供文件的重命名、移動、創建、刪除等操作,還具有文件的備份、數據校驗等特殊功能。一個HDFS集群包含一個主服務器(nameNode)和多個塊服務器(dataNode),內部機制是將一個文件分割成一個或多個固定大小的塊(block),每個塊在被創建的時候,服務器會分配給它一個全球唯一的64 bit句柄進行標識,dataNode把塊作為linux文件保存在本地硬盤上,并根據指定的塊句柄和字節范圍來讀寫塊數據。為了保證可靠性,每個塊都會復制到多個dataNode上,缺省情況下,會保存3個備份。nameNode管理文件系統所有的元數據,包括命名空間、訪問控制信息、文件到塊的映射信息以及塊當前所在的位置。

1.2 Mapreduce

對于大數據量的計算,通常采用的處理手法就是并行計算,但現階段并行計算對許多開發人員來說還比較復雜。Hadoop Mapreduce是一種處理海量數據的并行編程模型,用于大規模數據的計算,使開發者在實現中不用考慮太多分布式相關的操作,只需要定義需要的map和reduce操作即可,極大的簡化了分布式編程。

2 系統架構

日志分析系統是一個完整的信息系統,它的架構由上到下依次為表現層、服務層、資源層和總線層。表現層常用的構架有Web/Restful,它們是數據的外在表現形式。服務層通過制定一系列業務規則來保證數據的合法性。資源層為系統的核心,所有交易日志的數據都存放在hbase/hive中,它通過jdbc的方式與服務層進行通信。總線層直接與各業務子系統進行通信,通過它們之間的標準接口來收集各模塊的原始日志信息,從圖1中可以看到各層之間相互依賴,相互關聯構成統一整體。

圖1 系統架構

2.1 日志收集

客票系統由許多業務子系統組成,每個子系統所產生的日志格式都不同。并且每個子系統每天產生的日志量非常大,僅INETIS原始日志一天大約為30 Gbyte,為了將所有日志存儲在一個共有的集群中,首先要在每個業務系統上安裝日志收集服務程序,各個程序都通過ESB服務總線進行交互,某個給定的服務既可以是提供者,也可以是請求者或者同時兼具2個角色。ESB提供4種標準接口與日志收集服務端進行通信,分別是SOCKET,MQ,WEBSERVICE與FTP。

使用基本的Python模塊可以編寫腳本與ESP總線交互。Python 2.x編寫的日志收集程序由2個功能塊組成:(1)通過re模塊的正規表達式去匹配原始日志,findall()可以取得所有感興趣的字段并過濾掉多余的信息,再將所得的內容一起寫入文件。(2)利用zipfile模塊對原始內容進行壓縮,大約可以節省90 %磁盤空間。由于客票主要業務都在白天進行,因此最好將這些腳本以定時任務方式掛到服務器上,再通過標準接口發到ESP企業總線上。

由系統架構圖可以看到,通過標準接口發到ESP總線上的消息,需要通過加密或包封轉換為提供者模式,再通過添加來自外部數據源的信息來增加消息的有效負載。更改消息的路由,可從支持請求者意圖的服務提供者中選擇。

2.2 日志存儲

系統中的Hadoop集群包括16個數據節點,共50 Tbyte的存儲空間。系統設計給需要保存半年的文件設置副本因子為3,其他文件設置副本因子為2。

Hadoop集群中的NameNode與DataNode使用完全相同的硬件,為了防止NameNode的單點故障,集群使用2臺單獨的機器配置NameNode,在任何時間點確保只有一臺處于active狀態,另一臺處于standby狀態,2個節點訪問同一個共享存儲設備,當active節點出現故障時,另一個能夠實現快速切換。

由于全天的日志數據量非常大,不可能統一收集到一臺服務器再一起導入,必須實時收集分散導入。而且由于Hadoop對于壓縮文件的導入效率不理想,系統會將原始格式分發到各個日志收集服務器,以分散計算提高整體的導入效率。在各個日志收集服務器上有一層負載均衡,以分散網絡I/O流量提高效率。日志存儲采用多進程同時導入,系統會對導入過程進行相關監控,包括日志信息是否導入成功以及導入出錯的報警與恢復等。

2.3 日志處理

系統通過瀏覽器來展現圖形化的數據。(1)用戶依據不同的需求分析制定不同的業務規則。用戶制定完規則后通過瀏覽器提交日志處理任務,此時MapReduce作業的2個階段及其InputFormat和OutputFormat一起形成了一個階段事件驅動架構(SEDA)模型,在這個模型中一個請求將會分割成很多小的任務單元,并查詢節點空閑列表。(2)將任務單元分派給集群中空閑的計算節點。計算節點根據任務單元中的數據源信息從數據存儲節點中獲取數據,并進行相應的計算工作。(3)將結果返回到任務調度節點進行匯總,由任務調度節點將最終結果返回給用戶。所有計算節點每隔一段時間要向JobTracker發送一個心跳信號,以證明該計算節點工作正常及是否處于空閑狀態。主節點JobTracker也要實時將計算節點的壯態返回給任務調度節點。

以ctms日志為例,制定合適的業務規則,將不必要的內容進行過濾,對關心的內容進行重新設計數據結構。原始的日志信息如下:

首先要處理的是日志數據的分隔符問題,hive的inputformat負責把輸入數據進行格式化,然后提供給hive,outputformat,負責把hive輸出的數據重新格式化成目標格式再輸出到文件,因此需要根據自己的需求重寫這2個方法,處理完后的內容大致如下:

現在可對幾個月的日志進行分析,如可統計每個請求響應時間的最大值、最小值和平均值,統計每個中心的訪問量并按訪問量進行排序,統計每秒訪問的tps,按訪問量降序排序并把結果輸出到表中等。hive提供的類sql語句對這些數據進行自動化管理和處理,系統管理員只需要定制自己的輸入輸出適配器,hive將透明化存儲和處理這些數據,使復雜工作簡化。

3 結束語

本文在客票系統中使用Hadoop進行日志處理,將某些業務的交易日志以一定的數據格式存儲于Hadoop中,并對關鍵業務數據進行監控,如:能根據某幾個字段查找出符合條件的交易日志,能根據某幾個字段的值分析系統當前的運行狀況等。后期還可以利用提取到的數據分析用戶行為,對用戶的歷史數據利用相關的技術進行建模分析,并對其再次瀏覽目的進行預測,同時投放相應的廣告。如何從幾百億的數據中獲取關鍵的業務數據,如何從這些數據中找出有價值的信息,將是后續研究的重點。

[1]朱建生,周亮瑾,單杏花,王明哲.新一代客票系統總體架構研究[J].鐵路計算機應用,2012(6):1-6.

[2]朱 珠.基于Hadoop的海量數據處理模型研究和應用[D].北京:北京郵電大學,2008.

責任編輯 方 圓

Application of Hadoop in Log Processing System of Ticketing and Reservation System

MIAO Fan, DAI Linlin, YAN Zhiyuan, MEI Qiaoling
( Institute of Computing Technologies, China Academy of Railway Sciences, Beijing 100081, China )

This paper, with the aid of Hadoop technologies, proposed a new architecture according to the transaction log which produced in Ticketing and Reservation System (TRS). First business data was modeled and saved in hase and hive with speci fi c format, then the interested key business information was extracted by designed business rules. At present, the System has been developed, the level and ef fi ciency of maintenance and operation were improved.

Hadoop; big data; Ticketing and Reservation System (TRS); Log Processing System

U293.22∶TP39

A

1005-8451(2014)05-0032-03

2013-12-02

苗 凡,研究實習員;戴琳琳,助理研究員 。

猜你喜歡
系統
Smartflower POP 一體式光伏系統
工業設計(2022年8期)2022-09-09 07:43:20
WJ-700無人機系統
ZC系列無人機遙感系統
北京測繪(2020年12期)2020-12-29 01:33:58
基于PowerPC+FPGA顯示系統
基于UG的發射箱自動化虛擬裝配系統開發
半沸制皂系統(下)
FAO系統特有功能分析及互聯互通探討
連通與提升系統的最后一塊拼圖 Audiolab 傲立 M-DAC mini
一德系統 德行天下
PLC在多段調速系統中的應用
主站蜘蛛池模板: 欧美色视频在线| 欧美另类精品一区二区三区| 91人人妻人人做人人爽男同| 中文字幕免费在线视频| 无码日韩人妻精品久久蜜桃| AV无码一区二区三区四区| 国产在线八区| 国产在线观看91精品亚瑟| 日本少妇又色又爽又高潮| 亚洲成av人无码综合在线观看| 免费午夜无码18禁无码影院| 欧亚日韩Av| 欧美自慰一级看片免费| 伊人久综合| 国产人妖视频一区在线观看| 亚洲视频无码| 99久久国产综合精品2023| 欧美午夜久久| 国产不卡在线看| 波多野结衣一区二区三区四区| 国产偷倩视频| 亚洲黄色视频在线观看一区| 极品国产一区二区三区| 久久综合色天堂av| 亚洲精品无码久久久久苍井空| 40岁成熟女人牲交片免费| 中文无码毛片又爽又刺激| 国产91久久久久久| 国产乱人伦精品一区二区| 国产成人AV综合久久| 国产在线观看99| 天天综合网亚洲网站| 久久狠狠色噜噜狠狠狠狠97视色| 国产制服丝袜91在线| 97国产精品视频人人做人人爱| 国产午夜一级毛片| 玩两个丰满老熟女久久网| 亚洲无码91视频| 色综合婷婷| 大陆国产精品视频| 一级成人欧美一区在线观看| 亚洲国产中文欧美在线人成大黄瓜| 手机在线免费不卡一区二| 久久精品国产999大香线焦| 国产精品成人观看视频国产 | 久草视频中文| 亚洲色欲色欲www网| 999国产精品永久免费视频精品久久 | 色婷婷亚洲综合五月| 免费毛片视频| 不卡视频国产| 国产小视频在线高清播放| 久久99国产精品成人欧美| 高清免费毛片| 日韩国产亚洲一区二区在线观看| 国产精品亚欧美一区二区| 国产一区成人| 欧美狠狠干| 一区二区三区毛片无码| 国产伦精品一区二区三区视频优播| 欧美福利在线播放| 丁香五月婷婷激情基地| 欧美日韩亚洲国产| 日韩一区二区在线电影| 久久久久无码国产精品不卡| 亚洲人成网7777777国产| 一级毛片免费观看久| 亚洲精品色AV无码看| 一本色道久久88亚洲综合| 中文字幕佐山爱一区二区免费| 国产欧美日韩资源在线观看| 久久99精品国产麻豆宅宅| 成年看免费观看视频拍拍| 欧美一区二区精品久久久| 国产精品妖精视频| 免费无码网站| 亚洲A∨无码精品午夜在线观看| 国产网友愉拍精品| 免费一级α片在线观看| 国产第二十一页| 久久九九热视频| 国产视频a|