999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于Hadoop的人口大數據平臺設計與實現

2020-08-14 04:38:24王洪嶺
無線互聯科技 2020年10期
關鍵詞:數據挖掘可視化區域

王洪嶺,肖 麗

(廣州泰爾智信科技有限公司,廣東 廣州 510000)

1 人口流動檢測調查

檢測人口的流動過程中,存在行為多變性,政策的人才引進、企業的變遷、某些大型活動的舉辦或者某些短暫的節假日等,均可導致人口的流動。統計人口流動的方式也是多樣的,如根據人員來往的機票火車票等交通數據、根據政府單位登記的人員統計等,但以上測算方法都存在延遲性,無法實時更新。

在2019年6月中國互聯網絡信息中心發布的《第44次中國互聯網絡發展狀況統計報告》中寫到,中國網民規模達到8.54億人,互聯網普及率達到61.2%,其中手機網民有8.47億人,龐大的網民數量為運營商提供大數據集,包括購物、定位、興趣愛好等行為數據。

在人口流動和分布中,需要根據運營商提供的用戶信息去匹配其所屬的區域。由于某市各鎮的區域范圍屬于不規則圖形的閉環,所以需要判斷用戶所在位置是否在某個不規則圖形中或者邊上。如圖1所示,判斷點在區域內,則需要區域邊界點并且是形成閉環,點的數量越多,則判斷越準確,且數據中經緯度坐標需要使用統一標準。本平臺采用BD09坐標系,屬于百度坐標偏移標準。

在不規則區域中判斷點是否在區域內,可以采用PNPoly算法、多邊形面積算法等方法。本文采用射線法來判斷,通過點假設性兩端無限延長,形成兩端射線去與不規則區域邊界查看是否有交點,如果交點個數為偶數,則點在區域外,奇數則在區域內。因為射線法需要滿足多種條件,去排除因為獨特區域造成的與點有奇數交點而又不在區域內的情況,所以此方法適用于各種不規則圖形,算法代碼如表1所示,是實現判斷射線測算點是否在區域內的具體算法。

圖1 在不規則區域中定位

表1 射線測算算法代碼實現

2 基于Hadoop數據存儲分析

隨著數據量不斷增加,大數據分析平臺在多項領域中被應用,而大數據主要指傳統數據處理軟件無法處理的數據集,有著海量、多樣等特點,主要分為結構化、半結構化和非結構化,目前非結構化數據占70%~80%,通過數據挖掘技術和算法去提高處理非結構化數據[1]。非結構化數據對比結構化數據的處理難度要大,數據的預處理能夠有效替身數據挖掘的質量和效果,大大提高了數據挖掘的效率[2]。

調查通信數據發現,某市每月用戶文本信息可達TB級別,基于多個Hadoop大數據平臺分析系統的對比,支撐平臺分布式存儲均使用HDFS,而且HDFS也可作為其他云存儲的存儲系統[3]。作為核心系統需要保持穩定性,在HDFS中用于元數據信息管理的NameNode存在不穩定性,當NameNode發生故障的時候,可能導致系統宕機。通過在內存中保存NameNode鏡像,并且進行實時備份和之后在高可用NameNode去進行Checkpoint[4],可進一步提高平臺在海量數據處理下的穩定性。

3 人口大數據平臺系統設計

基于移動通信數據,可以運算得出有價值的報告,本研究就是通過運營商提供的通信信息,利用數據分析模塊對電信數據進行數據清洗與處理,建立用戶數據畫像,根據政務需求,形成服務清單,并進行清洗、過濾、篩選、聚合等操作,將數據轉換為個人人口遷移、人口分布、人口的遷入遷出等數據可視化。

3.1 設計思路

人口大數據可視化平臺可為政府在交通、物流、城市應急事件等領域作為數據分析參考,在確認目標需求之前分析領域需要數據的要求,獲得足夠的分析源數據。獲取最終數據之前需要建設平臺分析方案,進行平臺的環境搭建、輔助數據收集、清洗數據和數據的預處理、數據的完全處理和存儲等步驟的流程式處理。電信大數據的人口分析平臺建設方法如圖2所示。

圖2 電信大數據的人口分析平臺建設方法

在設計過程中應遵循設計原則的穩定性、先進性和可維護性。對于穩定性,平臺可采用實時和離線處理,對于個人移動軌跡查詢,需要快速從大量數據中獲取結果,則使用實時處理,而對時間間隔要求較短的人口分布和密度等需求,可通過定時離線分析數據,保證平臺的穩定性。先進性與可維護性可采用前沿技術且應用型較為廣泛的技術去實現平臺架構的搭建,如Flink,Logstash,Elasticsearch等較多開發者維護的技術。

3.2 數據準備

數據源來自電信運營商在2014年6—10月,是廣東省某市所有用戶的語音數據和流量數據,數據文件大小分別為2.92 GB和28.9 GB,流量數據共有506 198 944行,語音數據有70 740 696行,具體的數據形式如表2—3所示。

表2 語音數據

表3 流量數據

由于是直接從運營商中獲取出來的數據,數據清洗和處理難度可能會較低,但仍需做臟數據處理,保證結果更加精確。用戶語音數據包含的字段有用戶號(經過加密的脫敏處理)、時間戳、基站LAC和CI、通話時長;流量數據包含的字段有用戶號、時間戳、基站LAC和CI、上行流量、下行流量、上網時長。其中基站的LAC和CI對應的Long和Lat數據包含在電信運營商提供的某市內所有地區中基站的數據中,數據中基站對應的Long,Lat屬于WGS坐標。

通過使用Java中的HttpClient技術,使用某些網站提供的公開API,獲取某市各鎮的邊界經緯度坐標和某市小區區域邊界坐標,供369個小區數據。后期經過ETL工具對已采集數據進行清洗和糾正,將兩份數據在時間間隔較短中重復的用戶號去除,并將數據格式轉換成合適的格式和類型,方便ELASTICSEARCH進行數據檢索和存儲。

3.3 實際運算

本文基于人口大數據平臺處理運營商提供源數據和采集系統獲取到的相關數據,對某市的各鎮做了人口密度統計、人口流動統計和個人位置移動記錄,此平臺總共可分為4個模塊,分別是采集模塊、數據存儲模塊、分析處理模塊、面板顯示模塊。本平臺采用7臺服務器進行搭建分布式的平臺環境,系統使用的版本號分別為:elasticsearch-6.7.0,hadoop-2.7.7,flink-1.8.0,kafka_2.11-2.2.0,springboot-2.1.7。

通過數據采集獲取源數據和輔助數據,本次使用測試數據大約在50 GB左右,考慮傳統數據庫后期處理TB數據時各項壓力較大,則采用HDFS存儲數據。存儲在HDFS中的源數據可通過Flume提供的接口導入在Flink中,在兩項流程中插入Kafka,可降低對服務器的IO操作,進行數據緩存。整個平臺數據挖掘則利用Flink批處理技術進行數據清洗,對人口密度、個人流動軌跡、區域流動做出不同處理方式和數據的處理。最后將數據導入Elasticsearch中檢索出數據可視化對應的數據。平臺整個具體操作流程如圖3所示,包括從數據采集到數據可視化的一整流程。

圖3 數據處理流程

為滿足不同需求而對數據進行不同的處理,Flink作為此平臺的數據清洗,導入Elasticsearch進行數據檢索,因此對后期數據檢索的效率有重大影響。人口密度功能的數據實時性相對于人口流動軌跡和區域人口流動來說較弱,所以采用流式處理,而另外兩個采用批示處理。Flink數據清理流程如圖4所示。

圖4 平臺鐘Flink數據清洗過程

4 結語

文章主要構建一個以大數據技術分析通信數據的平臺,最終以可視化形式展示平臺分析內容。通過市級數據展開分析,從多角度和多功能進行數據挖掘,描述了人口大數據分析平臺的設計過程和原則,對Hadoop的相關研究和平臺相關架構展開描述,最終設計出某市的各鎮人口密度、各鎮人口流動、小區人口分布以及個人人口流動軌跡的4個功能,對4個功能提供了可視化面板。

在平臺開發過程中,通過不斷測試和修改,再將結果與報告進行對比后不斷完善平臺,希望最大限度地以精準、高效、人性化方式支撐各領域政府工作。

猜你喜歡
數據挖掘可視化區域
基于CiteSpace的足三里穴研究可視化分析
基于Power BI的油田注水運行動態分析與可視化展示
云南化工(2021年8期)2021-12-21 06:37:54
探討人工智能與數據挖掘發展趨勢
基于CGAL和OpenGL的海底地形三維可視化
“融評”:黨媒評論的可視化創新
傳媒評論(2019年4期)2019-07-13 05:49:14
基于并行計算的大數據挖掘在電網中的應用
電力與能源(2017年6期)2017-05-14 06:19:37
關于四色猜想
分區域
一種基于Hadoop的大數據挖掘云服務及應用
基于嚴重區域的多PCC點暫降頻次估計
電測與儀表(2015年5期)2015-04-09 11:30:52
主站蜘蛛池模板: 香蕉久久永久视频| 国产亚洲现在一区二区中文| 国产18在线| 亚洲视频黄| 国产成人精品综合| 国产成人综合久久精品尤物| 色婷婷天天综合在线| 久久久91人妻无码精品蜜桃HD| 国产91在线免费视频| 日日噜噜夜夜狠狠视频| 在线观看91精品国产剧情免费| 欧美精品在线视频观看| 久久黄色影院| 精品在线免费播放| 996免费视频国产在线播放| 免费久久一级欧美特大黄| 中文字幕无码制服中字| 四虎影视永久在线精品| 曰韩人妻一区二区三区| 专干老肥熟女视频网站| 国产凹凸视频在线观看| 久久久久88色偷偷| 中文字幕无码av专区久久| 国产成人精品一区二区免费看京| 九色综合视频网| 91精品免费高清在线| 一区二区日韩国产精久久| 国产无遮挡裸体免费视频| 永久免费无码成人网站| 成人午夜网址| 好久久免费视频高清| 日韩天堂视频| 国产正在播放| 91香蕉视频下载网站| 中文字幕欧美日韩高清| 亚洲视频影院| 日韩无码视频播放| 国产欧美日韩91| 97se亚洲综合在线| 欧美日韩成人在线观看| 一本色道久久88综合日韩精品| 国产成人综合久久精品尤物| 91免费观看视频| 无码 在线 在线| 18禁黄无遮挡免费动漫网站| 97免费在线观看视频| 亚洲va视频| 美女啪啪无遮挡| www.youjizz.com久久| 国产一级在线播放| 日韩免费视频播播| 久久熟女AV| 国产欧美中文字幕| 综合色88| 视频二区国产精品职场同事| 午夜少妇精品视频小电影| 国产精品亚洲片在线va| 91免费精品国偷自产在线在线| 亚洲中文字幕23页在线| 曰AV在线无码| 亚洲高清在线播放| www亚洲精品| 亚洲人网站| 日韩精品欧美国产在线| 天堂av高清一区二区三区| 成人综合网址| 国产人成在线观看| 亚洲第一黄色网| 国内毛片视频| 少妇精品网站| 精品视频在线观看你懂的一区| 四虎影院国产| 日韩无码黄色网站| 色综合狠狠操| 91久久偷偷做嫩草影院| 黄色成年视频| 欧美不卡二区| 久久精品国产免费观看频道| 在线观看无码a∨| 亚洲精品在线观看91| 久久精品国产免费观看频道| 无码中字出轨中文人妻中文中|