周安宏
(1.中通服咨詢設計研究院有限公司,江蘇 南京210000;2.重慶郵電大學,重慶400065)
基于hadoop的分布式架構包括:
(1)數據采集總線
負責數據的采集、整合、交互,實時、歷史結構化數據通過數據采集總線進入分布式數據庫,同時通過數據采集總線能實現關系型數據庫和大數據平臺的分布式數據庫之間的數據遷移。
(2)HDFS分布式文件系統
是一個運行在通用硬件上的可擴展、高容錯的大文件存儲系統,能利用多臺存儲服務器分擔存儲負荷,適用于有著超大數據集的應用程序。
(3)Hbase分布式數據庫
Hbase是一種構建在HDFS之上的分布式、面向列的存儲系統,它具有高可靠、高性能、面向列和可伸縮的特性,適用于存儲大表數據(表的規模可以達到數百億行以及數百萬列),并且對大表數據的讀、寫訪問可以達到實時級別。
(4)ElasticSearch全文搜索引擎
是一個基于Lucene的搜索引擎,能夠提供億級規模數據穩定、可靠、快速、實時的搜索能力。
(5)YARN分布式資源管理
負責計算、存儲資源的管理,用以提高分布式集群環境下的資源利用率,例如內存、IO、網絡、磁盤等資源,能為上層應用提供統一的資源管理、調度和監督。
(6)Spark內存計算框架
Spark是一套分布式計算框架,其核心是彈性分布式數據集,即在對同一個數據集反復運算時,能夠將頻繁使用的中間數據存儲在內存中,提升數據計算性能。
(7)Spark Streaming流式計算引擎
負責將流式任務轉換成一段一段的批處理作業,即轉換成適用于內存計算的彈性分布式數據集,以便在內存中進行數據計算。
(8)SQL接口
是一套基于Spark SQL支持多種數據存儲、多種索引方式,具有良好資源分配與管理的OLAP(online analytical processing,在線聯機分析處理)系統,可以為上層應用提供對數據的各項操作。
(9)分布式協作服務ZooKeeper
分布式協作是一個針對大型分布式系統的可靠協調系統,能提供集群節點間的事物協調服務,保證HDFS、HBase、Spark、Map/Reduce等分布式系統的安全可靠運行。
(10)HDH Manager平臺管理
負責為大數據平臺提供高可靠、安全、容錯、易用的集群管理服務,包括集群部署、集群管理、服務管理、任務管理、狀態監控、用戶管理、告警管理、日志管理等。
云分析系統對前端采集的人臉圖片進行結構化分析處理,實現人臉結構化和人臉模型建設。
前端提取是指通過新建的人像感知網,部署人臉抓拍單元,實時采集現場行人過往畫面,并對畫面中的人臉特征進行結構化描述,實現前端智能化分析;云端解析是指中心部署云解析系統,通過人臉識別、分布式計算、CPU+GPU混合處理等技術方式,實現視頻流人臉云分析、人臉圖片云分析兩大功能,突破傳統技術在人臉數據分析、信息挖掘等方面的性能瓶頸。其中視頻流人臉云分析負責對前端推送的視頻進行智能化分析,通過視頻觸發方式對每一幀圖像中的過往行人的人臉進行檢測、抓拍,提取出視頻監控中人臉圖片;人臉圖片云分析負責對人臉圖片進行特征識別和人臉模型建模,深度挖掘圖片中有用的人臉信息,系統示意圖如圖1所示。

圖1 人臉圖片云分析系統
采用大數據、云存儲技術,在中心設計人像資源庫,實現對海量人臉圖片類非結構化數據、人臉模型類半結構化數據,以及人臉特征屬性、索引等結構化數據的集中存儲,提供快速的數據比對分析,挖掘更多地數據關聯信息,為公安業務處理和決策提供信息化技術支撐。
人臉大數據要求是面向海量人臉結構化數據存儲、檢索、分析,通過數據分析挖掘,可以提供人臉屬性快速查詢、以臉搜臉、身份確認、人臉查重、人員行為軌跡分析等功能。
(1)人臉查詢:支持通過時間段、監控點、人臉屬性等條件進行模糊查詢;
(2)以臉搜臉:支持通過單個或多個人臉模型進行相似度的匹配檢索;
(3)身份確認:支持通過人臉大庫模型比對確認目標人臉身份;
(4)人臉查重:支持在同一人臉庫或兩個不同人臉庫中查詢相似人臉;
(5)分析模塊:支持靜態庫、抓拍庫碰撞(刑嫌人員、涉黑惡人員庫),支持一人多證分析、串并案分析、軌跡分析等多種應用。
人臉圖像云分析系統平臺架構如圖2所示。
人臉大數據中心通過視圖庫網關級聯上下級人臉數據。
如圖3所示,下級人臉系統通過私有接口把本級人臉數據推送至本級視頻圖像信息數據庫網關中,由視頻圖像信息數據庫網關統一轉換成數據流,上傳至上級視頻圖像信息數據庫網關;上級視頻圖像信息數據庫網關接收標準轉換人臉數據,按照私有接口推送至本級人臉平臺。其中私有接口規范:公安部GA/T1400.4-2017。

圖2 人臉圖像云分析系統平臺架構

圖3 人臉大數據中心共享接口
本文主要介紹了基于hadoop的人臉大數據技術,借助大數據分析,可有效補齊當前行業場所管理短板,對于刑嫌、涉黑惡人員做到事先預警,事后取證,在數據采集的深度與廣度、數據傳輸的效率、數據的挖掘與利用等方面得到全方位的擴展提升。