蔡朝輝
新智認知數據服務有限公司,上海 200433
隨著全球信息技術高速發展,信息化已經成為促進經濟社會發展的強大動力,人們在社會生活的各個方面每時每刻產生著海量的數據信息。新形勢、新任務下,城市公共安全需要充分利用、甚至主動捕獲信息社會產生的海量數據,通過整合共享、實時分析和深度挖掘,積極應對日益復雜的城市公共安全和國家反恐維穩形勢。與時俱進,城市安全相關數據已經具備典型的大數據特質:
(1) 數據體量(Volume)大,1個警用高清視頻監控探頭1個月就將占用2.5TB的存儲空間,500個探頭將輕易突破PB級存儲需求,1個交通卡口斷面1d生成的數據就能達到1~2萬多條,幾百路卡口1年將生成數十億條數據。
(2) 數據類別(Variety)多,公安數據源種類繁多,結構不一,沖破了以往所限定的結構化數據范疇,警務數據的70%~85%的數據都是圖片、視頻、音頻、網頁、文本等半結構化和非結構化數據。
(3) 數據價值 (Value) 密度低,在系統存儲的海量數據中,真正對于公安部門有用的信息如同沙里淘金,需要通過數據的深度關聯分析,挖掘其中價值和潛力。
(4) 數據處理速度 (Velocity) 要求快,時效性高,警務工作對時間相當敏感,戰機往往稍縱即逝。因此,在對海量數據進行挖掘分析時,要求盡可能的秒級響應。
顯而易見,傳統的網絡、存儲和計算架構已經不能適應城市公共安全對于海量數據快速處理的實戰要求,開啟公安大數據創新應用,對于解決公安信息化的技術瓶頸問題,推動公安信息化向深度和廣度邁進,進一步提升公安機關核心戰斗力,有著極其重要的意義。
公安大數據在實戰過程中主要面臨“存、管、用”三方面的困難與挑戰。首先是“存”,即數據量急劇增長帶來的系統擴展問題。當今城市公共安全數據呈“爆炸性”增長,若單純依靠少數幾臺高端設備的升級更換(scale-up縱向擴展),已難以滿足數據量的爆炸式增長,只有通過不斷平行擴大系統規模(scale-out橫向擴展) 才有可能予以應對。
其次是“管”,也就是數據結構多樣化帶來的管理問題。公安部門擁有大量結構化、非結構化混合型數據,如視頻、圖片、測量、日志等。傳統關系型數據庫僅擅長集中式的結構化數據管理,這為公安大數據中分散分布的結構化、非結構化數據的統一管理帶來了困擾。
最后是“用”,即大規模分布式數據帶來的分析處理問題。暴增的數據量不僅僅帶來存儲的問題,也為網絡傳輸和計算分析帶來了新的挑戰。公安機關多年信息系統建設形成了眾多數據孤島,已經不是簡單的數據交換或數據代理能夠打通,數據獲取難、數據計算慢等一系列技術瓶頸隨之出現。
大數據首先是體量大,集中存放在一臺機器上是不可能的,當體量達到一定程度,集中存放于一個數據中心都會是奢望,因此“分開存儲”是非常自然的解決方案。為保證大數據存儲的高可用、高可靠和經濟型,我們必須化整為零:采用分布式存儲的方式來存儲數據,采用冗余存儲的方式來保證存儲數據的可靠性,以高可靠軟件來彌補硬件的不可靠,從而提供廉價可靠的大數據存儲系統。
“分開存儲”并不意味著用戶希望“分開管理”,“物理上分布,邏輯上統一”,用戶希望從外面看進去,依然還是統一的大數據存儲池,無論查詢讀取還是統計分析,都在一個抽象的完整數據集上操作,這就要求我們設計一個特殊的網絡文件系統,能夠同時協調管理多臺服務器、甚至多個數據中心的文件讀寫操作,從而將多臺服務器或多個數據中心虛擬連接為一個整體。大數據的網絡存儲需求,催生了許多優秀的分布式文件系統和云存儲服務,最典型的分布式文件系統是Google的GFS和Hadoop的HDFS,而存儲虛擬化加上存儲自動化、網絡化就是云存儲,如Amazon的S3、Openstack的Swift。
傳統關系型數據庫一般裝載于一臺服務器或若干臺服務器集群之上,庫表主要用于存儲一些結構化的數據內容,每個元組字段的組成都一樣,即使不是每個元組都需要所有的字段,但數據庫也會為每個元組分配所有的字段,這樣的結構利于快速索引,也便于表與表之間進行連接操作,但從另一個角度來說它也是性能瓶頸的一個因素,尤其是面對稀疏數據矩陣。
非關系型數據庫在大數據存取上具備關系型數據庫無法比擬的性能優勢。這種數據庫能在許多服務器之間延展,允許用戶在必要時平行擴大運算規模,同時還具備一定的開源性,允許用戶按自己喜歡的方式來架構數據,例如,以Lotus Notes為代表的文件數據庫存儲模型、以HBase為代表的Key-Value鍵值對存儲模型、以MongoDB為代表的“面向集合”存儲模型等。其中,鍵/值數據庫是目前最為主流的非關系型數據庫,它可以靈活存放各類結構化或非結構化數據,可以靈活加列 (列式數據庫),可以靈活組合為列族,還可以靈活為鍵值保存多個歷史版本,是一種非常適合大數據管理的多維數據庫模型。
并行計算是相對于串行計算來說的,具體分為時間上的并行和空間上的并行,大數據并行計算主要遇到的是空間并行問題,也就是說,如何利用多個處理器或多臺計算機來并發的執行計算,從而高效地對大數據進行挖掘應用,使用戶能更輕松的享受大數據帶來的大智慧和大價值。
面向大數據最典型的分布式并行計算模式是MapReduce編程模型,MapReduce將大型任務分成很多細粒度的子任務,這些子任務分布式地在多個計算節點上進行調度和計算,從而在整體上獲得對大數據的秒級處理能力。在大數據的應用場景下,再高端、再昂貴的小型機,也許還比不上若干臺普通服務器的并機處理能力。參考MapReduce的原理,面向公安部門的眾多數據孤島,我們也許不再需要高負載的數據交換總線,而是“數據不動、計算動”,讓分布式計算去找分布式數據,通過靈活的計算任務調度,全面提升警務大數據的挖掘分析速度。
隨著AI人工智能技術的日益成熟,海量的公共安全視頻圖像可以通過視頻智能解析技術,由非結構化數據轉換為結構化數據,并同步生成索引關系,以此為基礎構建圖像大數據應用服務。
在未來的應用場景中,公安干警們不再需要人工調取海量的視頻錄像,如同大海撈針般在PB級的視頻影像中發現那一閃而逝的嫌疑目標,只要簡單的輸入嫌疑人的顏色、交通工具、體貌特征等文字描述,或者上傳該嫌疑人的照片或視頻截圖,即可以依托公安圖像大數據應用平臺,秒級響應,快速地搜索出嫌疑人曾經出現過的視頻片段和過車圖片,并連點成線構建破案線索,快速破獲案件。
當前面向道路車輛的智能卡口或智能電警系統,多建設于各個地市公安局,或者是下面的分縣公安局,數據分散,難以統一利用,而采用逐級上傳的方式向上匯聚,又對網絡和存儲設備帶來很大壓力,讓用戶進退兩難。在未來的卡口大數據應用場景中,卡口數據無需上傳就可進行統一查詢、統計和訪問應用,跨市布控和全省統計不再困難,甚至跨省追逃都能輕易實現。這是因為未來卡口大數據平臺采用了跨數據中心的非關系型數據庫,多個分中心庫表可以虛擬成一個非關系型大表,用戶直接訪問虛擬大表,卡口大數據平臺則自動分配任務給多個物理分中心,并將結果合并后統一返回,應用管理十分便捷。
犯罪分子在沒有落入法網之前,常常會多起作案或流竄作案,因此偵查警員往往要在海量的案事件視頻圖片中去比對發現相似的作案手段或涉案物品,從而將多案并為一案,豐富案情線索,加快破案的速度。在未來的情報大數據應用場景中,人們不僅可以對案事件的人工標注信息和自動標注信息進行統一匯總管理,還能智能化的完成跨省市的大數據篩選比對,如果利用公安圖像大數據平臺的高效運算能力,還能直接在圖片等非結構化數據中進行智能特征比對,快速發現相似線索。所有的比對搜索工作,無論是標注信息匹配,還是圖片特征比對,都可以在幾秒或幾分鐘內完成。
大數據“存管用”技術在城市公共安全領域的創新應用,僅僅是一個起步,只有充分運用“大數據”思維,才能全面促進公安部門運用全量數據去認知過去、把握現在和預測未來。本文因篇幅原因,無法進一步展開城市公共安全的大數據綜合治理和大數據資源即服務等深入環節,稍有遺憾。
城市公共安全是國家社會穩定、人民美好生活的基礎,大數據時代的到來拓寬了我們的視野,筆者認為,不是我們現在掌握的數據太多,而是遠遠不足,物聯網的快速發展有所彌補,而虛擬世界的社交網絡、電商平臺也需要加入公共安全的大數據采集與智能防范體系,從而實現虛實兩面的全方位打防管控。
可以預見的是,大數據的積累還將催生城市公共安全的人工智能平臺,創建24小時全天候值守的公安智慧大腦,將公安干警從日復一日的重復性體力勞動和腦力勞動中解放出來,大幅提高城市安全的整體運作效率。
[1] 馬奔,毛慶鐸. 大數據在應急管理中的應用[J]. 中國行政管理. 2015(3).
[2] 黃全義,夏金超,楊秀中,等. 城市公共安全大數據[J]. 地理空間信息,2017.
[3] 孫粵文. 大數據:現代城市公共安全治理的新策略[J]. 城市發展研究,2017(2).