湛浩旻 呂益民 馬 川 曲 平 李 牧 程 實
(1.北京仿真中心,北京 100854;2.廣州市公安局,廣州 510001;3.中拓聯興(北京)科技有限公司,北京 100080)
基于大數據的警用知識處理框架的研究
湛浩旻1呂益民2馬川1曲平3李牧3程實3
(1.北京仿真中心,北京 100854;2.廣州市公安局,廣州 510001;3.中拓聯興(北京)科技有限公司,北京 100080)
當前,大數據已成為學術界、企業界乃至政府關注的焦點。將大數據應用于公安領域,將大大推動公安情報工作的發展與變革。分析了公安大數據知識處理系統的需求和關鍵技術,提出了警用大數據知識處理框架,為新一代協同智慧警用信息系統的構建提供了參考。
警用信息,知識處理,大數據
大數據的興起,以一種前所未有的方式,改變著人們的生活、工作與思維方式。而隨著大數據技術的不斷發展,以及其應用范圍的不斷擴展,大數據也必然會對目前的公安情報工作形成沖擊。目前,公安機關所擁有的信息資源多為結構化數據,公安情報部門主要從整齊劃一、標準化的數據庫中挖掘情報。據Gartner集團預計,全球信息量每年的最低增長率為59%,其中有15%是結構化數據,其余的85%則由各種非結構化數據組成。這就意味著,占絕大多數的非結構化數據尚未得到有效利用,未進入公安情報工作領域。因此,公安機關首先要在觀念上容納各種混雜無序的大數據,變“廢”為寶,將本非“廢品”的各種非結構化數據視為公安情報工作的重要工作對象。
目前,警用信息資源在獲取、整合等方面存在一些弊端和問題,制約了知識層面情報工作模式的拓展。一是過于依賴源頭信息采集,導致基層民警信息采集工作量大。盡可能廣泛地獲取各種信息資源,是確保公安情報工作有效開展的重要前提。目前,公安機關倡導信息“全警采集”,通過建立健全“信息工作基礎化、基礎工作信息化”的工作機制,將信息采集建立在扎實的基層基礎工作之上。但是,由于信息采集覆蓋面廣,必然導致基層民警信息采集任務繁重,信息采集效率低下,也影響了日常警務活動的開展。二是信息加工處理及匯集整合面臨諸多困難。面對龐雜而豐富的信息資料,只有進行整序、濃縮、升華、系統化,使之成為一個有機的整體即信息資源,才能發揮其整體效益、系統效益,并從中提煉出有價值的情報信息。當前,公安機關“條”與“條”、“塊”與“塊”、“條”與“塊”之間缺乏有效的信息交流,不同部門、不同地區的信息資料互設壁壘、互不共享,導致信息資源網絡化、集成化程度低。三是信息資源的時效性難以得到保障。目前,公安情報部門所掌握的信息資源一部分是從各公安業務信息系統中抽取的,一部分是從社會其他部門通過交流交換以定期復制、提取的方式獲得的。這些信息資源都存在一定程度的時差,時效性較差,這使得情報分析及情報應用受到限制。
為了使公安信息化資源為整個社會提供及時有效的信息服務,與其他政法部門、政府機關、社會單位實現安全、有效的信息共享,浙江合眾信息技術公司構建了公安信息通信網邊界接入平臺,如圖1所示[1]。

圖1 公安信息通信網邊界接入平臺
浙江平湖公安局以大數據為支撐,利用可視化智慧平臺系統,各個派出所綜合指揮室每天、每周、每月將轄區內的警情發生時間、地點自動生成圖表進行分析研判,然后發布預警,合理安排警力開展巡邏和車輛視頻偵察,對案件進行防控。而每天北京時間19時30分,各派出所將當天有關情況向局里匯報,再由局里預警分析統一部署各派出所警力,從而構建起了一個立體化的防控體系[2]。
隨著公安信息化建設的不斷深入開展,適應公安信息服務智慧化、協作化的發展趨勢,必須基于網絡(包括電信網、廣播電視網、互聯網、移動互聯網等)建立警用大數據知識處理框架,用以解決結構化、半結構化及非結構化數據多維度處理問題。警用大數據知識處理框架是在大數據獲取、存儲、組織、分析和決策過程中產生的,體現了大數據生態系統對知識、服務、資源和過程等的知識服務配置和整合的能力。
1.1大數據
大數據將現實世界中的事物和現象以數據的形式存儲到賽博空間中,這些數據記錄了人類的行為,包括工作、生活和社會發展。探索賽博空間中數據的規律和現象,是探索宇宙的規律、探索生命的規律、尋找人類行為的規律、尋找社會發展的規律的一種重要手段,例如:可以通過研究數據來研究生命(生物信息學)、研究人類行為(行為信息學)。與自然科學和社會科學不同,數據科學的研究對象是賽博空間的數據。
數據科學研究主要有兩個內涵:一是研究數據本身,研究數據的各種類型、狀態、屬性及變化形式和變化規律;二是為自然科學和社會科學研究提供一種新的方法,稱為科學研究的數據方法,其目的在于揭示自然界和人類行為的現象和規律[3]。
1.2警用大數據
公安情報工作是公安工作的重要組成部分。早期的情報工作以人力情報活動為主。進入21世紀以來,隨著公安信息化建設的不斷深入推進,公安機關實施情報主導警務戰略,并大力推進公安情報體系建設,公安情報工作進入了全面發展時期。開發利用各種信息資源,從中發掘出有效的情報信息,成為當前公安情報工作的中心任務,形成了一種新的公安情報工作模式——信息資源開發模式。這一工作模式,既順應了公安信息化發展的趨勢,促進了公安信息化建設的高端化發展,實現了公安情報工作與公安信息化建設的緊密結合,也有助于公安情報工作的發展創新。
將警用信息與大數據處理相結合,具有多方面的優勢:一是信息量大。大數據涉及與事物相關的所有數據,可以說是一種全數據模式,可以從不同角度,更細致地觀察和研究數據的方方面面,提高分析預測特別是微觀層面分析預測的準確性。二是信息獲取便利。當前已經擁有最先進的數據處理、存儲能力和分析技術,各種大數據的獲取簡單易行,無需付出很高的代價。大數據取之不盡,用之不竭。三是信息容錯性提高。掌握大量甚至全部數據,可以抵消掉錯誤數據所造成的影響,因此,可以不用執迷于數據的精確性,不必以高昂的代價消除數據的不確定性。四是信息具有實時性。在大數據環境下,各種非關系型數據庫允許處理超大量、結構多樣化的數據,無需進行數據格式轉換,可以實現對大數據的實時分析、應用。五是信息獲取渠道公開。大數據來自日常生活產生的各種開源信息,可以采用公開的手段獲得,在獲取方式上與現有法律法規沒有沖突,也不存在嚴重的部門或地區信息壁壘。
此外,一大批知名企業開發了一批大數據分析、應用產品(如IBM的InfoSphere大數據分析平臺、亞馬遜的彈性MapReduce、甲骨文的Oracle大數據機、Google的BigQuery服務、EMC的Greenplum統一分析平臺等),為警用信息的利用提供了技術支持[4]。

圖2 知識處理框架
1.3知識處理
知識是從給定的信息中抽取出來的并不明顯知道的東西,而當人們想要懂得某一件事情的意義時,不管他是否自覺,總是采用了一定的定性處理過程。所以,知識的擁有(知識庫)和定性處理的執行結合在一起,構成了知識處理的基本條件。圖2即為一種知識處理框架。
大數據知識處理框架是一個實現大數據獲取、存儲、組織、分析與決策服務資源和服務能力共享、交易和協作的智慧平臺,可依據不同行業、不同領域、不同需求的大數據處理需求,在平臺上實現數據、知識、資源、能力、服務、過程和任務等資源和能力的共享、協作和交易,平臺的服務內容是大數據知識服務全生命周期,服務對象是信息服務行業的上下游知識服務產業鏈。
構建大數據知識處理框架主要是將其作為一種研究方法或是一種服務工具,而不是把平臺構建當成研究目標。而作為一種研究方法或工具,大數據的知識處理與數據挖掘、統計分析、個性化搜索等人工智能方法有著不可分割的聯系,也與物聯網、云計算等信息技術相輔相成,同時具有不同于統計學、人工智能方法和信息技術的本質內涵、典型特征及運行機理。
大數據知識服務平臺的開發、實施和應用是一項復雜的系統工程,涉及諸多亟待解決的關鍵技術。結合大數據知識服務模式的內涵、典型特征、運行機理和概念模型,本文提出了一種警用大數據知識處理框架,如圖3所示,主要描述了大數據知識處理框架形成過程,以及構建過程中所涉及的關鍵技術,共分5層。

圖3 警用知識處理框架
數據來源層:提供大數據知識處理全生命周期管理過程中所涉及的各類大數據來源,如結構化數據、非結構化數據、半結構化數據和流數據。其中,傳感器數據、社交網絡交互數據及移動互聯網數據將成為知識處理領域未來大數據的幾個主要來源。
數據存儲層:主要包括數據集市、數據倉庫、知識庫,實現對結構化、半結構化、非結構化海量數據的智能化清洗、整合、主題抽取等處理,從而為大數據知識處理平臺對數據的智能化管理提供支持。
數據加工層:大數據知識處理系統的核心,包括數據挖掘、分類與聚類等功能。
業務應用層:結合用戶的大數據處理需求及數據特征,提供各類大數據知識需求的發布、大數據知識處理過程的交互等。
前端展示層:是數據可視化過程,主要是利用圖形、圖像處理、計算機視覺,以及用戶界面,通過表達、建模,以及對立體、表面、屬性和動畫的顯示,對數據加以解釋。
警用信息經過大數據知識處理后,進入前端展示層,圖4顯示了“用戶畫像”警用大數據知識處理的結果。
綜上所述,發展迅猛的大數據分析、處理技術,可以為公安機關信息資源開發提供技術支持,促進情報分析能力的提升。目前,公安機關基本上是基于傳統“小數據”來開展公安情報工作的,大數據尚未進入公安情報工作視野,制約了公安情報工作的發展。公安機關應順應大數據發展趨勢,提高大數據獲取、處理及分析能力,加強大數據在公安工作中的應用,增強從大數據中挖掘價值的能力。
1公安信息通信網邊界接入平臺[EB/OL].[2014-09-11]http://www.unimassystem.com/cshow/id-1.html
2平湖公安[EB/OL].http://pinghu.jxgaj.gov.cn/
3孟小峰,慈祥.大數據管理:概念、技術與挑戰[J].計算機研究與發展,2013,50(1)∶ 146~169
4彭加輝.大數據∶開啟公安情報工作新時代[J].公安研究,2014,(231)∶ 77~78

圖4 警用大數據分析結果
1009-8119(2016)10(1)-0063-03