農忠海,劉向榮
(廣西警察學院,南寧 530023)
(1)數據。數據是一種人為的符號,符號用來抽象表達某一事物,符號包括語言、文字、數字、圖形、圖像等,符號是記錄某種介質上,符號需要人來解讀才有意義。
(2)信息。信息是人對符號的解讀,比如“5”是阿拉伯數字,可以解讀為5頁、5米、5天等,5頁可以解讀為第5頁、共5頁等,不同的解讀就有了不同的意義,就有了不同的信息。對公安工作有用的信息,才是公安信息。
(3)情報。情報是指針對特定主體有利害關系的信息,情報具有很強的時效性、利害關系的針對性,信息包含情報。比如張三今天入住了某賓館,這是一條信息;如果信息是張三今天入住某賓館,計劃在賓館內實施不法行為,這就是一條情報。
(4)知識。知識是對信息進行分析整理、總結、提煉成反映事物發展規律的概念。由信息到知識是知識發現的過程,是把隱性知識轉化為顯性知識的過程。比如球沿設計好的各種坡下落,球的重量、坡的弧度、摩擦力、下落時間這些都是信息,經過對這些信息的分析、總結、提煉,牛頓發現了牛頓三大定律這一知識。
1.2.1 數據、信息、情報和知識的層次關系
數據、信息和知識分屬于三個不同的層次,情報與知識有交集,它們的關系如圖1所示。處理它們的方法和技術也不同,數據庫技術用于管理數據;信息管理系統用于管理信息,信息管理系統是在數據庫技術基礎上結合了信息處理技術;知識系統是在信息管理系統的基礎上,通過數據挖掘、算法建模發現知識。

圖1 數據、信息、情報和知識關系圖
通過數據、信息、情報和知識的層次關系,我們可以觀察到信息化的發展軌跡,當信息采集困難,信息較少時,人們需要建立大量的數據庫,并通過網絡把各個數據庫連接起來,此階段的信息化是為了滿足人們的信息查詢統計需要,實現信息共享;當信息采集容易,信息極大豐富后,人們獲得信息不再是問題,已經不能滿足于信息的查詢統計,關注的焦點將向知識轉移,通過建模分析,把信息轉化為知識,此階段的信息化是以知識發現為目標。
1.2.2 信息時代與知識時代(大數據時代)
信息共享和知識發現,標志著不同的信息化水平,也需要一個長期的發展過程,所以一些學者把以獲取信息為主的信息化階段稱為信息時代。在信息時代,通過對鮮活信息的分析研判,得到有用的情報。把知識發現為主的信息化,階段稱為知識時代,也就是現在所說的大數據時代。
1.2.3 公安信息化發展的三個階段
通過清晰信息、情報和知識的概念,也清晰了公安信息化發展的三個階段:一是綜合查詢系統建設應用階段,大概在2006年到2009年,建設部門間共享資源庫,提供綜合查詢系統;二是情報系統建設應用階段,大概在2010年到2015年,本階段有了很多鮮活的信息,通過研判分析出有價值的情報指導工作;三是大數據系統建設應用階段,大概在2016年至今,通過對信息進行算法建模,發現公安工作相關事務的規律,預測未來,公安工作從打擊為主轉入預防為主。
一直以來對知識發現本身,更多的是靠人的主觀判斷,或者從抽樣數據進行分析。隨著大數據技術、人工智能技術的進步,目前一些初級的知識已可以通過一些算法對全量數據進行分析所發現。常用的預測算法有簡易平均法、移動平均法、指數平滑法、聚類算法、線性回歸法[1]、決策樹、人工神經網絡、支持向量機[2]、正則化方法、時間序列等。
公安知識的發現,主要對公安工作相關的事務現象進行要素分析,導致某一種現象的因素都有哪些,然后將這些現象和因素信息(以下統稱“因變量”)采用預測算法進行分析提煉,進而為今后該現象預測提供技術支撐。
公安大數據預測警務可分為宏觀和微觀兩個方面。宏觀預測警務通過公安大數據的統計分析,在宏觀上警務工作形勢預測,來指導未來警力、財力、裝備投入和機制體制等戰略政策,所需采集的數據主要為具有統計意義的信息如:案別、案發地址及坐標、犯罪動機、作案手法、作案工具、犯罪人信息、區域警力等信息,宏觀警務預測在技術操作上相對較為容易,應用的時間也已經比較成熟。
本文主要研究微觀警務預測及信息采集需求,微觀警務預測主要用于指導日常警務活動。最高層次的微觀警務預測主要包括三個方向:一是在什么時間、什么區域會有什么類型的犯罪預測;二是什么人會犯什么類型的罪;三是預測最有可能成為犯罪受害者的個人或群體。除了犯罪預測,公安還有社會管理的工作職能,比如消防管理、交通管理。這些高層次的警務預測所需的因變量較多,有很多因變量可能采集比較困難,因此高層次的警務預測難度較大,我們可以降低警務預測的層次,比如對路面的車進行預測車的用途類型、預測人的職業特點以輔助民警根據現場情況作出判斷、預測電話號碼是什么類型的電話號碼以防電信詐騙。
公安大數據采集什么,取決于公安大數據預測什么警務,所以需要對預測警務開展頂層設計,然后根據所要預測的警務目的進行因變量數據采集,對應這些警務預測目的,需要采集哪些因變量,以下進行簡要分析。
2.2.1 在什么時間、什么區域會有什么類型的犯罪預測
此類預測借鑒地震預測模型和傳染病蔓延模型,主要預測盜竊、黑惡勢力犯罪等犯罪行為。例如相對盜竊,某區域呈現出了環境缺乏守護的特點:小區防盜措施較弱、周邊視頻監控較少、警力分布較少等,犯罪目標財富聚集較多,盜竊犯得手之后,在未來兩周之內、方圓100米左右再次實施盜竊的可能性很高。再比如黑惡勢力犯罪在地域上有相對較為固定的區域,黑惡勢力之間的打斗在短時間、同一區域范圍反復出現。[3]此類犯罪預測通過對轄區內網格化區域劃分,采用支持向量機、深度學習等算法進行建模,針對每個網格通過歷史數據和當前信息預測今后一段時間的案發概率。此類預測難度最高,目前并沒有完備的理論依據,因此只能探索將盡可能多的信息輸入系統,通過機器學習,系統可以自動發現與犯罪相關的數據而不用探究原因。
采集的信息需求有公安業務數據、地理信息、本地社區數據、時間因素信息等,公安業務數據包括歷年110警情數據、案事件基本信息、人員信息、軌跡信息等,地理信息包括地圖、影像圖、道路、橋梁、河流、鐵路、高架道路、公園、游樂場所等,本地地點數據包括銀行、超市、菜場、車站、社區等、賓館、飯店、網吧、KTV、足療等的地點類型、名稱和經緯度等信息,本地社區數據包括社區平均房屋單價、房屋租金、物業費價格、用戶用電量、物流信息等,時間因素信息包括歷年氣象數據、天氣、溫度、風向、風力、歷年節假日情況、工作日、周末、歷年法定節假日、農歷、日出日落時間等。在具體的時間、地點作出某類型犯罪預測的準確率也普遍不高,可以通過擴大時間跨度、區域范圍來提高準確率,例如將網格縮小到小區、城中村、商場這種相對較為封閉的區域,除了上述信息采集之外,可在出入口采集出入人員、車輛的信息,通過實時的對出入人員及歷史數據的系統預測,將能大大提高預測的準確率。
2.2.2 什么人會犯什么類型的罪
犯罪分為臨時起意犯罪和有計劃的專業犯罪,個人臨時起意犯罪,因沒有犯罪計劃,在信息化高度發達的今天來說偵查破案相對較為容易,因此重點預測專業化犯罪是當前的重點。當前社會呈現出了犯罪專業化、地域化的趨勢,比如江西袁州技術開鎖盜竊、廣東茂名“猜猜我是誰”、廣西賓陽QQ詐騙、涉恐涉暴涉邪、非法集資、傳銷等。
如何在海量信息中實現自動搜尋、分析與定位,尋求相應特征信息以快速自動識別并捕捉犯罪嫌疑目標,成為警務部門在信息化發展方面需要特別加強研究的重點內容。通過對歷史上等存在危險隱患犯罪分子的全部信息數據進行收集統計分析,從中探索這些人員的潛在規律,發現他們的共同特征,從找出他們之間的相關關系和關聯物。如信息中的地域環境、社會關系、年齡、教育程度、上網軌跡、手機信息、家庭背景、經濟狀況、職業、血型、其他信息等可以關聯這類人員的共同特征值成為可能成為某種犯罪的關聯物,特征匹配越高,預測為犯罪的可能性就越大,需重點管控防范。
所需采集人員的信息為:一是基本信息。為了完成大部分網絡行為,消費者會根據服務商要求提交包括姓名、性別、年齡、身份證號碼、電話號碼、Email地址及家庭住址等在內的個人基本信息,有時甚至會包括婚姻、信仰、職業、工作單位、收入、病歷、生育等相對隱私的個人基本信息。二是設備信息。主要是指消費者所使用的各種計算機終端設備(包括移動和固定終端)的基本信息,如位置信息、Wi-Fi列表信息、Mac地址、CPU信息、內存信息、SD卡信息、操作系統版本等。三是賬戶信息。主要包括賬號密碼、銀行卡信息、網銀帳號、第三方支付帳號,社交帳號和重要郵箱帳號等。四是隱私信息。主要包括通訊錄信息、通話記錄、短信記錄、IM應用軟件聊天記錄、個人視頻、照片等。五是社會關系信息。這主要包括好友關系、家庭成員信息、工作單位信息等。六是網絡行為信息。主要是指上網行為記錄,消費者在網絡上的各種活動行為,如上網時間、上網地點、輸入記錄、聊天交友、網站訪問行為、網絡游戲行為等個人信息。[4]七是軌跡信息。開房記錄、列車記錄、航班記錄、網吧記錄、出境記錄、入境記錄、犯罪記錄、住房記錄、租房記錄、銀行記錄、駕駛證記錄、違章記錄、物流地址等。[5]
2.2.3 預測最有可能成為犯罪受害者的個人或群體
多發性侵財類案件的犯罪分子是撒網式作案,有防備、有警惕的人不易成為受害者,往往犯罪分子是利用了受害者某些弱點,這些弱點是受害者共同特征。例如電信詐騙中受害者的性格特點多為交際圈小且封閉、貪小便宜、僥幸心理、想不勞而獲等特點,這些信息只能通過心理測試或歷史行為分析獲得。
預測成為犯罪受害者的個人或群體和預測犯罪的方法基本上是一致的,不同的是受害者預測集中在年齡、受教育程度、性格特點、社會關系、從事職業、個人財富等關系較為密切,可以通過機器學習算法發現不同類型受害者的共同特點,將所需個人信息進行全面采集。
2.2.4 消防管理
將歷史上所有火災信息進行收集,采集可能會產生火險的因變量包含建筑類型、建筑層高、耐火等級、歷史火災信息、歷史檢查隱患記錄、區域居民平均收入、建筑物年齡、是否存在電氣性能問題等,通過機器學習算法進行建模,并將現有建筑的這些因變量進行收集,對可能發生的火災進行預測。算法建模的過程就是知識發現的過程,這一算法建模將能較好的預測未來火災發生情況,有效指導消防工作。
2.2.5 交通管理
通過對氣象、速度、車流量、駕駛員(年齡段)信息、車況信息、事故信息、道路狀況、安全帶是否使用、時間段、交管執法力度等信息和數據,用大數據方法進行分析研判,從中可以疏導交通流向、找出降低交通事故的關聯物和相關關系,從而有效的預防和降低交通事故的發生。
2.2.6 預測車、人、電話的類型
通過電子車輛卡口數據對車輛的行為軌跡分析出假套牌車輛、晝伏夜出車輛、區域徘徊車輛、車輛落腳點,再與機動車駕駛員數據、人員專題庫數據進行關聯對比得出車輛類型專題數據庫,通過排除法將可疑車輛圈定在小范圍內。
建立特定重點人群主題庫、正常職業人群主題庫以及這兩個之外未有相關數據的未知人員主題庫,并關聯主題庫人員的歷史行為信息預測人的職業特點。
對電話號碼的標記,目前有360電話本、騰訊電話本、華為電話本都給用戶提供了標記功能,公安機關可通過這些商家的標記信息獲取并共享可疑電話號碼。
公安信息分為公安內部和公安外部的信息。[6]公安內部信息是公安機關在內部隊伍管理、裝備財務管理、服務社會、涉外管理、偵查辦案的過程當中形成的信息,比如:警員信息、常住人口信息、出入境辦證信息、110接警信息、刑事案件信息、犯罪嫌疑人信息等。外部信息源產生于公安系統之外的組織和個人,比如航空旅客信息、高鐵動車旅客信息、旅館業信息、網吧業信息、物流信息等信息。
3.2.1 公安自行采集
民警手工采集的大數據有:戶籍管理采集的信息;打擊違法犯罪采集的警情、案事件、嫌疑人信息;平時的治安管理中采集到的治安基礎信息[7]、公共場所信息、危險物品信息等信息;天網及其他社會資源采集到的視頻信息;公安機關開展巡邏盤查中采集的數據;機動車、駕駛員、車輛違章信息;公民出入境辦證信息;信訪信息。
3.2.2 社會化采集
包括旅業住宿登記、網吧管理、出租屋登記等,根據法律規定,依靠社會力量,為相關單位提供管理系統,通過暗訪檢查等方式加強采集管理,所采集數據為公安使用。
3.2.3 部門間共享
就是通過數據聯網或者拷貝等方式,共享其他行政機關、企事業單位掌握的信息,有鐵路、航空、交通等領域的數據。
3.2.4 互聯網數據抓取和自動識別
互聯網擁有這海量的數據,通過互聯網數據的抓取和分析,形成專題庫。基于二代身份證照片建立人臉識別數據庫,通過指紋識別、車牌識別、手機等自動識別及智能感測技術獲取指紋數據、電子卡口數據、電子圍欄數據等。
3.3.1 公安大數據采集沒有頂層設計
公安大數據采集為公安大數據警務預測目的服務,目前公安大數據警務預測還沒有頂層規劃,所采集的信息還是傳統的為辦證、辦案、記錄等信息化目的服務。為了警務預測,需將現有數據進行清洗標注、再聚合建模,還有缺失的因變量太多,而且警務預測是具有全局性的特點,因此預測效果很差。而且沒有頂層設計,沒有對應的崗位和職責,各地做法五花八門,不能形成規模效應。
3.3.2 運動式信息采集弊端多
公安系統發動多次運動式的基礎信息采集工作,同時以績效考核的手段考核基層民警采錄基礎信息數據。[8]民警日常工作繁忙,同時兼職采集錄入數據,工作不堪負重的情況,為完成采集工作在系統隨意輸入信息,如何甄別信息可靠性成為頭疼的問題,導致系統信息無法使用,造成了警力的嚴重浪費。由于運動式采集信息,沒有形成長效機制,隨著社會變化,很多信息很快失效。
3.3.3 民警手工采集盲區大
因為采集都是單向的、義務的,業主積極性調動不起來,往往該采不采或者故意作假,數據質量難以保證。如公安機關以前曾經開展的人才市場的信息采集,對方沒有利益,也就沒有積極性,工作難以常態化開展下去。很多小作坊、高層樓宇、工廠宿舍、小作坊、小門診也沒有納入采集范圍,這些盲區往往都是治安復雜區域,尤其需要重點采集。
3.3.4 一些不法分子反偵查、反采集的意識不斷增強
比如,深圳鹽田某香港女醫生被殺案,嫌疑人在逃期間不帶手機,不上網、不住宿、不用身份證;深圳龍華某女學生被殺案,嫌疑人作案后,上網、住宿立即改用了他人的身份證。類似這種故意規避采集的情況,僅靠社會力量,就可能會出現“采集好人、漏掉壞人”的漏采漏控問題。
首先從公安大數據預測應用入手,根據各警種、各部門對預測應用的需求,形成警務預測需求。[9]根據預測需求開展研究,采集什么數據、使用什么算法建模進行科學研究,雖然作為科學研究不能一蹴而就,能根據計劃馬上研究算法模型成功,有些信息可能暫時沒有手段采集到,但是警務預測需求基本是可以確定的,只要有了目標,所采集的數據就基本上有了方向,就可以提出基本的采集需求,然后在實踐中再不斷的調整、完善。這個公安大數據采集的需求是有別過去的基礎信息采集的,是專門為警務預測而采集的數據。
設立大數據中心作為各級公安機關的二層機構,統管公安大數據的應用、軟硬件管理、采集機制體制、技術標準及推動立法改革。
4.2.1 建立信息采集機制體制
各級成立大數據中心二層機構,同時基層科所隊設立大數據專管員,明確工作任務和職責,上級各部門所有需要基層科所隊采集數據的須經過大數據中心統一審核。基層科所隊設立專門的信息采集工作崗位,明確轄區范圍的信息采集任務,量化考核,避免出現漏采的情況。在督查部門設立大數據質量督查小組,定期開展實地抽查、電話回訪等方式檢查采集數據的質量,定時通報考核,全面提升數據質量。
4.2.2 制定信息采集規范標準
不同的采集步驟和方法將導致不同的結果,制定信息采集的規范方法,從源頭統一信息采集的標準。對信息采集的必填項和擴展項作出明確的規定,并對每項信息采集的作用做出說明。擴充信息采集的范圍,如:虹膜、血液、DNA。關系信息、物品信息、位置有關的信息等。
4.2.3 大力推動部門間共享
大力推動與政府、企事業單位部門間信息的共享,獲取醫療、社保、水表、電力、燃氣、通信、物流、會所、協會、社康中心等信息。
4.2.4 推動立法
從社會公共安全角度推動公安機關獲取各項數據的法律授權,使數據的獲取規范化、常態化。并從法律層面確認公安機關和個人對信息處理的權限范圍,在保護社會公共安全的同時保護好個人隱私,也規范公安機關內部的信息處理流程。
加強對企業、出租車公司、工廠、學校、會展、醫院等社會單位提供前科人員背景核查數據服務,通過提供服務互利共贏的模式,獲取相關單位的人員基本信息、軌跡、其他業務信息等。
加強日常盤查和核錄,盤查有目的性,不法分子越是躲避,形態越是反常,也就越容易被警方識別和盤查。所以把路面盤查和身份核錄作為動態巡邏勤務的一項重要內容,加大力度,增強針對性,重點采集形跡可疑人員的信息。盤查可加大震懾、留下軌跡,減少信息采集的盲點。
當前警力有限,使用技術手段自動采集信息是解放警力最好的途徑,進一步加強互聯網數據的采集、建模分析,通過人臉識別、指紋識別、虹膜識別、掌靜脈識別、語音識別、聲紋識別、步態識別、車牌識別[10]、車型識別、物體識別、二維條碼、RFID、Wi-Fi等自動識別及智能感測技術獲取人、物信息。
隨著信息技術手段進步,萬物互聯時代的到來,公安大數據警務預測將成為必然的趨勢。為了應對公共安全管理需要,公安機關將采集更多的信息,在完善公安機關內部數據采集和建模分析預測的同時,也需要從法律層面明確公安機關信息采集和使用的范圍,以確保公安大數據預測警務有序進行。