祁筱
“智慧公安”背景下數據的重要性更加凸顯,數據采集、數據匯聚、數據應用以及數據管理等各個環節都需高度重視。針對當前“智慧公安”建設和推進中存在的數據采集、數據匯聚、數據應用、數據管理等方面的問題進行了分析,并從保障系統設備和系統運行、提升干警數據認識和能力、發揮職能部門作用、加強制度規范建設等方面提出了相應的對策建議。
“智慧公安”是一場警務新革命。數據猶如“智慧公安”的“血液”,是“智慧公安”中最基本、最重要的因素,影響和決定了“智慧公安”的效用。習近平同志在視察中國科學院時指出:“大數據是工業社會的‘自由資源,誰掌握了數據,誰就掌握了主動權。”
在大數據時代,各行各業對數據的依賴快速上升。政府部門通過對海量、動態、高增長、多元化、多樣化數據的高速處理,可快速獲得有價值信息,提高公共決策能力。公安機關要不斷提高警務工作效能,必須注重用數據說話、用數據決策、用數據管理、用數據創新警務工作。“只要得到了合理的利用,而不單純只是為了‘數據而‘數據,大數據就會變成強大的武器。”
數據庫專家杰克·奧爾森指出:“數據能滿足既定的用途,它才有質量。如果不能滿足既定的目標和用途,就談不上質量。”而數據質量問題是一個涉及數據收集、使用、發布等所有過程的問題。
為全面了解當前“智慧公安”建設和推進過程中數據方面存在的主要問題,更好地推進“智慧公安”建設和應用工作,對數據的源頭采集、中間匯聚、管理應用等環節存在的問題進行了深入調研,并提出了有效應對策略,以期實現“智慧公安”的高效、健康、有序發展。
隨著信息的高速發展,與之而來的是“中等信息化陷阱”。“中等信息化陷阱”是借用“中等收入陷阱”而來的概念。“中等收入陷阱”是指當一個國家的人均收入達到中等水平后, 由于不能順利實現經濟發展方式的轉變,導致經濟增長動力不足, 最終出現經濟停滯的一種狀態。“中等信息化陷阱”是指信息化發展到一定階段出現的邊界效應遞減、杠桿作用不足、投入與產出比明顯降低的一種狀態。
在此,從數據的形成過程中逐一分析其存在的問題。
(一)數據采集質量不高
既有感知設備的質量直接影響了數據采集的精確性。目前上海很多感知設備是基于以前原有設備進行改造而來,其中不少由基層街鎮所屬部門進行采購和使用,設備的正常運行率、單位面積的數量以及數據采集的精度都缺乏統一規范,既有感知設備數據采集的質量不一定能滿足下一步“智慧公安”應用對數據分析、數據挖掘的要求。
基層民警的數據認識影響了數據采集的質量。公安數據采集工作主要由基層一線民警實施,由于基層一線民警對數據采集工作重要性認識不足以及對信息技術了解有限,民警在數據采集中采集范圍不夠、質量不高、實時性不強、應付了事的情況仍然一定程度存在。如上海“新執法辦案綜合信息系統”采用了先進的電子筆錄的形式,以實現數據結構化錄入和采集,但是,由于基層民警對系統使用不夠熟練,以及系統自身不夠穩定導致智能筆錄與執法辦案綜合信息系統無法直接關聯,致使很多基層民警采取打印智能筆錄中的筆錄文件后拍照上傳的形式來采集數據,將原本應該結構化的數據非結構化,大大影響了數據的采集質量以及今后數據應用和挖掘。
數據的重復采集影響了數據的質量。在日常工作中,不同的設備之間、不同的民警之間以及設備和民警之間由于所屬部門和業務領域不同,在數據采集過程中存在反復、多次采集相同數據的情況,這會增加今后數據挖掘的難度。
(二)數據匯聚瓶頸不少
數據清洗工作量大。根據“智慧公安”的要求,民警采集的數據要全部匯總上傳至公安“阿里云”進行統一清洗和關聯。在數據匯聚過程中,由于數據量巨大和數據匯聚中存在的數據信息瑣碎、部分數據非實時性、數據源異構、數據需求不明確,以及上級單位對基層業務不夠了解等多方面問題,導致數據清洗工作量巨大。如上海實有人口庫中標準地址為市、區、路、弄、號的形式,“上海市普陀區怒江路XXX弄XX號”,但是外部數據形式有“上海市市直轄普陀區長風街道怒江路XXX弄XX號”,早期手工錄入非規范化數據時還會使用“石泉X村X號XXX-X室”,甚至由于歷史遺留問題,存在“XXX號一樓灶間”等大量機器無法自動識別、匹配的數據,這些數據在入庫“上云”前必須經歷大量的清洗、規范和結構化工作。
數據分類和索引亟需規范。由于采集數據來源不同,開發公司使用的環境和語言差異,數據表名、結構、字段不同,給公安業務部門在海量數據庫中進行數據查找和應用帶來十分不便。上海公安警務“阿里云”在短時間內匯集了公安網、指揮網、視頻網等海量信息,“阿里云”匯集庫存在分類混亂,字段、表名稱索引不規范的問題。如上海實有人口信息中采用的字段名為“姓名”、“通訊方式”,其他數據庫中字段名為“居民”、“聯系方式”,雖然其中內容相同,民警可以理解其為相同信息的不同表述,但是機器無法自動識別、關聯,這樣導致在數據關聯和數據查詢時出現壁壘。
數據更新不及時。由于設備自動采集和民警人工采集的數據存在大量的非結構化數據,導致相同意義的數據重復采集、存儲多條,無法做到“一次采集,全網通用;一次變更,全網更新”,不僅造成人力、物力的巨大浪費,同時還增加了數據挖掘和應用的難度。
數據共享比較有限。目前,公安系統內部基本打破了數據壁壘,實現了數據的流通和共享。但是,公安與政府其他部門、公安與社會企事業單位之間的數據仍未實現實時、全面共享。特別是現今數據分析中較為重要的水、電、煤、外賣、快遞等數據沒有實時共享到公安數據中,直接影響了大數據應用分析、研判的質量。
數據標準亟待確定。海量的數據來源,各開發公司使用的不同開發語言、開發環境、版本號以及不同品牌和型號的硬件設備都會對數據的整合使用產生影響。現有前端感知設備比如門磁、煙感、消防栓、窨井蓋、電子巡更等沒有統一標準和規范數據結構,需要各個開發公司分別上傳公安“阿里云”,而開發公司在對不同數據結構清洗、匯總、撒點時容易出錯,且多家公司溝通聯調難度大。大數據的去冗,數據存儲的內容取舍和時效性都亟待公安相關職能部門和相關專家進行統一協商制定數據標準。
(三)數據應用程度有限
數據開發利用滯后。大數據本身并不能解決問題,大數據只有與業務需求進行充分融合的基礎上才能彰顯價值。從近期來看,公安系統內部數字信息資源開發利用滯后,數據處理分析能力不足是“智慧公安”建設和應用面臨的最大短板,隨著“一中心、一平臺”建成后數據的大量匯入,豐富的數字資源積累與數字信息資源開發利用不足之間的矛盾將愈演愈烈。緩解矛盾的關鍵就在于數據處理方式的演化,重視數據在實際操作當中的運用,這是整個數據運行過程中最重要的部分。
數據應用形式單一。數據應用既包括無目標的從復雜多源異構的數據中進行深度挖掘和分析研判,也包括有目標的數據需求和數據模型的建立。目前公安系統內部僅掌握簡單的數據分析、數據對比等數據應用,對于數據深度挖掘和數據建模的應用形式尚未熟練掌握。
數據應用方式簡單。在數據信息處理中,公安系統內部多沿用傳統的數據分析工具和分析方法,數據處理多是簡單的累加、比對和百分比計算,在數學模型構建等方面創新不足,數據應用智能化水平偏低。
公安數據模型數量少。阿里巴巴公司有320萬個數據模型,而目前上海公安只有幾百個數據模型,差距十分懸殊。模型開發和業務需求聯系緊密,有限的模型數量嚴重影響了 “智慧公安”在實戰中的作用發揮。
(四)數據管理出現偏頗
部分領導存在重建輕管的思維。當前,在“智慧公安”建設和推進中,部分單位領導仍然存在重建設輕應用的思想,覺得硬件系統搭建完成就大功告成了,缺少系統的擴展性和維護更新的意識。
系統開發過于依賴企業。由于公安機關數據應用系統大多數依賴于開發公司,以致公安系統內部人員對系統了解不多,在后期管理維護中很難進行技術維護,這會給系統正常運行帶來很多問題, 從而影響系統作用的充分發揮。
高水平計算機人才缺乏。系統開發技術含量高,公安內部缺乏高水平的計算機技術人才,無法自行開發復雜的信息系統,一般都委托軟件開發公司進行分析、設計、編程和維護。由于開發公司對于公安業務了解甚少,導致無法全面準確了解公安需求,系統應用效果有待加強。
(五)數據安全隱患不少
系統自身存在安全隱患。由于公安內部開發系統實力有限,各級公安機關的系統開發往往由外部軟件開發公司承包,技術資料由軟件開發公司掌握, 系統維護、升級都要依賴軟件開發公司,系統后臺數據庫及管理權限對開發單位是完全透明的,鑒于計算機行業人員流動頻繁, 公安信息系統存在著一定的安全隱患。
數據偽裝和數據犯罪。隨著信息技術的快速發展,數據偽裝和新型數據犯罪要引起我們高度重視。一方面,在信息源上,社會空間中充斥著偽造或刻意制造的數據,而錯誤的數據信息被提取運用后往往會誤導使用單位做出錯誤的研判預測和管理決策;另一方面, 在信息傳播上,數據存儲和分析處理過程中可能會出現“黑箱操作”, 人工主觀干預的數據采集過程可能出現誤差, 導致數據失真與偏差。此外,我們還要高度警惕針對公安大數據分析、研判的新型數據犯罪的出現,做到防患于未然。
(一)保障設備和系統的高效運行
保障系統的性能穩定。開發公司在開發軟件系統時常常會追求功能完善而忽略性能穩定,但這恰恰是公安平臺系統最重視的要素。目前,各種公安新系統的初期使用常常使民警怨聲載道就是因為性能不穩定造成科技累警,民警的敷衍了事,不規范使用又會為后期數據的清洗和研判造成困難。為了便于民警操作、使用,在保證友好用戶界面的同時需要保障系統的性能穩定,在新系統全局推廣之前充分做好測試完善工作,最大程度上減少系統漏洞。
提高感知設備的數據采集質量。相關部門要采取措施使得原有政府采購的感知設備與新增設備的靈敏度、采集精度、采集范圍、單位面積內個數盡量保持統一標準,要統一收發數據格式,提高數據采集質量,構建社會泛感知數據的建設和采集匯聚標準。
保持數據接口和數據庫的穩定性。相關職能部門在軟件系統開發過程中要保證開發語言、開發環境、開發版本的兼容性和系統的穩定性,防止出現系統開發完成后相互不兼容而返工現象。對各類數據庫提供的服務,相關職能部門要進行必要的前期規劃和評估,確保數據和接口的安全、穩定和統一。
(二)重視對廣大干警的數據意識和能力的培養
在“智慧公安”建設和應用過程中,公安機關各級領導干部要帶頭學習大數據相關知識,提高數據意識,培養數據思維,避免重硬件設備輕應用管理的傳統思維。各級領導干部要學會并善于用數據說話、用數據決策、用數據管理、用數據創新警務工作。此外,各級領導干部要重視數據挖掘工作,善于發現和培養大數據人才。
切實增強“全科民警”的數據采集和應用能力。基層一線崗位“全科民警”是數據采集和應用的第一人。“全科民警”首先要提高數據認識,深入理解“智慧公安”建設的緊迫性以及數據在“智慧公安”中的重要性,充分顯現“全科民警”在“智慧公安”中的重要地位和作用。同時,市局相關部門和公安學院要重視和加強“全科民警”數據能力的培訓工作,強化對“全科民警”數據采集所需的設備使用、數據形式、采集時間等規范性訓練。此外,“全科民警”還要加強自身學習,盡快熟練掌握各種數據采集所需的新系統、新設備,并能夠基于自身經驗對數據應用模型的開發完善提出建設性意見。
大力加強“專科民警”的數據業務能力。“專科民警”要努力提高數據意識,學會使用數據決策、數據管理。非“數據警察”崗位的專科民警要能夠結合自身工作需要提出數據模型需求,為條線業務的智慧化發展貢獻力量。“數據警察”是既懂公安業務又懂大數據技術的專業人才,要不斷學習和鉆研大數據,并能夠敏銳嗅察出海量數據深度挖掘背后的涵義,能夠精準把握其他崗位民警提出的數據模型的可行性、實現方案和模型搭建等重要事項。
(三)充分發揮“智慧公安”相關業務部門的職能
加強“智慧公安”的頂層設計和規劃。“智慧公安”相關職能部門要對“智慧公安”的建設和推進進行頂層整體設計和規劃,對可能存在的問題、潛在的問題以及已經暴露的問題要有相應的解決對策和方案。同時,相關職能部門要與政府其他相關部門、社會企事業單位進行主動協調,實現水、電、煤、外賣、快遞等重要數據的共享,豐富數據類型,完善數據內容。
強化對數據開發的技術支持。市局“智慧公安”相關職能部門要加強公安系統與開發公司之間協調工作,在明確數據統一標準之后,協同開發公司落實技術標準,開展數據匯聚前的梳理工作,并及時組織進行數據清洗、關聯和索引,為數據查找和數據應用提供技術保障。
重視“數據警察”人才培養工作。市局“智慧公安”相關職能部門和公安學院要對“數據警察”的培養建立長效機制,為“數據警察”業務能力的不斷提升創造良好的條件。
(四)進一步強化與數據相關的制度保障
加強“智慧公安”的標準化建設工作。市局“智慧公安”相關職能部門在設備采購、系統開發過程中要制定相關標準,規范相關設備、開發語言、開發環境、配套接口等標準,避免出現市局與分局、不同分局、不同業務部門之間在數據采集、數據匯聚、數據共享、數據應用中存在不統一、不兼容等問題。
建立“智慧公安”相關激勵機制。市局“智慧公安”相關職能部門和各分局在“智慧公安”建設和推進過程中要逐步建立和完善相關激勵機制,注重調動全體干警的“智慧公安”建設的積極性,促進“智慧公安”的快速、健康、有序發展。如在市局模型開發上,市局相關職能部門和各分局可建立相應激勵機制,鼓勵基層民警積極提出數據模型需求,擴大數據模型數量,擇優挑選優秀模型并進行進一步完善、打磨,實現模型落地,在保證數據模型數量的前提下提高模型質量。
規范民警數據應用的權責。市局相關職能部門要制定相關規章制度,在充分保障民警合理行使其工作職責范圍內的數據查詢、數據應用權利的同時,防止和杜絕民警亂查、亂用數據,泄露隱私,私建模型等違法亂紀行為的出現。
加強對軟件開發公司的制度監管。在“智慧公安”建設和推進過程中,軟件開發公司在開發系統、建立數據模型中對全局數據擁有較高的查詢、使用權限,系統后臺數據庫及管理權限對開發公司是完全透明的,由于計算機行業人員流動頻繁,不少員工法律意識淡薄,市局相關職能部門要加強對軟件開發公司的監管制度建設,經常督促軟件開發公司加強對其員工的日常管理和教育,減少數據安全隱患。
重視公安數據非法應用防范制度建設。針對日益發展的大數據技術,市局相關職能部門要重視公安數據非法應用防范機制建設工作,提防針對公安數據采集、數據應用、數據研判可能出現的各種數據偽裝問題,逐步開展檢測偽裝數據的安全算法建模工作,建立相關機制,將數據進行安全等級劃分,針對不同安全等級的數據使用不同等級的安全算法(數據安全等級低,使用的安全算法性能高、安全性低;數據安全等級高,使用的安全算法性能低,安全性高),防止不法分子攻擊公安信息系統獲取或修改相關數據。相關部門高度警惕可能出現的針對公安大數據的新型數據犯罪,建立好防范機制。
作者單位:上海公安學院