羅冬梅,劉瑞軍,林錫平
1(武夷學院 信息技術與實驗室管理中心,武夷山 354300)
2(武夷學院 科研處,武夷山 354300)
3(福建省南平市公安局 刑警支隊,南平 353000)
隨著科技的飛速發展,刑事違法犯罪的手段也變得越來越多樣化,這便要求刑事偵查部門不斷提供打擊防范能力,通過以信息化工作方式創新辦案思路,提高辦案效率.2018年1月24日,在全國公安廳局長會議上,公安部黨委書記、部長趙克志提出“建設智慧公安,打造數據警務”的警務新理念.
當今,國內外的學者越來越關注公安領域的數據挖掘技術研究,利用公安部門多年來積累的犯罪信息數據及偵察破案的經驗,對其進行分析挖掘,發現犯罪行為的規律、趨勢,了解案件之間的關聯,進行串并案分析是當前公安機關分析人員的主要任務.利用知識圖譜技術可以將公安情報部門掌握的瑣碎、零散的情報信息相互連接,以構建自動化、智能化海量文本情報處理業務流程和方法.針對公安領域的數據挖掘工作在不斷的深化,雖然已取得了不錯的進展,但是仍具有很大的提升空間.特別是針對案件串并和實體識別問題,目前的文本挖掘主要解決案件的分類問題,基于自然語言處理應用到公安案件數據挖掘中,面向公安系列性刑事案件,通過中文分詞、詞性標注、實體識別、文本聚類等方式,為實現精細化的案件串并提供借鑒與參考,實現案件串并過程“智能化”、“自動化”,節省警務資源,提高偵破效率.
自然語言處理(Natural Language Processing,NLP)[1–5]是一門融合了語言學、計算機科學、人工智能為一體的交叉性學科,研究能實現人與計算機之間用自然語言進行有效通信的理論和方法,解決“讓計算機理解和合成人類的自然語言”.自然語言處理技術主要包括詞法分析、句法分析、命名實體提取、語義分析等,它主要應用于自動摘要、信息檢索、信息抽取、問答系統等領域.其中,命名實體提取技術作為自然語言處理的核心技術之一,能有效提取文本內容中的命名實體信息,對自然語言處理技術在實踐應用有非常重大的意義.
當前,自然語言處理技術已受到了國家中央政府、大型互聯網企業的關注.自然語言處理技術是機器學習當前最神秘,最紅火,最具難度,也最引人關注的分支.在搜索引擎、情感分析、大批量文檔處理、案件分析等各個領域有著前程無可限量的應用.
本文從智能化案件串并和高危嫌疑研判兩條線出發,針對系列性案件,對公安110 警情、侵財類案件、電信詐騙類案件、團伙類案件等業務類型的信息系統中報警內容、簡要案情、現場勘查、案件回訪、詢問筆錄等特征信息進行提取分析,實現非結構化文本數據自動分析、自動案件特征提取、案情特征聚類等數據挖掘分析,為偵查部門、情報部門提供實體對象識別、案件串并研判支撐,再通過發案時空與犯罪軌跡的信息比對、數據碰撞,并結合作案工具、作案手段等犯罪特點,通過軌跡數據的時空碰撞最終確定重點嫌疑人.研究提供了從基于自然語言處理支撐案件串并、實體識別,到高危嫌疑人智能推薦的一整套解決方法,實現了沉睡警務數據的深度利用,充分激發多源異構數據的融合與碰撞,形成實用性的戰法模型,可極大地縮小偵查范圍,提高破案效率.智能人案研判方法流程如圖1所示.
基于對大量案件研判數據的深入分析,利用開源基于人工智能系統的自然語言解析模型分析和機器學習技術,通過中文切塊分詞、詞性標注統計、命名實體提取、語義情感分析、熱詞推介等方式,幫助警務人員從結構化和非機構化案件信息中提取其他關鍵要素.
(1)中文切塊分詞
分詞是自然語言處理的基礎,特別是中文切換分詞[6]的準確度,它直接決定了后面的詞性標注、句法語義分析、詞向量以及文本分析的質量.
1)基于字符串匹配的字典查找算法
先對語句進行分詞,然后從字典中查找每個詞語的詞性,對其進行標注即可.
2)基于統計的詞性標注算法
和分詞一樣,可以通過HMM 隱馬爾科夫模型[7]來進行詞性標注.觀測序列即為分詞后的語句,隱藏序列即為經過標注后的詞性標注序列.起始概率發射概率和轉移概率和分詞中的含義大同小異,可以通過大規模語料統計得到.觀測序列到隱藏序列的計算,利用統計得到的起始概率發射概率和轉移概率來得到.得到隱藏序列后,就完成了詞性標注過程.
針對公安案件的簡要案情內容,文本利用Python腳本語言封裝和調用jieba中文分詞組件的詞性標注算法,實現對中文分詞切片,如圖2所示.

圖1 智能人案研判方法流程圖

圖2 中文切換分詞展示
(2)詞性標注統計
在中文分詞切片基礎上,按照名稱、動詞等詞性進行詞頻統計分析,如圖3所示.

圖3 詞性標注統計展示
(3)命名實體提取
通過定義規則,自動地對公安文本數據進行重要實體對象的提取,提取的信息包括命名實體、常用術語等信息.從公安案件的簡要案情內容文本信息中提取出如人名、地名、公司名稱、證件號碼、時間、手機、QQ、微信、銀行卡號等實體及實體間關系、事件等信息.
以人名識別描述其識別過程:
1)初略實體
將稱謂詞、句首、前綴詞、標點符號等作為分隔觸發信息,如果該觸發詞的后續詞為人名等可用詞,則直到后綴詞或連續字符為止,中間的部分組成粗略人名對象集合.
2)待選實體
結合實體識別規則,在粗略人名集合中進一步提取待選人名信息.
3)實體集合
如果待選人名為并列結構,則將并列的詞語分別加入待選人名集合中;如果待選人名為正向結構,且修飾的主語為人際關系指示詞,則將該待選人名的修飾詞也加入待選人名集合.
4)重復過程3),直到獲得長度最小的待選人名.
通過以上步驟,利用Python 開發語言定義命名實體提取規則,實現人名、地名、公司名稱、證件號碼、電話、時間等不同實體類型、實體信息的提取和識別,如圖4所示.
(4)語義情感分析
語義情感分析是自然語言處理中常見的語義分析場景,可以實現對案情的自動分類提供依據.語義情感分析可以采用基于情感語料庫的典型方法和采用基于機器學習的情感分類方法.
1)基于情感語料庫的情感分類
基于情感語料庫的方法,先對文本進行分詞和停用詞處理等預處理,再利用先構建好的情感語料庫,對文本進行字符集匹配,從而挖掘正面和負面情感信息.
2)基于機器學習的情感分類
基于機器學習的情感分類,首先對語句進行分詞、停用詞、簡繁轉換等預處理,然后進行詞向量編碼,然后利用LSTM 或者GRU 等RNN 網絡進行特征提取,最后通過全連接層和Softmax 輸出每個分類的概率,從而得到情感分類.

圖4 實體識別統計展示
(5)熱詞推介
對歷史案件樣本數據,通過以上語義情感分析組件提煉公安專用語料庫.通過得分算法案情描述的詞頻、命名實體提取對象進行計算,最終形成案情熱詞、關鍵詞組,如圖5所示.

圖5 關鍵詞展示
智能研判串并根據機器智能提取要素特征,通過主題分析、語義分析等智能研判分析,實現案件串并研判、實體對象識別.圍繞完成結構化處理后的案件信息,建立基于領域知識庫的多維數據模型,與更多可對接的系統數據碰撞,進一步挖掘關聯價值,形成案件知識圖譜,為案件偵破推薦特征類似的嫌疑人提供有力支撐.
(1)案件分類
本文相似性算法的自動聚類分析技術,自動將公安非結構化文本內容中對無類別的事件、警情信息進行歸類,把案情相近的案事件信息歸為一類,賦予文本內容一個預先設定的案件類別分類庫,實現根據文本內容進行案件類別劃分,從而達到提高分類精度的目的,不需人工干預.
(2)相似案件分析
基于以上案件分析對案件數據的提取和分類標記,系統提供相似案件查詢、相似案件基本信息、相似案件分析等.通過案件類別進一步對相似案件的建進行研判分析,實現基于案件特征的相似案件挖掘,同時照新的按人工監督下分類規則進行相似案件學習和分析.
(3)案件串并分析
基于對案件分類標記和相似案件分析,系統自動對新發案件進行關聯分析、關聯值評估、串并分析、串并案可視化分析等.
1)案件數據關聯串并分析是將案件嫌疑人的姓名、身份證號、發案時間、手機號碼、虛擬身份等要素進行關聯,并根據關聯度進行關聯權值評估,從而找出案件之間的關聯關系.
2)基于案件特征的相似案件挖掘,利用大數據對案件之間的相似特征進行整理推薦.在數據整合的過程中,將案件涉及的人名、地名、電話、虛擬身份、銀行卡、體貌特征、身高、作案手段、作案時間等案件特征識別并添加至案件的標簽.
3)案/事件智能串并分析利用資源庫數據,結合可視化關系挖掘工具,利用大數據技術,挖掘出案件之間的內在關聯,實現串并案分析.通過手機號碼實現案件與案件串并的關系,結合車輛、時間、人物、地點、作案工具等要素實現串并案分析.
偵查工作就是利用事實的相關性來捕捉案件線索,“環環相扣”構建數據證據鏈條,而大數據體現的相關關系是立體的、多維度的,信息范圍廣,更有助于偵查工作的開展.基于大數據的數據關聯碰撞、數據挖掘分析出的預警預測方法,可以為系列性案件偵破提供從“案到人”的犯罪預測,使得偵查部門能夠盡早甚至第一時間發現犯罪嫌疑人,達到犯罪預測預防的能力.
尤其針對系列性入室盜搶等侵財案件[8],犯罪嫌疑人習慣與原有作案手法繼續作案,真實辦案過程中,偵查部門會運用案件偵查經驗和現場勘查情況,將同一個或同一犯罪團伙所做的案件串并起來統一偵查.案件串并之后明確根據案件發案時間、發案地址,系列性案件的發案時間、空間兩個維度就是軌跡數據時空碰撞的主要輸入條件選,根據犯罪對象在案發區域產生的包括旅館、網吧、手機位置、車輛等數據軌跡,并結合案件類別、作案手段、作案方式等特點,通過軌跡數據時空碰撞,作案信息比對排查嫌疑人范圍,并按評估指數精選排名,最終確定重點嫌疑人.
充分利用歷史破獲案件通過建立高危嫌疑人[9]異常特征積分模型實現犯罪特征挖掘,形成高危嫌疑人員簇,整理多種數據標簽,從多維度進行人物描繪,通過機器學習的回歸算法提供精準犯罪評估指數.
(1)本地案件嫌疑人員分析
對本地辦案系統中的同類型系列性、團伙性案件,通過對抓獲嫌疑人員的高危地區(戶籍地、籍貫)進行分析,按照案件類別、作案手段、作案特點等屬性,歸納出某一類型案件的高危地區人群.
(2)跨區域案件嫌疑人員分析
利用全國刑偵系統數據及全國前科人員數據,針對跨區域系列性案件,重點針對相鄰的省市偵辦的同類型案件,通過分析已抓獲嫌疑人員高危地區(戶籍地、籍貫)進行分析,比對案件類別、作案手段、作案方式等特點,形成某一類型案件的高危地區人群.并可重點關注,越是相鄰距離近的高危地區人群作案特點越相似,相距較遠地區的高危人群可作為參考.
(3)偵查部門歸納總結
對于刑偵、情報等偵查部門已經掌握形成作案專項的高危地區(如外幣詐騙、拋物詐騙、婚姻詐騙、搶劫出租車、麻醉搶劫等)高危人群,形成高危地區與案件類別、案件手段經驗歸納庫.可通過辦案經驗不斷歸納完善,或直接與高危地區(戶籍地、籍貫)的公安機關確認聯系,提高對高危人群與案件類別、作案特點關聯的準確性.
(4)通過分析作案特點分析
對案件信息、案件嫌疑人建立關鍵字組合檢索工具,以案件的案件類別、作案工具、作案手段、侵入方式、侵害對象、案件狀態、簡要案件等為條件,細化高危地區作案特點分析.
(5)前科特征人員積分
對前科人員、前科侵財人員、同類案件前科人員、多人同時來、多人同住、作案后離開、(多次)凌晨入住(上下網)、頻繁變更旅館住宿、案發期間頻繁活動、夜間跨區活動、流竄作案有駕駛證、是已破同類案件關系人且同時來本地過(同住宿)、住宿登記人員的關系人有侵財前科等因素進行自動賦分.
從“地域”和“時域”兩個維度洞察案件關聯特征,從而清晰地了解某區域特定的案件類型,發案位置,作案時間等規律信息,在上面要素合并的基礎上結合公安各類軌跡數據,基于公安地理信息系統,對串并的案件進行時空軌跡碰撞,達到高危嫌疑人智能推薦.
(1)案件時空特征提取
本文研究的案件主要是系列性侵財案件,案件的關鍵數據主要是發案時間、發案地址(定位到地圖坐標)是案件時空碰撞的前提條件.
1)提取案件發案時間
一般入室盜搶、扒竊等侵財類案件發現,受害人基本上都無法準確提供案件發生的精確時間點,只能推斷出大概的時間段,所有對時間提取需根據案件發案日期提供按照日期段提取、時間段提取多個維度提取案件發案時間的范圍.
2)提取案件地圖坐標
根據受害人報案時提供的案件案發地點描述的抽象地址信息,通過報案電話地址地圖定位范圍和描述的地址信息,利用地圖服務坐標轉換,將文字描述的地址信息,轉換為精確的地圖坐標.
(2)軌跡數據時空維度碰撞
利用警用地理信息系統,通過對公安大數據的綜合應用,以多個串并案件發生地為中心,可在地圖上標注案發地,在案件發生前后對經過的地圖軌跡,高危地區人員的旅館住宿、網吧上網、火車票、汽車票、飛機票、以及從互聯網公司獲取的各類消費信息、活動軌跡等,同時接入手機位置軌跡、車輛軌跡,以及全息感知網建成后設備采集軌跡數據,與案發地的重合度進行系統自動比對發現高危嫌疑人員,可查看案件詳情及案后偵查情況,通過算法按積分倒敘推薦可疑對象.
(3)重點嫌疑人落地查證
以上案件時空提取和軌跡時空碰撞,通過分類賦分、數據挖掘、綜合計算,自動對特定人群進行立體、綜合研判,從海量數據中自動篩查具有高作案嫌疑指數的對象重點目標,很大程度上減少了警力排查研判的過程.但是,這種系列性案件只是代表了某類案件的高危地區人員在某一時間段的高危嫌疑,高危地區人員作案特點會隨著新型犯罪手法出現發生變化.因此,通過案件時空碰撞推薦的高危嫌疑人需推送相關警種及基層一線落地核查,進一步分析認定或排除其作案嫌疑人,從而不斷檢驗、修正、完善推薦結果.
本文研究的基于自然語言處理的非結構化案件數據分析研判和碰撞挖掘,技術上利用Java 開發語言,基于開源jieba 自然語言處理組件,采用主流Hadoop+Spark 大數據框架體系對大數據進行存儲、處理和挖掘,結合綜合預警模式,從智能化案件串并和高危嫌疑研判兩條線出發進行設計和實現.
首先通過自然語言處理,利用Python 腳本語言封裝開源jieba 自然語音處理組件的詞性標注算法、命名實體提取規則,語義情感分析算法,利用歷史案件中簡要案情樣本數據,提煉出公安專用語料庫;再通過Java 調取Python 實現對案件實體對象的識別和熱詞、關鍵詞組的提取.然后采用SparkMLlib中K-means相似性算法的自動聚類分析技術,對以上實體對象識別和熱詞提取的結果,進行案件分類,并結合相識案件分析功能按人工監督下分類規則進行相似案件學習和分析,實現對新發案件的自動串并.如圖6所示.
首先基于SparkMLlib 回歸算法之決策樹算法,對本地案件嫌疑人員數據、跨區域案件嫌疑人員數據和偵查部門歸納總結數據進行分析,形成高危嫌疑人員簇,實現高危嫌疑人員評估指數建立人員積分.然后對接公安掌握的網上網下各類軌跡數據,采用Hadoop 大數據框架對高危嫌疑人員海量軌跡數據進行分布式存儲.最后對以上新發串并案件的時空特征包括發案時間、發案地址進行提取,通過人員軌跡數據與串并案件的時空維度采用Spark 實時計算引擎進行計算碰撞,利用警用地理信息系統進行直觀展示,并按積分倒敘推薦重點可疑對象,實現高危嫌疑人挖掘,大大提高刑偵辦案民警辦案效率,極大提高破案率.如圖7所示.

圖6 利用自然語言處理進行案件串并分析

圖7 通過時空碰撞挖掘實現嫌疑人推送預警
基于自然語言處理的非結構化案件數據分析研判和碰撞挖掘的研究,旨在大數據、人工智能環境下,為案件偵查和情報分析的數據挖掘、研判工作提供更好途徑,以解決公安機關案件線索提取的實際困難,為公安機關偵查的實際工作提供支撐.利用大數據、人工智能等技術輔助案件偵查應用,是一個不斷學習優化的過程,后期的價值判斷還需要偵查人員的核實反饋,輸入準確的學習樣本以提高數據分析挖掘的準確性.另外,隨著的作案手段和犯罪類型的變化,需要專業的偵查人員對預警模型不斷進行監督、修正和完善.目前公安機關全面推進“智慧警務”建設,基于自然語言處理的非結構化案件數據分析研判和碰撞挖掘的研究,是智慧警務一個實戰應用的縮影,是公安業務實戰應用的一個前沿探索和實踐,有助于打造智慧警務新模式.