◆裴炳森 張新宇 邢欣濤 王銘杰
基于python中文分詞的卷宗信息邏輯研究
◆裴炳森 張新宇 邢欣濤 王銘杰
(中國人民公安大學信息網絡安全學院 北京 102623)
詢問/訊問筆錄是公安工作目前使用較多的文本材料,然而在實際調研和實習中發現卷宗有錄入筆誤和不合邏輯等問題。卷宗送交至檢察院時往往被駁回數次修改,除了送檢程序等問題外,由于一些主客觀因素,導致筆錄信息需要經常性的反復查驗,輕則增加了工作量,嚴重則造成案卷信息錯誤。本文基于python中文分詞的Jieba組件對筆錄內容進行文本分析,提取時間、地點、事件等關鍵詞,并與標準庫進行比對,提示并糾正錯誤并生成流程圖,有效減少了民警工作量,對一線執法有較好的實際作用。
筆錄卷宗;文本分析;Jieba組件;一線執法
在文本分析方面,國外對英文文本提取信息的研究較為成熟,例如STALKER、WHISK、SRV等系統,對英文文本信息提取效率較高。與英文文本信息提取技術相比,由于漢語語法復雜,中文文本分析技術相對滯后。但是近年來中文互聯網文本數據指數上升,針對其的文本分析也漸漸發展并應用。文獻[1-2]利用python研究了中文文本分析以及構建了可視化平臺,文獻[4-5]使用Python中的結巴工具進行了分詞研究和技術實現。
隨著文本分析在各個領域逐漸應用,如文獻[6]在教育領域進行了文本情感分析探索,文獻[7]將文本分析服務于疫情防控。然而在公安工作的應用較少。隨著數據警務的發展,應該充分利用公安筆錄這一數據以更好的打擊辦案。為使公安工作更加高效準確,結合實際調研發現公安工作卷宗筆錄仍需人工多次反復審核。受主客觀不同因素影響,會有“犯罪發生時長”錄入錯誤,“距離”與“時間”不匹配等信息錯誤問題,例如某兩地之間相距20公里,駕車大概20~30分鐘,而筆錄中卻出現5min的現象。本文針對現存問題首先設立自己的標準比對條件,著眼于訊問/詢問筆錄中的關鍵詞,基于python環境的Jieba工具進行中文分詞和關鍵詞提取,通過事先爬取的知識庫與筆錄信息進行比對,智能檢測,最后根據筆錄內容生成流程圖,自動提示錯誤信息,以達到避免重復核查的目的。
本文基于python的Jieba組件利用隱馬爾卡夫模型(HMM),TF-IDf和TextRank算法,構建VSM向量空間模型,實時計算并智能核對,是針對案件信息的大膽嘗試。對于地理位置信息,首先依據圖1所示的 Viterbi 算法,通過訓練出隱馬爾科夫(HMM)相關的模型,然后進行求解,得到最優的狀態序列,最后通過深度學習輸出分詞結果。同時融合基于頻率的TF-IDF算法和基于排序的TextRank算法綜合運用提取關鍵詞,構建VSM向量空間模型。Jieba庫提供了三種模式的分詞方式,針對筆錄的特征,本文主要采用精確模式進行分詞,如下所示為“從南城縣家園小區110號樓出來,通過駕車至天天市場在李翠花家盜竊得到的手機”的分析源碼。
import jieba.analyse
#導入自定義詞典
jieba.load_userdict("./dic.txt")
#精確模式
text="從南城縣家園小區110號樓出來,通過駕車至天天市場在李翠花家盜竊得到的手機"
seg_list = jieba.cut(text, cut_all = False)
print(u"分詞結果:")
print(",".join(seg_list))
#獲取關鍵詞
tags = jieba.analyse.extract_tags(text,topK=5)
print(u"關鍵詞:")
print(" ".join(tags))

圖1 Viterbi 算法處理流程
公安工作筆錄分析需要極其豐富的知識庫,在對地理位置分析中通過Python爬蟲工具首先向“高德地圖”發送Request,申請”Web服務API”密鑰,拼接HTTP請求URL;然后正常獲取到Response后接收HTTP請求返回的數據響應體,轉化為Json格式。如下為解析數據部分源碼。利用網絡爬蟲將整個目標數據獲取后轉化為文本信息,形成一個可進行比對的信息庫,并進一步對數據進行挖掘處理,為數據提供最為基本的支撐[9]。如圖2、圖3所示為獲取的縣級行政區域點狀圖和詳細信息。將含有更詳細的地名信息、距離信息、往返時間信息的知識庫應用于筆錄處理。知識庫的構建對于筆錄錯誤信息有重要的參考作用,在依據地理位置和時間信息做出分析時,要考慮客觀實際因素于案情實際狀況。后續再根據實際工作需要和以往的筆錄信息構建出“交通工具庫”、“作案類型庫”、“作案工具庫”等知識庫便于進一步文本分析。
def get_json(url):
# 讀取數據
uh = urllib.request.urlopen(url)
data = uh.read().decode()
# 解析數據
try:
json_data = json.loads(data)
except:
json_data = None
if not json_data or 'status' not in json_data or json_data['status'] != 0:
print('json數據獲取失敗')
else:
#輸出Json數據
print(json.dumps(json_data, indent=4, ensure_ascii=False))
return json_data

圖2 點狀圖

圖3 縣級行政區域信息
在生成流程圖時,引入wordcloud和matplotlib庫、安裝Graphviz[10]賦予關鍵詞相應的節點屬性、連接線屬性等屬性信息。根據提取到的地理、時間信息等關鍵詞,由地理信息知識庫分析兩者距離,通過時間智能校對檢測。后續需要對交通工具、作案手段等關鍵詞同時提取并分析。根據筆錄內容生成被詢問/訊問人活動流程可視化報告,將有助于理清案件線索,檢查是否出現不匹配問題,并且幫助后期糾錯。如圖4所示為可視化處理流程。

圖4 可視化處理流程
根據實際案件要素與筆錄中的錄入信息進行比對,發現錯誤并且提示。并由關鍵要素(時間,事件,地點,交通工具)生成流程圖。例如:計算A地到B地的距離,依據程序依賴的知識庫,統計不同交通工具時間范圍,與筆錄中獲取的作案工具關鍵詞和時間關鍵詞進行比對,若不在合理范圍內,提示錯誤信息,并提示合理的時間范圍。最后完成中文分詞,作案信息提取,錯誤信息提示,并生成流程圖。如圖5所示為智能比對流程。

圖5 處理流程
結合實際調研與實習經驗,數據源以模擬的公安工作筆錄進行訓練,數據都經過處理不涉及任何公安秘密。本文以強奸、盜竊為作案類型,汽車為作案交通工具以及構造的地理位置為模型進行分析。
實驗環境為Windows10操作系統、4G運行內存、Python環境。導入Jieba、tkinter、python_docx-0.8.10-py2.py3-none-any.whl、wordcloud、matplotlib等庫并安裝Graphviz。
Python提供IDE工具,Jieba作為第三方中文分詞庫,tkinter庫用于程序窗口化,docx庫引入文本文件,wordcloud、matplotlib和Graphviz用于生成流程圖并且展示。
首先加載程序打開需要的分析筆錄,根據應用的知識庫,使用Jieba工具進行分詞,完成了分詞檢測后提取作案信息。根據知識庫比對完成了錯誤信息提示,最后根據筆錄信息生成了流程圖得到了智能分析結果。根據比對信息,一線民警能夠快速知曉被訊問/詢問人言語間的邏輯漏洞,使案件進展相對較為清晰,從而做出正確的預測和判斷,同時避免了人為錄入錯誤,減小了工作量。
對筆錄進行Jieba分詞檢測后如圖6所示。其中根據分詞結果提取到的作案信息和錯誤信息如表1和表2所示。最后生成的流程圖如圖7所示。

圖6 筆錄分詞結果

圖7 流程圖生成

表1 作案信息

表2 錯誤信息
本文基于Python中文分詞的Jieba工具對公安工作筆錄進行了分析,結合部分加載的知識庫,經過實驗驗證,有效完成了分詞,作案信息提取,錯誤信息提示,并生成流程圖等功能。公安工作是一項嚴謹且工作量巨大的任務,該項目提供了筆錄智慧分析的設想和雛形。為更好全面應用于公安實戰,還需要用大量的數據進行訓練。同時出于公安工作的特殊性,完備知識庫的建立應該基于公安內網PGIS[11]的信息以及實時或定期的數據更新。
[1]宋永生,黃蓉美,王軍.基于Python的數據分析與可視化平臺研究[J].現代信息科技,2019,3(21):7-9.
[2]祝永志,荊靜.基于Python語言的中文分詞技術的研究[J].通信技術,2019,52(07):1612-1619.
[3]李澤,古超,龍政.基于Python的文本分析方法研究[J].電腦編程技巧與維護,2018(04):25-26+51.
[4]曾小芹.基于Python的中文結巴分詞技術實現[J].信息與電腦(理論版),2019,31(18):38-39+42.
[5]徐博龍.應用Jieba和Wordcloud庫的詞云設計與優化[J].福建電腦,2019,35(06):25-28.
[6]歐陽元新,王樂天,李想,蒲菊華,熊璋.教育領域反饋文本情感分析方法及應用研究[J].計算機教育,2020(06):80-84.
[7]李燕萍,陳文.后疫情時代我國人力資源服務業發展轉型:基于疫情防控常態化下人力資源服務政策文本分析[J].中國人力資源開發,2020,37(10):18-32.
[8]謝春艷.基于python的Flickr地理標簽照片信息的爬蟲[J].電腦與信息技術,2019,27(06):39-41.
[9]繆治,任敏敏.基于網絡爬蟲的地理空間信息采集方法[J].電腦知識與技術,2019,15(18):9-10.
[10]張偉欣. 基于Graphviz的ProM模式提取插件圖形系統的設計與實現[D].哈爾濱工業大學,2015.
[11]田野,楊帆,胡磊,易民盛.大數據環境下警用地理信息系統運維方案的研究[J].科學技術創新,2019(30):69-71.