999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于python中文分詞的卷宗信息邏輯研究

2021-04-20 14:38:32裴炳森張新宇邢欣濤王銘杰
網絡安全技術與應用 2021年3期
關鍵詞:文本分析信息

◆裴炳森 張新宇 邢欣濤 王銘杰

基于python中文分詞的卷宗信息邏輯研究

◆裴炳森 張新宇 邢欣濤 王銘杰

(中國人民公安大學信息網絡安全學院 北京 102623)

詢問/訊問筆錄是公安工作目前使用較多的文本材料,然而在實際調研和實習中發現卷宗有錄入筆誤和不合邏輯等問題。卷宗送交至檢察院時往往被駁回數次修改,除了送檢程序等問題外,由于一些主客觀因素,導致筆錄信息需要經常性的反復查驗,輕則增加了工作量,嚴重則造成案卷信息錯誤。本文基于python中文分詞的Jieba組件對筆錄內容進行文本分析,提取時間、地點、事件等關鍵詞,并與標準庫進行比對,提示并糾正錯誤并生成流程圖,有效減少了民警工作量,對一線執法有較好的實際作用。

筆錄卷宗;文本分析;Jieba組件;一線執法

在文本分析方面,國外對英文文本提取信息的研究較為成熟,例如STALKER、WHISK、SRV等系統,對英文文本信息提取效率較高。與英文文本信息提取技術相比,由于漢語語法復雜,中文文本分析技術相對滯后。但是近年來中文互聯網文本數據指數上升,針對其的文本分析也漸漸發展并應用。文獻[1-2]利用python研究了中文文本分析以及構建了可視化平臺,文獻[4-5]使用Python中的結巴工具進行了分詞研究和技術實現。

隨著文本分析在各個領域逐漸應用,如文獻[6]在教育領域進行了文本情感分析探索,文獻[7]將文本分析服務于疫情防控。然而在公安工作的應用較少。隨著數據警務的發展,應該充分利用公安筆錄這一數據以更好的打擊辦案。為使公安工作更加高效準確,結合實際調研發現公安工作卷宗筆錄仍需人工多次反復審核。受主客觀不同因素影響,會有“犯罪發生時長”錄入錯誤,“距離”與“時間”不匹配等信息錯誤問題,例如某兩地之間相距20公里,駕車大概20~30分鐘,而筆錄中卻出現5min的現象。本文針對現存問題首先設立自己的標準比對條件,著眼于訊問/詢問筆錄中的關鍵詞,基于python環境的Jieba工具進行中文分詞和關鍵詞提取,通過事先爬取的知識庫與筆錄信息進行比對,智能檢測,最后根據筆錄內容生成流程圖,自動提示錯誤信息,以達到避免重復核查的目的。

1 卷宗信息分析原理

1.1 中文分詞和關鍵詞提取

本文基于python的Jieba組件利用隱馬爾卡夫模型(HMM),TF-IDf和TextRank算法,構建VSM向量空間模型,實時計算并智能核對,是針對案件信息的大膽嘗試。對于地理位置信息,首先依據圖1所示的 Viterbi 算法,通過訓練出隱馬爾科夫(HMM)相關的模型,然后進行求解,得到最優的狀態序列,最后通過深度學習輸出分詞結果。同時融合基于頻率的TF-IDF算法和基于排序的TextRank算法綜合運用提取關鍵詞,構建VSM向量空間模型。Jieba庫提供了三種模式的分詞方式,針對筆錄的特征,本文主要采用精確模式進行分詞,如下所示為“從南城縣家園小區110號樓出來,通過駕車至天天市場在李翠花家盜竊得到的手機”的分析源碼。

import jieba.analyse

#導入自定義詞典

jieba.load_userdict("./dic.txt")

#精確模式

text="從南城縣家園小區110號樓出來,通過駕車至天天市場在李翠花家盜竊得到的手機"

seg_list = jieba.cut(text, cut_all = False)

print(u"分詞結果:")

print(",".join(seg_list))

#獲取關鍵詞

tags = jieba.analyse.extract_tags(text,topK=5)

print(u"關鍵詞:")

print(" ".join(tags))

圖1 Viterbi 算法處理流程

1.2 知識庫搭建

公安工作筆錄分析需要極其豐富的知識庫,在對地理位置分析中通過Python爬蟲工具首先向“高德地圖”發送Request,申請”Web服務API”密鑰,拼接HTTP請求URL;然后正常獲取到Response后接收HTTP請求返回的數據響應體,轉化為Json格式。如下為解析數據部分源碼。利用網絡爬蟲將整個目標數據獲取后轉化為文本信息,形成一個可進行比對的信息庫,并進一步對數據進行挖掘處理,為數據提供最為基本的支撐[9]。如圖2、圖3所示為獲取的縣級行政區域點狀圖和詳細信息。將含有更詳細的地名信息、距離信息、往返時間信息的知識庫應用于筆錄處理。知識庫的構建對于筆錄錯誤信息有重要的參考作用,在依據地理位置和時間信息做出分析時,要考慮客觀實際因素于案情實際狀況。后續再根據實際工作需要和以往的筆錄信息構建出“交通工具庫”、“作案類型庫”、“作案工具庫”等知識庫便于進一步文本分析。

def get_json(url):

# 讀取數據

uh = urllib.request.urlopen(url)

data = uh.read().decode()

# 解析數據

try:

json_data = json.loads(data)

except:

json_data = None

if not json_data or 'status' not in json_data or json_data['status'] != 0:

print('json數據獲取失敗')

else:

#輸出Json數據

print(json.dumps(json_data, indent=4, ensure_ascii=False))

return json_data

圖2 點狀圖

圖3 縣級行政區域信息

1.3 被訊問人行動流程可視化

在生成流程圖時,引入wordcloud和matplotlib庫、安裝Graphviz[10]賦予關鍵詞相應的節點屬性、連接線屬性等屬性信息。根據提取到的地理、時間信息等關鍵詞,由地理信息知識庫分析兩者距離,通過時間智能校對檢測。后續需要對交通工具、作案手段等關鍵詞同時提取并分析。根據筆錄內容生成被詢問/訊問人活動流程可視化報告,將有助于理清案件線索,檢查是否出現不匹配問題,并且幫助后期糾錯。如圖4所示為可視化處理流程。

圖4 可視化處理流程

1.4 卷宗智能比對

根據實際案件要素與筆錄中的錄入信息進行比對,發現錯誤并且提示。并由關鍵要素(時間,事件,地點,交通工具)生成流程圖。例如:計算A地到B地的距離,依據程序依賴的知識庫,統計不同交通工具時間范圍,與筆錄中獲取的作案工具關鍵詞和時間關鍵詞進行比對,若不在合理范圍內,提示錯誤信息,并提示合理的時間范圍。最后完成中文分詞,作案信息提取,錯誤信息提示,并生成流程圖。如圖5所示為智能比對流程。

圖5 處理流程

2 實驗

2.1 數據源

結合實際調研與實習經驗,數據源以模擬的公安工作筆錄進行訓練,數據都經過處理不涉及任何公安秘密。本文以強奸、盜竊為作案類型,汽車為作案交通工具以及構造的地理位置為模型進行分析。

2.2 實驗環境

實驗環境為Windows10操作系統、4G運行內存、Python環境。導入Jieba、tkinter、python_docx-0.8.10-py2.py3-none-any.whl、wordcloud、matplotlib等庫并安裝Graphviz。

Python提供IDE工具,Jieba作為第三方中文分詞庫,tkinter庫用于程序窗口化,docx庫引入文本文件,wordcloud、matplotlib和Graphviz用于生成流程圖并且展示。

2.3 實驗方法

首先加載程序打開需要的分析筆錄,根據應用的知識庫,使用Jieba工具進行分詞,完成了分詞檢測后提取作案信息。根據知識庫比對完成了錯誤信息提示,最后根據筆錄信息生成了流程圖得到了智能分析結果。根據比對信息,一線民警能夠快速知曉被訊問/詢問人言語間的邏輯漏洞,使案件進展相對較為清晰,從而做出正確的預測和判斷,同時避免了人為錄入錯誤,減小了工作量。

2.4 實驗結果

對筆錄進行Jieba分詞檢測后如圖6所示。其中根據分詞結果提取到的作案信息和錯誤信息如表1和表2所示。最后生成的流程圖如圖7所示。

圖6 筆錄分詞結果

圖7 流程圖生成

表1 作案信息

表2 錯誤信息

3 結語

本文基于Python中文分詞的Jieba工具對公安工作筆錄進行了分析,結合部分加載的知識庫,經過實驗驗證,有效完成了分詞,作案信息提取,錯誤信息提示,并生成流程圖等功能。公安工作是一項嚴謹且工作量巨大的任務,該項目提供了筆錄智慧分析的設想和雛形。為更好全面應用于公安實戰,還需要用大量的數據進行訓練。同時出于公安工作的特殊性,完備知識庫的建立應該基于公安內網PGIS[11]的信息以及實時或定期的數據更新。

[1]宋永生,黃蓉美,王軍.基于Python的數據分析與可視化平臺研究[J].現代信息科技,2019,3(21):7-9.

[2]祝永志,荊靜.基于Python語言的中文分詞技術的研究[J].通信技術,2019,52(07):1612-1619.

[3]李澤,古超,龍政.基于Python的文本分析方法研究[J].電腦編程技巧與維護,2018(04):25-26+51.

[4]曾小芹.基于Python的中文結巴分詞技術實現[J].信息與電腦(理論版),2019,31(18):38-39+42.

[5]徐博龍.應用Jieba和Wordcloud庫的詞云設計與優化[J].福建電腦,2019,35(06):25-28.

[6]歐陽元新,王樂天,李想,蒲菊華,熊璋.教育領域反饋文本情感分析方法及應用研究[J].計算機教育,2020(06):80-84.

[7]李燕萍,陳文.后疫情時代我國人力資源服務業發展轉型:基于疫情防控常態化下人力資源服務政策文本分析[J].中國人力資源開發,2020,37(10):18-32.

[8]謝春艷.基于python的Flickr地理標簽照片信息的爬蟲[J].電腦與信息技術,2019,27(06):39-41.

[9]繆治,任敏敏.基于網絡爬蟲的地理空間信息采集方法[J].電腦知識與技術,2019,15(18):9-10.

[10]張偉欣. 基于Graphviz的ProM模式提取插件圖形系統的設計與實現[D].哈爾濱工業大學,2015.

[11]田野,楊帆,胡磊,易民盛.大數據環境下警用地理信息系統運維方案的研究[J].科學技術創新,2019(30):69-71.

猜你喜歡
文本分析信息
隱蔽失效適航要求符合性驗證分析
在808DA上文本顯示的改善
電力系統不平衡分析
電子制作(2018年18期)2018-11-14 01:48:24
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
電力系統及其自動化發展趨勢分析
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
展會信息
中外會展(2014年4期)2014-11-27 07:46:46
如何快速走進文本
語文知識(2014年1期)2014-02-28 21:59:13
健康信息
祝您健康(1987年3期)1987-12-30 09:52:32
主站蜘蛛池模板: 一级在线毛片| 99re热精品视频国产免费| 欧美有码在线观看| 国产色偷丝袜婷婷无码麻豆制服| 日韩123欧美字幕| 国产成人乱码一区二区三区在线| 成人蜜桃网| 女同久久精品国产99国| 欧美一级99在线观看国产| 国产资源站| 2020国产在线视精品在| 在线国产欧美| 国产精品三级av及在线观看| 欧美全免费aaaaaa特黄在线| 国产一区二区影院| 国产一级无码不卡视频| 亚洲午夜福利在线| 女人爽到高潮免费视频大全| 女人18毛片水真多国产| 亚洲高清国产拍精品26u| 国产精品一区二区在线播放| 国内老司机精品视频在线播出| 国产精彩视频在线观看| 国产女同自拍视频| 欧美亚洲一区二区三区导航| 99热这里只有免费国产精品| 久久久久久久久久国产精品| 亚洲黄色成人| 国产亚洲精品在天天在线麻豆| 国产SUV精品一区二区6| 欧美精品成人一区二区视频一| 日韩毛片在线视频| 亚洲成人高清无码| 五月天婷婷网亚洲综合在线| 欧美a级在线| 亚洲第一中文字幕| 91精品人妻互换| 欧美一级爱操视频| 青青草国产在线视频| 美美女高清毛片视频免费观看| 日韩中文字幕亚洲无线码| 欧美色伊人| 国产激情无码一区二区免费| 992Tv视频国产精品| 亚洲最大福利网站| 国产精品福利一区二区久久| 永久免费无码成人网站| 亚洲天堂网视频| 夜夜操国产| 久久77777| 免费高清a毛片| 国产不卡网| 国产精品极品美女自在线| 毛片网站免费在线观看| 成人免费午夜视频| 久久99热66这里只有精品一| 日本精品中文字幕在线不卡 | 91年精品国产福利线观看久久| 国产精品专区第1页| 亚亚洲乱码一二三四区| 国产精品手机在线播放| 不卡无码网| 91九色国产在线| 欧美国产日韩在线| 一本大道视频精品人妻| 国产电话自拍伊人| 国产农村精品一级毛片视频| 成人欧美在线观看| 国产精品天干天干在线观看| 99re经典视频在线| 天堂va亚洲va欧美va国产| 99视频全部免费| 国产亚洲精品无码专| 中文字幕欧美日韩| 92午夜福利影院一区二区三区| 日韩大片免费观看视频播放| 国产AV无码专区亚洲精品网站| 国产激情在线视频| 精品日韩亚洲欧美高清a| 一级片一区| 免费可以看的无遮挡av无码| 四虎亚洲国产成人久久精品|