顧及時空特征的海關(guān)緝私數(shù)據(jù)抽取模型

2023-09-02 19:30:22李效峪邱明月潘汝佳孫古月李林繁

法制博覽 2023年13期

關(guān)鍵詞：文本信息

李效峪邱明月潘汝佳孫古月李林繁

南京森林警察學(xué)院，江蘇南京 210023

一、研究背景

全國各地海關(guān)緝私在情報研判模型建設(shè)過程中，圍繞情報研判建模和實際應(yīng)用前途，針對模型內(nèi)容都作了一些探索實踐，也取得了較為明顯的初步實戰(zhàn)應(yīng)用成效。但經(jīng)初步分析，目前情報研判建模仍以顯性的“點對點”比對建模為主［1］。可歸納為以下四方面：

第一，缺少對象的匹配多元化，且模型容錯率較低，綜合深度挖掘分析潛在關(guān)聯(lián)少；第二，個人或部門的分離研判占較大部分，缺少配合機制的健全和普及，進而導(dǎo)致分析研判結(jié)果缺乏實際操作性及實戰(zhàn)指導(dǎo)前瞻性；第三，傳統(tǒng)的情報研判模型基于協(xié)同的“技戰(zhàn)流”實戰(zhàn)研判少；第四，依賴研發(fā)人員的手動開發(fā)操作，這便對現(xiàn)有的技術(shù)人才的業(yè)務(wù)能力有較高的需求，倘若具有優(yōu)秀建模能力的專業(yè)警力技術(shù)資源有限，在實戰(zhàn)中會大大限制情報研判模型的操作潛力。

此外，現(xiàn)行數(shù)據(jù)分析提取模型還存在“數(shù)據(jù)共享難、信息關(guān)聯(lián)性差、缺乏跨地域情報信息的協(xié)作”的信息孤島問題，各地海關(guān)緝私部門信息化、智能化發(fā)展情況差別較大，在數(shù)據(jù)庫的建設(shè)和使用領(lǐng)域開發(fā)程度較淺，基本停滯在亟待開發(fā)的階段，運用和推廣較難，開發(fā)潛力較大。因此緝私情報之間難以實現(xiàn)高質(zhì)量、有關(guān)聯(lián)的互通，較深層次的海關(guān)緝私非結(jié)構(gòu)化專業(yè)數(shù)據(jù)的開發(fā)更是少之又少。面對數(shù)量龐大、結(jié)構(gòu)化程度低的緝私信息數(shù)據(jù)，海關(guān)緝私部門要如何正確地進行儲存和處理是情報能否實現(xiàn)價值的關(guān)鍵所在。海關(guān)緝私專業(yè)非結(jié)構(gòu)化數(shù)據(jù)的利用率低，主要體現(xiàn)在其無序性、雜亂性、復(fù)雜性，而多數(shù)海關(guān)緝私部門在面臨工作量大而復(fù)雜的海關(guān)緝私業(yè)務(wù)的現(xiàn)實情況時，對此類信息類型大都選擇棄置，不愿耗費有限的優(yōu)質(zhì)警力進行深度的信息挖掘提取。

二、研究思路

針對當(dāng)下的走私犯罪案件，利用傳統(tǒng)的信息抽取方法難以適應(yīng)其智能化、高科技化和共享化的特點，若僅靠傳統(tǒng)的坐等報案、調(diào)查訪問等按部就班的工作模式已難以勝任日益發(fā)展的緝私工作和履行打擊、服務(wù)、參謀三大重要職能［2］。隨著信息社會的發(fā)展和網(wǎng)絡(luò)的普及，情報信息工作在偵查辦案中的重要性必將更加明顯、突出，偵查工作對它的依賴程度亦將越來越大［3］，由線索到人、由人到案的偵查工作思路和以情報信息工作為核心［4］，依托高效能的信息處理模型主導(dǎo)案源及偵辦緝私工作，已成為緝私工作發(fā)展的迫切要求。

知識圖譜作為邏輯推理智能中認知領(lǐng)域的核心技術(shù)，本質(zhì)上是一種揭示各種概念實體之間聯(lián)系的語義學(xué)習(xí)網(wǎng)絡(luò)，是一種結(jié)構(gòu)性的語義學(xué)習(xí)知識庫，用于將各種事物及其相互關(guān)系信息進行形式化的描述、集成并聚合大批的知識，從而更好地實現(xiàn)對知識的快速反饋和推理。知識圖譜及相關(guān)技術(shù)能有針對性地解決上述問題，但就實際情況而言，公安知識圖譜的構(gòu)建方法基于但不等同于其他類型知識圖譜的構(gòu)建方法，它依托于實戰(zhàn)性強、專業(yè)性強的公安信息，效能和使用也應(yīng)傾斜于公安機關(guān)和海關(guān)的業(yè)務(wù)領(lǐng)域。本研究從處理公安機關(guān)和海關(guān)部門案件過程中收集的信息情報出發(fā)，進行公安領(lǐng)域知識圖譜的本體建模，并研究出可實現(xiàn)基本信息共享，根據(jù)案件類型智能化生成知識圖譜的文本系統(tǒng)。通過構(gòu)建知識圖譜這種方式，應(yīng)用在緝私案件文本挖掘和抽取實戰(zhàn)方面，從而達到從海量案件文本庫中挖掘非結(jié)構(gòu)數(shù)據(jù)、隱藏性數(shù)據(jù)等信息，進而組織關(guān)聯(lián)形成有效的情報線索的研究目的。

三、研究意義

海關(guān)緝私情報知識來源于對每一個案例的攻克、打磨與總結(jié)，無論是基于主觀歸納還是機器學(xué)習(xí)方法，這都是一種從信息到情報知識的抽象過程。這些情報知識再經(jīng)過儲存、管理、共享組成知識庫，最后按決策需求被檢索和應(yīng)用于個案推理。在情報知識的生命周期中，海關(guān)緝私信息抽取模型在公安情報工作中的研究與應(yīng)用意義在于情報知識抽取自動化。將目前人工為主機器為輔的情報過程升級為機器為主人工為輔的情報過程，助力深化可解釋、大規(guī)模、統(tǒng)一集約的海關(guān)緝私情報智能化體系。

（一）信息抽取

信息抽取是一種數(shù)據(jù)從非結(jié)構(gòu)化到結(jié)構(gòu)化的組織過程。海關(guān)緝私數(shù)據(jù)中存在著大量的非結(jié)構(gòu)化數(shù)據(jù)，如何將這些數(shù)據(jù)結(jié)構(gòu)化以利用現(xiàn)在的結(jié)構(gòu)化數(shù)據(jù)處理生態(tài)是海關(guān)緝私業(yè)務(wù)中一個重要需求。情報概念下的信息抽取需要將非結(jié)構(gòu)化的數(shù)據(jù)抽取轉(zhuǎn)化為“人、事、物、時間、地點、組織、關(guān)系”等情報要素的結(jié)構(gòu)化數(shù)據(jù)，以形成情報研判的信息集合，這是傳統(tǒng)關(guān)系型和非關(guān)系型數(shù)據(jù)庫無法做到的。

（二）數(shù)據(jù)整合

海關(guān)緝私數(shù)據(jù)來源廣泛、種類繁多，文本、圖像、視頻、音頻、地理信息數(shù)據(jù)等紛繁復(fù)雜的數(shù)據(jù)都需要存儲在信息系統(tǒng)中，這些數(shù)據(jù)數(shù)量巨大而且質(zhì)量良莠不齊、數(shù)據(jù)結(jié)構(gòu)大多不同。傳統(tǒng)列式、行式關(guān)系型儲存技術(shù)無法高效合理組織這種多模態(tài)數(shù)據(jù)，而以多模態(tài)非關(guān)系型圖數(shù)據(jù)庫為首作為NewSQL 存儲方案，則能很好地對這些信息進行管理和存儲，極大地加快檢索查詢的速度。

（三）聯(lián)合作戰(zhàn)

海關(guān)緝私部門中單方偵破在案件偵破中發(fā)揮的功能有極大的局限性，例如一個走私保護動物的案件可能涉及刑偵、網(wǎng)安、地方打私等多部門的信息。在情報主導(dǎo)的警務(wù)模式中，知識圖譜能夠很方便地通過后臺接口共享各部門的數(shù)據(jù)、共享情報研判知識，融合各部門的知識情報，便于案件線索的深度挖掘，讓各部門的協(xié)作發(fā)揮“1+1＞2”的作用。

四、緝私案件數(shù)據(jù)抽取設(shè)計路線

（一）路線設(shè)計

海關(guān)緝私工作在落地偵辦前通常需要厘清幾大基本問題，我們可以概括為“5w+1h 疑問”，分別是：在哪里發(fā)生、何時發(fā)生的、為何發(fā)生、走私何物、走私行為人如何走私及走私動機。海關(guān)緝私信息抽取受緝私案件性質(zhì)所限，時空要素的不同對案件走向和情報經(jīng)營方式存在較大影響。故海關(guān)緝私信息在提取各要素時，所需要參照的時間、空間要素所占比重更高。沿用普通的刑事案件信息抽取分析模型效果不佳，而時空的信息是串聯(lián)起緝私個案甚至是系列案件的關(guān)鍵。緝私信息提取是在計算機環(huán)境下，將緝私知識及緝私專業(yè)信息要素表現(xiàn)為計算機可以接受的符號以及能夠存儲的結(jié)構(gòu)形式。在數(shù)據(jù)世界中，緝私知識的主體對象——走私現(xiàn)象或事物，將抽象為緝私實體，而其具有的各種特征則抽象為時間、空間、屬性、狀態(tài)、過程、關(guān)系等關(guān)鍵信息要素。

總體上，根據(jù)知識的類型、特征及其邏輯關(guān)系，緝私知識可以劃分為三個層次：概念層、實體層和關(guān)系層。其中，實體知識可以分為三個子層次，包括基本特征（時間、空間、屬性、行為）、狀態(tài)特征和過程特征；關(guān)系知識可以分為兩個子層次：概念關(guān)系和特征關(guān)系。按照知識的層次劃分，可以形成不同粒度的緝私知識語義單元［5］。通過分層、分維度對所有相關(guān)信息進行整合，以便于情報研判部門對案件的下一步進行研判。

（二）數(shù)據(jù)來源

本模型實驗數(shù)據(jù)主要來源于專門機關(guān)、社會部門和互聯(lián)網(wǎng)輿情等幾大方向。數(shù)據(jù)樣本涉及刑事案件上百宗，案值近百億元，涉稅金額超數(shù)十億元，數(shù)據(jù)統(tǒng)計指標(biāo)結(jié)果均排在全國前列。專門機關(guān)數(shù)據(jù)是本文本信息提取模型的核心實驗數(shù)據(jù)。此次文本信息提取模型的未來展望就是為海關(guān)總署打擊走私專項情報中心提供全方位的數(shù)據(jù)支撐和情報抓手，為情報主導(dǎo)警務(wù)提供更廣闊的實踐平臺和更多元的拓展思路。

（三）設(shè)計路徑

目前，非結(jié)構(gòu)化的文本、語音、圖像、視頻和音頻等各類型的數(shù)據(jù)抽取有待進一步深挖研究。為了貼合實戰(zhàn)單位信息處理簡易化需求，并將所得緝私案件文本內(nèi)容物盡其用，模型以文本數(shù)據(jù)為主，針對緝私案事件文本中時間、地名、關(guān)系、屬性、人物、事件等關(guān)鍵要素的自然語言描述特點，實現(xiàn)海關(guān)緝私文本信息抽取方法。

本模型擬進行緝私案事件的信息抽取，主要研究內(nèi)容包括以下幾個方面：一是選取不同類型、不同內(nèi)容和不同形式的緝私案件文本信息，構(gòu)建緝私案件樣本庫；二是將案件中的文本信息進行分詞與詞性標(biāo)注；三是實現(xiàn)實體識別、特征信息抽取，如圖1 所示。通過與海關(guān)系統(tǒng)、公安系統(tǒng)等緝私案事件相關(guān)結(jié)構(gòu)化數(shù)據(jù)的信息融合，實現(xiàn)緝私案事件信息的多層次、多粒度語義集成。

1.文本信息預(yù)處理

將數(shù)據(jù)中的走私地點、走私時間、走私物品、走私人員、走私動機、主要走私方法按照一定標(biāo)準(zhǔn)進行提取并標(biāo)注詞性，提取標(biāo)準(zhǔn)根據(jù)海關(guān)緝私部門實戰(zhàn)中常見案件特征并參考相關(guān)國家標(biāo)準(zhǔn)制定。

2.模型構(gòu)建

本實驗知識本體基于文本結(jié)構(gòu)化后的數(shù)據(jù)依據(jù)“循環(huán)法”構(gòu)建，具體步驟如下：

（1）本體需求分析并考查可復(fù)用本體。公安專業(yè)本體構(gòu)建領(lǐng)域，針對海關(guān)查獲對走私類案件文本數(shù)據(jù)進行本體建模。在進行了相關(guān)文獻調(diào)研之后，在公安海關(guān)緝私方面并無相關(guān)構(gòu)建的本體。但是公安領(lǐng)域本體能基于通用領(lǐng)域的本體知識庫進行拓展。本研究基于百科知識樹TermTree 進行拓展。

（2）建立領(lǐng)域核心概念。對文本結(jié)構(gòu)化后的數(shù)據(jù)按照走私物品的不同進行匯總統(tǒng)計，記錄每一個字段中詞項的詞頻，篩選出詞頻中的高頻詞，得到該走私物品下案件的核心概念。基于這些核心概念來搭建本體模式層中的知識節(jié)點。

（3）建立概念分類層級并定義知識節(jié)點。將這些核心概念要素根據(jù)走私地點、走私時間、走私物品、走私人員、走私動機、主要走私方法進行分類，對象的屬性層級參照OpenSchema 的語義描述構(gòu)建。

（4）本體評價與進化。本體在應(yīng)用中需要根據(jù)實際需求進行不斷更新維護，針對新的案件信息重新回到第一步進行需求分析，重新運行本體構(gòu)建的生命周期，本研究通過設(shè)立開源倉庫，以開源協(xié)作的方式進行領(lǐng)域本體構(gòu)建的生態(tài)循環(huán)。

這種可根據(jù)案件文本生成圖譜的方法，首先通過知識標(biāo)注來將緝私知識數(shù)據(jù)庫中的知識信息映射到案件文本信息上，然后通過解析文本中的實體關(guān)系繪制文本語義所描述的圖譜。這種方法能為緝私案件文本挖掘提供一種創(chuàng)新的文本結(jié)構(gòu)化途徑，有助于從龐大的案件文本庫中挖掘隱藏的實體關(guān)聯(lián)，形成情報線索。

五、前景展望

傳統(tǒng)的緝私情報分析結(jié)果展示主要是依靠文字描述、表格和簡單的統(tǒng)計圖，情報分析人員難以從中發(fā)現(xiàn)情報串并與研判的依據(jù)和規(guī)律。隨著信息技術(shù)的進步和情報分析需求的不斷增長，對于大型的緝私情報素材集合，迫切需要一種能夠確定緝私情報素材之間的關(guān)系和蘊含的知識，并表示為相關(guān)人員可以方便理解的可視化形式的技術(shù)［6］。實現(xiàn)海關(guān)緝私數(shù)據(jù)自動化抽取，為各地不同海關(guān)緝私部門信息化發(fā)展不平衡導(dǎo)致的數(shù)據(jù)分析能力落差，提供了現(xiàn)實的解決方案，節(jié)省了大量警力資源的同時，深度挖掘數(shù)據(jù)的價值，并為各種大數(shù)據(jù)智能應(yīng)用持續(xù)賦能，為后續(xù)緝私情報抽取、關(guān)聯(lián)、研判的計算與應(yīng)用提供基礎(chǔ)，對于大型的緝私情報素材集合，實現(xiàn)一種能夠描述情報的特征維度和各特征之間關(guān)系的情報要素表達模型將成為可能。