摘要:卷煙零售戶規范經營是維護卷煙市場秩序的重要保障。卷煙真煙流動案件數據揭示了流動團伙的存在,但在案件偵破過程中,鎖定團伙組織者是一大挑戰。本研究提出了一種基于團伙成員涉案活動相似度識別案件組織者的方法,應用余弦相似度和向量空間模型,計算已知組織者的案件與待預測案件團伙成員涉案相似度,基于相似度,為每個案件識別出最可能的3個潛在團伙組織者,為案件偵破提供輔助決策線索。實證結果表明,該方法為識別團伙組織者提供可行的輔助決策支持。
關鍵詞:案件組織者識別;真煙流動案件;案件團伙成員;余弦相似度;向量空間模型
中圖分類號:D9" 文獻標識碼:A""" doi:10.19311/j.cnki.16723198.2025.17.063
0 引言
煙草行業的真煙流動案件一直是市場監管的重點,更是難點,這些案件背后往往隱藏著復雜的團伙作案行為。在實際辦案過程中,執法人員常常面臨無法準確鎖定團伙組織者的困境,這極大地阻礙了案件的深入調查和有效打擊。為了應對這一挑戰,學者開展了研究。賴應明(2021)等研究者探討了大數據技術在涉煙違法犯罪案件預警研判中的應用,提出了智能化、動態化管控的新思路[1];梁勝波(2020)通過分析具體案例,總結了非法經營煙草案件的特點及辦理思路[2];王金亮等(2022)研究了卷煙非法流通預警分析評價指標的選擇以及基于專銷大數據預警分析模型的構建與應用[3];李峰(2024)融合卷煙投放策略數據、零售戶信息、真煙外流數據、訂單信息等數據,依據基本的概率理論和貝葉斯定理構建不同級別預警策略。然而,這些研究在識別團伙作案組織者方面仍缺乏有效的方法[4]。
余弦相似度和向量空間模型,在多維文本數據[5]和圖像融合[6]等領域已有廣泛應用,但在煙草團伙作案的預測和識別中尚未得到應用。基于此,提出基于團伙成員涉案活動相似度的案件組織者預測方法。利用余弦相似度和向量空間模型,將每個案件視為一個文本,通過衡量文本相似度的思路評估不同案件團伙成員涉案活動之間的相似度,基于相似度,為每個案件識別出最可能的3個潛在團伙組織者,旨在發現數據之中潛藏的規律,為案件偵破管理提供輔助決策線索。
1 模型構建
1.1 向量空間模型和相似度計算模型
向量空間模型廣泛應用在信息檢索和自然語言處理領域,它將一個文本表示為向量空間中的一個點,這個點對應一個行向量,向量的維度對應文本中的一個特征項,如詞匯,向量的值則表示該特征項在文本中的權重,常用的權重計算方法包括詞頻—逆文檔頻率(TF-IDF)等。
余弦相似度的核心理念在于通過計算兩個向量在多維空間中所形成夾角的余弦值評估它們之間的方向一致性或相似程度。對于高維數據,余弦相似度尤為適用,其所用的向量,可以是向量空間模型的結果。余弦相似度計算公式為:
cos(A,B)=A×B‖A‖×‖B‖
其中,A和B分別代表兩個向量,×表示兩個向量的點積,‖A‖和‖B‖分別表示兩個向量的模(即長度)。余弦相似度的取值范圍在-1到1之間,值越接近1表示兩個向量越相似,方向越一致;值越接近-1表示兩個向量越不相似,方向越相反;值為0則表示兩個向量正交,即無相關性。
1.2 預測模型構建
1.2.1 案件成員向量空間模型構建
整個過程主要包含案件數據向量化、IF-IDF權重計算、向量空間模型構建、向量空間矩陣保存4個關鍵環節。
(1)案件向量化。
利用文本向量化的思想處理案件數據,將每一個歷史案件視為一個文本,將參與案件的每一個許可證則被視為向量的一個維度或相關特征,通過統計每個許可證涉案數量、涉案品規數量、涉案金額等活動信息,用于構建向量空間模型中的權重。
(2)TF-IDF權重的計算。
TF(Term Frequency)代表詞頻,是指某個詞在一篇文檔中出現的頻率。IDF(Inverse Document Frequency)代表逆文檔頻率。它是一個詞的稀有程度的度量。計算方法是語料庫中的文檔總數除以包含該詞的文檔數,然后取對數。TF-IDF值就是TF值和IDF值的乘積,通過這種方式,可以突出在某個文檔中頻繁出現,但在整個語料庫中比較稀有的詞。
將一個許可證在案件中涉案的卷煙種類、數量、金額等類比為文本中的詞頻。具體來說,根據許可證在案件中的涉案程度(如涉案卷煙的總金額和總數量)計算其TF值。值越大,說明該許可證在團伙中越重要。
一個許可證在所有案件中出現的頻繁程度被視為逆向文件頻率。采用如下公式計算IDF值:IDF=log(總案件數/許可證涉案數)。值越大,表示這個許可證在不同案件中的獨特性越高,具有越好的類別區分能力。
TF-IDF用于綜合考量一個許可證在一個案件中表現以及在一段時間的所有案件中表現規律,其計算公式為:TF-IDF=TF*IDF。一個許可證TF-IDF值越高,說明這個許可證在該案件中越重要。
(3)動態構建向量空間模型。
考慮到專賣辦案是一個持續性的過程,案件數據是不斷更新的,因此基于Python實現了向量空間模型的動態構建。這意味著,隨著新案件的增加,模型能夠自動地添加新的許可證特征(如果新案件引入了新的許可證),并更新現有許可證特征的TF和IDF值。這樣,模型就能夠反映最新的案件數據,提高分析的準確性和時效性。
(4)向量空間矩陣保存。
考慮到一個地區的案件數量隨著時間推移會持續增加,向量空間矩陣也會隨著時間推移持續變大,為了高效地存儲和處理這些數據,同時兼顧數據庫版權問題,選擇支持大規模數據存儲和高效索引的MySQL開源數據庫,采用壓縮稀疏行(CSR)格式優化稀疏矩陣的存儲。
1.2.2 案件之間團伙成員相似度計算模型
將要預測團伙組織者的多個待識別案件,應用向量空間模型轉換成待識別向量空間,應用sklern庫中的cosine_similrity,將其與最新的向量空間模型結果對比,計算得到待識別案件與歷史上已明確團伙組織者的案件兩兩之間的余弦相似度,最終形成案件相似度矩陣,每一行為一個待識別案件,每一個列則是歷史上已經明確團伙組織者的案件。
1.2.3 案件團伙潛在組織者識別
相似度矩陣中相似度高的兩個案件,意味著它們在特征空間上最為接近,按照案件之間的相似性和團伙活動的連續性假設,推斷它們可能涉及相同的組織者,即它們的組織者很可能是待識別案件中團伙的潛在組織者。基于此,從相似度矩陣中為每個待識別案件的團伙檢索相似度最高3個案件的團伙,提取這3個團伙的組織者信息作為潛在組織者,并推送給相關部門進行調查,為執法部門提供線索。
2 實證研究
2.1 數據來源與描述
采用某地級市從2021年1月1日到2024年12月31日共計4年時間的真煙流動案件數據,總共1346個案件,291個品規,其中團伙組織者非空的案件759個,團伙組織者為空的待定案件為587個,這也從側面說明確定案件組織者的難度。每個案件涉及所有參與許可證信息、涉及品規信息、品規涉案數量與涉案金額等涉案活動信息。
2.2 實證過程設計
基于已構建的模型,進一步開展實證過程以驗證其有效性。為了檢驗團伙組織者信息缺失對模型的影響,設計兩組實驗。
實驗1:選取團伙組織者非空的759個團伙組織者信息完整的案件作為數據集,按照案件發生時間為順序,前659個案件作為訓練集,后100個案件作為測試集。
實驗2:選取發生時間最后的100個案件中團伙組織者非空的案件作為測試集,其余1246個案件為訓練集(含有未知的組織者)。
訓練集被用于生成歷史案件向量空間,而測試集則作為待識別案件集,模仿案件隨時間推移而次第發生,逐一對待識別案件生成相應的待識別向量空間,與歷史案件向量空間一起計算二者之間的相似度矩陣,并基于該矩陣為每個待識別案件推薦了相似度最高的3個案件。這些相似案件的組織者被視作待識別案件的潛在組織者,從而實現了對團伙組織者的預測。通過這一過程,可評估模型在實際應用中的預測準確性,并為后續的模型優化提供實證基礎。
整個模型應用python工具實現整個預測模型的構建、檢測與預測結果的輸出,用sklern的TfidfVectorizer構建向量空間模型,用sklern的cosine_similrity計算余弦相似度。
2.3 實證結果分析
模型測試結果如表1所示,通過比較待識別案件實際組織者與案件高相似團伙的組織者,如果實際案件的組織者與前3名相似度團伙的組織者重疊,說明模型的識別正確;如果不重疊,則認為識別錯誤。例如,案件編號1的實際組織者為******101258,最高相似度團伙的組織者為******101258,可認為案件編號1的識別結果正確。類似的,案件編號100的實際組織者為******100159,排名第3相似度團伙的組織者為******100159,也可認為案件編號100的識別結果正確。
通過上面的兩組實證研究,可得到以下結果。
(1)模型具有一定的有效性。待識別案件組織者識別結果與其他案件對應團伙的相似度前三的組織者有重疊,則認為模型判定準確。實驗1這部分案件有63個,占比63%,說明模型具備一定程度的團伙組織者預測能力,盡管準確率有待提高,但已經顯示出一定的有效性。
(2)組織者可能是團伙,不是個人。實驗1中大約17%記錄相似度大于0.4(最高相似度度為1),但待識別案件實際組織者與相似案件組織者不同,也就是團伙相似度高,但是組織者不一樣,這意味著組織者可能是一個小團伙而非個人,或者團伙內部存在多個核心組織者。
(3)相似度普遍比較低,很多案件是新團伙。實驗1中相似度小于0.1的記錄占比56%,相似度小于0.2且大于0.1的占比為11%,表明很多待識別案件是新型案件,作案團伙是新團伙的概率比較大,說明著目前積累的信息完整案件比較少,對模型準確度影響比較大。需要持續積累更多的數據訓練模型,以提高其在新團伙案件上的預測能力。
(4)實驗2中待識別案件與很多組織者信息不全的案件相似度高。相較于實驗1,實驗2相似案件團伙組織者缺失的案件占了22.5%,說明案件組織者信息缺失量偏多,對模型準確度影響比較大。
3 結論
基于團伙成員涉案活動相似度,提出并驗證了一種預測煙草真煙流動案件潛在團伙組織者的方法。實驗結果顯示,該方法能夠為案件偵破提供有價值的輔助決策線索,一方面具備一定程度的識別潛在團伙組織者能力,另一方面能夠發現新的業務場景,包括存在多個核心組織者、新團伙的現象。但是,模型在預測新團伙或組織者信息不全的案件時準確率有待提高,這與目前積累的信息完整案件較少有關。未來研究需考慮團伙結構的復雜性,持續積累更多數據以優化模型,提高其在新案件的預測能力[78]。
主要參考文獻
[1]賴應明.大數據背景下關于涉煙違法犯罪案件預警研判的思考與探索[J].森林公安,2021,(05):1012.
[2]梁勝波,張瑞央.關于非法經營煙草案件的幾點思考——以韓某團伙非法經營煙草案為視角[J].河北公安警察職業學院學報,2020,20(02):3841.
[3]王金亮,劉金澎,紀魯生,等.基于專銷大數據的卷煙非法流通預警分析模型的構建與應用[J].現代商貿工業,2022,43(03):190192.
[4]李峰,張義忠,黃種杰,等.基于數據驅動的多維度真煙異流預警研究[J].數字通信世界,2024,(09):163166.
[5]張雅玲,吉琳娜,楊風暴,等.基于余弦相似性的雙模態紅外圖像融合性能表征[J].光電工程,2019,46(10):8292.
[6]馬長林,程夢麗,王濤.基于圖分析方法和余弦相似性的主題檢測研究[J].計算機工程與科學,2019,41(04):708712.
[7]王金亮,劉金澎,紀魯生,等.基于專銷大數據的卷煙非法流通預警分析模型的構建與應用[J].現代商貿工業,2022,43(03):190192.
[8]張吉斌,李鵬,任賀.卷煙非法流通治理體系的構建研究[J].現代商貿工業,2022,43(17):6465.