999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于Prompt 和文本嵌入的刑事卷宗特征提取與信訪風險評估模型的構建

2024-06-26 07:52:14申強
電腦知識與技術 2024年13期

申強

摘要:在刑事案件辦理過程中,如何自動且有效地提取非結構化卷宗數據中的特征信息,是提升信訪風險評估模型精度的關鍵問題。本研究提出利用自然語言處理技術,基于Prompt方法對卷宗提取特征文本,并采用文本嵌入模型對提取的特征進行向量化處理及相似度歸一化,進而訓練出風險評估預測模型。實驗結果表明,該方法能夠顯著提高特征表達能力,并提升評估模型在檢測信訪風險中的性能。未來,可以構建端到端的混合模型,以實現完全自動化的特征提取與風險預測。

關鍵詞:風險評估;特征工程;文本嵌入;文本相似度

中圖分類號:TP3 文獻標識碼:A

文章編號:1009-3044(2024)13-0034-03 開放科學(資源服務)標識碼(OSID) :

0 引言

在刑事案件辦理中,信訪風險評估是一項重要的任務。非結構化卷宗數據往往難以準確歸納和定義特征參數,這給風險評估模型的訓練帶來了挑戰。本研究旨在提出一種解決方案,利用基于Prompt的文本抽取、文本嵌入向量化和相似度歸一化等技術輔助完成特征工程,從而實現對信訪風險的準確評估,協助發現信訪隱患,完善刑事案件辦理中的風險評估理論體系。

1 文獻綜述

1.1 刑事案件辦理中的信訪風險評估

信訪風險評估是指在刑事案件辦理過程中對可能引發信訪問題的因素進行分析和評估。信訪風險評估具有很強的時間性和動態性,需要及時、準確地識別和處理。

1.2 非結構化卷宗數據的提取

非結構化卷宗數據是刑事案件辦理中的一種重要數據類型,具有數據量大、格式多樣、內容復雜等特點。

1.3 特征工程在風險評估中的重要性

特征工程是將原始數據轉換為適合機器學習模型輸入的特征的過程。在信訪風險評估中,特征工程的質量直接影響模型的預測效果。提取有代表性的特征、減少特征維度可以提高風險評估模型的準確性。

1.4 文本嵌入模型和其在特征提取中的應用

文本嵌入模型將文本轉換為向量,可以有效地提取文本特征,在文本相似度檢測和向量數據庫檢索中具有廣泛的應用。本文著重研究利用文本嵌入模型輔助計算相似度來實現特征歸一化。

2 方法概述

2.1 當前特征數據的主要提取方法

當前的風險評估最廣泛的做法仍是在全連接神經網絡中進行的監督學習預測,訓練數據集中的X表示輸入特征數據,如職業、年齡、受教育程度等特征屬性值。Y表示目標變量標簽,代表風險等級或者風險具體評分值。因為全連接預測更依賴輸入的特征數據的準確性和歸一分布合理性,所以多數是通過信息登記卡等結構化數據來作為主要特征來源。人工登記有識別準確、分布均勻以及能識別難度較大復雜特征的優點,如可將工作單位從具體的單位名稱歸納為機關事業單位、大型國有企業、個體經營等,具有更加科學合理的特征數據歸一化基礎,也能保證訓練中的參數相關性。不過人工登記標注工作量太大,效率低,無法及時增補更多的特征數據,每次調整特征數據都要面臨歷史數據的補錄任務,嚴重制約預測模型的進化[1]。

2.2 文本信息提取模型的選擇和使用

基于提示詞Prompt+文本的通用自然語言理解信息提取模型在命名實體、關系抽取、時間抽取、片段抽取上能力不斷提升,完全可以應用在卷宗抽取特征數據上。之所以在LLM大模型時代仍然使用小模型來處理單一信息抽取任務,是因為在風險評估這種全連接任務中,特征工程僅需要單一的信息提取能力,大語言模型推理成本太高,而且低資源消耗的場景下,基于生成式的大語言模型信息提取效果不一定比參數量在100~300M的Encoder-only小模型好。

依照期望特征來組織Prompt的schema入參,構建特征工程的基礎數據。命名實體:{人物、歸屬地、作案地、組織機構等};關系抽取:人物:{出生年月、受教育情況、工作單位、職業、身份、婚姻狀況、羈押地、前科情況等};事件抽取:罪名:{時間、地點、事件等};文本分類:領域:{民生、養老金、醫療衛生、教育、工程、金融詐騙等}[2]。調整Prompt來抽取不同的特征數據進行多輪訓練評估,直到找到最優特征組合,既不受制于人工標注的效率,也不擔心初期的特征選取不科學和不完整。

2.3 文本嵌入模型的選擇和使用

信息抽取得到的是一組離散且沒有經過人工的歸納和編碼化的特征數據,不能直接滿足于全連接網絡輸入要求,比如工作單位是一組單位的中文名稱,如果不進行基本的聚類,無法在結果擬合時有任何相關性支撐和延展性幫助,沒有任何實際訓練價值。本研究嘗試通過文本嵌入模型來處理這些特征數據,將中文文本向量化并作為基礎。中文文本嵌入模型與信息抽取模型一樣,已經日漸成熟。其中,一些開源的離線模型如text2vec、m3e、bge等,都具備微調功能,并在中文文本向量化方面表現出色。

2.4 特征向量化和相似度歸一化的方法

連續的線性特征值如年齡、金額等可以利用最小最大歸一化或標準化均值方差歸一化,但是經過文本信息提取的特征數據向量化后,仍然是一組離散的向量值,需要為每個特征做歸一化,全連接要求歸一化時相似的數值表述相似的特征意義,想要利用這些自動提取的特征數據,還要進行相似度聚類。以工作單位來說明,涉案人員工作單位性質在信訪風險評估時是重要的參考量,以往在人工登記案件信息卡或標注特征時,需要人工將工作單位登記為不同的單位性質、身份、職業等。而自動提取特征的做法中,工作單位只是一個單位名稱,并無單位性質、身份、職業等附加特征,相似度歸一化可以在一定程度上模擬人工分類[3]。通過計算工作單位之間的相似度,將相似的工作單位聚集在一起并進行歸一化。這樣,具有相似特征的工作單位將在歸一化后的向量空間中更接近,具體可以通過以下步驟實現:

1) 收集工作單位數據集,包含工作單位的文本和嵌入模型轉換的向量值。

2) 使用相似度度量方法(如余弦相似度、歐氏距離等)計算工作單位之間的相似度。

3) 使用聚類算法(如K-means、層次聚類等)將相似的工作單位聚集在一起形成不同的類別,這樣相似的工作單位將被歸為同一類別。

4) 歸一化聚類中的嵌入向量,計算每個類別中所有樣本的均值向量,并將其他樣本的嵌入向量映射到該均值向量[4]。

3 訓練設計和實驗結果分析

3.1 訓練集設計

本次準備5萬件案件卷宗原始數據,僅含有起訴書和判決書等訴訟文書卷制式文書,核算每個案件的信訪風險評估評分值作為目標參數輸出。風險評估評分值標準分50分,分值越高,風險越大。去除極端目標值后,5萬件案件的最終評分大體分布在47到52 之間,超過49.5分即可視為有發生信訪風險。計算方式大致如下:

1) 5萬件樣本數據中有3 500件涉訪,風險評估評分值默認加1分。

2) 信訪數據中含類型、信訪人數和方式等再次加權增加0.1~1分評分值。

3) 案件數據也根據是否未上訴、是否有認罪認罰具結書、是否簡易程序、是否為緩刑等加權降低風險評估評分值。

選用評分這種線性目標值而非風險等級分類,是基于歷史測試數據的考量。在實際情況中,信訪風險評估的正例,即真實發生信訪的案件比例,通常低于5%,這意味著訓練集失衡,多分類預測的中高風險等級召回率和F1值都非常低,且很難提升。尤其在特征值基于靈活自動抽取的訓練模式下,優先關注的應該是特征參數的選取和迭代,線性目標值更適合作為模型評價。

3.2 特征工程

特征工程設計有多輪對比,因此信息提取的模型選用RexUniNLU-base。模型體積較小,在抽取任務中對比RexUIE能力損失有限,推理速度則有很大優勢。由于本研究一個重要目標就是靈活調整特征數量和意義,推理速度更重要。特征值通過Prompt的提示詞靈活選取,優先選取數據集中辦案環節早期訴訟文書提取特征參數,使模型在辦案環節早期就具備預測條件,及時得到評估結果,輔助辦案人員消除后續信訪隱患。

1) 特征值:涵蓋罪名、嫌疑人和被害人的性別、年齡、綽號、戶籍地、作案地、工作單位、受教育程度、職業、身份、強制措施(羈押/取保候審)、婚否、作案經過(事件抽取)、領域(文本分類)、前科、扣押款物、審查結論[5]。本次準備四組,分別為16、18、20、22個,四組特征差異主要是在文書中提取出來的一些法定和酌定情節,如自首、被害人有過錯、積極賠償、弱勢群體等。

2) 向量化:特征參數向量化選用的文本嵌入模型是bge-large-zh-v1.5,對比幾個向量化的模型在相似度分析中表現基本雷同,選此模型的主要原因還是效率較高。

3) 相似度:以工作單位特征參數為例,任意兩個工作單位之間都使用向量計算余弦相似度,構建相似度矩陣,使用K-means聚類算法設置類族數目,將相似的工作單位聚集到一起形成不同的類族。如圖1所展示,12個工作單位基于相互之間的文本相似度自動被聚類為4組,大體擬合了企業、行政、政法、金融四組,有較高的現實還原度。

4) 歸一化:對于每個聚類中的工作單位,可以計算該聚類中所有樣本的均值向量,并將其他樣本的嵌入向量映射到該均值向量。

3.3 訓練和預測

數據集劃分:X是輸入層特征數據,Y為目標變量風險評估評分值,數據集分層隨機選取70% 為訓練集,剩余30% 為測試集,設定隨機數種子,確保多輪訓練和評估時隨機結果可重復性。

全連接神經網絡:使用Keras框架構建神經網絡,選用Adm優化器,均方差損失函數。輸入層設置30 個神經元,ReLU激活函數,16~22個輸入特征數量。4 個隱藏層,ReLU激活函數,神經元數量分別是40、20、10和5。輸出層只有1個神經元,線性激活函數。

3.4 評估指標

均方誤差MSE:計算預測評分值與真實評分值之間的平均平方差。平均絕對誤差MAE:計算預測評分值與真實評分值之間的平均絕對差。與MSE不同,對異常值更加魯棒。R平方:度量了線性模型對評分值變異性的解釋能力。Loss曲線:訓練過程中每個ep?och的損失值隨時間的變化,評估收斂情況。

3.5 實驗結果

分4次訓練,輸入層分別為16、18、20、22個特征參數,結果如圖2所示。

圖2顯示,模型在訓練集和驗證集上的損失和平均絕對誤差都較小,說明模型在這些指標上表現良好。表1顯示,均方誤差和平均絕對誤差的值也較小,模型的預測結果與實際值相對接近。22特征輸入時,R平方的值為0.724 4,說明模型可以解釋目標變量約72.4% 的變異性,這也表示模型的預測能力較好。

3.6 動態調整特征數量和意義的影響分析

上述4種特征組合的評估結果表明,提升特征參數數目可以提升模型質量,從Loss曲線可以看到訓練和驗證曲線比較符合,20特征參數時Loss值有升高,說明20特征選取訓練收斂力度不夠。對應的評估指標也可以看出,20特征反而比18特征表現要差些,這也更加說明動態調整特征數量在訓練中的重要性,通過Prompt輔助快速組織特征參數的研究有很大意義。

4 結束語

基于Prompt和文本嵌入提取卷宗特征,降低了人工依賴,提高了特征提取的效率。相似度歸一使得篩選過程更加靈活,多輪訓練對比評估使得篩選過程更加客觀。更豐富的特征參數可以提供更多有用的信息,從而改善模型的預測能力。后續會繼續擴展應用,將文本提取模型、文本嵌入模型和預測模型混合拼接成一個完整的mix模型,輸入卷宗+Prompt提示詞直接輸出預測結果,并對整個模型進行訓練和優化。這種文本特征提取和相似度歸一化的方法在多個領域都具有廣泛的應用前景。

參考文獻:

[1] 安震威,來雨軒,馮巖松. 面向法律文書的自然語言理解[J]. 中文信息學報,2022,36(8):1-11.

[2] 劉曉蒙,單清龍,周萌枝,等. 基于涉訴信訪案件風險識別的知識元自動抽取技術[J]. 法制博覽,2021(19):19-21.

[3] 劉棟,楊輝,姬少培,等. 基于多模型加權組合的文本相似度計算模型[J]. 計算機工程,2023,49(10):97-104.

[4] 王有華. 基于歸一化壓縮距離的文本譜聚類算法研究[D]. 貴陽:貴州大學,2016.

[5] 董紅松. 司法訴訟案件文本挖掘若干關鍵技術研究[D]. 太原:中北大學,2021.

【通聯編輯:代影】

主站蜘蛛池模板: 久久一级电影| 成·人免费午夜无码视频在线观看| 久久伊人色| 91在线国内在线播放老师 | 国产视频只有无码精品| 精品久久久久成人码免费动漫| 精品无码国产一区二区三区AV| 国产特级毛片aaaaaaa高清| 精品人妻无码中字系列| 91无码人妻精品一区二区蜜桃| 亚洲av中文无码乱人伦在线r| 日本欧美精品| 国产亚洲精品自在久久不卡 | 日本不卡在线| 四虎在线观看视频高清无码 | 日韩毛片在线播放| 日本成人不卡视频| 精品国产一区91在线| 免费a级毛片视频| 中文字幕首页系列人妻| 老司国产精品视频91| 国产一区二区在线视频观看| 综合网久久| 亚洲AV无码精品无码久久蜜桃| 国产精品久久久久久久伊一| 国内精品小视频福利网址| 国产欧美亚洲精品第3页在线| 日韩在线第三页| 亚洲91在线精品| 国产综合精品日本亚洲777| 亚洲精品无码专区在线观看| 亚洲人妖在线| 国产美女自慰在线观看| 原味小视频在线www国产| 午夜天堂视频| 免费看的一级毛片| 久久综合色88| 日韩在线播放欧美字幕| 18禁影院亚洲专区| 国产在线精品99一区不卡| 69综合网| 亚洲国产精品日韩av专区| 青青国产视频| 欧美激情网址| 伊人久久婷婷五月综合97色| 国产一区二区三区夜色| www精品久久| 国产精品 欧美激情 在线播放| 久久亚洲国产一区二区| 永久免费无码日韩视频| 国产美女在线观看| 亚洲免费毛片| 狠狠色综合久久狠狠色综合| 国产久操视频| 国产精品无码久久久久久| 亚洲色图另类| 久久综合色88| 一级香蕉视频在线观看| 99在线视频免费| 囯产av无码片毛片一级| 国产丝袜第一页| 性色一区| 久久夜色撩人精品国产| 国产69囗曝护士吞精在线视频| 国产丝袜第一页| 国产在线97| 日本国产精品一区久久久| 五月天久久综合| 国产欧美视频在线| 九九九久久国产精品| 伊人激情综合网| 国产精品免费福利久久播放| 国产午夜一级毛片| 在线色国产| 尤物视频一区| 玖玖精品在线| 成人中文字幕在线| 超清无码一区二区三区| 亚洲成人网在线播放| 片在线无码观看| 99视频在线精品免费观看6| 女人毛片a级大学毛片免费|