基于BERT與細粒度特征提取的數據法學問答系統

2024-05-30 19:13:20宋文豪汪洋朱蘇磊張倩吳曉燕

上海師范大學學報·自然科學版 2024年2期

宋文豪汪洋朱蘇磊張倩吳曉燕

摘??要：?首先利用bidirectional encoder representations from transformers（BERT）模型的強大的語境理解能力來提取數據法律文本的深層語義特征，然后引入細粒度特征提取層，依照注意力機制，重點關注文本中與數據法律問答相關的關鍵部分，最后對所采集的法律問答數據集進行訓練和評估. 結果顯示：與傳統的多個單一模型相比，所提出的模型在準確度、精確度、召回率、F₁分數等關鍵性能指標上均有提升，表明該系統能夠更有效地理解和回應復雜的數據法學問題，為研究數據法學的專業人士和公眾用戶提供更高質量的問答服務.

關鍵詞：?bidirectional encoder representations from transformers（BERT）模型；?細粒度特征提?。?注意力機制；?自然語言處理（NLP）

中圖分類號：?TP 3911 ???文獻標志碼：?A ???文章編號：?1000-5137（2024）02-0211-06

Data law Q&A system based on BERT and fine-grained feature extraction

SONG Wenhao¹，?WANG Yang^1*，?ZHU Sulei¹，?ZHANG Qian¹，?WU Xiaoyan^2*

（1.College of Information，?Mechanical and Electrical Engineering，?Shanghai Normal University，?Shanghai 201418，?China；?2.School of Electronic Information and Electrical Engineering，?Shanghai Jiao Tong University，?Shanghai 200240，?China）

Abstract：?A data legal question and answer system was proposed based on bidirectional encoder representations from transformers（BERT）?model and fine-grained feature extraction to provide accurate professional legal consulting services. Firstly，?the powerful contextual understanding ability of the BERT model was leveraged to extract deep semantic features from data legal texts. Subsequently，?a fine-grained feature extraction layer was introduced which mainly focused on key components related to data legal Q&A within the text using an attention mechanism. Finally，?the collected legal Q&A dataset was trained and evaluated. The results indicated that compared to traditional multiple single models，?the proposed model showed improvements in key performance indicators such as accuracy，?precision，?recall，?and?F₁?score，?which suggested that the system could more effectively comprehend and address complex issues in data law，?providing higher quality Q&A services for both research data law professionals and the general public.

Key words：?bidirectional encoder representations from transformers（BERT）?model；?fine-grained feature extraction；?attention mechanism；?natural language processing （NLP）

0 ?引言

在眾多深度學習模型中，bidirectional encoder representations from transformers（BERT）模型^［¹^］因在各類自然語言處理（NLP）任務上表現卓越而備受關注. 通過預訓練的語言表示，BERT模型能夠捕捉到文本中豐富的語義信息. 然而，法學文本的專業性和復雜性要求問答系統不僅要理解自然語言，還需要對法律術語和概念有深入的理解^［²^］.

數據法學^［³^］是一門新興學科，主要研究與數據相關的法律問題^［⁴^］. 數據法學融合了法學、計算機科學、信息技術及隱私保護等多個學科的知識和方法，具有多學科交叉的特點，因此，該領域的研究人員不僅需要具備扎實的法律基礎，還需要掌握數據管理、數據保護及數據安全等相關科技術語.

細粒度語義^［⁵^］是一種深度理解文本的能力，涉及對語句中每個單詞、短語以及其上下文的逐層分析和理解. 在基于BERT模型的數據法學問答系統中，因為法律問題往往具有復雜的語境和嚴密的邏輯結構，對于細粒度語義的應用至關重要. 在構建基于BERT的數據法學問答系統時，細粒度語義分析是確保系統能夠準確理解和回答復雜法律問題的核心組成部分. 傳統的問答系統通常通過淺層次的語法和詞法規則來理解問題，然而，法律問題往往涉及深層次的法律概念和邏輯關系，需要更高層次的語義理解. 細粒度語義分析通過深度學習模型，能夠捕捉語句中每個單詞和短語的豐富語義信息，同時考慮其上下文的關系. 這種深度的語義理解使得系統能夠更好地理解法律問題的隱含意思、邏輯關系，從而提高了問答系統對復雜法律場景的適應能力.

本文作者提出了一種識別并關注法律文本中關鍵信息的細粒度特征提取方法，通過結合BERT模型的深層語義理解能力和注意力機制^［⁶^］的細粒度分析，系統能夠在處理復雜法律問題時，提供更準確、更具解釋性的答案，為相關專業人士和公眾用戶提供了一個高效的法律咨詢工具，有助于降低法律服務的門檻，促進法律資源的公平和高效分配.

1 ?數據處理與系統開發

1.1 數據采集與處理

針對各種數據法學相關的書籍資料文本，生成可以捕獲文本資料核心內容的不同難度和不同形式的問答數據. 將文本內容轉換成json格式文件，將其分割成數千篇章，并從中預生成一系列答案. 答案主要包括兩種類型：文本中句子片段和文本中抽取的命名實體（NER）^［⁷^］. 在完成句子劃分時，先將句子中可能出現的英文符號，替換為對應的中文字符，隨后按照句號、逗號、分號等進行短句劃分. 利用NER技術抽取文本中的實體，包括數字、日期、專用名等. 此外，針對于數據法學在各種現實生活所會出現的案例，采用爬蟲技術，在網絡上獲取了數千條有關數據法相關的法律咨詢問答. 為了去除噪聲，對數據進行了人工標注，然后將爬取的數據和閱讀理解數據集SQuAD與中文法律閱讀理解數據集CJRC^［⁸^］融合訓練，CJRC數據集包含約10 000篇文檔，來源于裁判文書網. 通過抽取裁判文書的事實描述內容（“經審理查明”或者“原告訴稱”部分），針對事實描述內容標注問題，最終形成約50 000個面向數據法學的問答內容.

將各數據集整理、融合為相同的格式，并亂序處理，剔除空白字符、帶括號的英文，截取文本，限制其長度，刪除不需要的信息.

1.2 系統構建

系統由問題輸入模塊、閱讀理解模塊、問句相似度計算模塊及答案檢索模塊組成，如圖1所示. 用戶通過問題輸入模塊，可注冊、登錄系統，提出自然語言問題.通過閱讀理解模塊將用戶輸入的問題進行向量轉化，通過問句相似度計算模塊將問句向量與向量庫進行相似度計算. 本系統使用MySQL數據庫對問答數據進行儲存，通過高度可擴展且開源的分布式全文檢索引擎Elasticsearch從數據庫MySQL中檢索并輸出答案.

2 ?模型及算法

由于法律語言通常比較復雜、正式且常常存在歧義，采用細粒度特征提取方法^［^9-10^］，識別并關注法律文本中的關鍵信息. 通過結合BERT模型的深層語義理解能力和注意力機制的細粒度分析，系統能夠在處理復雜法律問題時提供更準確、更具解釋性的答案，模型結構圖如圖2所示.

對候選答案集合根據語義匹配度進行排序，將排名第一的答案作為正確答案. 模型主要分為輸入層、語義匹配層、特征提取層、輸出層四個部分.

輸出層：對于一個問答對Q和A，Q=，A=，n和m為問題和答案的長度. 用?BERT 模型對輸入的問題和答案進行編碼，得到問題和答案的句子特征，

Q=B_ERT（Q）?，（1）

A=B_ERT（A）?. （2）

需要對Q和A中每個詞進行細粒度語義對齊，將兩者間的語義匹配結果輸入特征提取層. 首先，計算問答對之間的余弦相似度

. （3）

對通過公式進行歸一化處理，

，（4）

其中，

根據注意力分數對作進一步表示：

，（5）

，（6）

其中，α為注意力分數；c^*為注意力分數的加權求和.

為了實現細粒度語義對齊，保留重要信息作為下一步匹配層的輸入，對答案進行細粒度特征提取，保留重要信息. 通過門控機制，可以共享問題和答案的公共語義信息. 門控

，（7）

其中，為門控函數；和為2個門控參數.的作用是過濾無用、瑣碎的信息，保留中可以與A共享的語義信息. 激活函數

，（8）

其中，和為2個激活參數.的作用是使模型能夠學習更加復雜的關系和模式. 更新，

. （9）

計算問題與答案A的匹配分數，

（10）

其中，是模擬函數；是經過k-1步特征提取后問題的特征，然后將匹配分數相加，

. （11）

同樣地，

. （12）

損失函數

，（13）

其中，分別表示正確答案間的匹配分數和其他候選答案間的匹配分數.

3 ?實驗及結果

為了驗證本方法的有效性和準確性，在AMD Ryzen 7 5800H處理器、8 GB內存、RTX3060顯卡、Windows11（64-bit）操作系統、Pycharm 2022.1、Python3.9.8開發環境下進行實驗. 本實驗采用BERT模型（Base版本），該模型包含12頭注意力機制，隱藏層的維度為768維，參數為1.1×10⁸個，句子最長序列為64，每個批次的數據量為64，學習率為1.0×10^-5，迭代次數為3，丟失率為0.3.

表1是與BERT，RoBERTa，ALBERT和GPT-3的模型性能對比.

從表1中可以看出，本模型在準確度、精確度、召回率和F₁分數上均表現優異.

本系統基于Django Web框架開發，使用過程中，先向系統詢問一個自然語言問題，系統根據提問從Elasticsearch中檢索出相匹配的內容，作為召回候選集，通過本研究的模型對答案進行預測，輸出匹配度最高的答案. 系統的運行界面及示意圖如圖3所示.

4 ?結論

本文作者基于BERT模型開發了數據法學問答系統，通過細粒度特征提取，提高問答系統在數據法學場景下的理解和應用能力.通過實驗證明了系統在解決真實法律問題時表現出色，為法學研究者和從業者提供了一個智能的信息獲取工具.

參考文獻：

［1］ DEVLIN J，?CHANG M W，?LEEK，?et al. Bert：?pre-training of deep bidirectional transformers for language understanding ［J］. arXiv：?1810.04805，?2018.https：// arxiv.org/abs/1810.04805v2.

［2］丁紅衛. 人工智能透過言語語言識別精神障礙?［J］. 上海師范大學學報（哲學社會科學版），?2023，52（4）：24-34.

DING H W. Artificial intelligence identifies mental disorders through speech and language ［J］. Journal of Shanghai Normal University （?Philosophy & Social Sciences Edition），?2023，52（4）：24-34.

［3］王齊齊. 全球大數據法學研究現狀、熱點與前沿?［J］. 江漢學術，?2023，42（5）：24-32.

［4］莫驊. 大數據時代背景下的法學研究新趨勢?［J］. 法制博覽，?2021（22）：185- 186.

［5］范東旭，?過弋. 基于可信細粒度對齊的多模態方面級情感分析［J］. 計算機科學，?2023，50（12）：246-254.

FAN D X，?GUO Y. Aspect-based multimodal sentiment analysis based on trusted fine-grained alignment ［J］. Computer Science，?2023，50（12）：246-254.

［6］ CUI Y M，?CHE W X，?LIU T，?et al. Pre-training with whole word masking for Chinese BERT ［J］. IEEE/ACM Transactions on Audio，?Speech，?and Language Processing，?2021，29：3504-3514.

［7］ ZHANG N X，?LI F，?XU G L，?et al. Chinese NER using dynamic meta-embeddings ［J］. IEEE Access，?2019，7：64450-64459.

［8］ LEE C H，?LEE H Y，?WU S L，?et al. Machine comprehension of spoken content：?TOEFL listening test and spoken SQuAD ［J］?IEEE/ACM Transactions on Audio，?Speech，?and Language Processing，?2019，27（9）：?1469-1480.

［9］ XIANG Y，?CHEN Q C，?WANG X L，?et al. Answer selection in community question answering via attentive neural networks ［J］.IEEE Signal Processing Letters，?2017，24（4）：505-509.

［10］榮光輝，?黃震華. 基于深度學習的問答匹配方法?［J］. 計算機應用，?2017，37（10）：2861-2865.

RONG G H，?HUANG Z H.Question answer matching method based on deep learning［J］.Journal of Computer Applications，2017，37（10）：2861-2865.

（責任編輯：包震宇，郁慧）

DOI：?10.3969/J.ISSN.1000-5137.2024.02.010

收稿日期：?2023-12-23

基金項目：?上海市科學儀器領域項目（22142201900）；?教育部重大項目（20JZD020）；?國家自然科學基金（62301320）

作者簡介：?宋文豪（1999—），?男，?碩士研究生，?主要從事自然語言處理方面的研究. E-mail：1245355011@qq.com

* 通信作者：?汪洋（1986—），?男，?副教授，?主要從事人工智能應用技術方面的研究. E-mail：wyang@shnu.edu.cn；吳曉燕（1990—），?女，?副研究員，?主要從事人工智能在計算成像方面的研究. E-mail：wuxiaoyan151@126.com

引用格式：?宋文豪，?汪洋，?朱蘇磊，?等. 基于BERT與細粒度特征提取的數據法學問答系統?［J］. 上海師范大學學報?（自然科學版中英文），?2024，53（2）：211?216.

Citation format：?SONG W H，?WANG Y，?ZHU S L，?et al. SONG Wenhao，?WANG Yang，?ZHU Sulei，?et al. Data law Q&A system based on BERT and fine-grained feature extraction ［J］. Journal of Shanghai Normal University （Natural Sciences），?2024，53（2）：211?216.