999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于BERT與細粒度特征提取的數據法學問答系統

2024-05-30 19:13:20宋文豪汪洋朱蘇磊張倩吳曉燕
關鍵詞:特征提取語義法律

宋文豪 汪洋 朱蘇磊 張倩 吳曉燕

摘??要:?首先利用bidirectional encoder representations from transformers(BERT)模型的強大的語境理解能力來提取數據法律文本的深層語義特征,然后引入細粒度特征提取層,依照注意力機制,重點關注文本中與數據法律問答相關的關鍵部分,最后對所采集的法律問答數據集進行訓練和評估. 結果顯示:與傳統的多個單一模型相比,所提出的模型在準確度、精確度、召回率、F1分數等關鍵性能指標上均有提升,表明該系統能夠更有效地理解和回應復雜的數據法學問題,為研究數據法學的專業人士和公眾用戶提供更高質量的問答服務.

關鍵詞:?bidirectional encoder representations from transformers(BERT)模型;?細粒度特征提?。?注意力機制;?自然語言處理(NLP)

中圖分類號:?TP 3911 ???文獻標志碼:?A ???文章編號:?1000-5137(2024)02-0211-06

Data law Q&A system based on BERT and fine-grained feature extraction

SONG Wenhao1,?WANG Yang1*,?ZHU Sulei1,?ZHANG Qian1,?WU Xiaoyan2*

(1.College of Information,?Mechanical and Electrical Engineering,?Shanghai Normal University,?Shanghai 201418,?China;?2.School of Electronic Information and Electrical Engineering,?Shanghai Jiao Tong University,?Shanghai 200240,?China)

Abstract:?A data legal question and answer system was proposed based on bidirectional encoder representations from transformers(BERT)?model and fine-grained feature extraction to provide accurate professional legal consulting services. Firstly,?the powerful contextual understanding ability of the BERT model was leveraged to extract deep semantic features from data legal texts. Subsequently,?a fine-grained feature extraction layer was introduced which mainly focused on key components related to data legal Q&A within the text using an attention mechanism. Finally,?the collected legal Q&A dataset was trained and evaluated. The results indicated that compared to traditional multiple single models,?the proposed model showed improvements in key performance indicators such as accuracy,?precision,?recall,?and?F1?score,?which suggested that the system could more effectively comprehend and address complex issues in data law,?providing higher quality Q&A services for both research data law professionals and the general public.

Key words:?bidirectional encoder representations from transformers(BERT)?model;?fine-grained feature extraction;?attention mechanism;?natural language processing (NLP)

0 ?引言

在眾多深度學習模型中,bidirectional encoder representations from transformers(BERT)模型1因在各類自然語言處理(NLP)任務上表現卓越而備受關注. 通過預訓練的語言表示,BERT模型能夠捕捉到文本中豐富的語義信息. 然而,法學文本的專業性和復雜性要求問答系統不僅要理解自然語言,還需要對法律術語和概念有深入的理解2.

數據法學3是一門新興學科,主要研究與數據相關的法律問題4. 數據法學融合了法學、計算機科學、信息技術及隱私保護等多個學科的知識和方法,具有多學科交叉的特點,因此,該領域的研究人員不僅需要具備扎實的法律基礎,還需要掌握數據管理、數據保護及數據安全等相關科技術語.

細粒度語義5是一種深度理解文本的能力,涉及對語句中每個單詞、短語以及其上下文的逐層分析和理解. 在基于BERT模型的數據法學問答系統中,因為法律問題往往具有復雜的語境和嚴密的邏輯結構,對于細粒度語義的應用至關重要. 在構建基于BERT的數據法學問答系統時,細粒度語義分析是確保系統能夠準確理解和回答復雜法律問題的核心組成部分. 傳統的問答系統通常通過淺層次的語法和詞法規則來理解問題,然而,法律問題往往涉及深層次的法律概念和邏輯關系,需要更高層次的語義理解. 細粒度語義分析通過深度學習模型,能夠捕捉語句中每個單詞和短語的豐富語義信息,同時考慮其上下文的關系. 這種深度的語義理解使得系統能夠更好地理解法律問題的隱含意思、邏輯關系,從而提高了問答系統對復雜法律場景的適應能力.

本文作者提出了一種識別并關注法律文本中關鍵信息的細粒度特征提取方法,通過結合BERT模型的深層語義理解能力和注意力機制6的細粒度分析,系統能夠在處理復雜法律問題時,提供更準確、更具解釋性的答案,為相關專業人士和公眾用戶提供了一個高效的法律咨詢工具,有助于降低法律服務的門檻,促進法律資源的公平和高效分配.

1 ?數據處理與系統開發

1.1 數據采集與處理

針對各種數據法學相關的書籍資料文本,生成可以捕獲文本資料核心內容的不同難度和不同形式的問答數據. 將文本內容轉換成json格式文件,將其分割成數千篇章,并從中預生成一系列答案. 答案主要包括兩種類型:文本中句子片段和文本中抽取的命名實體(NER)7. 在完成句子劃分時,先將句子中可能出現的英文符號,替換為對應的中文字符,隨后按照句號、逗號、分號等進行短句劃分. 利用NER技術抽取文本中的實體,包括數字、日期、專用名等. 此外,針對于數據法學在各種現實生活所會出現的案例,采用爬蟲技術,在網絡上獲取了數千條有關數據法相關的法律咨詢問答. 為了去除噪聲,對數據進行了人工標注,然后將爬取的數據和閱讀理解數據集SQuAD與中文法律閱讀理解數據集CJRC8融合訓練,CJRC數據集包含約10 000篇文檔,來源于裁判文書網. 通過抽取裁判文書的事實描述內容(“經審理查明”或者“原告訴稱”部分),針對事實描述內容標注問題,最終形成約50 000個面向數據法學的問答內容.

將各數據集整理、融合為相同的格式,并亂序處理,剔除空白字符、帶括號的英文,截取文本,限制其長度,刪除不需要的信息.

1.2 系統構建

系統由問題輸入模塊、閱讀理解模塊、問句相似度計算模塊及答案檢索模塊組成,如圖1所示. 用戶通過問題輸入模塊,可注冊、登錄系統,提出自然語言問題.通過閱讀理解模塊將用戶輸入的問題進行向量轉化,通過問句相似度計算模塊將問句向量與向量庫進行相似度計算. 本系統使用MySQL數據庫對問答數據進行儲存,通過高度可擴展且開源的分布式全文檢索引擎Elasticsearch從數據庫MySQL中檢索并輸出答案.

2 ?模型及算法

由于法律語言通常比較復雜、正式且常常存在歧義,采用細粒度特征提取方法9-10,識別并關注法律文本中的關鍵信息. 通過結合BERT模型的深層語義理解能力和注意力機制的細粒度分析,系統能夠在處理復雜法律問題時提供更準確、更具解釋性的答案,模型結構圖如圖2所示.

對候選答案集合根據語義匹配度進行排序,將排名第一的答案作為正確答案. 模型主要分為輸入層、語義匹配層、特征提取層、輸出層四個部分.

輸出層:對于一個問答對QAQ=,A=,nm為問題和答案的長度. 用?BERT 模型對輸入的問題和答案進行編碼,得到問題和答案的句子特征,

Q=BERTQ)?, (1)

A=BERTA)?. (2)

需要對QA中每個詞進行細粒度語義對齊,將兩者間的語義匹配結果輸入特征提取層. 首先,計算問答對之間的余弦相似度

. (3)

通過公式進行歸一化處理,

, (4)

其中,

根據注意力分數對作進一步表示:

, (5)

, (6)

其中,α為注意力分數;c*為注意力分數的加權求和.

為了實現細粒度語義對齊,保留重要信息作為下一步匹配層的輸入,對答案進行細粒度特征提取,保留重要信息. 通過門控機制,可以共享問題和答案的公共語義信息. 門控

, (7)

其中,為門控函數;為2個門控參數.的作用是過濾無用、瑣碎的信息,保留中可以與A共享的語義信息. 激活函數

, (8)

其中,為2個激活參數.的作用是使模型能夠學習更加復雜的關系和模式. 更新,

. (9)

計算問題與答案A的匹配分數

(10)

其中,是模擬函數;是經過k-1步特征提取后問題的特征,然后將匹配分數相加,

. (11)

同樣地,

. (12)

損失函數

, (13)

其中,分別表示正確答案間的匹配分數和其他候選答案間的匹配分數.

3 ?實驗及結果

為了驗證本方法的有效性和準確性,在AMD Ryzen 7 5800H處理器、8 GB內存、RTX3060顯卡、Windows11(64-bit)操作系統、Pycharm 2022.1、Python3.9.8開發環境下進行實驗. 本實驗采用BERT模型(Base版本),該模型包含12頭注意力機制,隱藏層的維度為768維,參數為1.1×108個,句子最長序列為64,每個批次的數據量為64,學習率為1.0×10-5,迭代次數為3,丟失率為0.3.

表1是與BERT,RoBERTa,ALBERT和GPT-3的模型性能對比.

從表1中可以看出,本模型在準確度、精確度、召回率和F1分數上均表現優異.

本系統基于Django Web框架開發,使用過程中,先向系統詢問一個自然語言問題,系統根據提問從Elasticsearch中檢索出相匹配的內容,作為召回候選集,通過本研究的模型對答案進行預測,輸出匹配度最高的答案. 系統的運行界面及示意圖如圖3所示.

4 ?結論

本文作者基于BERT模型開發了數據法學問答系統,通過細粒度特征提取,提高問答系統在數據法學場景下的理解和應用能力.通過實驗證明了系統在解決真實法律問題時表現出色,為法學研究者和從業者提供了一個智能的信息獲取工具.

參考文獻:

[1] DEVLIN J,?CHANG M W,?LEEK,?et al. Bert:?pre-training of deep bidirectional transformers for language understanding [J]. arXiv:?1810.04805,?2018.https:// arxiv.org/abs/1810.04805v2.

[2] 丁紅衛. 人工智能透過言語語言識別精神障礙?[J]. 上海師范大學學報(哲學社會科學版),?2023,52(4):24-34.

DING H W. Artificial intelligence identifies mental disorders through speech and language [J]. Journal of Shanghai Normal University (?Philosophy & Social Sciences Edition),?2023,52(4):24-34.

[3] 王齊齊. 全球大數據法學研究現狀、熱點與前沿?[J]. 江漢學術,?2023,42(5):24-32.

[4] 莫驊. 大數據時代背景下的法學研究新趨勢?[J]. 法制博覽,?2021(22):185- 186.

[5] 范東旭,?過弋. 基于可信細粒度對齊的多模態方面級情感分析[J]. 計算機科學,?2023,50(12):246-254.

FAN D X,?GUO Y. Aspect-based multimodal sentiment analysis based on trusted fine-grained alignment [J]. Computer Science,?2023,50(12):246-254.

[6] CUI Y M,?CHE W X,?LIU T,?et al. Pre-training with whole word masking for Chinese BERT [J]. IEEE/ACM Transactions on Audio,?Speech,?and Language Processing,?2021,29:3504-3514.

[7] ZHANG N X,?LI F,?XU G L,?et al. Chinese NER using dynamic meta-embeddings [J]. IEEE Access,?2019,7:64450-64459.

[8] LEE C H,?LEE H Y,?WU S L,?et al. Machine comprehension of spoken content:?TOEFL listening test and spoken SQuAD [J]?IEEE/ACM Transactions on Audio,?Speech,?and Language Processing,?2019,27(9):?1469-1480.

[9] XIANG Y,?CHEN Q C,?WANG X L,?et al. Answer selection in community question answering via attentive neural networks [J].IEEE Signal Processing Letters,?2017,24(4):505-509.

[10] 榮光輝,?黃震華. 基于深度學習的問答匹配方法?[J]. 計算機應用,?2017,37(10):2861-2865.

RONG G H,?HUANG Z H.Question answer matching method based on deep learning[J].Journal of Computer Applications,2017,37(10):2861-2865.

(責任編輯:包震宇,郁慧)

DOI:?10.3969/J.ISSN.1000-5137.2024.02.010

收稿日期:?2023-12-23

基金項目:?上海市科學儀器領域項目(22142201900);?教育部重大項目(20JZD020);?國家自然科學基金(62301320)

作者簡介:?宋文豪(1999—),?男,?碩士研究生,?主要從事自然語言處理方面的研究. E-mail:1245355011@qq.com

* 通信作者:?汪洋(1986—),?男,?副教授,?主要從事人工智能應用技術方面的研究. E-mail:wyang@shnu.edu.cn;吳曉燕(1990—),?女,?副研究員,?主要從事人工智能在計算成像方面的研究. E-mail:wuxiaoyan151@126.com

引用格式:?宋文豪,?汪洋,?朱蘇磊,?等. 基于BERT與細粒度特征提取的數據法學問答系統?[J]. 上海師范大學學報?(自然科學版中英文),?2024,53(2):211?216.

Citation format:?SONG W H,?WANG Y,?ZHU S L,?et al. SONG Wenhao,?WANG Yang,?ZHU Sulei,?et al. Data law Q&A system based on BERT and fine-grained feature extraction [J]. Journal of Shanghai Normal University (Natural Sciences),?2024,53(2):211?216.

猜你喜歡
特征提取語義法律
法律解釋與自然法
法律方法(2021年3期)2021-03-16 05:57:02
語言與語義
基于Gazebo仿真環境的ORB特征提取與比對的研究
電子制作(2019年15期)2019-08-27 01:12:00
一種基于LBP 特征提取和稀疏表示的肝病識別算法
“上”與“下”語義的不對稱性及其認知闡釋
現代語文(2016年21期)2016-05-25 13:13:44
讓人死亡的法律
山東青年(2016年1期)2016-02-28 14:25:30
“互助獻血”質疑聲背后的法律困惑
中國衛生(2015年1期)2015-11-16 01:05:56
認知范疇模糊與語義模糊
基于MED和循環域解調的多故障特征提取
讓法律做主
浙江人大(2014年5期)2014-03-20 16:20:27
主站蜘蛛池模板: 最新无码专区超级碰碰碰| 国产精品视频免费网站| 亚洲一区二区三区香蕉| swag国产精品| 亚洲日本在线免费观看| 亚洲专区一区二区在线观看| 欧美国产另类| 99re经典视频在线| 亚洲色图狠狠干| 久久久精品国产SM调教网站| 四虎影视永久在线精品| 国产极品美女在线观看| 亚洲美女高潮久久久久久久| 999国内精品视频免费| 国产一级精品毛片基地| 在线观看亚洲国产| 精品黑人一区二区三区| 漂亮人妻被中出中文字幕久久| 1024国产在线| 欧美中出一区二区| 在线99视频| 九月婷婷亚洲综合在线| 亚洲天堂啪啪| 久久久久九九精品影院| 色哟哟色院91精品网站| 亚洲成a人片7777| 久久国产成人精品国产成人亚洲 | 嫩草国产在线| av午夜福利一片免费看| 免费人成网站在线观看欧美| 国产一级视频久久| 亚洲日韩高清在线亚洲专区| 波多野结衣国产精品| 国产女同自拍视频| 国产成人综合日韩精品无码首页 | 精品福利视频网| 青草精品视频| 成年免费在线观看| 国产精品第页| 台湾AV国片精品女同性| 五月六月伊人狠狠丁香网| 999国产精品| 91黄视频在线观看| 久久亚洲AⅤ无码精品午夜麻豆| 日韩A级毛片一区二区三区| 亚洲v日韩v欧美在线观看| 国产精品性| 日a本亚洲中文在线观看| 亚洲成aⅴ人在线观看| 免费在线看黄网址| 久久婷婷综合色一区二区| 日本免费a视频| 亚洲首页国产精品丝袜| 亚洲精品777| 嫩草国产在线| 午夜毛片免费观看视频 | 国产爽妇精品| 久久久黄色片| 久久国产精品波多野结衣| 亚洲一级色| 欧美激情伊人| 欧美黄网站免费观看| 亚洲国产AV无码综合原创| 久久婷婷六月| 欧美激情视频一区二区三区免费| 四虎在线观看视频高清无码| 国产精品主播| 99久久精品免费看国产电影| 九色视频在线免费观看| 日本一区中文字幕最新在线| AV网站中文| 亚洲区第一页| 国产精品久久久免费视频| 亚洲综合日韩精品| 亚洲视频免| 亚洲欧美成aⅴ人在线观看| 四虎永久在线精品国产免费| 午夜视频免费试看| 波多野结衣在线se| 华人在线亚洲欧美精品| 国产老女人精品免费视频| 久久国产精品国产自线拍|