999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

不同自然語言處理方法在土壤環境污染調查報告文本信息抽取中的對比研究

2024-04-01 08:09:14孫維維潘賢章郭觀林
環境科學研究 2024年3期
關鍵詞:規則文本效果

孫維維,潘賢章,2,劉 杰*,郭觀林,李 衍,王 娟,項 鈺,王 睿

1. 中國科學院南京土壤研究所,土壤與農業可持續發展國家重點實驗室,江蘇 南京 210008

2. 中國科學院大學,北京 100049

3. 生態環境部土壤與農業農村生態環境監管技術中心,北京 100012

4. 訊飛智元信息科技有限公司,安徽 合肥 230088

隨著我國工業化的快速發展,早期不合理和粗放式的管理遺留了大量污染場地[1]. 為防控污染地塊環境風險,保護生態環境并保障人民的身體健康,對有關地塊進行土壤環境污染調查是必不可少的步驟[2].我國于2016 年啟動了《土壤污染防治行動計劃》,明確深入開展以農用地和重點行業企業用地為重點的土壤環境質量調查,并建立土壤環境質量狀況定期調查制度[3];同年,原環境保護部出臺《污染地塊土壤環境管理辦法》,進一步規范了污染地塊環境保護監督管理,土壤環境調查、風險評估、風險管控、治理與修復及其效果評估等相關文本數據爆發式增長,積累了豐富的地塊土壤環境信息[4-6]. 土壤環境調查報告包含地塊名稱、位置、面積、利用歷史、環境資料等基本信息,以及現場踏勘、采樣分析、評估、結果分析等重要信息,因此對其文本要素信息進行結構化抽取可有效支持污染場地智能化管控[7]. 利用自然語言處理(natural language processing,NLP) 方法,研究者開展了許多環境文本信息抽取研究,如從環境科研文獻中提取元數據信息[8],從在線新聞中提取環境事件信息[9],以及從調查報告提取土壤-環境關系[10]等. 然而,仍然缺乏從土壤環境污染調查報告中系統性抽取文本要素的研究,滿足不了管理部門對場地狀況快速精準掌控的數據需求[11-12].

近年來,隨著NLP 技術的發展,計算機對人類語言的理解和處理能力日益提升[13-14]. NLP 技術涉及計算語言學、人工智能等多個領域,可用于文本分類、信息抽取及機器翻譯等多個方面[15-19]. 其中,信息抽取是NLP 的一個重要分支,主要是指從文本數據中抽取特定信息的技術. 對于具有特定組合規則的文本,通過定義一定的語言組合規則,利用傳統規則匹配方法可以實現相關要素信息的抽取. 利用基于規則的方法,研究者對科研文獻中的方法文本要素進行了抽取[20-21],對Web 網頁文本內容抽取也進行了探索[22].這種方法在解決一些簡單任務時可有效抽取大量要素信息并提高效率,但隨著任務復雜度的增加,規則編寫難度會愈來愈大,且需要大量的人工干預,因而該方法可擴展性和泛化能力受到限制[23].

隨著深度學習技術的興起,基于卷積神經網絡(convolutional neural networks,CNN)、循環神經網絡(recurrent neural network,RNN)等進行文本信息抽取的研究不斷涌現[24]. 2017 年,谷歌提出了具有里程碑意義的轉換器(transformer)模型,此后基于該模型發展的生成式預訓練轉換器(generative pre-trained transformer,GPT)[25]、轉換器的雙向編碼器表示模型(bidirectional encoder representations from transformers,BERT)[26],持續推動著人工智能方法處理文本能力的提升. 相對于傳統規則匹配方法,BERT 預訓練語言模型從單詞的兩邊(左邊和右邊)來考慮上下文,且具有更好的泛化能力和擴展性,可以處理更加復雜的自然語言任務,如問答、文本分類及命名實體識別等. 基于BERT模型,謝騰等[27]對中文命名實體要素識別進行了研究,吳俊等[28]對中文專業術語的抽取進行了研究,景慎旗等[29]對中文電子病歷中醫學要素抽取進行了研究,都取得了較好的效果. 基于BERT 模型的方法依賴大規模領域標注數據進行訓練,需要專家經驗的支持及人工標注,而基于GPT 模型的ChatGPT 在一定程度上能夠減輕對監督學習的依賴.

已發布的基于GPT-3 模型[30]的智能聊天語言生成器ChatGPT[31](https://chat.openai.com),因其高水平的文本交互能力而在短時間內吸引了全球關注. 作為一個自回歸語言模型,GPT-3 延續了GPT 的單向語言模型訓練方法,使用更多的參數來提高上下文學習能力,對45 TB 的數據進行訓練,包含1 750 億個參數. ChatGPT 作為一個通用助手,具有強大的自然語言理解和生成能力,可以處理多種開放的自然語言處理任務,極大地改變了人們處理文本信息的方式,在教育、搜索、醫療等行業產生了深遠影響[32-37]. ChatGPT具有從非結構化文本中提取出(半)結構化信息的能力,且表現出了較好的效果[38],為從土壤環境污染調查報告中抽取關鍵文本信息提供了新思路. 本研究使用傳統規則匹配、BERT 和GPT(ChatGPT)語言模型等NLP 方法,分別對土壤環境污染調查報告文本中的關鍵信息進行抽取,并對結果進行對比分析,探討不同方法的適用性和局限性.

1 材料與方法

1.1 實驗數據

針對土壤環境污染調查報告內容特征與應用需求,梳理出地塊基本信息、污染源信息、遷移途徑信息等8 個方面的關鍵文本要素,形成了包括“地塊名稱”“地塊類別”“地塊占地面積”等112 類需抽取的文本要素標簽. 本研究中,共用到378 份PDF 格式的土壤環境污染調查報告(來自北京市、天津市、廣東省、江蘇省和安徽省5 個省市),首先按照章節目錄將報告轉換為文本格式. 其中,363 份作為BERT 模型的訓練樣本;同時,對另外15 份中涉及敏感信息的文本以其他隨機字符進行替換,用以評估不同NLP 方法的抽取效果.

1.2 技術框架

根據《建設用地土壤污染狀況調查技術導則》(HJ 25.1-2019),土壤污染狀況調查報告相關內容具有一定的格式和要求,主要包括概述,地塊概況,資料分析,現場踏勘和人員訪談,采樣和分析,結果和評價,以及結論和建議等內容. 因此,基于調查報告內容特征和專家經驗,制定了本研究的技術框架(見圖1):首先,通過對文檔報告目錄的解析,按照章、節等進行拆分,轉換為txt 文本;其次,結合文本要素標簽,分別利用傳統規則匹配方法、BERT 模型、GPT 模型方法,進行文本要素信息抽取;最后,對不同NLP 方法抽取效果進行評估,探討不同方法的適用場景.

圖1 研究的技術框架Fig.1 The technical framework of the study

1.3 傳統規則匹配方法

傳統規則匹配方法是指根據相關標準規范和專家知識,對特定領域的文本術語進行識別,通過歸納總結,自定義構建該領域的語言規則集合,并根據規則在文本中查找各要素標簽對應的信息. 理論上來講,只要制定足夠多的語言規則并確定合適的優先級,就能得到較高的信息抽取準確率[23],但是相關規則的構建需要專家經驗,且耗費大量的人力和時間. 根據調查報告中文本的共性特點,針對112 類文本要素標簽,分別制定了信息抽取的匹配規則,進而識別包含特定關鍵詞的句子. 例如,對于“四至范圍”要素標簽,將“四至”或“東至”“西至”“南至”“北至”等關鍵詞加入匹配規則,包含這些關鍵詞的句子都自動抽取到“四至范圍”標簽的內容. 最后,基于構建的匹配規則,對15 份報告進行了要素信息抽取,將返回的抽取結果存儲在數據庫或表格中,并進行模型抽取效果的評估.

1.4 BERT 模型

BERT 模 型 采 用BERT-BiLSTM-Attention-CRF模型結構(見圖2),首先,基于調查報告文本要素標簽和專家經驗,在土壤環境污染調查報告中人工標注要素標簽對應的文本內容;其次,對標注內容的單個字符進行編碼,得到單個字符對應的詞向量,接著利用BiLSTM 層對輸入文本進行雙向編碼,在解碼前使用注意力機制增加上下文相關的語義信息,并將包含上下文信息的語義向量輸入條件隨機場(conditional random field,CRF) 進行解碼,CRF 層可以輸出概率最大的標簽序列,從而得到每個字符的類別,進而形成文本要素抽取模型;同時,對于抽取效果較差的要素標簽,通過優化文本標注、模型參數等手段,進一步優化抽取結果.

圖2 基于BERT 模型的文本要素抽取流程Fig.2 The process of text element extraction based on BERT model

在本研究中,對363 份報告進行標注獲取到81 122條要素標簽對應的文本信息,將其按8∶2 的比例劃分為訓練集與測試集,經過多輪標注和參數迭代優化,獲取到最優的BERT 文本要素抽取模型,將另外15份報告作為新鮮樣本用于模型的效果評估.

1.5 GPT 模型

ChatGPT 3.5 是在GPT-3 的基礎上,采用一系列的模型(GPT-3.5,包括3 個GPT-3 變體,每個變體有13 億、60 億和1 750 億個參數) 進行更大規模的訓練. 依托于大型GPT 模型結構[25],該模型使用了多層單向的Transformer 解碼器,并采用隨機梯度下降訓練神經網絡參數(見圖3). GPT 針對下游任務采用統一框架,直接在Transformer 的最后一層連接softmax作為任務輸出層,減少了計算復雜度. 模型采用多頭自注意力機制對輸入文本的上下文向量進行處理,然后由位置感知的前饋層對目標詞向量產生輸出分布,計算公式如下:

圖3 基于GPT 模型的文本要素抽取流程Fig.3 The process of text element extraction based on GPT model

式中,U為標記的上下文向量,We為標記嵌入矩陣,Wp為位 置 嵌 入 矩陣,n為transformer 的 層 數,hm和hm-1分別為第m和m-1 層的輸出,P(u)為輸出分布.

首先,對于不同的要素標簽,有針對性地制定了相應的提示詞模板;其次,將隱藏了敏感信息的15 份報告進行文本拆分,之后輸入ChatGPT 3.5 接口,利用提示詞向GPT 模型提出要抽取的文本信息;再次,對于抽取效果較差的要素標簽,通過優化提示詞手段改進抽取結果;最后,將返回的標簽信息存儲在數據庫或表格中,用于后續的效果評估(見圖4).

圖4 基于提示詞的GPT 模型交互式文本要素抽取示例Fig.4 The example of interactive text element extraction with GPT model based on prompts

1.6 評價方法

采用準確率(Precision)、召回率(Recall)和F1 分數作為評價指標,對文本要素抽取效果進行評估. 準確率是指正確識別出的信息數占總識別出的信息數的比例;召回率是指正確識別出的信息數占所有存在信息數的比例;F1 分數是準確率和召回率的調和平均數. 各項指標的計算公式如下:

式中,P為準確率,R為召回率,TP 表示真正例(即正確抽取的信息個數),FP 表示假正例(即錯誤抽取的信息個數),FN 表示假負例(即存在但未抽取出的信息個數).

2 結果與討論

2.1 總體結果和精度對比

利用3 種NLP 方法對15 份報告進行信息抽取,整體精度指標統計結果如表1 所示. 可以看出,傳統規則匹配方法要素抽取精度較低,準確率、召回率和F1 分數分別為52.38%、21.15% 和30.14%;而BERT模型抽取效果優于傳統規則匹配方法,其準確率、召回率和F1 分數分別為82.81%、33.21%和47.41%,相比于規則匹配方法分別提高了58.08%、57.00%、57.31%;GPT 模型的準確率、召回率和F1 分數分別達到97.80%、84.43%和90.62%,相比于規則匹配方法分別提高了86.70%、299.12%、200.70%,相比于BERT 模型分別提高了18.10%、154.21%、91.15%. 結果表明,在土壤環境污染調查報告的文本要素抽取任務中,GPT 模型具有較好的抽取效果,這是由于其上下文理解能力、預訓練策略、模型規模等多種因素共同作用的結果. 因為GPT 對大規模文本數據進行了考慮上下文關系的無監督預訓練,使其能夠學到更豐富、更復雜的語言模式;同時,GPT 具有更大的參數量和深層的網絡結構,這使得它能夠更好地捕捉土壤環境污染調查報告中復雜和多樣的文本信息,有助于抽取效果的提升.

表1 不同方法抽取效果對比Table 1 Comparison of extraction results of different methods

2.2 不同要素標簽抽取效果

為了進一步分析3 種方法對不同要素標簽的抽取效果,分別統計了每種方法對各標簽信息的抽取精度. 在此僅展示24 個要素標簽的抽取精度,因為其他標簽要素在一種或多種方法下的TP+FP=0 或TP+FN=0,無法計算準確率或召回率,抽取準確度、召回率和F1 分數統計結果見圖5、圖6 和圖7.

圖5 不同標簽要素的抽取準確率Fig.5 The accuracy for the extraction of each label element using three NLP methods

圖6 不同標簽要素的抽取召回率Fig.6 The recall for the extraction of each label element using threeNLP methods

圖7 不同標簽要素的抽取F1 分數Fig.7 The F1-score for the extraction of each label element using three NLP methods

從準確率結果(見圖5)可以看出,傳統規則匹配方法對少數標簽信息具有較高的抽取準確率,其中,“地塊名稱”“風險暴露介質”“地塊占地面積”等5種標簽信息抽取準確度在80%以上,而其他多種標簽的信息抽取準確率較低,且“用地規劃”“地下水關注污染物”等8 多種標簽的信息抽取準確低于40%. BERT 語言模型對“地塊名稱”“城市”“相關環境管理政策”等22 種標簽的信息抽取準確率大于80%,其中21 種標簽的信息抽取準確率為100%,抽取效果比較穩定,而對“地塊占地面積”的抽取準確率低于80%,對“規劃用地類型”的抽取準確率低于50%. GPT 模型則對各項標簽的信息抽取準確率相對較高,對24 種標簽的信息抽取準確率都在90%以上,抽取性能比較平衡.

從召回率結果(見圖6)可以看出,傳統規則匹配方法、BERT 和GPT 模型的抽取召回率在80%以上的標簽數分別為3、5 和4 個,而3 種方法對其余的大多數標簽信息的召回率都在60% 以下,其中,在40%~60%之間的標簽數分別為4、8 和11 個,在20%~40%之間的標簽數分別為8、7 和5 個,并且,傳統規則匹配方法對“風險暴露介質”“土地用途”“土壤布點原則”和“遷移途徑”4 種標簽信息的抽取召回率低于20%. GPT 模型的召回率相比準確率優勢不明顯,這可能是由于GPT 模型的生成能力較強,并且在抽取文本信息時存在一定的“冗余性”[37],有時甚至會生成與報告不相符的文本,比如只輸出“詳見第XX 節”,在精度評估時也將其歸為錯誤抽取結果,從而影響了召回率.

從F1 分數結果(見圖7)可以看出,傳統規則匹配方法、BERT 和GPT 模型的抽取F1 分數在80%以上的標簽數分別為3、5 和4 個,傳統規則匹配方法僅對“地下水埋深”信息的抽取F1 分數在60%~80%之間,而BERT 和GPT 模型的F1 分數在60%~80%之間的標簽數分別為7 和11 個,3 種方法的F1 分數在40%~60%之間的標簽數分別為7、9 和7 個,在20%~40%之間的標簽數分別為8、1 和2 個;同時,傳統規則匹配方法對“土地用途”“土壤布點原則”“溫度”和“遷移途徑”4 種標簽信息的抽取F1 分數低于20%,而BERT 對“生產涉及產品”和“地下水關注污染物”的抽取F1 分數低于20%.

2.3 討論

從本研究的文本要素信息抽取效果可以看出,傳統規則匹配方法對大多數標簽信息的抽取精度較低,但對少數標簽信息具有較高的抽取精度. 這是因為基于規則的方法需要手動編寫規則,而這些規則可能無法覆蓋所有情況,且難以處理復雜的語言結構和多義詞等[39],因此,基于規則方法的信息抽取準確性受到限制,但此方法對大批量報告的提取具有效率優勢,能適用于大量土壤環境污染調查報告中語言模式比較單一的要素標簽(如“地塊名稱”“城市”等)的信息抽取任務. 相比之下,BERT 模型能夠獲得更好的抽取效果,特別是對于條目列舉類要素標簽(如“相關環境管理政策”等). 這是因為BERT 模型是基于大規模標注文本數據進行訓練的,它能夠自動地學習語言結構和上下文信息,從而更準確地抽取比較復雜的文本信息[40-42]. BERT 模型還可以解決多義詞等語言難題,提高了抽取的準確性,但它有時會輸出多個選項,而不是準確答案,如抽取“調查所處階段”標簽信息時,會將文本中出現的“初步調查”“詳細調查”等字符都抽取出來. 此外,BERT 模型依賴大量有標注的文本數據,容易出現標簽漏標、標簽混淆、數據缺失等問題,需要在模型訓練中反復采取優化標注標準、擴充標注數據和補充漏標標簽等措施以優化模型[43].而GPT 模型具有更強的上下文理解能力,對多數標簽的信息抽取綜合表現較好,特別是對于總結判斷類標簽信息(如“廠區內是否有廢水治理設施”等),具有較高的信息抽取精度和穩定性.

本研究中,BERT 和GPT 模型的訓練方式不同,BERT 是基于有監督的方式進行的預訓練,利用標注的土壤環境污染調查報告進行訓練;而GPT 是基于無監督的方式進行的預訓練,利用大量未標注的語料庫進行訓練,利用提示詞進行文本要素抽取. 在預訓練過程中,BERT 會學習到標注數據中的文本信息和規則,但這些規則可能并不適用于其他未標注的數據,因而對未標注或少量標注的要素標簽信息進行抽取時,BERT 的效果可能會下降.雖然GPT 模型的預訓練過程中沒有受到標注數據的干擾,對新的標簽信息抽取的泛化能力更強,但也有可能生成與實際不符的要素標簽信息. 同時,在學習到一定量場地領域的知識后,BERT 模型對場地文本要素抽取效果更好.因此,在文本要素標簽標注達到特定量的情況下,BERT 語言模型的信息抽取效果有可能會超過GPT模型[44].

綜上所述,在本研究的土壤環境污染調查報告的文本要素抽取中,GPT 模型展現出了較好的抽取效果. 然而,ChatGPT 提示詞構造存在主觀性,不同提示詞抽取效果也存在差異[45-46]. 已有研究發現,在標注訓練數據集足夠大時,GPT 模型在某些信息抽取任務中的表現不及BERT 等模型[26]. 因此,本研究中用于BERT 模型訓練的標注數據量可能仍然是影響BERT 模型精度的主要因素. 雖然本研究中BERT 模型的整體抽取效果不及GPT 模型,但通過增加訓練樣本量、優化文本標注和模型參數等措施,其性能將會進一步提升. 考慮到標注樣本數據需要大量的人力投入,因此,探索聯合規則匹配、BERT 和GPT 模型等不同NLP 方法,利用各自方法的優勢針對不同的文本要素標簽制定相應的抽取策略,可能更適用于土壤環境污染調查報告信息抽取任務.

3 結論

a) 利用不同NLP 方法進行文本信息抽取時,GPT 模型在抽取準確率、召回率和F1 分數方面表現出色,分別達到97.80%、84.43%和90.62%,相比傳統規則匹配方法,分別提高了86.70%、299.12%和200.70%;相比BERT 語言模型,分別提高了18.10%、154.21%和91.15%.

b) 不同的NLP 方法在土壤環境污染調查報告文本要素抽取中均有一定的適用性,GPT 模型準確率較高,但通過增加訓練樣本量、優化標注和模型參數等方法,BERT 模型可能會擁有更好的針對場地領域文本要素的抽取效果.

猜你喜歡
規則文本效果
撐竿跳規則的制定
按摩效果確有理論依據
數獨的規則和演變
在808DA上文本顯示的改善
迅速制造慢門虛化效果
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
抓住“瞬間性”效果
中華詩詞(2018年11期)2018-03-26 06:41:34
讓規則不規則
Coco薇(2017年11期)2018-01-03 20:59:57
TPP反腐敗規則對我國的啟示
模擬百種唇妝效果
Coco薇(2016年8期)2016-10-09 02:11:50
主站蜘蛛池模板: 无码日韩精品91超碰| 午夜无码一区二区三区| 国产真实二区一区在线亚洲| 99久久精品久久久久久婷婷| 久久人妻xunleige无码| 亚洲人成色在线观看| 97国产在线视频| 少妇人妻无码首页| a级毛片毛片免费观看久潮| 老色鬼欧美精品| 国产精品刺激对白在线| 韩日无码在线不卡| 日韩av手机在线| AV不卡无码免费一区二区三区| 四虎永久在线精品国产免费| 欧洲一区二区三区无码| 国产喷水视频| 久久伊伊香蕉综合精品| 高清无码一本到东京热 | 国产黄色片在线看| 无码中文字幕精品推荐| 久久特级毛片| 黄色在线网| 午夜不卡视频| 欧洲亚洲一区| 亚洲天堂首页| 黄色一及毛片| 亚洲第一页在线观看| 国产乱人免费视频| 久久免费成人| 国产精品视频久| 最新日本中文字幕| 亚洲第一网站男人都懂| 无码免费视频| 在线观看欧美国产| 亚洲一区免费看| 欧美有码在线观看| 亚洲无线观看| 日韩欧美网址| 成人精品午夜福利在线播放| 国产一区亚洲一区| 四虎国产精品永久一区| 亚洲永久色| 欧美成人精品一区二区| 亚洲不卡无码av中文字幕| 性网站在线观看| 亚洲欧洲日韩久久狠狠爱| 欧美色视频在线| 国产欧美视频在线观看| 毛片一级在线| 男女猛烈无遮挡午夜视频| 又黄又爽视频好爽视频| 欧美午夜理伦三级在线观看| 亚洲色图欧美一区| 亚洲欧美国产视频| 欧美日韩国产精品va| 99手机在线视频| 国产91全国探花系列在线播放| 伊人久综合| 国产乱人免费视频| 亚洲中文精品久久久久久不卡| 国产青青操| 无码粉嫩虎白一线天在线观看| 亚洲日韩国产精品无码专区| 国产成人精品男人的天堂下载 | 免费在线不卡视频| 亚洲欧美一区二区三区图片| 亚洲欧洲国产成人综合不卡| av一区二区三区高清久久| 久久综合色88| 一级毛片基地| 国产无人区一区二区三区| 亚洲欧美自拍视频| 新SSS无码手机在线观看| 国产精品无码作爱| 国产乱子精品一区二区在线观看| 免费Aⅴ片在线观看蜜芽Tⅴ| 久久综合结合久久狠狠狠97色| 亚洲成年人片| 亚洲Av激情网五月天| 亚洲第一精品福利| 精品自窥自偷在线看|