999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于知識融合和聚類引導的語言模型用于MOFs合成信息分類

2024-09-21 00:00:00李海軍王卓
現代電子技術 2024年18期

摘 "要: 金屬有機框架(MOFs)的合成實驗步驟通常集中存儲在科學文獻某一段落內,從文獻中提取實驗步驟對推動新型金屬有機框架的開發具有重要意義。現有研究存在兩個問題:第一,將整篇文獻視為普通文本,按句/段直接切分處理,忽略了上下文中隱藏的高級知識;第二,模型未深入挖掘數據內部的隱藏模式。針對上述問題,提出一個基于知識融合策略的高質量知識補充任務。利用科學文獻編輯風格和結構化Web數據的微妙之處,將上下文關鍵知識匯集到段落中,進而優化其文本表征;然后提出一種基于聚類引導的自適應分類算法,采用聚類算法將文本表征劃分為多個簇,同時訓練不同的分類模型來適應不同的簇,從而有效地減少數據重疊的影響,提高模型召回率。實驗結果表明,所提方法的性能相比主流基線模型有較大提升。

關鍵詞: 金屬有機框架; 科學文獻; 知識融合; 文本表征; 聚類引導; 自適應分類; 數據重疊

中圖分類號: TN919.6+5?34; TP391 " " " " " " " " " 文獻標識碼: A " " " " " " " " 文章編號: 1004?373X(2024)18?0179?08

Language model based on knowledge fusion and cluster guidance for MOFs synthesis information classification

LI Haijun1, 2, 3, WANG Zhuo1, 2

(1. Shenyang Institute of Automation, Chinese Academy of Sciences, Shenyang 110016, China;

2. Institutes for Robotics and Intelligent Manufacturing, Chinese Academy of Sciences, Shenyang 110169, China;

3. University of Chinese Academy of Sciences, Beijing 100049, China)

Abstract: The experimental steps for the synthesis of metal?organic frameworks (MOFs) are usually stored in a certain section of scientific literature. It is of great significance to extract the experimental steps from the literature to promote the development of new MOFs. There are two problems in the existing research: first, the whole literature is regarded as ordinary text, and the sentence/paragraph is directly segmented, ignoring the advanced knowledge hidden in the context; second, the model does not dig deeply into the hidden patterns within the data. On this basis, a high?quality knowledge supplementation tasks based on knowledge fusion strategy is proposed. The subtleties of literature editing styles and interactive web data are used to bring together context?critical knowledge into paragraphs, so as to optimize their textual representation. An adaptive classification algorithm based on clustering guidance is proposed. The clustering algorithm is used to divide text representation into multiple clusters, while training different classification model to adapt to different clusters, effectively reducing the impact of data overlap and improving model recall. The experimental results show that in comparison with the mainstream baseline models, the proposed method has great performance improvement.

Keywords: metal?organic framework; scientific literature; knowledge fusion; text representation; clustering guidance; adaptive classification; data overlap

0 "引 "言

金屬有機框架(Matal?organic Frameworks, MOFs)是一種周期性網狀結構材料,具有高度模塊性、可控設計性及多種物理化學性質[1?3],被預測為21世紀的決定性材料。MOFs的合成程序有大量可變合成參數(如溫度、反應時間、溶劑和pH),以往科研人員只能通過基于經驗和知識的“試錯”模式來尋找合成條件。這種方式十分低效,無法滿足國家戰略和重大工程對高性能MOFs材料的巨大需求。為了加速新型MOFs材料的研發進程,人們希望使用深度學習技術來提高預測任意MOFs合成條件的準確性,但這受到缺乏MOFs材料合成實驗步驟的綜合數據集的阻礙。由于互聯網技術的發展,大量公開可獲取的包含MOFs實驗合成信息的科學文獻以Web形式分散存儲于各大期刊出版社,而這些文獻對MOFs研發具有重要參考價值。因此,如何從海量的文獻中識別并分類出這些復雜合成信息,對加速MOFs研發有重要意義。

盡管近年來預訓練語言模型被廣泛用于各領域的分類任務中,并表現出優良的性能[4?6],但在處理冗長的文本尤其是背景更為復雜的特殊領域文本時,語言模型無法完全捕捉文本的關鍵知識,導致其很難理解長文本的復雜語義[7]。這些長文本中的語言規律使得微調預訓練語言模型所取得的效果不夠理想,特別是召回率指標。在遷移學習中,高召回率意味著模型學習到目標域的關鍵特征,因此提高模型召回率指標是整個遷移學習領域的重難點。

對于一些特殊的長文本語料如科學文獻,其上下文中可能存在一些直接影響模型輸出的前驅知識。例如,科學文獻大都有一些特殊的構詞規則,用于構建專有詞匯,這些詞匯往往被作者按照個人風格用不同的代詞在文中指代,而語言模型無法理解這些代詞含義以及文本之間的邏輯關系。與語言模型相比,讀者很少費力去理解科學文獻的重要內容和作者的隱喻,這是因為作者經常利用科學文獻中各種各樣的文本樣式,如粗體和斜體等來強調特定內容,這種機制可以引導讀者準確捕捉文章的語義。但是現有方法不支持學習并理解這種機制,而是局限于處理解析后的純文本。受此啟發,并參考大語言模型檢索增強生成技術[8]和提示工程[9]技術,針對以上問題,本文從數據層面提出一種高質量知識補充方法。該方法模仿人類閱讀習慣,從上下文獲取高質量知識來提高數據質量,從而有效地增強段落語義的信息表征。如圖1所示,高質量知識補充方法首先檢索文獻的粗體文本(圖1灰色字體),這些粗體文本作為代詞,是作者在文獻中重點強調的內容,直接影響模型對文本語義的理解;隨后基于最近距離機制和正則表達式匹配粗體文本及其相關內容;最后用這些相關內容替換全文的粗體文本(圖1中帶底紋字體),增強模型處理歧義和復雜邏輯關系的能力。通過注入上下文中關鍵信息引導模型能夠正確學習文本語義,提高模型對復雜合成信息的召回率。

同時在模型層面上,分類任務中造成模型性能表現不佳的原因之一是模型無法準確判別困惑樣本的類別,即樣本在語義表征空間中發生了數據重疊。針對該問題,本文提出一種基于聚類引導的自適應文本分類框架,通過引入無監督聚類作為代理任務,挖掘數據內部的隱藏模式來指導模型訓練,引導模型根據樣本分類難度自適應學習分類樣本的有效特征,有效減少了數據重疊的影響。本文總體框架如圖2所示,主要由三部分組成。

1) 本文利用各期刊出版社提供的文本數據挖掘服務,共收集了與34 143個MOFs合成相關的20 766篇HTML/XML格式的文獻作為語料庫,并基于此,人工標注了一個中等規模的關于MOFs合成信息的數據集。

2) 本文首次提出一種高質量知識補充方法,在模型訓練前,將科學文獻上下文中特定的關鍵內容作為高質量知識與當前段落相融合,有效增強了段落語義的信息表征,從而提高模型對不同類別樣本的分類性能。該方法簡練而高效,在HTML/XML格式科學文獻的處理上,具備一定的可移植性和擴展性。

3) 本文提出一種基于聚類引導的自適應文本分類框架,該框架融合聚類和分類算法來實現一個高性能分類系統。具體來說,在有監督微調之前添加一個無監督聚類任務,對段落級語義表示進行聚類,得到不同的數據集合,并為每個數據集合訓練基分類器。聚類是為了挖掘數據的內部隱藏性質,給后續分類模型決策額外提供有益的信息,提高模型對困惑樣本的區分能力。

1 "相關工作

文本分類是文獻文本挖掘中一個重要的子任務,是提取文獻知識的首要步驟。近年來,預訓練語言模型在多個自然語言處理任務中取得了SOTA效果,它們通常使用大量的文本語料庫學習通用表示,例如BERT[10]、Sentence?BERT[11]和DeBERTa[12]等。此外,為滿足專有領域的需求,研究人員收集了大量專有領域的語料并基于某個預訓練語言模型進行二次預訓練,得到如SciBERT[13]、MatsciBERT[14]和ChemBERT[15]等預訓練語言模型,這些語言模型常被用于解決相關領域的文本分類問題。

文獻[16]詳細介紹了如何在文本分類任務中使用預訓練語言模型進行精細微調的方法,當下游目標領域有足夠數量的訓練數據時,微調語言模型的效果會遠遠超過傳統模型。但由于人工標注數據非常耗時耗力或者語料庫的缺乏,在現實應用場景中,微調預訓練語言模型通常難以獲得期望的性能效果。文獻[17]通過設計輔助句子來構造句子對,將特定的領域知識整合到BERT模型中,在多個文本分類數據集上取得SOTA效果。該方法表明,當沒有足夠的標注數據訓練時,外部領域知識是提高微調語言模型效果的有效方法。文獻[18]利用預訓練語言模型的嵌入技術壓縮長文本,旨在削弱長文本中冗余信息和歧義信息帶來的不利影響,并在貿易協定長文本數據的分類上取得顯著的性能提升。上述研究均是為了使得模型能提取到區分樣本的有效特征,從而提高目標任務上的性能。

與以前的方法相比,本文工作從兩個方面做出改進:一方面,首次提出一個高質量知識補充方法來改善模型性能,且無需額外訓練和人工標注,從數據層面輔助模型捕捉文獻上下文中的事實知識,提高模型處理歧義和復雜邏輯關系的能力;另一方面,從任務層面出發,設計了一個特殊的代理任務來彌合語言模型的預訓練任務和下游目標任務之間的差距,即通過引入無監督聚類任務挖掘數據內部的模式,作為先驗信息在微調之前提供給模型,引導模型關注可緩解數據重疊的有效特征。

2 "數據集建立

2.1 "材料科學文獻語料庫構建

劍橋晶體數據中心(Cambridge Crystallographic Data Centre, CCDC)[19]自1965年來一直致力于晶體數據的收集與數字化工作,其收錄了全世界所有已認可的金屬有機化合物的結構和相關文獻方面的信息,這些文獻包含對應晶體的實驗合成信息。

為了構建關于MOFs材料合成文獻的語料庫,本文選擇劍橋結構數據庫MOFs子集(CSD_5.43),其中存儲每個MOFs對應的特殊標識符,可以通過這些標識符,在數據庫訪問相關內容。根據得到的特殊標識符使用CSD Python?API從數據庫中檢索到92 978個MOFs和對應的37 927個DOI號。本文在調研了多個主流期刊出版社的文本數據挖掘服務,并結合以往文本挖掘工作,利用出版社提供的API,通過DOI號批量獲取出版社數據庫中以HTML/XML/PDF格式存儲的文獻手稿。

文獻下載并解析后,需要將冗長的文本切分為短文本再進行后續處理。現有的文本處理工具均是利用自然語言中獨有的句子結束標志來完成對文本內容的切分工作,因此,在提取PDF格式文獻的內部信息時有提取數據不連續的可能,而HTML/XML作為標記語言,通過標簽和屬性組合可以清晰地描述文獻各個章節和段落單元,這種結構化的存儲方式同樣有利于后續的解析和處理。最終本文以20 766篇成功下載的HTML/XML格式科學文獻作為基礎語料庫,具體信息如表1所示。

2.2 "高質量知識補充方法

為了提高模型的性能表現,對實驗結果和數據進行探索性分析。本文收集的語料文獻中不僅包含MOFs的合成信息,還包括相關配料的合成信息,兩者間結構的高度相似會導致模型誤判。此外,段落中數值和代詞過多,缺乏關鍵信息,使得模型分類難度大。需要說明的是,由于MOFs和配料的命名方式十分復雜且不易書寫,文獻作者常利用數值類代詞指代,并使用粗體文本特別強調。顯然粗體文本蘊含十分重要的信息,能夠幫助模型區分結構相似的樣本,但現有模型和方法無法從單個段落中理解這些復雜的邏輯關系及知識。

相比于純文本語料,HTML/XML格式文本存儲著更豐富的信息,可以從中提取上下文的聯系補充給訓練數據。針對上述問題,本文首次提出一個高質量知識補充方法,無需額外訓練和人工標注,通過檢索文獻上下文中隱藏的信息,作為模型分類的關鍵特征與段落文本融合。具體來說,本文首先檢索得到全篇文獻數值類粗體文本及其鄰近句子;然后基于最近距離機制獲取粗體文本前后可能的指代內容,并使用正則表達式作為約束來檢驗相關信息是否為MOFs或者配料的實體名詞,循環執行上述操作直至獲取所有代詞及相應的指代對象;最后,在全文中將所有的數值類粗體文本替換為指代對象。表2所示為語料庫中執行高質量補充任務的文獻數量,共有17 020篇文獻成功執行,證明了該方法的實用性。

2.3 "數據集標注

本次數據集標注工作共有3人參與,采用1人標記、另外2人審核的方式,有效減少人為因素造成的錯標和漏標,保證數據標注的質量。首先,本文以分段隨機采樣的方式從20 766篇MOFs合成的相關科學文獻中收集1 000篇文獻,隨后按照段落切分后共獲得21 705個段落。本文將這些段落中包含實驗信息的段落命名為合成段落,其余段落命名為非合成段落,標注時令非合成段落文本標簽為0,合成段落文本標簽為1,并以文獻為單位,按照7∶2∶1的比例劃分訓練集、測試集和驗證集。構建的數據集具體信息如表3所示。

3 "方 "法

本文提出一種基于聚類引導的自適應分類框架,通過在預訓練語言模型表征層和下游分類層之間添加一個無監督聚類層來挖掘數據的隱藏模式,使得模型能更加關注于困惑樣本的區分,進而提高整體模型的性能。模型框架如圖3所示。

3.1 "預訓練語言模型編碼層

預訓練語言模型是一種基于Transformer架構的模型,可以對上下文進行雙向編碼,僅需少數的參數調整就可在大多數的自然語言任務上獲得最佳實驗性能,是自然語言處理領域重要的研究成果。本文利用多個預訓練語言模型作為編碼器層,將切分后的段落文本進行編碼,獲得連續的段落向量表示。

3.2 "無監督聚類算法

無監督聚類算法是一種機器學習算法,它通過分析數據本身的內在性質和模式,將樣本劃分為若干類別,使得同類別樣本間的相似度高,不同類別的樣本相似度低。K?means算法是經典的聚類方法,通過最小化簇內平方和來劃分數據。本文采用K?means算法將數據劃分為三個不同的簇,分別代表易分正類樣本、易分負類樣本和困惑樣本的集合,再基于聚類結果訓練后續的分類模型。

為更好地解釋本文所提出的基于聚類引導的自適應文本分類框架的優勢,首先使用BERT模型將文本編碼為向量,然后利用PCA算法將其降維并可視化。PCA算法作為一種線性降維技術,能夠反映原始數據的空間分布模式。PCA降維后的段向量分布如圖4所示,class 0和class 1分別代表非合成段落與合成段落。值得注意的是,圖中兩個類別的數據有一定重疊,這種數據重疊會在一定程度上造成模型誤判,導致許多樣本被錯誤分類,削弱模型的性能。

圖5是無監督聚類后得到的數據分布模式。訓練數據被劃分為3個集合,結合圖4可知:cluster 1和cluster 2的樣本邊界十分明顯,代表易分正類或易分負類樣本集合;而cluster 3中數據重疊現象最為顯著,代表困惑樣本集合。在聚類引導后,訓練數據按照分類難度被細分為不同的簇,在簇上訓練的分類器可以更好地學習區分樣本邊界的有效特征,從而提高整體模型的泛化能力。

3.3 "特征提取層

段向量是預訓練語言模型基于其語料庫學習得到的一種通用表示,需要在此基礎上做出一定的微調以更好地適用于下游任務。通過微調預訓練模型和特征提取層可以突出重要信息,弱化次要信息,更加全面地學習段落文本的語義表征。目前,在文本分類任務中,主流的特征提取網絡結構包括DPCNN[20]、Text?RCNN[21]和TextCNN[22]等。在多次實驗后,本文發現使用合理設計的LightMLP層作為特征提取層,其表現均優于上述特征提取網絡,故決定將BERT_LightMLP作為本文基線模型。

3.4 "模型分類層

模型分類層采用Softmax層進行預測分類,其輸入為段落文本的語義特征表示X,輸出為各類別真實性的概率o,公式如下:

[o=Softmax(W·X+b)] " " " " "(1)

式中:[W∈Rc×h]為變換矩陣;[b∈Rc]為偏置項,c為類別數目。

具體訓練過程如下:首先精細微調語言模型,使其能學習到訓練數據中一部分知識,獲取其對段落文本的語義向量表示;其次,利用K?means算法將這些語義向量表示劃分為易分正類和易分負類樣本集合或困惑樣本集合;然后,凍結之前微調后語言模型的參數,為聚類得到樣本集合,分別再訓練一個LightMLP層進行特征聚合;最后,新樣本經過語言模型編碼,可根據分類難度自適應分配到相應樣本集合對應的特征聚合層,再經Softmax層后輸出所屬類別。

4 "實 "驗

本文實驗環境配置為:NVIADA GeForce RTX 3060顯卡,編程語言分別是Python 3.9和PyTorch 1.10.1,超參數調優工具使用Optuna 3.3.0。

4.1 "評價指標

本文主要通過宏精確率Macro_P、宏召回率Macro_R和宏F1分數Macro?F1值三個指標來衡量模型性能,具體公式如下:

[Macro_P=系統正確預測的非合成段落個數2×系統預測的非合成段落個數+ " " " " " " " " " " "系統正確預測的合成段落個數2×系統預測的合成段落個數×100%] (2)

[Macro_R=系統正確預測的非合成段落個數2×實際上非合成段落個數+ " " " " " " " " " " "系統正確預測的合成段落個數2×實際上合成段落個數×100%] (3)

[Macro?F1=2×Macro_P×Macro_RMacro_P×Macro_R×100%] "(4)

4.2 "基線模型和超參數設置

為了證明本文方法對于提高微調預訓練語言模型在分類任務上性能效果的通用性,實驗選用的預訓練語言模型有BERT、MatsciBERT、SciBERT、ChemBERT、Sentence?BERT和DeBERTa?v3,其中BERT、Sentence?BERT和DeBERTa?v3是利用通用語料庫訓練的語言模型,MatSciBERT、SciBERT和ChemBERT是使用科學文獻語料進行二次預訓練的語言模型。在本文的實驗中,各語言模型將作為數據的編碼器,將文本轉化為連續向量表示。同時本文在將實驗數據集中21 705個文本段落編碼后的token長度統計后,確定其中位數為334,最終將各預訓練語言模型的最大輸入序列長度的超參數設置為350。實驗采用Adam優化器,并使用分層學習率分別調節預訓練語言模型和下游任務模型,使用Optuna框架對模型超參數進行自動化調優,綜合實驗后得到的最優超參數設置如表4所示。

4.3 "模型性能分析

本文共設置三組實驗來進行充分的比較,分別為:不同預訓練語言模型的對比實驗、高質量知識補充方法的消融實驗、聚類引導機制的消融實驗。

4.3.1 "不同預訓練語言模型的對比實驗

本節主要對基于不同預訓練語言模型的基線方法進行實驗,共設計了6個實驗,為后續實驗效果對比提供基準模型。表5列出了不同預訓練語言模型在MOFs合成信息分類任務上的性能。

本文從參數規模大小以及是否使用領域語料二次預訓練兩個方面進行分析。與BERT相比,參數量擴增1倍的DeBERTa?v3幾乎沒有性能提升,其根本原因在于兩者均無法從通用領域語料庫學習到專有領域中特殊的知識和模式。此外,在領域語料庫上二次預訓練的模型SciBERT和MatsciBERT,相比BERT和Sentence?BERT模型的實驗性能更優,表明二次預訓練能夠從專業領域語料庫中學習到部分領域專業知識和領域語言規律特性。另外,由于深度學習模型的性能與數據規模相關性強,ChemBERT二次預訓練用的領域語料僅選擇了20萬篇化學類科學文獻,而SciBERT使用了114萬文獻進行預訓練,MatSciBERT是在SciBERT的基礎上使用15萬篇文獻再次訓練。故本文推測數據量不足是導致ChemBERT表現欠佳的原因之一。

4.3.2 "高質量知識補充方法的消融實驗

為了驗證高質量知識補充方法的有效性,本節設置了6組實驗,如表6所示。表6列出了在表5中模型的基礎上增加高質量知識補充方法后,各模型在段落文本分類任務上的表現。可以看出,通過增加高質量知識補充方法,能夠有效提升各語言模型在下游分類任務上的性能表現。

結合表5與表6的結果可知,同原模型相比,增加高質量知識補充方法后的模型性能表現有明顯提升。模型BERT+HQ_know較于BERT模型的Macro?F1分數和Macro_R別提高了1.4%和1.3%,模型Sentence?BERT+HQ_know較于Sentence?BERT模型的Macro?F1分數和Macro_R分別提高了1.5%和2.3%,模型SciBERT+HQ_know相較于SciBERT模型的Macro?F1分數和Macro_R分別提高了0.9%和1.3%,模型ChemBERT+HQ_know相比ChemBERT模型的Macro?F1分數和Macro_R分別提高了1%和2.3%,模型MatSciBERT+HQ_know相比MatSciBERT模型的Macro?F1分數和Macro_R分別提高了0.7%和0.8%,模型DeBERT?v3+HQ_know相比DeBERTa?v3模型的Macro?F1分數和Macro_R分別提高了0.7%和1.1%,表明本文提出的高質量知識補充方法幫助模型學習到了長文本中關鍵的知識。同時在實驗過程中,本文注意到增加高質量知識補充方法的模型在訓練時達到收斂所需迭代次數遠小于未增加的高質量知識補充方法的模型,表明該方法可以在一定程度上提高模型訓練效率。

4.3.3 "聚類引導機制的消融實驗

為了驗證聚類引導機制的有效性,選取性能表現較好的預訓練語言模型MatSciBERT和SciBERT作為編碼器進行實驗。消融實驗結果如表7所示,其中Cluster表示在預訓練語言模型的基礎上,加入一個無監督聚類任務引導模型自適應選擇分類方案。與沒有聚類引導機制的系統對比,通過新增一個無監督聚類層可以提高模型性能,如“SciBERT+Cluster”和“MatSciBERT+Cluster”的Macro?F1分數分別增加了0.6%和0.3%,這表明聚類引導機制可以提高后續分類模型對困惑樣本的識別能力。另外,在增加高質量知識補充方法和聚類引導分類機制后,“SciBERT+HQ_know+Cluster”和“MatSciBERT+HQ_know+Cluster”系統Macro?F1性能指標均較原系統提升了1.9%,整個分類系統的性能得到了顯著增強。

總的來說,在現有高質量有監督數據集稀缺以及算力受限的情況下,利用高價值的外部知識進行有效的表征增強或深入挖掘數據內部隱藏模式,是提升模型在下游目標任務表現最具性價比的方法。

5 "結 "語

現有對文獻文本處理任務的研究大都集中在增加模型復雜度和收集更多的領域語料進行二次預訓練,并沒有很好地利用到科學文獻的特性來獲取其上下文之間的聯系。針對該問題,本文首次提出一個高質量知識補充方法,將文獻上下文中特定的關鍵內容作為高質量知識與當前段落相融合,增強段落語義的信息表征,提升了后續段落文本分類任務的性能表現。同時,本文提出一種基于聚類引導的自適應文本分類框架,該模型融合聚類和分類算法來實現一個高性能分類系統,進一步改善了模型性能。實驗結果表明,本文方法在沒有過度增大模型參數量和二次預訓練的場景下,充分挖掘外部知識和數據內部隱藏模式,顯著地提高了系統性能和訓練效率,具有很好的實用價值。

在未來的工作中,將嘗試把本文方法與大語言模型相結合,為模型在預訓練或微調階段創建高質量的數據,同時將這種高質量知識補充方法從單模態數據推廣至多模態數據,并探究用算法自動引導模型訓練時將更多注意力放在被筆者突出顯示的高質量知識處。

注:本文通訊作者為王卓。

參考文獻

[1] PEERA S G, BALAMURUGAN J, KIM N H, et al. Sustainable synthesis of Co@ NC core shell nanostructures from metal organic frameworks via mechanochemical coordination self?assembly: an efficient electrocatalyst for oxygen reduction reaction [J]. Small, 2018, 14(19): e1800441.

[2] LIANG Z, QU C, GUO W, et al. Pristine metal?organic frameworks and their composites for energy storage and conversion [J]. Advanced materials, 2017, 30(37): e1702891.

[3] WU H B, LOU X W D. Metal?organic frameworks and their derived materials for electrochemical energy storage and conversion: promises and challenges [J]. Science advances, 2017, 3(12): 9252.

[4] LUO R, SUN L, XIA Y, et al. BioGPT: generative pre?trained transformer for biomedical text generation and mining [J]. Briefings in bioinformatics, 2022, 23(6): bbac409.

[5] CHOUDHARY K, KELLEY M L. ChemNLP: a natural language?processing?based library for materials chemistry text data [J]. The journal of physical chemistry c, 2023, 127(35): 17545?17555.

[6] TSHITOYAN V, DAGDELEN J, WESTON L, et al. Unsuper?vised word embeddings capture latent knowledge from materials science literature [J]. Nature, 2019, 571(7763): 95?98.

[7] LIU N F, LIN K, HEWITT J, et al. Lost in the middle: how language models use long contexts [J]. Transactions of the association for computational linguistics, 2024, 12: 157?173.

[8] MA X, GONG Y, HE P, et al. Query rewriting for retrieval?augmented large language models [EB/OL]. [2023?08?17]. http://www.paperreading.club/page?id=166132.

[9] CUI L, WU Y, LIU J, et al. Template?based named entity recognition using BART [C]// Findings of the Association for Computational Linguistics: ACL?IJCNLP 2021. [S.l.]: ACL, 2021: 1835?1845.

[10] KENTON J D M W C, TOUTANOVA L K. BERT: pre?training of deep bidirectional transformers for language understanding [C]// Proceedings of 2019 Annual Conference of the North American Chapter of the Association for Computational Linguistics. Minneapolis, USA, HLT: 2019: 4171?4186.

[11] REIMERS N, GUREVYCH I. Sentence?BERT: sentence em?beddings using Siamese BERT?networks [C]// Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing. Hong Kong, China: ACM, 2019: 3982?3992.

[12] HE P, LIU X, GAO J, et al. DEBERTA: decoding?enhanced BERT with disentangled attention [EB/OL]. [2023?12?07]. https://www.xueshufan.com/publication/3122890974.

[13] BELTAGY I, LO K, COHAN A. SciBERT: a pretrained language model for scientific text [C]// Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing. Hong Kong, China: ACM, 2019: 3615?3620.

[14] GUPTA T, ZAKI M, KRISHNAN N M. MatSciBERT: a materials domain language model for text mining and information extraction [J]. NPJ computational mathematics, 2022, 8: 102.

[15] GUO J, IBANEZ?LOPEZ A S, GAO H, et al. Automated chemical reaction extraction from scientific literature [J]. Journal of chemical information and modeling, 2022, 62(9): 2035?2045.

[16] SUN C, QIU X, XU Y, et al. How to fine?tune BERT for text classification? [C]// China National Conference on Chinese Computational Linguistics. Cham: Springer, 2019: 194?206.

[17] YU S, SU J, LUO D. Improving BERT?based text classifi?cation with auxiliary sentence and domain knowledge [J]. IEEE access, 2019, 7: 176600?176612.

[18] ZHAO J H, MENG Z Y, GORDEEV S, et al. Key information retrieval to classify the unstructured data content of preferential trade agreements [J]. Computer science bibliography, 2024(2): 12520.

[19] MOGHADAM P Z, LI A, WIGGIN S B, et al. Development of a cambridge structural database subset: a collection of metal?organic frameworks for past, present, and future [J]. Chemistry of materials, 2017, 29(7): 2618?2625.

[20] JOHNSON R, ZHANG T. Deep pyramid convolutional neural networks for text categorization [EB/OL]. [2024?01?11]. https://aclanthology.org/P17?1052.pdf.

[21] LAI S, XU L, LIU K, et al. Recurrent convolutional neural networks for text classification [C]// Proceedings of the AAAI Conference on Artificial Intelligence. Austin, Texas: AAAI, 2015: 2263?2273.

[22] KIM Y. Convolutional neural networks for sentence classifi?cation [C]// Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing (EMNLP). Doha, Qatar: ACL, 2014: 1181.

主站蜘蛛池模板: 女人一级毛片| 国产成人一区免费观看| 伊人久综合| av一区二区三区高清久久| 强奷白丝美女在线观看| 免费看黄片一区二区三区| 国产经典在线观看一区| 欧美在线导航| 亚洲欧美在线综合一区二区三区| 久久国产高清视频| 亚洲v日韩v欧美在线观看| 国产丰满大乳无码免费播放| 亚洲人成网7777777国产| 欧美一区二区丝袜高跟鞋| 99久久国产精品无码| 欧美日本一区二区三区免费| 国产一级裸网站| 国产在线视频欧美亚综合| 国内熟女少妇一线天| 免费A∨中文乱码专区| 国产精品尤物铁牛tv| 日韩国产综合精选| 凹凸精品免费精品视频| 国产一区二区精品福利| 手机在线免费不卡一区二| 日韩欧美综合在线制服| 中文字幕啪啪| 欧美日韩第二页| 无码AV日韩一二三区| 日本不卡视频在线| 国产欧美日韩在线一区| 久操中文在线| 亚洲精品自拍区在线观看| 无码一区中文字幕| 欧美一区二区自偷自拍视频| 亚洲AⅤ无码国产精品| 亚洲人成网址| 午夜高清国产拍精品| 色综合天天娱乐综合网| 91精品啪在线观看国产60岁| 日韩国产欧美精品在线| 久久特级毛片| 国产精品专区第1页| 美女免费黄网站| 免费人成黄页在线观看国产| 国产亚洲欧美日韩在线一区二区三区| 操国产美女| 日日拍夜夜嗷嗷叫国产| 国产精品毛片一区| 99成人在线观看| 日日碰狠狠添天天爽| 在线观看精品国产入口| 东京热av无码电影一区二区| 欧美亚洲第一页| 国产9191精品免费观看| 国内精品自在自线视频香蕉| 九九精品在线观看| 国产成人精品日本亚洲| 久久久久久久蜜桃| 国产成人8x视频一区二区| 全部毛片免费看| 在线亚洲精品自拍| 亚洲最新网址| 成人午夜精品一级毛片| 另类专区亚洲| 亚洲精品国产精品乱码不卞 | 又爽又大又黄a级毛片在线视频| 亚洲国产综合自在线另类| 国产成人综合久久精品尤物| 精品五夜婷香蕉国产线看观看| 91在线一9|永久视频在线| 国产亚洲精| 日韩在线2020专区| 91www在线观看| 婷婷开心中文字幕| 999精品色在线观看| 日韩精品一区二区三区swag| 免费va国产在线观看| 老色鬼久久亚洲AV综合| 亚洲成人在线播放 | 高清无码一本到东京热| 99国产精品国产高清一区二区|