999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于BiLSTM模型的冶金領域國家標準指標識別研究

2023-12-03 10:22:51夏磊方思怡解凌蔡焱顧曉虹
中國標準化 2023年3期
關鍵詞:深度學習

夏磊 方思怡 解凌 蔡焱 顧曉虹

摘 要:冶金行業為集成電路、人工智能、航空航天等重要領域提供必不可少的金屬原材料。冶金國家標準是重要的基礎性戰略資源,在冶金產業的高質量發展中發揮技術性支撐作用。國家標準文本中蘊含大量的關鍵技術性指標,人工逐一識別并抽取的模式在大數據時代已無法滿足數字化轉型的需求。本研究采用深度學習算法,對冶金領域的國家標準文本分別開展RNN、GRU和BiLSTM模型的對比實驗,根據模型性能擇優選取最優模型。研究結果顯示BiLSTM模型在冶金領域國家標準指標識別的表現上最好,由此采用BiLSTM為該領域標準指標識別的深度學習模型。

關鍵詞:冶金,國家標準,標準指標識別,深度學習,BiLSTM

DOI編碼:10.3969/j.issn.1002-5944.2023.03.014

基金項目:本文受上海市市場監督管理局科技項目“標準指標智能抽取和比對技術在政府監管和‘企標領跑者制度實施中的研究與應用”(項目編號:2021-47)資助。

Research on the Identifi cation of National Standard Indicator in Metallurgical Field Based on BiLSTM Model

XIA Lei FANG Si-yi* XIE Ling CAI Yan GU Xiao-hong

(Shanghai Institute of Quality and Standardization)

Abstract: Metallurgy plays a fundamental role in providing indispensable metal raw materials for important industries such as integrated circuit, artificial intelligence and aerospace. Metallurgical national standards are basic strategic resources of great importance, supporting the high-quality development of metallurgy. The contents of national standards contain a large number of critical technical indicators. Manually identifying and extracting indicators fail to meet the requirement of digital transformation after the advent of the Big Data Era. The deep learning models are used to conduct 3 experiments based on RNN, GRU, and BiLSTM model on metallurgical national standards to fi nd an optimal solution. The results suggested that BiLSTM model performed best in the identification of indicators in metallurgical national standards, thus making BiLSTM the solution to the identifi cation of standard indicator in this fi eld.

Keywords: metallurgy, national standard, identifi cation of national standard indicator, deep learning, BiLSTM

1 引 言

作為現代材料體系的重要組成,金屬是國民經濟、社會生活和科技發展中必不可少的基礎材料和戰略物資[1]。以鉛金屬和稀有金屬為代表的有色金屬是大量尖端武器和信息技術產品構件的重要原材料。隨著集成電路、人工智能等高新技術產業的快速發展,各國逐漸開始對其金屬原材料開展戰略儲備。長久以來,標準是產業發展的重要技術支撐,標準數據是重要的基礎性戰略資源。冶金領域的標準文本蘊含大量的技術性指標,挖掘并比對標準指標將對冶金行業的標準化發展提供一定的依據。

在大數據時代,人工抽取標準指標的模式已日益無法滿足產業數字化轉型的需求。近年來,基于文本挖掘技術的方法在標準指標識別領域開始興起。標準指標識別在本質上屬于文本挖掘領域中的實體命名識別(Named entity recognition, NER)任務,國家標準指標識別為中文實體命名識別(Chinese named entity recognition, CNER)在標準領域的應用。中文文本為序列數據,已有的實證研究表明循環神經網絡模型(Recurrent neural network, RNN)及其相關變式在序列數據的NER問題上有杰出表現,這些變式包括長短期記憶網絡(Long- and short-term memory, LSTM)、門控循環單元網絡(Gated recurrent unit,GRU)等,其中雙向長短時記憶模型(Bidirectional LSTM, BiLSTM)在醫療、金融、科技文獻等多種中文文本中均效果良好[2- 5]。

為了探尋冶金領域國家標準指標識別的最佳模型,本研究采用基于RNN及其重要變種的深度學習模型,通過運行RNN、GRU和BiLSTM這3組模型的訓練實驗,比較不同深度學習模型的性能優劣,最終確定了適用于冶金領域國家標準指標識別的深度學習模型,提出了解決冶金領域國家標準指標識別的智能化方案,為冶金領域國家標準的數字化轉型和標準化戰略制定提供一定的參考依據。

2 方 法

2.1 實驗環境

2.1.1 硬件環境參數

本研究的實驗硬件環境為Intel(R) Xeon(R) Gold 6226R CPU 2.90GHz和2.89 GHz處理器,機帶RAM為128 GB,操作系統為Windows 10的64 Bit,采用的GPU型號為RTX 3090-24G。

2.1.2 軟件環境參數

本研究的實驗平臺為Anaconda 3,Python版本為3.8.8,采用的深度學習框架為Keras 2.7.0。該深度學習框架運行于TensorFlow 2.7.0上,以基于Python的TensorFlow為后端。

2.2 數據處理

本研究的數據處理流程包含數據采集與識別、數據序列標注、數據預處理和數據結構化加工4個步驟。數據處理流程的框架圖如圖1所示。

2.2.1 數據采集與識別

所有標準文本數據均來自于上海市質量和標準化研究院標準文獻館有版權保護的館藏紙質資源,經人機協作的OCR處理后將紙質文本統一轉化為doc格式的電子文本65篇,約56萬余字符,形成冶金領域國家標準文本數據集。

2.2.2 數據序列標注

本研究邀請具有標準化經驗的冶金行業專家對冶金領域國家標準中的產品類標準開展標準指標的數據標注,在結合冶金領域國家標準指標實體特性的基礎上經專家協商制定標注方案,從而完成標準文本數據的序列標注工作。

本研究的標準指標標注方案包括標準指標標注符號集和標準指標標注規則。標注符號集是指對文本數據進行標注時采用的符號或者字符集合。不同的標注任務往往對應不同的標注符號集。本研究從標準指標的內容和類型分布入手制定標準指標的標注符號集,如表1所示。

標注規則是指在進行數據標注時所遵循的一系列一般原則或具體要求。它決定了標注數據集的構成形式,進而決定了機器學習和深度學習模型的數據輸入。已有的研究指出,不同的標注規則或導致不同的模型性能[6]。因此,擇取適用的標準指標的標注規則對構建有效的標準指標標注模型而言具有重要的意義。目前命名實體識別領域的常見標注規則包括BIO模式、BIOES模式以及其它自定義標注模式。與BIO模式相比,BIOES模型對于命名實體的邊界信息分辨得更為清晰。本研究采用基于BIOES模式的標注規則,具體說明如表2所示。

2.2.3 數據預處理

在數據預處理階段,主要是結合通用停用詞庫和冶金領域國家標準文本的文本編寫情況構建適用于冶金領域國家標準的停用詞庫,在去除停用詞和無意義符號后約45萬余字符。

2.2.4 數據結構化加工

本研究以字符為數據顆粒度單位對冶金領域的國家標準文本進行文本切分,對數據進行結構化的加工,構建冶金領域的國家標準文本結構化數據集。

2.3 模型設計

本研究的標準指標識別模型框架包括輸入層、中間層、輸出層等若干部分。模型總體架構設計如圖2所示。

本研究的標準指標識別模型采用Word2vec對輸入層的文本數據進行索引化處理。Word2vec是一種較為成熟的預訓練嵌入(Embedding)模型,在各個領域得到廣泛應用。與稀疏、高維、硬編碼型的獨熱向量(One-hot encoding)相比,在較大語料庫上預訓練習得的嵌入模型更為低維、密集,且能表征向量間的有效聯系[7],將此類預訓練模型加載到數據量較大的任務中能起到數據降維的作用[8]。Word2vec有2種預訓練嵌入的方法:根據目標值預測上下文的Skip-gram方法和根據上下文預測目標值的連續詞袋(Continuous bag-of-words, CBOW)。已有的實證研究發現,前者適用于小型語料庫和罕見語料數據,后者在大量的常用語料數據上精確性更高,訓練速度也更快[9]??紤]到模型的運行效率和樣本數量,本研究以字符為單位,采用基于CBOW方法的Word2vec模型原理將冶金領域的國家標準結構化數據轉化為靜態字符向量。該方法的示意圖如圖3所示。

循環神經網絡是序列加工問題中最為基本的深度學習模型,在語音識別、文本挖掘、股票預測等方面有了廣泛的應用。截止目前已衍生出長短期記憶網絡、門控循環單元網絡、雙向循環神經網絡(Bidirectional RNN, BiRNN)、雙向長短期記憶網絡等多個重要變種[10],其中BiLSTM因效果較好受到大量認可。由于標準指標識別本質也是標準文本挖掘領域中的命名實體識別任務,故本研究以循環神經網絡及其改進算法為核心構建適用于冶金領域國家標準指標識別的深度學習模型。

為了比較不同模型性能的優劣,也為了驗證BILSTM模型是否為冶金領域國家標準指標識別的最優解,本研究根據中間層的不同設計了3種實驗,分別對應下列3種模型設計:

2.3.1 實驗1:基于RNN模型的標準指標識別

普通神經網絡的計算結果僅與本周期的輸入和網絡權重有關。與普通神經網絡相比,RNN的計算結果同時取決于指定的輸入和上一周期的輸出,這一功能為神經網絡增加了記憶空間,能更好地預測隨時間而變化的序列數據。RNN的工作原理如圖4所示。

2.3.2 實驗2:基于GRU模型的標準指標識別

已有的研究指出,RNN在數據的序列長度較短時預測效果較佳。為了解決RNN在長距離依賴上的問題,LSTM應運而生。它通過引入遺忘門、輸入門和輸出門對序列信息進行有效過濾,從而改進RNN的不足,也因此導致了網絡計算復雜度過高的現象。GRU便是為了解決LSTM計算成本而誕生的LSTM優化變種。該算法包括更新門和重置門2種門控單元,用更新門結構替代了LSTM中原有的遺忘門和輸入門,在確保模型運行效果的前提下簡化了模型中的門結構,從而大幅提高了神經網絡的訓練速度[11]。

2.3.3 實驗3:基于BiLSTM模型的標準指標識別

RNN及其變式LSTM和GRU的工作原理核心均為通過單向的數據流來處理序列信息,也即只能依賴出現在當前階段之前的上文信息,存在下文信息依賴缺失的情況。雙向循環神經網絡模型通常由2組獨立的循環神經網絡模型構成,兩者分別對應上文依賴的正序序列信息和下文依賴的逆序序列信息,通過同時訓練這2組模型并進行特征合并,實現了對上下文信息的學習。在一系列的雙向循環神經網絡模型中,以BiLSTM的應用最為廣泛。BiLSTM由前向LSTML和后向LSTMR構成[12],能有效解決LSTM的上下文信息問題[13],提供全面的文本語義信息,減少上下文語序問題所導致的判斷錯誤[14]。

2.4 模型訓練流程與參數設置

2.4.1 模型訓練流程

本研究中的3種實驗設計均采用8:2的比例將標準文本結構化數據集劃分為訓練集和測試集。模型訓練流程如圖5所示。

2.4.2 實驗重要參數設置

本研究的重要實驗參數皆經過參數調優,具體情況如表3所示。

2.5 模型性能評價指標

模型的評估對建立高效模型而言至關重要。對于分類任務,標簽(Label)通常為離散型數值,多采用混淆矩陣(Confusion matrix)來評估模型性能[15]。本研究采用由混淆矩陣計算而得的準確率(Accuracy, Acc)、精確率(Precision, P)、召回率(Recall, R)和F1值(F1 score, F1)?;煜仃嚨氖疽鈭D如圖6所示。

準確率、精確率和召回率由混淆矩陣中的變量直接計算而得,F1分數則是根據精確率和召回率計算而得。上述四者的具體定義和計算公式如式(1)至(4)所示。式(1)至(3)中的P表示正向的預測方向,N表示負向的預測方向,T表示預測正確,F表示預測錯誤。TP表示正確識別的標準指標的實體數量,TN表示正確識別的非標準指標的實體數量,FP表示將非標準指標錯誤識別為標準指標的實體數量,FN表示將標準指標錯誤識別為非標準指標的實體數量。

2.5.1 準確率

3 結果與分析

3個實驗的模型性能評價指標對比結果如表4所示。

由表4可知,BiLSTM模型的準確率、精確率、召回率和F1分數均高于RNN和GRU模型,這表明與另外2種模型相比,BiLSTM模型在冶金領域國家標準的指標識別上有著更好的表現。GRU模型作為LSTM模型的效率優化變種,在召回率和F1分數上更優于傳統的RNN模型。

為了進一步考察不同模型的實際訓練情況,將3種模型在迭代訓練過程中的綜合度量指標F1分數的變化趨勢繪制成折線圖,如圖7所示。

圖7顯示了3種模型的F1分數在迭代訓練中的變化情況。在第1個Epoch至第2個Epoch階段,3種模型的F1分數均處于上升趨勢,均在第2個Epoch處趨于最優;隨后BiLSTM模型的F1分數始終保持高度穩定,RNN模型的F1分數在第2個Epoch至第4個Epoch的階段呈現下降趨勢,在第4個Epoch后保持穩定;而GRU模型的F1分數則在第2個Epoch至第6個Epoch階段處于先穩定后下降的趨勢,在第4個Epoch后開始緩慢下降。由此可知,在整個訓練過程中,BiLSTM模型的標準指標識別效果最為穩定,處于領先優勢,其整體表現明顯優于另外2種模型。

4 結 語

本研究采用深度學習模型對冶金領域國家標準開展產品類指標識別研究,通過運行3組深度學習模型的實驗,全面深入地比較了RNN、GRU和BiLSTM模型的性能表現,最終發現BiLSTM模型在穩定性和準確性上有一定的優勢,由此采用BILSTM作為冶金領域國家標準指標識別的深度學習模型,在一定程度上解決了冶金領域國家標準指標智能識別的問題。在未來將繼續對標準指標識別模型進行進一步優化和推廣,為我國其它前沿和重點領域的產業發展提供標準技術的支撐力量,為質量和標準化新型專業智庫的建設提供數據基礎。

參考文獻

[1]楊洋.山西省金屬學會:推動冶金行業高質量發展[J].科學之友,2022(9):30-33.

[2]LI D, YAN L, Yang J, et al. Dependency syntax guided BERTBiLSTM-GAM-CRF for Chinese NER[J].Expert Systems with Applications, 2022(196):116682.

[3]AN Y, XIA X, CHEN X. Chinese clinical named entity recognition via multi-head self-attention based BiLSTM-CRF[J]. Artificial Intelligence In Medicine, 2022(127):102282.

[4]HOU L, ZHANG J, YU T, et al. Method and dataset entity mining in scientific literature: A CNN +BiLSTM model with selfattention[J]. Knowledge-Based Systems, 2022(235):107621.

[5]陳啟,劉德喜,萬常選,等.增強語義表示的中文金融評價要素抽取[J].小型微型計算機系統,2022,43(2):254-262.

[6]程名,于紅,馮艷紅,等.融合注意力機制和BiLSTM+CRF的漁業標準命名實體識別[J].大連海洋大學學報,2020,35(2):296-301.

[7]魯睿元,祝繼華. Keras深度學習[M].北京:中國水利水電出版社,2019.

[8]吳茂貴,王紅星.深入淺出Embedding:原理解析與應用實踐[M]. 北京:機械工業出版社, 2021.

[9]LANE H & HOWARD C. Natural language processing in action[M]. Greenwich:Manning Publications Cp, 2019.

[10]杜康吉. 改進的循環神經網絡方法及其應用研究[D].吉林市:東北電力大學,2021.

[11]朱凌建,陳劍虹,王裕鑫,等.基于GRU神經網絡的脈搏波波形預測方法研究[J].電子測量與儀器學報,2022,36(5):242-248.

[12]張順香,張鎮江,朱廣麗,等.基于Bi-LSTM與雙路CNN的金融領域文本因果關系識別[J].數據分析與知識發現,2022,6(7):118-127.

[13]秦精俏,王彤,王玉珍.基于Word2vec_BiLSTM的用餐評論情感分析[J].棗莊學院學報,2022,39(2):37-44.

[14]胡任遠,劉建華,王璇,等.引入雙循環機制深度學習模型的文本情感分析[J].福建工程學院學報,2022,20(4):383-390.

[15]SAL EH H. Machine learning fundamentals[M]. Birmingham:Packet Publishing, 2018.

[16]馬小蕾. 基于語義增強的生物醫學文本信息抽取方法研究[D].長春:吉林大學,2022.

[17]張開放,蘇華友,竇勇.一種基于混淆矩陣的多分類任務準確率評估新方法[J].計算機工程與科學,2021,43(11):1910-1919.

作者簡介

夏磊,碩士研究生,工程師,研究方向為標準信息管理。

方思怡,通信作者,碩士研究生,助理工程師,研究方向為標準文獻挖掘、產業標準化。

解凌,本科,高級工程師,研究方向為信息系統建設。

蔡焱,本科,工程師,研究方向為標準化和標準信息管理。

顧曉虹,本科,高級工程師,研究方向為標準文獻服務。

(責任編輯:張佩玉)

猜你喜歡
深度學習
從合坐走向合學:淺議新學習模式的構建
面向大數據遠程開放實驗平臺構建研究
基于自動智能分類器的圖書館亂架圖書檢測
搭建深度學習的三級階梯
有體驗的學習才是有意義的學習
電子商務中基于深度學習的虛假交易識別研究
現代情報(2016年10期)2016-12-15 11:50:53
利用網絡技術促進學生深度學習的幾大策略
考試周刊(2016年94期)2016-12-12 12:15:04
MOOC與翻轉課堂融合的深度學習場域建構
大數據技術在反恐怖主義中的應用展望
深度學習算法應用于巖石圖像處理的可行性研究
軟件導刊(2016年9期)2016-11-07 22:20:49
主站蜘蛛池模板: 色综合热无码热国产| 国产在线视频自拍| 国产亚洲精品97在线观看| 色网站免费在线观看| 国产高清无码第一十页在线观看| 青青草原偷拍视频| 久久黄色视频影| 国产精品美女免费视频大全| 亚洲无码37.| 国产欧美亚洲精品第3页在线| 最新亚洲av女人的天堂| 无码人妻热线精品视频| 九九热这里只有国产精品| 韩国福利一区| 色婷婷综合在线| 亚洲精品国产自在现线最新| 在线一级毛片| 亚洲中文在线看视频一区| 精品国产一区二区三区在线观看| 亚洲一区二区三区国产精品| 成人va亚洲va欧美天堂| 毛片卡一卡二| 午夜老司机永久免费看片| 国产免费观看av大片的网站| 日韩国产高清无码| 久久久久人妻精品一区三寸蜜桃| 亚洲成网777777国产精品| 亚洲一区二区三区中文字幕5566| 亚洲综合狠狠| 欧美h在线观看| 亚洲大学生视频在线播放| 992Tv视频国产精品| 国产免费自拍视频| 亚洲一区精品视频在线| 久久a毛片| 秋霞一区二区三区| 福利国产微拍广场一区视频在线| 伊人久久婷婷五月综合97色| 亚洲一本大道在线| 99热国产在线精品99| 日韩在线永久免费播放| 午夜电影在线观看国产1区| 精品天海翼一区二区| 国产在线欧美| 国产va免费精品观看| 青青热久免费精品视频6| 国产精品妖精视频| 国内精品视频| 亚洲精品在线91| 亚洲经典在线中文字幕| 国产成人高清精品免费5388| 国产97区一区二区三区无码| 青草精品视频| 国产综合精品一区二区| 九九热精品视频在线| 狠狠色成人综合首页| 手机在线免费毛片| 伊人中文网| 香蕉综合在线视频91| 国产精品亚洲综合久久小说| 欧美激情成人网| 国产极品美女在线| 国产精品刺激对白在线| 国内黄色精品| 久久久久国产精品免费免费不卡| 免费在线色| 天天综合天天综合| 色综合久久88| 青青草国产在线视频| 手机成人午夜在线视频| 中文字幕亚洲乱码熟女1区2区| 亚洲天堂网在线观看视频| 国产理论一区| 精品三级在线| 中文字幕久久波多野结衣| 亚洲欧美在线精品一区二区| 六月婷婷激情综合| 久青草网站| 亚洲美女一级毛片| av性天堂网| 亚洲欧洲美色一区二区三区| 久久综合婷婷|