999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于文本分析的高鐵技術(shù)規(guī)章優(yōu)化研究

2021-01-19 14:28:18楊連報(bào)劉新董興芝李新琴薛蕊東春昭徐貴紅
中國(guó)鐵路 2020年11期
關(guān)鍵詞:分類文本模型

楊連報(bào),劉新,董興芝,李新琴,薛蕊,東春昭,徐貴紅

(1.中國(guó)鐵道科學(xué)研究院集團(tuán)有限公司電子計(jì)算技術(shù)研究所,北京100081;2.中國(guó)鐵道科學(xué)研究院集團(tuán)有限公司運(yùn)輸及經(jīng)濟(jì)研究所,北京100081;3.中國(guó)鐵道科學(xué)研究院集團(tuán)有限公司鐵路基礎(chǔ)設(shè)施檢測(cè)中心,北京100081)

隨著我國(guó)高速鐵路的迅猛發(fā)展和新技術(shù)、新設(shè)備的投入使用,對(duì)高速鐵路的行車安全和技術(shù)規(guī)章管理提出了更高的要求。高速鐵路技術(shù)規(guī)章是指高速鐵路技術(shù)設(shè)備在交付運(yùn)營(yíng)后,涉及行車組織、信號(hào)顯示、技術(shù)設(shè)備的運(yùn)用、管理、維修等方面的規(guī)章制度。我國(guó)已經(jīng)形成國(guó)鐵集團(tuán)—鐵路局集團(tuán)公司—站段的三級(jí)技術(shù)規(guī)章體系[1-2]。

制定有效、合理、有針對(duì)性的技術(shù)規(guī)章是我國(guó)高鐵安全運(yùn)營(yíng)的重要基礎(chǔ)保障。目前國(guó)內(nèi)關(guān)于高鐵技術(shù)規(guī)章的制定和優(yōu)化進(jìn)行了很多研究,郭錦[3]提出我國(guó)技術(shù)規(guī)章體系中國(guó)鐵集團(tuán)和鐵路局集團(tuán)公司級(jí)技術(shù)規(guī)章內(nèi)容重復(fù)、抵觸等問題的優(yōu)化建議;王宇嘉等[4-5]提出應(yīng)用層次分析法的模糊綜合評(píng)價(jià)模型評(píng)價(jià)鐵路局集團(tuán)公司級(jí)鐵路技術(shù)規(guī)章編制和修訂前后對(duì)行車組織和安全的影響,并從目標(biāo)、原則、方法及步驟3個(gè)方面對(duì)客運(yùn)專業(yè)的技術(shù)規(guī)章進(jìn)行優(yōu)化;保魯昆等[6]提出利用詞頻和共詞統(tǒng)計(jì)定量分析鐵路技術(shù)規(guī)章中內(nèi)容和條款適應(yīng)性;孫耿杰等[7]則應(yīng)用系統(tǒng)工程理論實(shí)現(xiàn)工務(wù)專業(yè)技術(shù)規(guī)章目錄的構(gòu)建。

不同于既有技術(shù)規(guī)章的定性或定量的分析,以下提出一種新的基于歷史非結(jié)構(gòu)化文本數(shù)據(jù)分析的高鐵技術(shù)規(guī)章優(yōu)化方法,即根據(jù)技術(shù)規(guī)章修訂專家制定的技術(shù)規(guī)章分類標(biāo)準(zhǔn)和標(biāo)注的訓(xùn)練數(shù)據(jù),應(yīng)用集成學(xué)習(xí)LightGBM文本分類模型實(shí)現(xiàn)海量高鐵安全巡檢記錄數(shù)據(jù)的智能分析和推理。其中,高鐵安全巡檢記錄數(shù)據(jù)可以為技術(shù)規(guī)章的制定提供實(shí)際的數(shù)據(jù)參考,從而使技術(shù)規(guī)章的制定能更加符合現(xiàn)場(chǎng)作業(yè)的要求,具有實(shí)際的指導(dǎo)和約束作用。

1 高鐵安全巡檢記錄數(shù)據(jù)

高鐵安全巡檢記錄是鐵路局集團(tuán)公司安監(jiān)室以及車務(wù)、機(jī)務(wù)、工務(wù)、供電等各專業(yè)安全科人員在現(xiàn)場(chǎng)巡檢時(shí)發(fā)現(xiàn)現(xiàn)場(chǎng)安全問題而形成原始和處理的非結(jié)構(gòu)化文本記錄,是鐵路生產(chǎn)作業(yè)最直接的體現(xiàn)。既有的安全巡檢記錄分類主要是從業(yè)務(wù)角度來區(qū)分,并沒有和技術(shù)規(guī)章進(jìn)行很好對(duì)應(yīng)(見表1)。

表1 高鐵安全巡檢記錄樣例數(shù)據(jù)

高鐵安全巡檢記錄每年產(chǎn)生的記錄數(shù)達(dá)到千萬余條,傳統(tǒng)通過人工手段對(duì)海量原始文檔進(jìn)行提取、處理和分類,不僅費(fèi)時(shí)費(fèi)力,而且達(dá)不到理想效果,已經(jīng)無法適應(yīng)當(dāng)前對(duì)海量數(shù)據(jù)進(jìn)行快速深度分析的需要。通過應(yīng)用集成學(xué)習(xí)LightGBM文本分類模型,可實(shí)現(xiàn)巡檢記錄的智能多級(jí)分類。

2 高鐵安全巡檢記錄多級(jí)分類

實(shí)現(xiàn)非結(jié)構(gòu)化高鐵安全巡檢記錄的多級(jí)分類主要包含學(xué)習(xí)和推理階段。其中,學(xué)習(xí)階段主要通過制定多級(jí)分類標(biāo)準(zhǔn),并隨機(jī)選取2008—2018年的安全巡檢記錄中的部分?jǐn)?shù)據(jù)作為訓(xùn)練數(shù)據(jù)進(jìn)行標(biāo)注。標(biāo)注后的數(shù)據(jù)通過正則表達(dá)式進(jìn)行數(shù)據(jù)中特殊字符、標(biāo)點(diǎn)和英文符號(hào)的濾除,應(yīng)用融合鐵路領(lǐng)域詞典的中文分詞工具Jieba進(jìn)行分詞,并通過Word2Vec和TF-IDF分別生成特征向量,最后應(yīng)用LightGBM模型實(shí)現(xiàn)模型的調(diào)參,形成訓(xùn)練好的模型。

2.1 多級(jí)分類標(biāo)準(zhǔn)

高鐵安全巡檢記錄按照技術(shù)規(guī)章的維度分為2級(jí)分類,其中一級(jí)包含設(shè)備問題、作業(yè)人員違規(guī)、管理人員違規(guī)、信息資料違規(guī)4大類,二級(jí)包含設(shè)備故障或損傷、作業(yè)人員出現(xiàn)管理問題、管理人員出現(xiàn)管理問題、信息資料管理違規(guī)等18小類(見表2)。

表2 高鐵安全巡檢記錄技術(shù)規(guī)章分類標(biāo)準(zhǔn)

2.2 數(shù)據(jù)預(yù)處理與特征向量表示

高鐵安全巡檢記錄數(shù)據(jù)預(yù)處理主要是實(shí)現(xiàn)有關(guān)巡檢記錄中常用詞的去除以及標(biāo)點(diǎn)符號(hào)的濾除,此外通過對(duì)樣本數(shù)據(jù)的觀察,發(fā)現(xiàn)有很多日期、時(shí)間和地點(diǎn)描述,對(duì)于實(shí)現(xiàn)文本向量的表示會(huì)造成干擾。因?yàn)楦哞F技術(shù)規(guī)章分類的特征向量與日期、時(shí)間和地點(diǎn)都無關(guān),最主要的是檢查發(fā)現(xiàn)的問題和經(jīng)過。因此采用了正則表達(dá)式將日期、時(shí)間和地點(diǎn)等干擾詞進(jìn)行了濾除。

在實(shí)現(xiàn)高鐵安全巡檢記錄數(shù)據(jù)預(yù)處理之后,需要進(jìn)行中文文本分詞。采用融合鐵路領(lǐng)域詞典的分詞方法和Jieba分詞工具實(shí)現(xiàn)文本分詞[8]。針對(duì)分詞后的文件,可以使用TF-IDF和Word2Vec實(shí)現(xiàn)特征向量表示。其中,Word2Vec是2013年Google開源的可以在百萬數(shù)量級(jí)的詞典和上億的數(shù)據(jù)集上進(jìn)行訓(xùn)練的詞向量分布式表示算法,成為目前文本向量分布式表示的主要方法[9-10]。

Word2Vec算法的實(shí)質(zhì)為一個(gè)淺層神經(jīng)網(wǎng)絡(luò),主要包含CBoW(Continuous Bag-of-Words Model)模型和Skip-gram模型。CBoW模型主要是利用上下文來預(yù)測(cè)某一個(gè)目標(biāo)詞的向量表達(dá)。Skip-gram模型則是根據(jù)目標(biāo)詞預(yù)測(cè)上下文,從而獲得目標(biāo)詞的詞向量。假設(shè)文本序列集為C={w1,w2,w3,…,wN},對(duì)于一個(gè)給定詞wt,在選取窗口大小為j時(shí),此時(shí)的Skip-gram模型主要是通過構(gòu)建神經(jīng)網(wǎng)絡(luò),使得在所有給定的詞的情況下,能夠最大可能預(yù)測(cè)出周圍的詞,模型的損失函數(shù)采用最大似然估計(jì):

文本詞向量表示Skip-gram神經(jīng)網(wǎng)絡(luò)模型的整體架構(gòu)見圖1。

圖1 文本詞向量表示Skip-gram神經(jīng)網(wǎng)絡(luò)模型架構(gòu)

Skip-gram模型最終目標(biāo)就是通過神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)隱含層中的權(quán)重,使得根據(jù)給定詞one-hot詞向量預(yù)測(cè)出輸出詞的概率最大。在這一計(jì)算過程中,神經(jīng)網(wǎng)絡(luò)的隱含層實(shí)際上就是像1個(gè)word embedding查找表,其輸出的1×V維的向量就是詞向量。

2.3 多級(jí)分類模型訓(xùn)練

高鐵安全巡檢記錄文本按照技術(shù)規(guī)章標(biāo)準(zhǔn)分類是1個(gè)2級(jí)分類問題,針對(duì)多級(jí)分類問題可以按照多標(biāo)簽分類的模式進(jìn)行劃分,也可以按照分類器串聯(lián)的方式,即先選擇1個(gè)分類模型實(shí)現(xiàn)一級(jí)分類的識(shí)別,然后在一級(jí)分類的基礎(chǔ)上進(jìn)行二級(jí)分類。多級(jí)分類結(jié)果與普通分類結(jié)果的表示沒有區(qū)別,均是直接為文本打上分類標(biāo)簽。直接選用集成學(xué)習(xí)框架LightGBM[11],對(duì)二級(jí)分類進(jìn)行識(shí)別,之后根據(jù)分類關(guān)系獲得一級(jí)分類標(biāo)簽。LightGBM是一個(gè)基于決策樹的梯度Boosting框架,比傳統(tǒng)的支持向量機(jī)、樸素貝葉斯分類等可以有更快的訓(xùn)練效率、更高的準(zhǔn)確率,并且可以處理大規(guī)模數(shù)據(jù),支持并行化學(xué)習(xí)。

LightGBM主要采用直方圖算法實(shí)現(xiàn)連續(xù)的浮點(diǎn)特征值離散化為k個(gè)整數(shù)離散值,并構(gòu)造寬度為k的直方圖,這樣可以較大減少內(nèi)存的消耗,減少運(yùn)算的復(fù)雜度。此外,LighGBM使用帶有深度限制的按葉子生長(zhǎng)(leaf-wise)算法,即每次從當(dāng)前所有葉子中找出增益最大的葉子節(jié)點(diǎn)進(jìn)行分類,從而避免產(chǎn)生過多的誤差,為防止產(chǎn)生過擬合增加了最大深度的限制。上述算法的關(guān)鍵參數(shù)可以在模型訓(xùn)練中指定和進(jìn)行調(diào)試。Light?GBM主要包含核心參數(shù)、控制參數(shù)、IO參數(shù)、目標(biāo)參數(shù)、度量參數(shù)、網(wǎng)絡(luò)參數(shù)等,在模型訓(xùn)練中常修改的便是核心參數(shù)、控制參數(shù)等(見表3)。

表3 LightGBM主要參數(shù)說明

3 實(shí)驗(yàn)結(jié)果

實(shí)驗(yàn)選取某鐵路局集團(tuán)公司近10年的安全檢查數(shù)據(jù)共計(jì)6億多條,訓(xùn)練數(shù)據(jù)選取共計(jì)6 198條,主要采取準(zhǔn)確率(Precision)、召回率(Recall)和F1值(F1)作為模型評(píng)價(jià)指標(biāo)。

訓(xùn)練數(shù)據(jù)主要是首先根據(jù)多級(jí)分類標(biāo)準(zhǔn)進(jìn)行標(biāo)注,即為每條高鐵安全巡檢記錄增加技術(shù)規(guī)章分類的二級(jí)標(biāo)簽,然后針對(duì)標(biāo)注后的數(shù)據(jù)中的高鐵安全巡檢記錄進(jìn)行融合鐵路詞典的中文文本分詞和基于Word2Vec的文本向量轉(zhuǎn)換,同時(shí)將技術(shù)規(guī)章分類標(biāo)簽數(shù)據(jù)進(jìn)行編碼,最終將所有文本轉(zhuǎn)換為數(shù)字表示的向量形式。

訓(xùn)練通過GridSearchCV進(jìn)行網(wǎng)格訓(xùn)練和調(diào)優(yōu),其中采用80%的訓(xùn)練數(shù)據(jù)作為訓(xùn)練集,20%的數(shù)據(jù)作為測(cè)試集,最終得到最優(yōu)的模型參數(shù)為:LightGBM設(shè)置樹的應(yīng)用類型application=multiclasss,模型使用算法boosting=gbdt,度量函數(shù)metric=multi_logss,最大深度max_depth=15,分類數(shù)量num_class=18,葉子節(jié)點(diǎn)數(shù)num_leaves=64,學(xué)習(xí)速率learning_rate=0.01,隨機(jī)特征設(shè)置比列feature_fraction=0.8,重采樣比例bag?ging_fraction=0.9,重采樣頻率bagging_freq=5,正則化系數(shù)lambda_l1=0.6。最后在測(cè)試集上得到訓(xùn)練結(jié)果(見表4)。

表4 模型訓(xùn)練結(jié)果

由表4可見,在學(xué)習(xí)階段得到的模型整體的準(zhǔn)確率、召回率和F1值都比較高,可以應(yīng)用推理階段,即實(shí)現(xiàn)剩余數(shù)據(jù)自動(dòng)分類預(yù)測(cè),為技術(shù)規(guī)章的優(yōu)化提供支撐。

4 結(jié)束語

在我國(guó)高鐵快速發(fā)展和走出去的關(guān)鍵時(shí)期,高鐵技術(shù)規(guī)章的科學(xué)合理制定和優(yōu)化關(guān)系到高鐵的安全生產(chǎn)作業(yè)和運(yùn)營(yíng)。基于集成學(xué)習(xí)LightGBM的文本智能分類模型,以非結(jié)構(gòu)化高鐵安全巡檢記錄文本數(shù)據(jù)為分析對(duì)象,基于現(xiàn)場(chǎng)車務(wù)、機(jī)務(wù)、工務(wù)、供電等專業(yè)的實(shí)際作業(yè)中常見的作業(yè)違規(guī)問題,來進(jìn)行有針對(duì)性的技術(shù)規(guī)章制定和優(yōu)化,并可以進(jìn)行有針對(duì)性的培訓(xùn)和重點(diǎn)的獎(jiǎng)懲。如對(duì)于現(xiàn)場(chǎng)作業(yè)中常見的培訓(xùn)管理違規(guī)問題,可從在技術(shù)規(guī)章中增加培訓(xùn)次數(shù)、培訓(xùn)時(shí)長(zhǎng)和培訓(xùn)考核的限制,以有效規(guī)避高鐵運(yùn)營(yíng)中由于技術(shù)規(guī)章制定的疏漏、模糊和不具備針對(duì)性等造成現(xiàn)場(chǎng)作業(yè)不到位,從而從技術(shù)規(guī)章制定和優(yōu)化角度規(guī)避風(fēng)險(xiǎn)隱患,避免故障乃至事故的發(fā)生,保障高鐵的安全運(yùn)行。

猜你喜歡
分類文本模型
一半模型
分類算一算
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
在808DA上文本顯示的改善
分類討論求坐標(biāo)
基于doc2vec和TF-IDF的相似文本識(shí)別
電子制作(2018年18期)2018-11-14 01:48:06
數(shù)據(jù)分析中的分類討論
教你一招:數(shù)的分類
3D打印中的模型分割與打包
主站蜘蛛池模板: 青草精品视频| 日韩不卡高清视频| 亚洲无码高清免费视频亚洲| 欧美一级高清片久久99| 色天堂无毒不卡| 国产地址二永久伊甸园| 亚洲日韩每日更新| 久久国产精品无码hdav| 久久伊人操| 国产欧美视频一区二区三区| 国产精品乱偷免费视频| 久久天天躁夜夜躁狠狠| 激情乱人伦| 欧美劲爆第一页| 中文字幕在线观| 国产一区二区三区精品欧美日韩| 精品久久香蕉国产线看观看gif | 亚洲精品免费网站| 国产精品手机在线观看你懂的| 精品国产香蕉在线播出| 国产乱子伦视频三区| 99久久精品免费看国产免费软件| 国产中文在线亚洲精品官网| 国产极品美女在线播放| 中文字幕亚洲专区第19页| 91年精品国产福利线观看久久 | 99视频在线免费| 亚洲人成高清| 国产不卡一级毛片视频| 尤物精品视频一区二区三区| 久草国产在线观看| 欧美有码在线| 国产农村妇女精品一二区| 成人午夜亚洲影视在线观看| 强奷白丝美女在线观看| 一级毛片在线直接观看| 国产成人无码久久久久毛片| 国产不卡在线看| 91在线日韩在线播放| 国产成人精品午夜视频'| 91极品美女高潮叫床在线观看| 亚洲无码视频一区二区三区 | a免费毛片在线播放| 精品视频一区二区观看| 欧美第一页在线| 91久久夜色精品国产网站| 亚洲青涩在线| 亚洲日韩高清在线亚洲专区| 伊人欧美在线| 亚欧成人无码AV在线播放| 国产成人精品视频一区二区电影 | 久久久成年黄色视频| 91免费精品国偷自产在线在线| 国产精品va免费视频| 午夜老司机永久免费看片| 少妇精品久久久一区二区三区| 国产在线观看一区精品| 在线国产91| 欧美啪啪一区| 国产农村1级毛片| 一级成人a毛片免费播放| 国产视频你懂得| 好吊日免费视频| 国产菊爆视频在线观看| 天天摸天天操免费播放小视频| 日本免费a视频| 久久久久亚洲AV成人人电影软件| 毛片基地美国正在播放亚洲| 国产爽妇精品| 香蕉精品在线| 中文字幕调教一区二区视频| 九九热精品视频在线| 亚洲色图在线观看| 亚洲第一区精品日韩在线播放| 亚洲日韩精品综合在线一区二区| 免费A∨中文乱码专区| 老司机aⅴ在线精品导航| 亚洲乱码视频| 永久成人无码激情视频免费| 国产成人AV男人的天堂| 日本久久久久久免费网络| 国产1区2区在线观看|