999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于RoBERTa 和RCNN 的互聯(lián)網(wǎng)文字消防接警輔助系統(tǒng)的設(shè)計(jì)與研究?

2023-11-21 06:17:18張昊東
關(guān)鍵詞:分類文本信息

張昊東 董 雷

(1.武漢郵電科學(xué)研究院 武漢 430000)(2.武漢理工光科股份有限公司 武漢 430000)

1 引言

隨著中國(guó)城市化進(jìn)程的加速,我國(guó)涌現(xiàn)出一系列超級(jí)大都會(huì)城市,人口的密集導(dǎo)致了城市火災(zāi)案件頻發(fā)。另外,隨著我國(guó)經(jīng)濟(jì)的迅猛發(fā)展,人民群眾的家中也出現(xiàn)了各式各樣的新式電器,且人均擁有量也不斷提升,這也導(dǎo)致了城市火災(zāi)案件數(shù)量不斷攀升,且難以防范。以上所述的現(xiàn)實(shí)環(huán)境都對(duì)我國(guó)新時(shí)代下各省市的消防系統(tǒng)建設(shè)提出了更高的要求。更智能、更迅速地成為各省市消防系統(tǒng)建設(shè)的共同導(dǎo)向[1]。在消防系統(tǒng)各子模塊中,消防接警是最重要、最常用、最亟待提升的信息化模塊[2]。現(xiàn)代消防接警信息來(lái)源已不只是來(lái)自于話務(wù),更多的信息由于群眾使用習(xí)慣、害怕?lián)?zé)等原因來(lái)自于互聯(lián)網(wǎng)(微信公眾號(hào)、微信小程序、支付寶小程序等)文字渠道。但在系統(tǒng)實(shí)踐過(guò)程中,由于各地接警中心人力有限,且信息較短(單條20 字以下)、數(shù)量較多,以上提到的互聯(lián)網(wǎng)文字報(bào)警信息往往沒(méi)有被很好地利用[3]。

為此,我國(guó)企業(yè)、科研單位對(duì)其做了大量的研究,提出了許多不同的解決思路。但大都基于關(guān)鍵詞標(biāo)注、分級(jí)推送等傳統(tǒng)思想,并沒(méi)有深入到文本本身語(yǔ)義層次進(jìn)行分析、處理[4]。

本文設(shè)計(jì)了一套互聯(lián)網(wǎng)文字消防接警輔助系統(tǒng),幫助接警員預(yù)篩有效消防報(bào)警信息,并通過(guò)語(yǔ)義分析對(duì)有效消防報(bào)警信息進(jìn)行分類(火災(zāi)、搶險(xiǎn)救援、反恐排爆、公務(wù)執(zhí)勤四類),有效節(jié)省接警員反應(yīng)時(shí)間,提高接警中心作業(yè)效率。經(jīng)實(shí)驗(yàn)證明,本消防接警輔助系統(tǒng)的文本算法部分相較于工業(yè)領(lǐng)域常用算法和經(jīng)典算法具有較高的識(shí)別率與性能。

2 基于RoBERTa 和RCNN 的改進(jìn)短文本分類

2.1 RoBERTa模型

RoBERTa是一個(gè)預(yù)訓(xùn)練的語(yǔ)言表征模型[5],其基于2018 年10 月Google 發(fā)布的BERT[6]模型,從如下三個(gè)方面進(jìn)行了改進(jìn)。

1)增加中文語(yǔ)料,增強(qiáng)對(duì)中文文本的處理能力;

2)增大數(shù)據(jù)的訓(xùn)練量;

3)改進(jìn)數(shù)據(jù)生成方法。

各類優(yōu)化的結(jié)果體現(xiàn)在測(cè)試上,RoBERTa 較之與BERT 在互聯(lián)網(wǎng)新聞情感分析、自然語(yǔ)言推斷[7]、問(wèn)題匹配語(yǔ)任務(wù)[8]、閱讀理解[9]測(cè)試上均強(qiáng)于BERT,領(lǐng)先BERT模型1%~2%[10~12],如表1所示。

表1 RoBERTa與BERT能力對(duì)比表

2.2 RCNN模型

RCNN 模型是一種CNN 簇變種模型[13]。相較于傳統(tǒng)的文本信息處理模型RNN,既關(guān)注了文本所隱含的時(shí)間信息,也利用了循環(huán)層的形式實(shí)現(xiàn)了卷積的效果,對(duì)文本信息進(jìn)行了宏觀上的提煉[14~15]。如圖1 所示,利用left context 和right context 的信息與當(dāng)前詞鏈接,以循環(huán)層的形式形成了實(shí)質(zhì)上的卷積。

圖1 RCNN原理圖

具體來(lái)說(shuō),其是借用雙向RNN 的形式將當(dāng)前上下文wi的左側(cè)文本表示cl(wi)以及右側(cè)文本表示cr(wi),與當(dāng)前詞向量wi鏈接,構(gòu)成后序卷積層進(jìn)行輸入。舉例子來(lái)說(shuō),我們以上圖表示進(jìn)行說(shuō)明,South的詞向量將會(huì)鏈接其左側(cè)文本表示cl(w7)、右側(cè)文本表示cr(w5),然后構(gòu)成后序卷積層進(jìn)行輸入。鏈接形式如式(1)所示。

在鏈接完成后,鏈接信息會(huì)輸入進(jìn)一個(gè)卷積核大小為len*1(len 為詞向量長(zhǎng)度)的卷積層,該卷積層的激活函數(shù)在此規(guī)定為tanh,具體如式(2)所示。

在最后經(jīng)過(guò)以上處理的文本語(yǔ)義信息,將通過(guò)池化層進(jìn)行池化操作[16],并通過(guò)softmax 函數(shù)最終生成對(duì)應(yīng)的概率分布。如式(3)所示。

2.3 基于RCNN的模型的改進(jìn)

本文所使用的深度學(xué)習(xí)后端分類算法是基于RCNN 模型的基礎(chǔ)上改進(jìn)而來(lái)。主要改進(jìn)內(nèi)容如下。

1)調(diào)整激活函數(shù)為ReLU,有效緩解過(guò)擬合問(wèn)題,提升神經(jīng)網(wǎng)絡(luò)稀疏性,加快模型反向傳播速度。

2)改池化層均值池化為最大池化,降維數(shù)據(jù),提取特征差異最大值。

3)在池化層處理之后,加入dropout 操作,以減輕神經(jīng)元間的耦合現(xiàn)象,增強(qiáng)模型魯棒性。以公式來(lái)體現(xiàn),dropout 之前模型神經(jīng)網(wǎng)絡(luò)數(shù)學(xué)表示為式(4)。

在進(jìn)行dropout 之后,該模型神經(jīng)網(wǎng)絡(luò)數(shù)學(xué)表示為式(5)。

4)調(diào)節(jié)隱層數(shù)量,以期達(dá)到更合理的模型抽象能力,更加適配短文本場(chǎng)景。

5)調(diào)節(jié)卷積核尺寸和數(shù)量,以期達(dá)到計(jì)算量和模型抽象能力的平衡。

2.4 本文算法

本文算法部分主要流程如下:

1)讀取原始訓(xùn)練數(shù)據(jù),劃分?jǐn)?shù)據(jù)集。

2)配置pad_size(每句話處理成的長(zhǎng)度)、學(xué)習(xí)率、epoch數(shù)、類別數(shù)。

3)配置隱層層數(shù)、卷積核尺寸、卷積核數(shù)量。

4)將訓(xùn)練語(yǔ)料輸入前置RoBERTa 模型中進(jìn)行信息抽取。

5)對(duì)padding 部分進(jìn)行mask,保持與句向量保持同樣尺寸。

6)將句向量輸入改進(jìn)后的RCNN模型。

7)在模型收斂或達(dá)到指定batch后結(jié)束模型的訓(xùn)練。

3 互聯(lián)網(wǎng)消防報(bào)警輔助系統(tǒng)的架構(gòu)設(shè)計(jì)

3.1 總體設(shè)計(jì)

本系統(tǒng)總體設(shè)計(jì)包含三個(gè)部分:后端邏輯處理部分、模型數(shù)據(jù)迭代清洗入庫(kù)部分以及深度學(xué)習(xí)短文本分類部分。其中后端邏輯處理部分負(fù)責(zé)請(qǐng)求接入及結(jié)果回送、定時(shí)消防報(bào)警信息推送以及深度學(xué)習(xí)模塊調(diào)啟。模型數(shù)據(jù)迭代清洗入庫(kù)部分負(fù)責(zé)定時(shí)從給定已標(biāo)注的業(yè)務(wù)數(shù)據(jù)庫(kù)中抽取和清洗數(shù)據(jù),注入已有訓(xùn)練及測(cè)試集,重新訓(xùn)練模型。深度學(xué)習(xí)短文本分類部分負(fù)責(zé)定義并訓(xùn)練模型,該部分為該系統(tǒng)的核心部分。各部分的關(guān)系如圖2所示。

圖2 總體設(shè)計(jì)中各模塊之間的關(guān)系

3.2 后端邏輯處理部分詳細(xì)設(shè)計(jì)

該部分向外分別提供請(qǐng)求接入及結(jié)果回送與定時(shí)消防報(bào)警信息推送兩個(gè)功能支撐。監(jiān)聽(tīng)給定端口,一旦有請(qǐng)求介入,該部分引擎將先把信息從以json形式表現(xiàn)的請(qǐng)求參數(shù)中的信息提取出來(lái),做一部分信息過(guò)濾工作(實(shí)踐證明現(xiàn)實(shí)網(wǎng)絡(luò)接入數(shù)據(jù)有大量罵人語(yǔ)句等無(wú)用信息,該部分將對(duì)此類信息進(jìn)行過(guò)濾),若信息通過(guò)過(guò)濾后,切換系統(tǒng)態(tài)調(diào)啟python 進(jìn)程,進(jìn)行預(yù)測(cè)并返回預(yù)測(cè)結(jié)果。除了提供以上請(qǐng)求接入及結(jié)果回送功能以外,本部分還提供定時(shí)消防報(bào)警信息推送功能的支持。通過(guò)@Scheduled注解配置定時(shí)任務(wù),每次定時(shí)任務(wù)開(kāi)始時(shí)從指定熱點(diǎn)數(shù)據(jù)庫(kù)讀取數(shù)據(jù),若數(shù)據(jù)量不夠則結(jié)束此次定時(shí)任務(wù),等待下一次定時(shí)任務(wù),若數(shù)據(jù)量足夠,則切換系統(tǒng)態(tài)調(diào)啟python 進(jìn)程,對(duì)數(shù)據(jù)進(jìn)行預(yù)測(cè),并以json 數(shù)據(jù)格式為載體推送至遠(yuǎn)端服務(wù)器。具體處理流程如圖3所示。

圖3 后端邏輯處理部分詳細(xì)設(shè)計(jì)

3.3 模型數(shù)據(jù)迭代清洗入庫(kù)部分詳細(xì)設(shè)計(jì)

該部分通過(guò)@Scheduled注解配置定時(shí)任務(wù),從給定已標(biāo)注的業(yè)務(wù)數(shù)據(jù)庫(kù)中抽取和清洗數(shù)據(jù),注入已有訓(xùn)練及測(cè)試集,重新訓(xùn)練模型。具體處理流程如圖4所示。

圖4 模型數(shù)據(jù)迭代清洗入庫(kù)部分詳細(xì)設(shè)計(jì)

4 實(shí)驗(yàn)結(jié)果與分析

對(duì)于后端邏輯處理部分與模型數(shù)據(jù)迭代清洗入庫(kù)部分。作者使用調(diào)試、postman工具測(cè)試、日志追蹤等形式進(jìn)行了功能驗(yàn)證,功能完好,可以使用,典型測(cè)試場(chǎng)景如圖5。

圖5 測(cè)試典型場(chǎng)景

對(duì)于核心功能深度學(xué)習(xí)短文本分類部分,作者使用了上海立信會(huì)計(jì)金融學(xué)院所提供的防災(zāi)減災(zāi)數(shù)據(jù)集再加上作者自己在互聯(lián)網(wǎng)上爬取、標(biāo)注的數(shù)據(jù)以及業(yè)務(wù)數(shù)據(jù),共同構(gòu)建了該分類數(shù)據(jù)集。該數(shù)據(jù)集以中文為主,共計(jì)16800 條數(shù)據(jù)。在這16800條數(shù)據(jù)中,筆者利用sklearn工具以6∶1∶1的比例進(jìn)行分割,選取12600 條數(shù)據(jù)用于訓(xùn)練,2100 條數(shù)據(jù)用于驗(yàn)證,2100條數(shù)據(jù)進(jìn)行測(cè)試。

測(cè)試模型所依賴的語(yǔ)言為python 語(yǔ)言。實(shí)驗(yàn)各硬軟件環(huán)境數(shù)據(jù)如表2所示。

表2 實(shí)驗(yàn)硬軟件環(huán)境

將本文所設(shè)計(jì)的短文本分類系統(tǒng)與工業(yè)界常用算法RoBERTa+BiLSTM,以及傳統(tǒng)算法RNN 相比較。從模型預(yù)測(cè)能力、模型工作效率兩個(gè)方向上對(duì)模型進(jìn)行評(píng)價(jià)。以準(zhǔn)確率(分類正確樣本占總樣本比例)、識(shí)別效率(模型處理10 個(gè)短文本所需時(shí)間)作為評(píng)價(jià)標(biāo)準(zhǔn)。實(shí)驗(yàn)結(jié)果如表3、圖6所示。

圖6 實(shí)驗(yàn)結(jié)果條形圖

表3 實(shí)驗(yàn)結(jié)果表

從以上圖表可以看出,在準(zhǔn)確率上,本文所提出的模型較工業(yè)界常用模型(RoBERTa+BiLSTM)有所提升,較經(jīng)典RNN 模型有大幅提升,但在模型時(shí)間效率上不如經(jīng)典RNN 模型,但與工業(yè)界常用模型在同一水平上。

5 結(jié)語(yǔ)

本文設(shè)計(jì)研究了一種基于RoBERTa 和RCNN的互聯(lián)網(wǎng)文字消防接警輔助系統(tǒng),提出了一套后端邏輯設(shè)計(jì)方案及深度學(xué)習(xí)短文本分類模型。經(jīng)實(shí)驗(yàn)證明,后端邏輯設(shè)計(jì)方案切實(shí)可用,深度學(xué)習(xí)短文本分類方案較工業(yè)界常用方案及經(jīng)典方案在準(zhǔn)確率上進(jìn)行了提升,并保證了不錯(cuò)的時(shí)間效率。在新時(shí)代、新形勢(shì)下的人民消防工作下,該設(shè)計(jì)及系統(tǒng)具有相當(dāng)?shù)膶?shí)戰(zhàn)意義,有助于節(jié)約國(guó)家財(cái)務(wù)成本,有助于保障人民群眾的生命健康權(quán)。

猜你喜歡
分類文本信息
分類算一算
在808DA上文本顯示的改善
分類討論求坐標(biāo)
基于doc2vec和TF-IDF的相似文本識(shí)別
電子制作(2018年18期)2018-11-14 01:48:06
數(shù)據(jù)分析中的分類討論
教你一招:數(shù)的分類
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
展會(huì)信息
如何快速走進(jìn)文本
主站蜘蛛池模板: 伊人久久精品无码麻豆精品| 中文字幕调教一区二区视频| 一级毛片中文字幕| 婷婷丁香在线观看| 亚洲欧美综合另类图片小说区| 国产av剧情无码精品色午夜| 午夜毛片免费观看视频 | 在线播放国产一区| 九九这里只有精品视频| 亚洲av成人无码网站在线观看| 人妻无码AⅤ中文字| 99久久精品国产自免费| 久久久久人妻一区精品色奶水 | 亚洲日韩国产精品无码专区| 999精品色在线观看| 人妻丰满熟妇av五码区| 国内精品免费| 国产美女在线免费观看| 视频二区欧美| 久久国产精品影院| 成人亚洲国产| 亚洲欧美国产高清va在线播放| 九九热在线视频| 国产亚洲精品91| 国产喷水视频| 亚洲美女一级毛片| 日韩黄色精品| 婷婷亚洲视频| 伊人色在线视频| 亚洲欧美另类视频| 久青草免费在线视频| 最新国产成人剧情在线播放| 国产主播在线一区| 国产在线欧美| 国产呦精品一区二区三区下载 | 亚洲swag精品自拍一区| 久久天天躁狠狠躁夜夜2020一| 国产亚洲欧美日韩在线一区二区三区| 国产精品黄色片| 欧美在线视频a| 亚洲综合中文字幕国产精品欧美| 色婷婷在线播放| 黄色网址免费在线| 亚洲自偷自拍另类小说| 黄色网站不卡无码| 国产成人精品男人的天堂下载 | 国产一区二区福利| 91在线精品麻豆欧美在线| 国产91小视频| 亚洲综合网在线观看| 制服无码网站| 亚洲精品无码久久久久苍井空| 久久久久久国产精品mv| 免费毛片视频| 亚洲视频在线网| 曰AV在线无码| 波多野结衣视频网站| 亚洲aaa视频| 国产特一级毛片| 亚洲国产精品日韩av专区| 久久人体视频| 天天干伊人| jizz在线免费播放| lhav亚洲精品| 成人福利在线看| 在线亚洲小视频| 中文字幕 91| 中国精品自拍| 中文字幕调教一区二区视频| 国产精品视频系列专区| 在线毛片免费| 99爱视频精品免视看| 一区二区三区四区在线| 久久亚洲国产视频| 欧美日韩国产系列在线观看| 国产福利微拍精品一区二区| 无码又爽又刺激的高潮视频| 久久人搡人人玩人妻精品一| 欧美激情伊人| 91精品国产自产在线观看| 国产在线观看一区二区三区| 草草影院国产第一页|