999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于BERT與Milvus的電力客服識(shí)圖智問(wèn)方法

2022-10-31 06:28:42國(guó)網(wǎng)河南信通公司何軍霞河南九域騰龍信息工程有限公司
電力設(shè)備管理 2022年17期
關(guān)鍵詞:文本模型系統(tǒng)

國(guó)網(wǎng)河南信通公司 何軍霞 河南九域騰龍信息工程有限公司 馮 楠 蘇 斌 楊 光

在電力客服行業(yè)中,隨著人工智能的快速發(fā)展,知識(shí)圖譜已經(jīng)廣泛地使用在各個(gè)電力系統(tǒng)的客服中,通過(guò)系統(tǒng)本體、關(guān)鍵字本體以及問(wèn)答本體,將不同系統(tǒng)的知識(shí)緊密地聯(lián)系在一起,并且可視化的效果也帶來(lái)了眼前一亮的效果。通過(guò)知識(shí)圖譜可基本上解決客服中的各種問(wèn)題,而且當(dāng)使用者使用一定時(shí)間后還可實(shí)現(xiàn)推薦的功能,但是在電力行業(yè),復(fù)雜的系統(tǒng)頁(yè)面各種操作以及報(bào)錯(cuò)信息,如果使用傳統(tǒng)的知識(shí)圖譜問(wèn)答系統(tǒng),還需要根據(jù)面對(duì)的情況按照自己的理解表達(dá)成文本,才能夠使用客服系統(tǒng)。

于是就出現(xiàn)了識(shí)圖智能問(wèn)答系統(tǒng),針對(duì)的知識(shí)體系還是同一套,新增了圖片知識(shí)節(jié)點(diǎn),每個(gè)圖片都需要和已有的問(wèn)答對(duì)進(jìn)行匹配,使用Milvus 作為向量庫(kù)對(duì)文本和圖片數(shù)據(jù)進(jìn)行存儲(chǔ),之所以選擇Milvus,是因?yàn)閳D片向量生成以及匹配需要一定的時(shí)間,而通過(guò)向量數(shù)據(jù)庫(kù)就可將文本以及圖片向量預(yù)先存儲(chǔ)好,在進(jìn)行向量檢索時(shí)的速度就特別快,從而提升了識(shí)圖智問(wèn)的效率。本次研究將提供一種基于BERT+Milvus+OCR 的框架,實(shí)現(xiàn)文本、圖片知識(shí)的獲取與存儲(chǔ),以及快速匹配的識(shí)圖智問(wèn)方法。

1 相關(guān)理論技術(shù)與研究

Bert(Bidirectional Encoder Representation from Transformers)是一個(gè)語(yǔ)言表征模型。以往的語(yǔ)言模型是單向的,或者是把兩個(gè)獨(dú)立的單向語(yǔ)言模型反向拼接到一起來(lái)進(jìn)行預(yù)訓(xùn)練,而B(niǎo)ert 是采用新的Mask 機(jī)制(MLM),可使得模型理解上下文的語(yǔ)言表征,一經(jīng)發(fā)布就在11個(gè)NLP 任務(wù)中成為SOTA,令人驚訝。該模型有以下主要優(yōu)點(diǎn):引入Masked LM(帶mask 機(jī)制的語(yǔ)言模型訓(xùn)練),以生成深層的雙向語(yǔ)言表征;引入Next Sentence Prediction,更好的服務(wù)問(wèn)答、推理、句主題關(guān)系等NLP 任務(wù);便于fine-tune,因?yàn)樵诿總€(gè)模型層中都可獲取到對(duì)應(yīng)的狀態(tài),下游任務(wù)根據(jù)不同的模型層疊加可實(shí)現(xiàn)各種任務(wù),這就使得在這整個(gè)微調(diào)過(guò)程當(dāng)中不需要修改模型的特定結(jié)構(gòu)。

OCR[1](Optical Character Recognition)叫做光學(xué)字符識(shí)別。它利用計(jì)算機(jī)技術(shù)以及光學(xué)技術(shù),讀取紙上印刷或書(shū)寫(xiě)的文字,并將其轉(zhuǎn)換成人們能夠理解、且計(jì)算機(jī)也能夠接受的格式。圖片文字抽取是計(jì)算機(jī)視覺(jué)任務(wù)之一,也已經(jīng)相對(duì)比較成熟,在商業(yè)上也有不少落地項(xiàng)目。

Milvus 是建立在Annoy、NMSLIB、Faiss 等向量索引庫(kù)基礎(chǔ)上的一款向量相似度搜索引擎,其易于使用、可靠、功能強(qiáng)大以及穩(wěn)定。Milvus 集成了一些向量相似計(jì)算方法以及向量索引庫(kù),并且對(duì)外提供了檢索API,不僅可實(shí)現(xiàn)快速的檢索,還能夠?qū)V掉非向量數(shù)據(jù)。當(dāng)數(shù)據(jù)達(dá)到一定規(guī)模、達(dá)到大數(shù)據(jù)概念時(shí),Milvus 也能提供集群解決方案。

本次研究涉及的是一種基于BERT+Milvus+OCR 圖片文本特征表示庫(kù)架構(gòu)的電力客服數(shù)據(jù)識(shí)圖智問(wèn)方法,解決了通過(guò)報(bào)錯(cuò)頁(yè)面截圖抽取知識(shí)及向量快速檢索問(wèn)答,旨在從電力系統(tǒng)中截取出現(xiàn)提示或者報(bào)錯(cuò)的頁(yè)面,以及操作手冊(cè)中文本和圖片信息,創(chuàng)建問(wèn)題集合、答案集合以及向量表示集合,使用Milvus 存儲(chǔ)電力客服知識(shí)。

該方法步驟:收集內(nèi)網(wǎng)郵箱系統(tǒng)的操作手冊(cè)、問(wèn)題手冊(cè)及系統(tǒng)頁(yè)面截圖;讀取word 文檔數(shù)據(jù),包括問(wèn)答數(shù)據(jù)以及圖片數(shù)據(jù);對(duì)內(nèi)網(wǎng)郵箱系統(tǒng)問(wèn)答數(shù)據(jù)與圖片實(shí)現(xiàn)一一匹配,形成結(jié)構(gòu)化數(shù)據(jù);基于OCR[2]對(duì)圖片進(jìn)出文字識(shí)別抽取;使用BERT 模型,微調(diào)實(shí)現(xiàn)提取內(nèi)網(wǎng)郵箱系統(tǒng)文本數(shù)據(jù)的語(yǔ)義特征;基于SimBert 實(shí)現(xiàn)問(wèn)答對(duì)于圖片知識(shí)表示的同一空間映射,形成識(shí)圖智問(wèn)語(yǔ)義相似匹配模型;基于Milvus 將文本與圖片特征表示數(shù)據(jù)存儲(chǔ)至向量數(shù)據(jù)庫(kù)。該方法可有效地解決從海量的數(shù)據(jù)中快速匹配問(wèn)答對(duì)的問(wèn)題,提升圖片與文本相似的準(zhǔn)確率,最終提升識(shí)圖智問(wèn)性能。

隨著計(jì)算機(jī)的發(fā)展,已從工業(yè)時(shí)代進(jìn)入了信息時(shí)代。而在這個(gè)數(shù)據(jù)滿(mǎn)天飛的時(shí)代,如何整理以及有效利用數(shù)據(jù)變得越來(lái)越重要。通過(guò)整理好的數(shù)據(jù)及自然語(yǔ)言處理技術(shù)的加持,可實(shí)現(xiàn)多種多樣的功能,有數(shù)據(jù)分析、數(shù)據(jù)推薦、數(shù)據(jù)推理等落地場(chǎng)景。在電力行業(yè)中,客服系統(tǒng)是其對(duì)外的重要窗口,是一個(gè)重要的組成部分,為提高客服使用效率和達(dá)標(biāo)質(zhì)量,相關(guān)部門(mén)近年來(lái)也一直在電力客服的建設(shè)中增加投入。

傳統(tǒng)電力客服采用的是人工的形式,在面對(duì)用戶(hù)提問(wèn)時(shí),人工座席可根據(jù)自己的豐富經(jīng)驗(yàn)或者查詢(xún)對(duì)應(yīng)的問(wèn)題手冊(cè)來(lái)回答一系列提問(wèn)題。這也帶來(lái)一系列的問(wèn)題,如簡(jiǎn)單問(wèn)題機(jī)械化,復(fù)數(shù)次數(shù)多容易導(dǎo)致出錯(cuò);專(zhuān)業(yè)的座席需要時(shí)間培養(yǎng);24小時(shí)座席在線(xiàn)需要多人參與等問(wèn)題。隨著自然語(yǔ)言處理技術(shù)的發(fā)展,智能客服很快就衍生出來(lái)了,并得到了越來(lái)越多的研究與關(guān)注,智能客服可代替人工座席來(lái)回答一些簡(jiǎn)單、高頻率的問(wèn)題,這樣有助于減少座席的工作量和去除機(jī)械化思維,從而有時(shí)間可去解決更復(fù)雜的問(wèn)題,同時(shí)智能客服機(jī)器人可輕松實(shí)現(xiàn)24小時(shí)全天滿(mǎn)狀態(tài)服務(wù)。

通過(guò)以上這些優(yōu)勢(shì),智能客服明顯能夠提高電力行業(yè)客服的效率,并且減輕座席工作壓力,另一方面提高客戶(hù)滿(mǎn)意度。在每行每業(yè)融入深度學(xué)習(xí)技術(shù)都可實(shí)現(xiàn)一套智能客服系統(tǒng),并且有了一定的行業(yè)規(guī)范標(biāo)準(zhǔn),大致就是通過(guò)提取與用戶(hù)對(duì)話(huà)的語(yǔ)義與特征使用文本相似度或者文本分類(lèi)的方法,在知識(shí)庫(kù)中匹配到相對(duì)應(yīng)的問(wèn)題與答案,其中知識(shí)庫(kù)有的使用的是關(guān)系型數(shù)據(jù)庫(kù),而現(xiàn)在流行使用的是知識(shí)圖譜來(lái)進(jìn)行存儲(chǔ)。

但是隨著數(shù)據(jù)的多元化,用戶(hù)在詢(xún)問(wèn)問(wèn)題時(shí),大多數(shù)面對(duì)的并不是一種文本形式的數(shù)據(jù),比如一個(gè)系統(tǒng)的報(bào)錯(cuò)信息提示頁(yè)面,如果不熟悉這個(gè)系統(tǒng)的話(huà),用戶(hù)并不能夠?qū)⑦@樣的信息轉(zhuǎn)換為有效文本形式去詢(xún)問(wèn)智能客服,所以就提出了識(shí)圖智問(wèn)客服系統(tǒng),就是通過(guò)上傳一張問(wèn)題圖片來(lái)匹配與之相似的問(wèn)題,從而達(dá)到問(wèn)題詢(xún)問(wèn)的功能。

本研究主要針對(duì)電力系統(tǒng)中的內(nèi)網(wǎng)郵箱系統(tǒng),主要整理的是業(yè)務(wù)系統(tǒng)的操作手冊(cè)說(shuō)明書(shū)及系統(tǒng)頁(yè)面的報(bào)錯(cuò)信息截圖,以達(dá)到在客服中可利用的程度。對(duì)于現(xiàn)有的文字智能客服機(jī)器人,可很好地從用戶(hù)的提問(wèn)中獲取關(guān)鍵信息,并檢索知識(shí)庫(kù),及時(shí)反饋給用戶(hù)答案。但是在一定場(chǎng)合情況下,用戶(hù)通過(guò)一張系統(tǒng)頁(yè)面截圖來(lái)進(jìn)行知識(shí)問(wèn)答,這就需要用到人工智能中更多的算法來(lái)實(shí)現(xiàn)。針對(duì)這類(lèi)問(wèn)題,將操作手冊(cè)梳理成知識(shí)庫(kù),并將文檔中圖片以及系統(tǒng)截圖相匹配,配合文本相似度、OCR 等算法就可實(shí)現(xiàn)識(shí)圖智問(wèn),在用戶(hù)面對(duì)系統(tǒng)報(bào)錯(cuò)信息頁(yè)面時(shí),不需要將其轉(zhuǎn)換成問(wèn)題話(huà)術(shù),直接截圖就可實(shí)現(xiàn)問(wèn)答。

2 相關(guān)研究及應(yīng)用

2.1 PaddleOCR 圖片識(shí)別文字

PP-OCR 是PaddlePaddle 提出的一種超輕量級(jí)OCR 系統(tǒng),在很多領(lǐng)域都特別實(shí)用,是由文本檢測(cè)、檢測(cè)框校正、文本識(shí)別三個(gè)部分組成。

文字檢測(cè)器:在圖像中的文本區(qū)域?qū)崿F(xiàn)定位是文本檢測(cè)的目的。PP-OCR 中文本檢測(cè)器是基于可微分二值化(DB)簡(jiǎn)單分割網(wǎng)絡(luò)來(lái)實(shí)現(xiàn)的,這就使得文字檢測(cè)器非常高效。

方向分類(lèi)器:在檢測(cè)框可更正檢測(cè)到的文本之前,需要將文本框轉(zhuǎn)換為水平矩形,以便之后進(jìn)行文本識(shí)別。因?yàn)闄z測(cè)幀是通過(guò)四個(gè)點(diǎn)來(lái)組成的,這就使得它可很方便通過(guò)幾何變換來(lái)實(shí)現(xiàn)得到,但是在矯正之后的盒子還可能會(huì)被翻轉(zhuǎn)過(guò)來(lái),所以需要一個(gè)方向分類(lèi)器來(lái)確定方向。如果可確定其中的一個(gè)方框是反的,說(shuō)明就需要進(jìn)行翻轉(zhuǎn)。

文字識(shí)別器:使用CRNN 作為文本識(shí)別器,廣泛應(yīng)用在圖像文本識(shí)別領(lǐng)域中。CRNN 對(duì)特征提取和序列建模進(jìn)行了融合,并且采用了CTC 的損失,所以可有效地避免預(yù)測(cè)與標(biāo)注不一致的問(wèn)題。

這三種識(shí)別器為了提高模型的效率、有效性、能力以及存儲(chǔ)大小,各自采用了一系列的策略來(lái)實(shí)現(xiàn),分別是:輕頭部、輕骨架、去SE(去除后,模型大小減半)、學(xué)習(xí)率預(yù)熱、余弦學(xué)習(xí)率衰減(文本識(shí)別能力得到有效地提高)、FPGM 剪枝;數(shù)據(jù)增強(qiáng)、輕骨架、PACT 量化、輸入分辨率;PACT 量化、輕主干、數(shù)據(jù)增強(qiáng)、正則化參數(shù)、余弦學(xué)習(xí)速率衰減、預(yù)訓(xùn)練模型(ImageNet)、學(xué)習(xí)率預(yù)熱、輕頭部、特征圖解析。

2.2 BERT 文本相似度

基于Bert 的文本相似度模型,是在Bert 網(wǎng)絡(luò)的中最后再疊加一層全連接神經(jīng)網(wǎng)絡(luò)。由于預(yù)訓(xùn)練模型需要大量的時(shí)間和資源,因此直接使用了開(kāi)源的權(quán)重,對(duì)Bert 進(jìn)行微調(diào),輸入為兩個(gè)句子,使用【sep】隔開(kāi),輸出層使用Sigmoid 作為激活函數(shù),在整個(gè)過(guò)程中,不需要修改模型的特定結(jié)構(gòu)。

圖1 基于Bert 的文本相似度模型

輸入層:將句子輸入到模型中,兩個(gè)句子拼接在一起;字詞列表:相當(dāng)于one-hot,將字與id綁定起來(lái);Bert 層:使用Bert 模型來(lái)替代嵌入層,由于Transformer 中Mask 機(jī)制,所有Bert 可 更好地融貫句子中上下文語(yǔ)義,這里使用的是768維度的向量表示;輸出層:將經(jīng)過(guò)Bert 的句向量【cls】輸入到Sigmoid 層,將變量映射到0,1之間,通過(guò)設(shè)置閾值來(lái)判定是否相似。

2.3 BERT+OCR+Milvus 識(shí)圖智問(wèn)框架研究

本文的識(shí)圖智問(wèn)項(xiàng)目使用Milvu 整體架構(gòu)如圖2所示。

圖2 Milvu 整體架構(gòu)

OCR 圖片文字識(shí)別服務(wù)搭建,使用paddleocr和flask 來(lái)實(shí)現(xiàn),此服務(wù)將在這個(gè)框架中可自由支配調(diào)用。數(shù)據(jù)前期準(zhǔn)備時(shí),將已有的所有圖片抽取成文本格式進(jìn)行存儲(chǔ);Bert 句子編碼器服務(wù)搭建,使用falsk 將bert 共同實(shí)現(xiàn),將已有所有問(wèn)題以及圖片信息轉(zhuǎn)化為768位的特征向量,并導(dǎo)入Milvus 中。

在Milvus 庫(kù)中建立系統(tǒng)集合,每個(gè)集合代表一個(gè)系統(tǒng),而存入的特征向量會(huì)分配一個(gè)唯一ID,將集合、ID 和對(duì)應(yīng)的系統(tǒng)、問(wèn)題對(duì)存儲(chǔ)在neo4j 圖數(shù)據(jù)庫(kù)中,圖數(shù)據(jù)庫(kù)可很好的可視化問(wèn)題之間的關(guān)系;用戶(hù)輸入一張圖片,系統(tǒng)會(huì)將這個(gè)圖片通過(guò)OCR 模塊轉(zhuǎn)換成文本形式。再通過(guò)Bert 模型獲取到文本的向量特征表示,去Milvus 庫(kù)中進(jìn)行向量檢索,得到最相似的問(wèn)答對(duì)ID,通過(guò)這個(gè)ID 去知識(shí)圖譜中查找對(duì)應(yīng)的答案。

2.4 向量存儲(chǔ)庫(kù)的應(yīng)用

Milvus 向量數(shù)據(jù)庫(kù)可廣泛應(yīng)用在各行各業(yè),并且面對(duì)的數(shù)據(jù)量可是百萬(wàn)級(jí)別的,檢索速度快,應(yīng)用場(chǎng)景如下。圖片檢索:以圖搜圖,檢索海量數(shù)據(jù)庫(kù),即時(shí)返回相似圖片;視頻檢索:將視頻轉(zhuǎn)為向量存儲(chǔ)至Milvus 中,可實(shí)現(xiàn)視頻的相似比對(duì),進(jìn)行實(shí)時(shí)視頻推薦;音頻檢索:檢索海量語(yǔ)音、音樂(lè)、音效和其他音頻數(shù)據(jù),并返回類(lèi)似的音頻數(shù)據(jù);分子式檢索:快速檢索相似化學(xué)分子結(jié)構(gòu)、子結(jié)構(gòu)等;DNA 序列分類(lèi):通過(guò)比較相似的DNA 序列,可在短時(shí)間內(nèi)對(duì)基因進(jìn)行精確分類(lèi)。

綜上,隨著互聯(lián)網(wǎng)的發(fā)展,人工智能在客服領(lǐng)域中發(fā)揮的作用越來(lái)越重,從最初的簡(jiǎn)單檢索到知識(shí)圖譜檢索問(wèn)答,延伸出智能問(wèn)答推薦以及識(shí)圖智問(wèn)等功能。對(duì)用戶(hù)來(lái)說(shuō),智能客服越來(lái)越便捷、問(wèn)答的方式也越來(lái)越便捷。本文研究的是針對(duì)內(nèi)網(wǎng)郵箱系統(tǒng)實(shí)現(xiàn)識(shí)圖智問(wèn)的功能,為電力行業(yè)帶來(lái)一些新的發(fā)展思路。在這個(gè)云計(jì)算、大數(shù)據(jù)、深度學(xué)習(xí)等前沿科技迅速發(fā)展的潮流下,多元化的數(shù)據(jù)也在一步步進(jìn)行融合,這些整合到一塊兒的數(shù)據(jù)可實(shí)現(xiàn)更多的功能,在人們生活場(chǎng)景當(dāng)中也有更多落地的方向,相信在未來(lái)像這樣多元化數(shù)據(jù)的智能客服研究能夠有更多的突破和創(chuàng)新!

猜你喜歡
文本模型系統(tǒng)
一半模型
Smartflower POP 一體式光伏系統(tǒng)
WJ-700無(wú)人機(jī)系統(tǒng)
ZC系列無(wú)人機(jī)遙感系統(tǒng)
重要模型『一線(xiàn)三等角』
重尾非線(xiàn)性自回歸模型自加權(quán)M-估計(jì)的漸近分布
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識(shí)別
電子制作(2018年18期)2018-11-14 01:48:06
連通與提升系統(tǒng)的最后一塊拼圖 Audiolab 傲立 M-DAC mini
3D打印中的模型分割與打包
主站蜘蛛池模板: 久久青草精品一区二区三区| 成人精品午夜福利在线播放| 这里只有精品在线播放| 国产欧美日韩免费| 国产精品九九视频| 国产成年女人特黄特色毛片免 | 国产精品自在线拍国产电影| 亚洲精品中文字幕午夜| 99热线精品大全在线观看| 精品小视频在线观看| 午夜精品国产自在| 国产精品香蕉| 日日摸夜夜爽无码| 亚洲成人福利网站| 中文字幕亚洲专区第19页| 免费全部高H视频无码无遮掩| 中文字幕在线欧美| 黄色在线不卡| 精品国产香蕉伊思人在线| 欧美日本不卡| 国产午夜在线观看视频| a毛片免费在线观看| 欧美一级黄色影院| 欧美精品啪啪| 亚洲天堂日韩av电影| 亚洲日韩AV无码精品| 中国黄色一级视频| 一级毛片免费不卡在线| a色毛片免费视频| 这里只有精品在线播放| 欧美日韩在线第一页| 亚洲综合色婷婷中文字幕| 国产黄视频网站| 亚洲中文字幕手机在线第一页| 中文字幕首页系列人妻| 婷婷色丁香综合激情| 欧美色视频在线| 国产视频入口| 国产亚洲一区二区三区在线| 久久天天躁狠狠躁夜夜躁| 国产成人精品一区二区三区| 日韩一区精品视频一区二区| 亚洲第一成网站| 亚洲欧洲AV一区二区三区| 国产精品手机在线播放| 亚洲综合九九| 国产又爽又黄无遮挡免费观看| 欧美精品成人一区二区视频一| 久久频这里精品99香蕉久网址| 日韩欧美中文在线| 日韩免费毛片视频| 真人免费一级毛片一区二区| 国产呦精品一区二区三区网站| 四虎永久在线视频| 国产综合网站| 日韩欧美高清视频| 国产三区二区| 欧美精品啪啪| 精品亚洲麻豆1区2区3区| a亚洲天堂| lhav亚洲精品| 精品综合久久久久久97超人该 | 国产粉嫩粉嫩的18在线播放91 | 久久a级片| 国产精品亚洲一区二区三区z | 国产成人禁片在线观看| 国产成人综合亚洲网址| P尤物久久99国产综合精品| 亚洲制服丝袜第一页| 国产福利微拍精品一区二区| 久久中文电影| 亚洲AV免费一区二区三区| 2022精品国偷自产免费观看| 国产视频一区二区在线观看 | 青草娱乐极品免费视频| 日韩精品久久无码中文字幕色欲| 国产理论一区| 精品国产免费观看| 免费一看一级毛片| 中文字幕欧美日韩| 久久久久久国产精品mv| AV在线天堂进入|