999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于隱含狄利克雷分布主題模型和特征級(jí)異構(gòu)數(shù)據(jù)融合的電力故障主動(dòng)性預(yù)警研究?

2022-07-10 02:16:10林少娃陳奕汝伍蓓蓓雍旭龍
電子器件 2022年2期
關(guān)鍵詞:特征提取文本用戶

林少娃 陳奕汝 顧 潔 伍蓓蓓 雍旭龍

(1.國(guó)網(wǎng)浙江省電力有限公司電力科學(xué)研究院,浙江 杭州 310000;2.浙江大有實(shí)業(yè)有限公司綜合能源服務(wù)分公司,浙江 杭州 310000;3.杭州遠(yuǎn)傳新業(yè)科技有限公司,天津 300300)

隨著國(guó)民經(jīng)濟(jì)的發(fā)展和人民生活水平的提高,電力用戶對(duì)供電可靠性的要求越來越高。受惡劣環(huán)境和不可預(yù)測(cè)的外力破壞影響,電力故障停電無法完全避免,用戶對(duì)電力故障搶修的報(bào)修響應(yīng)速度、搶修效率有較高的要求。當(dāng)故障發(fā)生時(shí),電力公司需要對(duì)故障影響情況用戶數(shù)量、用戶可能發(fā)生的訴求情況等進(jìn)行快速預(yù)判,才能第一時(shí)間作出服務(wù)決策,以支撐快速響應(yīng)客戶報(bào)修訴求、提升搶修效率。此外,電力行業(yè)在發(fā)展過程中業(yè)務(wù)更新較快,需要及時(shí)收集客戶對(duì)業(yè)務(wù)變化的體驗(yàn),以快速做出適應(yīng)性調(diào)整。目前電力用戶訴求由95598 客服代表進(jìn)行內(nèi)容標(biāo)注和歸類,客戶訴求內(nèi)容被精簡(jiǎn),訴求中可能存在的重要信息被隱含在工單錄音文件中,不能直觀反映當(dāng)前供電服務(wù)的熱點(diǎn)問題。同時(shí)95598 工單分類體系未精細(xì)到具體業(yè)務(wù)點(diǎn),工單仍依賴人工梳理與統(tǒng)計(jì)分析,其效率低下;且人工統(tǒng)計(jì)分析受限于個(gè)人的業(yè)務(wù)能力,看待問題具有局限性并存在主觀經(jīng)驗(yàn)性。

隨著互聯(lián)網(wǎng)的普及,智能化客服系統(tǒng)已經(jīng)逐步取代傳統(tǒng)客服行業(yè),并發(fā)展成為互聯(lián)網(wǎng)客服行業(yè)的核心。依托系統(tǒng)準(zhǔn)確、可靠、全面、及時(shí)的狀態(tài)信息,智能化客服可以并發(fā)處理電力用戶的訴求事件。智能化客戶服務(wù)離不開大數(shù)據(jù)的支撐,公司需要通過分析歷史訴求信息數(shù)據(jù)和海量的電力用戶異構(gòu)數(shù)據(jù)來積極應(yīng)付突發(fā)事件,對(duì)訴求熱點(diǎn)進(jìn)行分類并進(jìn)行主動(dòng)性預(yù)警或調(diào)整服務(wù)決策,以提升客戶體驗(yàn)。同時(shí),全國(guó)信息化工作的全面快速推動(dòng),電力用戶用電基礎(chǔ)信息不斷完善,用電信息采集系統(tǒng)、營(yíng)銷系統(tǒng)等各類系統(tǒng)數(shù)據(jù)的貫通,電力用戶的各類基礎(chǔ)數(shù)據(jù)、用電信息、95598 熱線語(yǔ)音轉(zhuǎn)文本數(shù)據(jù)和在線客服對(duì)話數(shù)據(jù)等多源異構(gòu)數(shù)據(jù)向海量規(guī)模發(fā)展,大數(shù)據(jù)特征日益明顯,合理開發(fā)利用這些海量數(shù)據(jù),可以為智能化客服提供明確的數(shù)據(jù)依據(jù)支撐并自動(dòng)給訴求用戶滿意答復(fù)和相應(yīng)解決方法。

研究基于大量歷史訴求數(shù)據(jù)的供電服務(wù)訴求,實(shí)時(shí)挖掘電力用戶的服務(wù)信息訴求與熱點(diǎn)分類,可以解決傳統(tǒng)客服在處理訴求熱點(diǎn)時(shí)存在的延遲滯后與分析片面等問題。文中利用95598 熱線語(yǔ)音轉(zhuǎn)文本數(shù)據(jù)和在線客服對(duì)話文本數(shù)據(jù),采用非監(jiān)督學(xué)習(xí)的方法來挖掘用戶訴求文本中所包含熱點(diǎn)和話題。針對(duì)交互式文本的特點(diǎn)[1],先對(duì)簡(jiǎn)短的交互式文本進(jìn)行預(yù)處理,然后采用隱含狄利克雷分布概率(LDA)主題模型對(duì)交互式文本進(jìn)行主題挖掘,給訴求的電力用戶打上訴求熱點(diǎn)主題標(biāo)簽。

電力公司不僅擁有各種渠道的訴求信息,還掌握著關(guān)于訴求電力用戶本身的多源異構(gòu)數(shù)據(jù)(比如說電力用戶性別、電力用戶年齡、家庭成員、工作類別、居住區(qū)域等,用戶對(duì)應(yīng)的配電箱參數(shù)、繳費(fèi)方式和時(shí)間、欠費(fèi)或者余額信息等,電表圖像、設(shè)備故障圖像,用戶的每小時(shí)用電量序列數(shù)據(jù)等)。電力公司要對(duì)電力故障影響情況和訴求熱點(diǎn)進(jìn)行高準(zhǔn)確性地主動(dòng)性預(yù)測(cè),必須要對(duì)上述所收集到的多源異構(gòu)數(shù)據(jù)進(jìn)行合理的信息挖掘,在電力用戶進(jìn)行熱線訴求之前實(shí)施相對(duì)應(yīng)的解決方法。文中針對(duì)每一種類型的數(shù)據(jù)集采用相對(duì)應(yīng)的特征提取方法,并進(jìn)行特征級(jí)的數(shù)據(jù)融合,然后采用卷積神經(jīng)網(wǎng)絡(luò)作為分類器,來預(yù)測(cè)電力用戶可能的訴求主題并進(jìn)行主動(dòng)性預(yù)警。

文中最后使用某區(qū)域的電力公司的用戶熱線訴求和線上對(duì)話訴求的交互式文本,來驗(yàn)證LDA 算法進(jìn)行話題挖掘的有效性。同時(shí),文中也驗(yàn)證了基于特征級(jí)融合的卷積神經(jīng)網(wǎng)絡(luò)分類模型,在處理異構(gòu)數(shù)據(jù)時(shí)能夠很好地抓取異構(gòu)數(shù)據(jù)特征之間的關(guān)聯(lián)性,并獲得很高的分類準(zhǔn)確率,最終實(shí)現(xiàn)電力公司對(duì)電力故障影響情況和用戶訴求的主動(dòng)性預(yù)警功能。

1 面臨挑戰(zhàn)

交互式訴求信息因?yàn)槭怯脩艉涂头藛T的對(duì)話式交互文本,所以存在口語(yǔ)化嚴(yán)重、句式簡(jiǎn)短、交互性強(qiáng)等特點(diǎn)。句式簡(jiǎn)短和文本稀疏會(huì)使得在對(duì)交互式信息進(jìn)行主題挖掘時(shí)生成稀疏的特征矩陣,口語(yǔ)化、停頓詞等常用詞語(yǔ)會(huì)使得主題挖掘模型提取出非主題相關(guān)的詞語(yǔ)作為判斷主題標(biāo)簽的依據(jù),導(dǎo)致模型失效。在國(guó)家電網(wǎng)的客服環(huán)境下,電力用戶和客服人員的對(duì)話還具有極強(qiáng)的專業(yè)性色彩。文本專業(yè)化表明了用戶的訴求需求,極大地表現(xiàn)出用戶所關(guān)注的主題。所以文中需要解決交互式文本的簡(jiǎn)短、口語(yǔ)化和電力專業(yè)化等特點(diǎn),提升文本話題挖掘的有效性。圖1 展示了一個(gè)電力用戶和客服對(duì)話的語(yǔ)音轉(zhuǎn)交互式文本的案例。

圖1 客服對(duì)話案例

多源異構(gòu)數(shù)據(jù)挖掘的難點(diǎn)在于,特征提取無法使用統(tǒng)一的算法。類別離散數(shù)據(jù)、數(shù)值連續(xù)數(shù)據(jù)、圖像數(shù)據(jù)、時(shí)間序列數(shù)據(jù)等(如圖2 所示),都需要制定其對(duì)應(yīng)的特征提取算法來提取出有效信息。在提取完對(duì)應(yīng)的特征之后,還需要進(jìn)行數(shù)據(jù)融合,并傳給分類器進(jìn)行訴求熱點(diǎn)分類和預(yù)測(cè)。而傳統(tǒng)的分類器無法去捕捉各種數(shù)據(jù)源所提取出的特征之間的關(guān)聯(lián)性,導(dǎo)致分類準(zhǔn)確性很差。所以文中需要結(jié)合多源異構(gòu)數(shù)據(jù)的特點(diǎn),使用合適的分類器去得到最高的分類準(zhǔn)確性,從而使得系統(tǒng)可以更加準(zhǔn)確地對(duì)電力故障影響范圍和訴求熱點(diǎn)進(jìn)行主動(dòng)性預(yù)警。

圖2 多源異構(gòu)數(shù)據(jù)

2 設(shè)計(jì)方案

2.1 系統(tǒng)設(shè)計(jì)

挖掘電力用戶的訴求交互性短文本時(shí),文中根據(jù)百度百科、維基百科這兩個(gè)外部文本數(shù)據(jù),對(duì)交互式文本中出現(xiàn)電力專業(yè)性詞匯進(jìn)行詞語(yǔ)解釋來擴(kuò)充文本長(zhǎng)度,進(jìn)一步解決文本矩陣稀疏的問題。為了解決交互式文本中口語(yǔ)化對(duì)主題挖掘結(jié)果的影響,文中根據(jù)口語(yǔ)化詞語(yǔ)庫(kù)對(duì)高頻詞匯中的口語(yǔ)化詞語(yǔ)進(jìn)行過濾[2]。在進(jìn)行文本特征選擇之前,需要進(jìn)行相應(yīng)的預(yù)處理操作。預(yù)處理主要分三個(gè)部分:分詞處理、停用詞過濾和特殊詞匯過濾。預(yù)處理完之后,文中對(duì)交互式文本進(jìn)行特征提取。然后對(duì)預(yù)處理后的詞向量組進(jìn)行特征提取,最后采用LDA 算法對(duì)文本特征進(jìn)行主題挖掘,并給每一個(gè)訴求文本打上訴求熱點(diǎn)標(biāo)簽[3]。圖3 展示了電力用戶的交互式訴求文本主題挖掘的系統(tǒng)流程圖。

圖3 交互式文本主題挖掘流程圖

為了實(shí)現(xiàn)電力公司對(duì)電力用戶的訴求進(jìn)行主動(dòng)式預(yù)警,文中采用多源異構(gòu)大數(shù)據(jù)分析的算法與技術(shù),結(jié)合交互式文本訴求系統(tǒng)的主題熱點(diǎn)標(biāo)簽,對(duì)電力公司所收集到的電力用戶多源異構(gòu)數(shù)據(jù)集進(jìn)行分類處理。這樣,電力公司就可以直接根據(jù)電力用戶的本身信息和日常行為數(shù)據(jù)對(duì)用戶訴求進(jìn)行主動(dòng)式預(yù)測(cè)和訴求熱點(diǎn)分類。圖4 展示了多源異構(gòu)數(shù)據(jù)分類器的設(shè)計(jì)框架圖。

圖4 多源異構(gòu)數(shù)據(jù)分類器設(shè)計(jì)框架

對(duì)交互式文本進(jìn)行主題挖掘?qū)儆诜潜O(jiān)督性學(xué)習(xí)過程,避免浪費(fèi)大量的人力資源對(duì)訴求文本進(jìn)行標(biāo)簽注明。當(dāng)訴求交互式文本完成了話題分類之后,每一個(gè)文本都有其對(duì)應(yīng)標(biāo)簽,文中利用電力公司所持續(xù)收集的多源異構(gòu)數(shù)據(jù)集,結(jié)合訴求熱點(diǎn)標(biāo)簽,通過數(shù)據(jù)預(yù)處理、異構(gòu)數(shù)據(jù)特征提取、卷積神經(jīng)網(wǎng)絡(luò)等技術(shù)來完成異構(gòu)數(shù)據(jù)的深度挖掘,并實(shí)現(xiàn)交互式信息訴求的分類與預(yù)測(cè)。這樣,電力公司便可以通過收集到的用戶數(shù)據(jù),來迅速判斷故障影響范圍或客戶訴求熱點(diǎn),達(dá)到主動(dòng)預(yù)警的目的,并根據(jù)結(jié)果支撐客戶服務(wù)代表快速響應(yīng)客戶報(bào)修訴求或提供職能部門進(jìn)行服務(wù)調(diào)整決策。

2.2 文本主題挖掘

2.2.1 數(shù)據(jù)預(yù)處理模塊

由于電力用戶的訴求信息文本主要是由電話錄音的音頻數(shù)據(jù)轉(zhuǎn)化成文本而來,所以原始文本中存在停頓符號(hào)、空格、語(yǔ)氣詞、停用詞等。文本預(yù)處理在文本主題挖掘中起著非常重要的角色,文中將文本預(yù)處理過程分為以下三個(gè)步驟:

(1)分詞處理:文本處理的對(duì)象是詞向量,所以在進(jìn)行預(yù)處理之前首先需要對(duì)交互式文本進(jìn)行分詞處理,將文本轉(zhuǎn)化為多個(gè)獨(dú)立的詞向量。

(2)停用詞消除:停頓詞是自然語(yǔ)言的一個(gè)分支。需要從文本中刪除停頓詞的動(dòng)機(jī)是:它們讓文本看起來更沉重,對(duì)分析文本來說并不那么重要。刪除停止字可以降低詞向量特征空間的維度。在文本中最常見的單詞包括虛詞、口語(yǔ)化詞匯等,它們沒有給出文檔的含義。考慮到這些字在文本主題挖掘過程中不會(huì)被作為關(guān)鍵字,所以必須先刪除停用詞來減小主題挖掘訓(xùn)練時(shí)間。

(3)特殊詞過濾:文本詞向量中還包含了大量特殊詞匯,問候和致謝詞匯、線上客服文本中的表情信息、手機(jī)號(hào)碼、家庭住址等詞匯(在交互文本中所提及的訴求地址信息,文中單獨(dú)抓取出來并加入到后續(xù)的異構(gòu)數(shù)據(jù)源中),上述某些詞匯可能沒有實(shí)際意義,但是在詞向量中出現(xiàn)的頻次極高,需要對(duì)這些特殊詞匯進(jìn)行過濾。

2.2.2 特征提取模塊

預(yù)處理過程只是將一個(gè)交互式文本轉(zhuǎn)化為詞向量數(shù)組,但是這些詞向量的數(shù)量相對(duì)來說比較龐大。在進(jìn)行文本主題挖掘之前,仍需要對(duì)其進(jìn)行特征提取,來減少接下來的文本挖掘的數(shù)據(jù)處理時(shí)間。文中主要采用以下步驟來進(jìn)行特征詞向量提取:

(1)名詞短語(yǔ)提取:對(duì)交互式文本中詞向量進(jìn)行詞性標(biāo)注,篩選出名詞詞性的詞向量。

(2)高頻詞匯提取:在提取高頻詞匯過程中,文中根據(jù)詞頻的計(jì)算來衡量詞向量在文本中頻率,計(jì)算公式為:

式中:ni,j表示詞向量j在文本對(duì)象i中出現(xiàn)的次數(shù),∑knk,j表示詞向量j在所有文本對(duì)象中出現(xiàn)的總次數(shù),tfi,j表示詞向量j在文本對(duì)象i中的詞頻。通過設(shè)置閾值來篩除每個(gè)文本對(duì)象中的低頻詞向量,并保留高頻詞向量重新作為文本特征向量。

設(shè)置閾值篩除低頻詞向量,并保留高頻詞向量重新作為文本特征向量。

(3)信息熵過濾:高頻詞匯提取過程中,也會(huì)提取一些具有不確定性因素的高頻詞匯[4]。該步驟借助信息熵來對(duì)不確定性的高頻詞匯進(jìn)行剔除,信息熵公式如下:

在該公式中,i表示文本對(duì)象的序號(hào),n表示文本總數(shù);P(xi)表示詞匯xi在文本i中出現(xiàn)的概率。文中對(duì)所有過濾后的高頻詞匯進(jìn)行信息熵計(jì)算,設(shè)置合適的信息熵閾值,判斷當(dāng)前詞語(yǔ)的信息熵是否高于閾值,若高于閾值則將該詞語(yǔ)從特征詞向量中剔除,進(jìn)一步提高LDA 模型的效率。

2.2.3 LDA 算法

當(dāng)?shù)玫椒衔谋局黝}挖掘模型的交互式文本集合和每個(gè)文本中的詞向量集合之后,文中采用隱含狄利克雷分布(LDA)概率主題模型對(duì)上述的文本集合進(jìn)行主題挖掘。

LDA 模型是一種文檔生成模型。它認(rèn)為一篇文本是包含多個(gè)主題的,而每個(gè)主題又對(duì)應(yīng)不同的詞語(yǔ),所以在生成一個(gè)文本時(shí),首先以一定的概率選擇一個(gè)主題,再在此主題下以一定概率去選擇一個(gè)詞語(yǔ),不斷重復(fù)之后便可生成一篇文本。LDA 采用貝葉斯估計(jì)的方法,假設(shè)文檔的主題分布和主題的特征詞分布的先驗(yàn)分布都是Dirichlet 分布(狄利克雷分布),認(rèn)為所有的文檔存在K個(gè)隱含主題。圖5表示LDA 的概率圖模型。圖中每一個(gè)圓圈都表示一個(gè)隨機(jī)變量,其中白色圓圈表示隱含變量,黑色圓圈表示感測(cè)變量。M表示文本集合,N表示文本中詞向量的集合,K表示設(shè)置的主題數(shù)目。α表示每一篇文檔的主題分布的先驗(yàn)分布——Dirichlet 分布的超參數(shù);β 表示每一個(gè)主題的詞分布的先驗(yàn)分布-Dirichlet 分布的超參數(shù);W表示建模過程中可以觀測(cè)到的詞語(yǔ)。根據(jù)圖中描述,LDA 的具體文檔生成過程如圖5 所示。

圖5 LDA 概率圖模型

(1)從主題分布的Dirichlet 分布α中取一個(gè)作為生成文檔d的主題分布θ。

(2)從主題的多項(xiàng)式分布θ中取一個(gè)主題,作為生成文檔d第n個(gè)詞的主題Zd,n。

(3)從主題的詞分布的Dirichlet 分布β中取一個(gè)詞語(yǔ),作為生成主題Zd,n對(duì)應(yīng)的詞語(yǔ)分布φ。

(4)從詞語(yǔ)的多項(xiàng)式分布φ中采樣最終生成詞語(yǔ)Wd,n。

接下來對(duì)LDA 模型進(jìn)行訓(xùn)練,訓(xùn)練的過程就是通過吉布斯采樣獲取(主題,詞向量)的樣本,而模型的所有參數(shù)都可以基于最終采樣得到的樣本進(jìn)行估計(jì),訓(xùn)練過程如下:

(1)隨機(jī)初始化:對(duì)文本集中每一篇文本中的每一個(gè)詞w,隨機(jī)賦一個(gè)主題z。

(2)重新掃描文本集,對(duì)每一個(gè)詞w,按照吉布斯采樣公式重新采樣其主題:

將當(dāng)前詞w安排給計(jì)算出概率值最高的主題zmax。

(3)重復(fù)以上文本集的重新采樣過程直到吉布斯采樣收斂。

(4)統(tǒng)計(jì)主題-詞向量頻率矩陣,該矩陣變?yōu)長(zhǎng)DA 模型。

得到LDA 主題挖掘模型之后,對(duì)于新的未知文本,文中通過如下流程來判斷文本的主題分布:

(1)隨機(jī)初始化:對(duì)當(dāng)前文本中的每一個(gè)詞w,隨機(jī)賦予一個(gè)主題z。

(2)重新掃描當(dāng)前文本,按照吉布斯采樣公式,對(duì)每一個(gè)詞w,重新采樣其主題。

(3)重復(fù)以上步驟直到吉布斯采樣收斂。

(4)統(tǒng)計(jì)文本的主題分布,該分布即為θnew。

2.3 基于多源異構(gòu)數(shù)據(jù)的主動(dòng)預(yù)警

文中通過LDA 模型獲取到了電力用戶訴求文本的主題,并根據(jù)主題給每一個(gè)電力用戶的訴求文本打上標(biāo)簽。國(guó)家電網(wǎng)可以從多種途徑收集到訴求用戶的基本信息,電力信息(配電器類型、實(shí)時(shí)用電功率、總用電量、交費(fèi)信息等),用戶信息(家庭成員、工作信息、家庭住址等),訴求時(shí)空信息(電力投訴點(diǎn)位置信息,投訴點(diǎn)時(shí)間信息)。通過多種途徑收集到的異構(gòu)數(shù)據(jù),結(jié)合數(shù)據(jù)挖掘的算法,可以做到對(duì)電力故障等訴求問題的主動(dòng)預(yù)警,提前發(fā)送短信等方法告知電力用戶短時(shí)間內(nèi)可能出現(xiàn)的電力故障并提前部署相關(guān)維修部門解決問題。

對(duì)異構(gòu)數(shù)據(jù)集進(jìn)行分類的主要挑戰(zhàn)是如何處理數(shù)據(jù)集記錄中的異構(gòu)性。雖然一些現(xiàn)有的分類器(如決策樹)可以在特定的環(huán)境中處理異構(gòu)數(shù)據(jù),但是這些模型的性能可能仍然會(huì)得到改進(jìn),因?yàn)楫悩?gòu)性涉及到對(duì)相似性度量和計(jì)算的特定調(diào)整。而且,異構(gòu)數(shù)據(jù)仍然以不一致的、特別的方式處理。文中利用深度學(xué)習(xí)作為一種自動(dòng)化的特征工程的方法,利用獨(dú)熱編碼(One-hot Encoding)和LSTM 等方法分別對(duì)每一種數(shù)據(jù)格式的數(shù)據(jù)進(jìn)行提取特征,并最終通過合并(concat)操作將這些多種特征進(jìn)行融合。卷積神經(jīng)網(wǎng)絡(luò)(CNN)因?yàn)槌錾奶卣魈崛∧芰Ρ粡V泛應(yīng)用在各種領(lǐng)域,卷積核的設(shè)計(jì)可以讓系統(tǒng)根據(jù)數(shù)據(jù)之間的關(guān)聯(lián)性來提取出更高維度的特征,使得分類準(zhǔn)確率得到提高[5]。文中在得到異構(gòu)數(shù)據(jù)融合特征向量之后,采用了CNN 作為系統(tǒng)的分類器,旨在提取異構(gòu)數(shù)據(jù)特征之間的相關(guān)性,并提高最終模型分類的準(zhǔn)確性。

圖6 異構(gòu)數(shù)據(jù)分類器架構(gòu)圖

2.3.1 異構(gòu)數(shù)據(jù)特征提取

面對(duì)多源異構(gòu)數(shù)據(jù)處理的復(fù)雜性,為了達(dá)到多源異構(gòu)數(shù)據(jù)共性特征提取的目的,文中首先將異構(gòu)數(shù)據(jù)分成四大部分,第一是類別型數(shù)據(jù)(電力用戶性別、工作類別、居住區(qū)域等),第二是數(shù)值型數(shù)據(jù)(電力用戶年齡、配電箱參數(shù)、欠費(fèi)或余額信息等),第三是圖像型數(shù)據(jù)(電表圖像、施工現(xiàn)場(chǎng)圖像等),第四是時(shí)間序列信息(每小時(shí)用電量等)。文中針對(duì)不同類型的數(shù)據(jù),設(shè)計(jì)相對(duì)應(yīng)的特征提取方法:

(1)類別數(shù)據(jù)。文中采用常見的獨(dú)熱編碼來處理類別數(shù)據(jù),但是僅僅使用獨(dú)熱編碼會(huì)產(chǎn)生非常大的特征維度。文中將編碼后的類別向量連接到embedding 層,映射到低維的連續(xù)空間,可以解決維度過大的問題,并保留了類別數(shù)據(jù)本身的特征信息。

(2)數(shù)值數(shù)據(jù)。文中使用多層神經(jīng)網(wǎng)絡(luò)來對(duì)所有數(shù)值數(shù)據(jù)進(jìn)行特征提取,由于數(shù)值數(shù)據(jù)缺乏局部標(biāo)簽,所以文中使用無監(jiān)督的自編碼器來提取特征[6]。自編碼器(Auto Encoder)的輸入和輸出是一致的,即將自身的數(shù)據(jù)作為輸出層,采用稀疏的一些高階特征編碼自己,并能在輸出層還原出原始數(shù)據(jù)。文中所設(shè)置的自編碼器,擁有對(duì)稱的Encoder 和Decoder 結(jié)構(gòu)。編碼器的輸入層為原始數(shù)值數(shù)據(jù),第一個(gè)隱藏層具有6 個(gè)神經(jīng)元,第二個(gè)隱藏層具有4 個(gè)神經(jīng)元,文中設(shè)置最終編碼出的高階特征數(shù)量為3,所以編碼器的結(jié)構(gòu)如圖7 左邊所示。同理,對(duì)稱式地設(shè)計(jì)解碼器,其結(jié)構(gòu)如圖7 右邊所示。

圖7 自編碼器的結(jié)構(gòu)示意圖

(3)圖像數(shù)據(jù)。文中采用已經(jīng)訓(xùn)練好的VGG-16(一種深度卷積神經(jīng)網(wǎng)絡(luò)模型),作為圖像數(shù)據(jù)的特征提取方法。文中保留其他層的權(quán)重不變,只修改最后一層的參數(shù),根據(jù)電力圖像數(shù)據(jù)和其他來源的圖像進(jìn)行微調(diào),讓VGG-16 可以有效地提取到電力圖像數(shù)據(jù)的特征。

(4)時(shí)間序列數(shù)據(jù)。文中采用長(zhǎng)短時(shí)間記憶神經(jīng)網(wǎng)絡(luò)(Long Short-Term Memory,LSTM)模型對(duì)收集到的電力用戶每小時(shí)用電量的時(shí)間序列數(shù)據(jù)進(jìn)行特征提取。LSTM 可以隨著時(shí)間推移對(duì)序列數(shù)據(jù)進(jìn)行順序處理,并綜合利用歷史狀態(tài)數(shù)據(jù)、記憶狀態(tài)數(shù)據(jù)和當(dāng)前輸入數(shù)據(jù)等因素[7],可以更好地處理長(zhǎng)時(shí)間和短時(shí)間內(nèi)的序列關(guān)聯(lián)性。文中利用LSTM 來對(duì)時(shí)間序列數(shù)據(jù)進(jìn)行特征提取,確保提取出序列數(shù)據(jù)在時(shí)間上的關(guān)聯(lián)特征。

2.3.2 異構(gòu)數(shù)據(jù)融合與分類

文中分別針對(duì)每一種數(shù)據(jù)源都設(shè)計(jì)了特征提取的方法,要處理這些異構(gòu)數(shù)據(jù),必須要在特征級(jí)上進(jìn)行數(shù)據(jù)融合,所以對(duì)上一節(jié)中所有提取到的所有特征進(jìn)行concat 操作,組合成完整的1-D 異構(gòu)數(shù)據(jù)融合特征向量。接下來,就是設(shè)計(jì)分類器對(duì)融合特征向量進(jìn)行分類。

因?yàn)楫悩?gòu)數(shù)據(jù)雖然在數(shù)據(jù)類型上有很大的差別,但是每個(gè)數(shù)據(jù)源之間都存在著關(guān)聯(lián)性(比如說,居住區(qū)域和電力用戶年齡有關(guān),每小時(shí)用電量和用戶工作有關(guān)等)。傳統(tǒng)的分類器(SVM,決策樹,kNN等)對(duì)高維處理起來比較吃力,而且無法獲取數(shù)據(jù)源特征之間的相關(guān)性[8-9]。文中采用CNN(卷積神經(jīng)網(wǎng)絡(luò))作為分類器模型,CNN 相對(duì)于傳統(tǒng)分類器主要有以下兩點(diǎn)優(yōu)勢(shì):(i)CNN 使用并全局共享卷積核,所以處理高維數(shù)據(jù)時(shí)相對(duì)來說輕松很多;(ii)卷積核能獲取特征之間的關(guān)聯(lián)性,可以提升系統(tǒng)分類的準(zhǔn)確率。

文中使用1×1 卷積核的Inception 結(jié)構(gòu)來減少網(wǎng)絡(luò)參數(shù)數(shù)量。使用Relu 激活函數(shù),并進(jìn)行批歸一化(Batch Normalization)使得梯度可以更好地傳遞到淺層網(wǎng)絡(luò)中。同時(shí)為了防止訓(xùn)練出的模型過擬合,需要避免訓(xùn)練出復(fù)雜的網(wǎng)絡(luò)模型。文中添加了Dropout 結(jié)構(gòu)來隨機(jī)丟棄網(wǎng)絡(luò)單元,增加模型的多樣性,同時(shí)也使得模型泛化能力得到提升。最后,文中使用Softmax 層來進(jìn)行分類。

3 實(shí)驗(yàn)結(jié)果分析

3.1 主題挖掘結(jié)果分析

文中采用LDA 模型對(duì)交互式訴求文本進(jìn)行主題挖掘,參數(shù)設(shè)置為:主題數(shù)K=5,超參數(shù)α=1,β=0.02,φ=0.02,吉布斯采樣的迭代次數(shù)設(shè)置為2 000。LDA 模型的部分主題結(jié)果展示如圖8 所示。圖中三個(gè)主題分別是有關(guān)電費(fèi)異常、故障和抄表,在LDA 的權(quán)重值中電費(fèi)異常這一特征詞的權(quán)重最高,說明是電力用戶訴求中發(fā)生的最熱門主題。在主題挖掘模型中,主題與主題之間的相似性越低則效果越好,文中在計(jì)算主題相似度時(shí),采用了余弦法相似度計(jì)算公式[10],對(duì)每個(gè)主題向量:

圖8 部分主題結(jié)果展示

式中:tj為每一個(gè)詞語(yǔ),wj(dn)為tj在文檔dn中的權(quán)重,相似度計(jì)算公式如下:

然后遍歷每一個(gè)文本,再對(duì)相似度去得到最終的主題間的平均相似度數(shù)值。圖9 為L(zhǎng)DA 模型的主題之間的相似度與文本數(shù)據(jù)集數(shù)量的對(duì)應(yīng)情況。結(jié)果表明在文檔集增加的情況下,主題之間的相似度在降低,所以增加文本數(shù)量可以有效地提高挖掘主題的效率。

圖9 主題相似度分析

3.2 異構(gòu)數(shù)據(jù)分類效果分析

在對(duì)異構(gòu)數(shù)據(jù)進(jìn)行相對(duì)應(yīng)的特征提取之后,文中對(duì)特征級(jí)融合后的特征向量進(jìn)行多分類器的對(duì)比。如圖10 所示為多種分類算法分類準(zhǔn)確率對(duì)比圖。與傳統(tǒng)K 近鄰算法(K-nearest Neighbor,KNN)、支持向量機(jī)(Support Vector Machine,SVM)、隨機(jī)森林(Random Forest,RF)、集成分類器(AdaBoost)等分類算法相比[11],CNN 模型準(zhǔn)確率高出近7%,說明CNN 可以更好地分析異構(gòu)數(shù)據(jù)的特征之間的關(guān)聯(lián)性,并利用此關(guān)聯(lián)信息增加數(shù)據(jù)分類的準(zhǔn)確性。

圖10 分類算法準(zhǔn)確率對(duì)比圖

4 結(jié)束語(yǔ)

針對(duì)電力用戶訴求交互式文本和多源異構(gòu)數(shù)據(jù)集,文中提出了一個(gè)可以對(duì)電力故障和用戶訴求熱點(diǎn)預(yù)測(cè)的主動(dòng)預(yù)警系統(tǒng)。文中采用LDA 模型對(duì)交互式文本進(jìn)行主題聚類,然后采用基于卷積神經(jīng)網(wǎng)絡(luò)和特征級(jí)數(shù)據(jù)融合的分類器對(duì)用戶的多源異構(gòu)數(shù)據(jù)進(jìn)行分類,達(dá)到最高97%的分類準(zhǔn)確率,驗(yàn)證系統(tǒng)的有效性。國(guó)家電網(wǎng)可以根據(jù)用戶訴求的主動(dòng)性預(yù)警,提前安排相應(yīng)解決方法,給電力用戶最好的用電保障。

猜你喜歡
特征提取文本用戶
在808DA上文本顯示的改善
基于Gazebo仿真環(huán)境的ORB特征提取與比對(duì)的研究
電子制作(2019年15期)2019-08-27 01:12:00
基于doc2vec和TF-IDF的相似文本識(shí)別
電子制作(2018年18期)2018-11-14 01:48:06
一種基于LBP 特征提取和稀疏表示的肝病識(shí)別算法
關(guān)注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
關(guān)注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
關(guān)注用戶
商用汽車(2016年4期)2016-05-09 01:23:12
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
如何獲取一億海外用戶
基于MED和循環(huán)域解調(diào)的多故障特征提取
主站蜘蛛池模板: 嫩草在线视频| 亚洲av无码片一区二区三区| 少妇精品网站| 91九色国产porny| 2020久久国产综合精品swag| 欧美三级视频网站| 天天躁夜夜躁狠狠躁图片| 中文字幕亚洲综久久2021| 国内精品视频| 免费中文字幕在在线不卡| 色婷婷在线播放| 亚洲色成人www在线观看| 91在线无码精品秘九色APP| 欧美日韩中文国产va另类| 亚洲综合精品第一页| 伊人中文网| 亚洲人成在线精品| 美女视频黄又黄又免费高清| 一级高清毛片免费a级高清毛片| 欧美午夜精品| 欧美一级高清片欧美国产欧美| 国产成人a毛片在线| 无码中文字幕乱码免费2| 成人国产精品2021| 欧美色综合久久| 国产日产欧美精品| 伊人久久大香线蕉影院| 久热中文字幕在线| 在线观看欧美精品二区| 尤物亚洲最大AV无码网站| 色婷婷啪啪| 午夜精品福利影院| 久久久久亚洲精品成人网| 久久久久人妻一区精品色奶水| 国产成人无码Av在线播放无广告| 日韩欧美中文| 日韩欧美一区在线观看| 99视频只有精品| 日韩欧美成人高清在线观看| 26uuu国产精品视频| 香蕉伊思人视频| 精品91自产拍在线| 国产在线高清一级毛片| 久久人人爽人人爽人人片aV东京热 | 久久永久免费人妻精品| 国产成人精品在线1区| 亚洲精品男人天堂| 精品视频福利| 亚洲伦理一区二区| 五月婷婷欧美| 亚洲无码精品在线播放| 亚洲精品午夜天堂网页| 小13箩利洗澡无码视频免费网站| 成人免费一级片| 国产精品19p| 国产丰满大乳无码免费播放 | 午夜成人在线视频| 亚洲精品视频免费看| 日韩欧美中文字幕在线精品| 亚洲无码91视频| 久久精品中文字幕免费| 国产在线视频二区| 久久精品只有这里有| 亚洲乱码视频| 色婷婷在线播放| 午夜限制老子影院888| 国产香蕉一区二区在线网站| 国产杨幂丝袜av在线播放| 欧美精品aⅴ在线视频| 欧美亚洲网| 国产麻豆精品久久一二三| 91在线精品免费免费播放| 亚洲无码在线午夜电影| 久久伊人操| 日韩欧美色综合| 色综合a怡红院怡红院首页| 亚洲国产看片基地久久1024| 亚洲一区国色天香| 综合色在线| 亚洲综合色区在线播放2019| 国产在线视频欧美亚综合| 茄子视频毛片免费观看|