覃浩, 劉振華, 蘇立偉, 楊秋勇, 胡如樂
(1.廣東電網有限責任公司客戶服務中心, 廣東, 廣州 510000;2.廣東電網有限責任公司信息中心, 廣東, 廣州 510000;3.南方電網公司數字研究院有限公司, 廣東, 廣州 510000)
電力營銷是電力系統中的主要任務,在日常的電力服務支持下,用戶通過撥打熱線的方式咨詢日常生活中遇到的各項電力問題[1]。從管理角度出發,如何高效地解決電力營銷過程中遇到的問題成為了當前信息咨詢工作中的重點[2]。在現代化智能算法支持下,電力工作者建立了語音服務用戶識別過程,通過辨別語音用戶中的言語構成,將其處理為不同的類別[3],并針對設定的類別對應不同的解決方式。為此,設計電力營銷的語音服務用戶意圖識別模型具有很大的研究價值。
國外研究意圖識別起步較早,在人工智能技術的支持下,研究設定了面向任務以及聊天的對話系統[4],并將其拓展應用到多個領域當中。國內研究意圖識別技術起步較晚,研究人員采用了模塊化的處理技術,將意圖任務處理為分布式架構[5],通過架構之間形成的交互完成意圖信息的交換。文獻[6]中的意圖識別模型采用了雙向長短時記憶網絡,將用戶意圖處理為標簽形式,在標簽形式內加入條件隨機場景,構建成語言與用戶意圖之間的依賴關系。文獻[7]中的意圖識別模型采用了神經網絡模型訓練了語義意圖,并采用特征建模的方式將語音數據與識別輸出建立數值關系,構建了智能化的意圖識別模型。
通過對階段性研究的應用可知,現有的意圖識別模型存在輸出識別數據質量較差的問題,為此,將Tex-RCNN作為技術支持,構建電力營銷語音服務用戶意圖識別模型。
Tex-RCNN處理方法分為三部分,第一部分采用Bi-RNN來獲取文本的上下文特征表示,第二部分采用max-pooling進一步提取特征信息,第三部分采用全連接層來獲取類別概率。Tex-RCNN方法架構如圖1所示。

圖1 Tex-RCNN架構
調用Tex-RCNN處理方法中的兩層感知結構處理電力營銷數據,根據電力營銷數據獲得的數據層,在第一層感知結構內設置一層輸出,設置的輸出可表示為

(1)
其中,H1、H2表示設置的輸出層,φ表示輸出的數據層節點,W1、W2表示神經網絡中設置的感知參數,X表示電力營銷數據層,m表示輸出參數。經過兩層結構的處理后,激活的營銷數據存在部分數據冗余,為了消除營銷語音數據產生的冗余[8],計算輸出的數據的權重,并設定一個固定的偏移量。此時輸出的語音服務數據可表示為
(2)
其中,yi表示輸出的語音服務數據集,s表示正則化參數,r表示設定的固定偏移量。根據上述計算得到的數據權重可知,語音服務數據存在多個類別,所以在控制多個數值輸出時,采用Softmax將其映射處理為多個神經輸出,并采用交叉熵代價處理過程將其處理為概率形式,處理過程可表示為
(3)
其中,Lc表示交叉熵代價函數,N表示分類類別,其余參數含義不變。在概率形式的營銷服務數據中,意圖屬性內存在多種不確定性[9],故采用主動樣本熵的形式將數據處理為熵概率的形式,處理過程可表示為
(4)
其中,arg表示計算得到的熵概率數值,xi表示式(3)中得到的概率數據集,Ne表示處理類別總數。整理上述處理得到的熵概率數值后,利用BvSB處理技術不斷挑選語音服務熵概率。并定義其為標注樣本集合,不斷輸出樣本集合中的樣本后,將其處理為營銷語音服務數據集,根據該數據集,構建意圖依賴的數值關系。
使用上述獲取得到的意圖數值關系,在學習算法當中構建一個學習評估過程[10],構建的學習評估可表示為

(5)
其中,Qc表示構建的學習評估函數,ct表示選擇意圖參數,ε表示迭代參數,χ表示完全參數。經學習評估后,聯系上下數據類型,設定學習評估的初始值,數值關系可表示為
(6)
其中,Ut表示構建的評估初始值,ct+1表示最優語音服務未來數值,α(s)表示下個意圖的有效參數。利用上述計算得到的初始值,采用前后概率驗證的方式構建依賴數值關系,可表示為
(7)
其中,Pi表示構建的依賴數值關系,αi表示構建的觀測驗證參數,Aj+1表示使用的初始意圖矩陣,di表示混淆矩陣。結合上述構建的數值關系可知,觀測驗證參數內存在多個意圖發生條件,故將依賴數值關系進行如圖2所示的處理過程。

圖2 多個發生條件的依賴數值關系
由圖2所示的依賴數值關系可知,不同的發生條件內存在多個數值關系,將觀測驗證參數作為依賴類別,對應的數值處理為語義意圖,形成一個數值化的依賴關系[11]。結合上述構建的依賴數值關系,將其標定為序列參數,搭建意識識別模型。
使用上述構建的意圖依賴數值關系,將其編碼處理為參數表征,并映射處理為意圖特征參數,形成的特征空間可表示為

(8)
其中,eQ、ek、ev分別表示對應意圖特征參數的嵌入向量,WQ、Wk、Wv表示意圖特征加權參數,ei表示序位的上下感知向量。在整理后的特征向量處理為意圖感知機制,并將其處理為感知知識參數,參數數值關系可表示為
(9)
其中,r表示感知知識參數,zi表示意圖注意力函數,T表示意圖顯示的信息周期。不同電力營銷支持網絡中存在多個意圖[12],在構建處理為意圖識別模型時,應將感知參數替換處理為多個形式的填充更新,處理過程可表示為
(10)
其中,SS表示填充更新函數,Vs表示補正函數,Ws表示設定的數值迭代參數,其余參數含義不變。在構建的感知空間內,形成的填充處理過程如圖3所示。

圖3 形成的填充處理過程
由圖3所示的填充處理過程可知,重復迭代處理后,所構建的意圖向量處理空間不斷減小,最終在感知區間內成功定位意圖目標[13],完成一次意圖識別過程。綜合上述分析處理,最終完成對基于Tex-RCNN的電力營銷語音服務用戶意圖識別模型的構建。
采集電力營銷語音服務的用戶數據,不同的語音服務個體有著不同的服務風格,采用網絡爬蟲程序獲取電力營銷系統內的數據,按照數據的屬性,將其劃分為不同的類別,準備的語音服務用戶數據如表1所示。
使用表1所示的語音服務用戶數據,采用一個可訓練的詞嵌入矩陣將服務用戶數據處理為數據嵌入向量,處理過程可表示為

表1 準備的語音服務用戶數據
(11)
其中,bj表示構建的處理函數,γ(t)表示隨機初始迭代參數,λi表示使用的可訓練詞嵌入矩陣。將實驗準備的各項語音服務數據處理為嵌入向量后,準備基于改進金字塔的識別模型、基于時間序列的識別模型以及所設計的識別模型進行實驗,采用不同的隨機初始參數運行整理參與識別的模型,控制識別模型實際生成的數據與初始數據成線性比例,調用相同的編碼器將識別模型的狀態維數處理為向量表征,設定模型的時間步,設定3種識別模型的初始學習率為0.001后,選定相同的模型指標,對比3種識別模型的使用性能。
基于上述實驗準備,使用嵌入向量處理后的數據,采用單向的LSTM來控制3種識別模型的隱藏狀態,以3種識別模型處理數據文本轉化過程作為處理對象,定義3種識別模型處理過程中產生的數據增強,數值關系可表示為
(12)
其中,r表示計算得到的數據增強參數,wT表示周期范圍內語音服務數據的訓練集,w表示二分類參數,其余參數含義不變。以上述定義的數值關系處理表1中的各項數據,并以該參數作為增強標準,在平面范圍內將該參數數值處理為線性關系,處理過程可表示為
(13)
其中,xi表示上述處理過程產生的增強參數集,b表示增強參數產生的對偶,其余參數含義不變。根據上述定義的線性數值關系,在平面范圍內以該線性關系作為對比標準,整理3種不同識別模型產生的增強參數,結果如圖4所示。
在上述數值關系定義下,整理3種識別模型產生的數據增強參數,控制3種識別模型重復迭代100次,當識別模型得到的增強參數點無線趨近于標準增強參數數值線時,則表示該種識別模型能夠增強識別數據的意圖,根據圖4所示的參數結果可知,基于改進金字塔的識別模型得到的增強參數偏離計算得到的標準增強參數,基于時間序列的識別模型得到的增強參數遠遠偏離計算得到的標準增強參數,而所設計的識別模型得到的增強參數點均勻分布在標準增強參數數值線周圍,計算得到的增強參數與標準參數相差不大,能夠增強識別數據的意圖。

圖4 3種識別模型產生的增強參數
在上述實驗環境下,整理3種識別模型生成數據的變動性來評判識別模型生成識別數據的質量,整理上表1對應的向量表征后,定義意圖識別模型實際的生成分布,并將其處理為意圖標簽,處理過程可表示為
(14)
其中,Q表示意圖標簽處理函數,σ表示識別模型的折扣因子,L表示收斂標準誤差。對應上述設定的語音服務序號,采用隨機采樣處理方法將意圖標簽生成為質量數值,數值關系可表示為
(15)
其中,Z表示識別模型輸出數據的質量數值,Qi表示意圖函數,N表示參與識別的語音服務數量,P(k)表示服務類別的并列數值關系。對應上述構建的數值關系,整理3種意圖識別模型輸出的質量數值,結果如圖5所示。

圖5 3種識別模型輸出數據質量結果
根據定義的模型輸出數據質量數值關系控制下,對應計算三種不同識別模型的輸出質量參數,定義識別模型的質量參數越大則表示該種識別模型實際應用性最強。根據上圖所示的數值結果可知,基于改進金字塔的識別模型輸出的識別數據質量參數在30%~40%之間,實際輸出的數據質量最低。基于時間序列的識別模型得到的識別質量參數在50%~60%之間,該種識別模型輸出的意圖數據質量較佳。而所設計的識別模型輸出的質量參數在90%~100%之間,與兩種選定的識別模型相比,所設計的識別模型輸出的識別數據質量最佳,模型的實際應用價值最高。
保持上述實驗環境不變,將語音服務數據生成n-gram片段,以該片段在語音服務數據上的片段比例作為模型的復雜度結果,數值關系可表示為
(16)
其中,c(n|z)表示構建的復雜度數值關系,Ln-gram表示語音服務數據生成片段的長度,Lz表示語義服務數據的原始長度。在上述數值關系控制下,整理不同服務用戶意圖數據集產生的模型復雜度數值,以復雜度數值的均值作為處理對象,最終3種意圖識別模型的復雜度結果如圖6所示。

圖6 3種意圖識別模型復雜度結果
根據上述定義的識別模型復雜度數值關系,對應整理不同語音服務數據集后,對應上圖所示的復雜度結果,基于改進金字塔的識別模型運行處理用戶意圖數據時產生的復雜度在0.8左右,實際識別模型的應用復雜度最高。基于時間序列的識別模型產生的復雜度數值在0.5左右,識別模型實際應用時產生的復雜度較低。而所設計的識別模型的應用復雜度在0.2左右,與選定應用的兩種識別模型相比,所設計的識別模型在實際應用過程中,產生的復雜度最小,適合識別語音服務用戶的意圖。
實現電力營銷的語音服務用戶意圖識別模型,能夠整合語音服務數據,構建意圖依賴關系。針對語音服務數據冗雜的不足,設定了固定數值偏移量。經實驗驗證可知,所設計的意圖識別模型能夠降低現有識別模型復雜度數值較低的問題。在未來工作當中,希望所構建的意圖識別模型能夠為識別用戶意圖提供支持。