廣東電網有限責任公司客戶服務中心 劉振華 康峰 蘇立偉 譚火超 蘇春明
傳統電力客服會話正確復述次數較低,問題識別能力隨之下降,設計電力智能客服實現技術。提取電力會話語義特征,分類識別各類語義;進行會話語義相似度計算,利用相似函數歸一化處理語義相似度;糾正智能會話相似詞匯,消除相似會話的識別誤差。實驗采用對比實驗的方式,驗證了電力智能客服實現技術的效果更佳。
隨著互聯網的發展,人們的生活方式不斷受到影響,網絡服務也已經成為現代人的主要服務模式,智能客服作為新時代下,網絡的智能化產物,逐漸深入各個領域,在電力方向發展是研究者的新方向[1]。傳統電力客服在識別問題方面較為復雜,正確復述次數較低,而造成這一現象的主要原因即為,傳統電力客服對語義識別不清晰,相關語義分類不明確,相似度計算效果差等因素[2-3]。本文將就此,摒棄以上缺點,研究電力智能客服實現技術,首先,提取用戶會話的語義特征,進行智能化識別;其次,計算用戶會話中的語義相似度,保證智能客服對各個語義相似度進行精準地區分;最后,糾正會話中的相似度詞匯,消除相似語句的識別誤差(如圖1所示)。根據以上方法,本文認為,可以滿足用戶需求,為提高電力用戶的服務質量創造條件[4]。

圖1 傳統電力客服會話系統Fig.1 Traditional electric customer service conversation system
會話的語義特征,表示會話互動問答的類型。本文設計的智能客服重點在于:解決用戶的電力問題,本文對會話語義特征結構進行提取,并作出說明。語義特征分類如表1所示。

表1 會話語義分類特征Tab.1 Conversational semantic classification characteristics
問題類由用戶產生,用戶進行信息咨詢,答案類對應問題類,由智能客服問答系統提供,用于回答顧客問題,問題類主要分兩種,一般問句和議價的問句。陳述類只是簡單的觀點陳述,因在信息咨詢中,地位處于次要,所以不對其進行更深層的處理。陳述類目的多樣,無明確問答關系,主要為情感或者觀點的表述。反饋類對應稱述類,由買賣雙方在肯定或者否定對方情感或者觀點產生,抑或者為虛擬詞,無明顯語義。祈使類于買賣雙方請求或者要求對方產生某種動作時產生,招呼類產生于問答開始前相互致意或者問答結束時雙方表示感謝,其他為噪聲類,主要為軟件自動答復類問題,或者嚴重偏離主題的對話內容。
由表1可知,本文設計的會話語義分類中,需要智能客服認可相關語義,進而識別、理解整個電力通話過程中的問題。本文設計的方法中,用戶發送的問題,均會有一個相對應的答案,這個答案是通過智能客服對上下文的聯系,得出相關答案。通過分類不同類型的會話語義特征,可以提高智能客服識別電力問題的能力,進而提高智能客服的識別能力[5]。
通過對會話語義的特征提取,基本可以提取出相似語義,進而計算會話中的語義相似度[6-7]。智能客服對語義有著不同的理解,需要對其下達一個短語指令,使其可以在不依賴其他詞的情況下,了解用戶提出的會話含義。因此在本文設計中,設計了智能客服訓練部分,訓練智能客服的詞向量,如表2所示:

表2 智能客服訓練的詞向量Tab.2 Word vector of smart customer service training
如表2所示,根據此電力詞向量的訓練,基本可以得出電力語義相似度的詞量,計算公式如下:

式(1)中,sigmoid(x)為語義相似度系數;e-x為相似詞向量。基于此得出的函數關系如圖2所示。

圖2 電力詞匯Sigmoid函數圖像Fig.2 Image of Sigmoid function of power vocabulary
由圖2可知,電力詞匯Sigmoid函數圖像可歸一化到處理語義相似度,在[0.1-0.3]范圍內,相似的語義判別效果較好。在[0.4-0.6]范圍內,語義相似度的判定能力較弱。
基于語義相似度計算,本文將糾正相似度詞匯分為兩部分。(1)相似電力文本預處理層,包括電力詞匯的校正。集中的句子一般會成對出現,語義相近的詞匯分別用Sentence L和Sentence S表示。為了減少相似詞匯對智能客服的影響,本文通過分類校正方式,校正電力詞匯結果。在糾正的電力詞向量表中,每個詞對應一個64維的電力詞向量,通過電力詞向量表,找到與其相對應的糾正答案[8]。(2)將電力詞向量輸入到智能客服的系統中,根據電力詞匯的語義差異,將兩個電力詞匯合并,進而糾正相似度詞匯,進一步提高電力智能客服的識別能力[9]。
本次實驗的數據集采用某電力公司提供的智能客服數據集,此數據集中共有5082對英文句子,分為相似語義與不相似語義兩類,即為正負樣本,正樣本3902對,負樣本1900對。此數據集是根據網絡收集,包括電力熱點話題,驗證本文設計的智能客服正確復述效果。
本文對電力智能客服的會話進行采樣,采樣得出樣本30492對,其中正負樣本數保持不變,按照6∶1的方式劃分采樣樣本,分別提取出5082對英文句子,將這類句子列為測試集,并打亂順序,剩余部分組成訓練集,得出樣本數據集的劃分如表3所示。

表3 數據集劃分表Tab.3 Data set partition table
如表3所示,將數據集劃分為訓練集與測試集,測試集即為本文的被測樣本,訓練集為訓練樣本。據此設置的實驗參數如表4所示。
如表4所示,為本次實驗的基本參數,實驗指標包括實驗環境、批次、實驗輪次、詞向量維度、激活函數、損失函數、優化器。根據此指標,設置相應函數,帶入到實驗中,得出結果如下[10]。

表4 實驗基本參數Tab.4 Basic parameters of the experiment
將5082個測試樣本通過測試集,最終定位64位詞向量,分為6輪次得到傳統技術與本文設計技術的復述次數,結果如表5所示。

表5 兩種技術復述次數結果Tab.5 Results of the number of repetitions of the two technologies
如表5所示,經過6輪次的實驗,在兩種智能客服的總復述次數相同的條件下,傳統客服正確復述次數與總復述次數相差200-2000條,復述效果差,識別能力相應下降;而本文設計的智能客服正確復述次數與總復述次數相差僅在0-10條左右,復述效果更佳,識別能力較強,符合本文研究目的。
近年來,網絡的興起,不僅帶給人們新的音視頻觀感,并且帶動智能化的發展,使智能化逐漸滲透進各個領域。由于傳統客服識別效果不佳,導致客服行業與人們的矛盾增加。因此本文設計了電力智能客服實現技術,提取電力會話語義特征,對會話語義進行相似度計算,糾正了智能會話相似詞匯,提高智能客服識別電力問題的能力。采用某電力公司提供的智能客服數據集進行對比分析,驗證了本文設計的智能客服正確復述效果,為電力智能化發展創造價值。