李俊峰, 黃秀彬, 劉娟, 董蓓, 王建波
(1.國家電網有限公司, 市場營銷部, 北京 100000;2.國家電網有限公司客戶服務中心, 天津 300304;3.國網信通產業集團北京中電普華信息技術有限公司, 北京 100085)
由于短文本缺乏上下文本信息對語言環境的制約,且漢語語義、語音多樣化,同一個文本的發音不同,表達的意思也不同。因此,文本的語義歧義成為常態,影響智能客服與用戶間的交互,降低服務質量,帶來經濟損失。為了解決以上問題,文獻[1]通過智能體agent不斷與周圍環境進行交互和學習,對短文本數據內容進行訓練;文獻[2]將Logistic映射產生的序列作為擴頻通信的擴頻碼,提出了標簽可完全識別的重復幀算法,RFID多閱讀器防碰撞算法,完成短文本分類和分析,具有較高的文本分析能力。
這些方法在一定程度上減少了短文本內容的特征提取過程,提高了文本內容的核心偏差,降低了模型分類的準確率。對此,本文提出的基于自適應多叉樹防碰撞算法的智能客服NLP短文本分類模型,在保證智能客服高效分析能力的基礎上,提高對本文主題提取的精確度,實現提高服務質量的目的。
智能客服NLP短文本分類模型架構是短文本分類模型功能運行的基礎,為客服NLP短文本分析提供文本訓練數據。為了達到本文設計的目的,智能客服NLP短文本分類模型由構造詞嵌入層、多頭自注意層、輸出層以及卷積層,架構結構示意圖如圖1所示。

圖1 智能客服NLP短文本分類模型架構結構示意圖
智能客服NLP短文本分類模型中,構造詞嵌入層的任務是按照可變詞匯的基本構造方法,對智能客服接收到的短文本信息數據進行處理,分析短文本中每個詞匯的多重含義,為卷積層提取短文本內容的核心主題奠定數據基礎。文本的映射處理包括分析多報頭注意層輸出的短文本轉換矩陣,獲取關系矩陣和字節向量特征矩陣,然后對矩陣進行權重優化訓練,優化公式如式(1):
(1)
其中,AWQ表示文字的關系矩陣,AWK表示字節向量矩陣,SDA(Q、K、V)表示短本文格式轉換矩陣,dK表示權重優化系數[3-4]。
多頭自注意層的任務是對該模型首次得到的文本特征進行劃分。在提取過程中,為了簡化構造詞嵌入層的工作,我們將根據短文本的內容,利用文本的自注意計算,合理地進行語義增強層,自注意力計算式如下:
(2)
其中,m表示短文本信息的真實文本特征標簽,t表示文本轉換編碼,θ表示短文本信息分類的估計概率,k表示短文本目標分類的個數,γ表示短文本分類的正則超函數,log(yi)表示短文本訓練目標的損失函數[5-8]。
最后,將優化處理后的多頭自注意力短文本信息序列重新切割,得到短文本序列的多個分向量。
輸出層的任務是輸出其他層次的分類結果,獲得客服接收到的短文本信息。因此,在模型一個周期的計算過程中,需要調用2次輸出輸入層,分別表示短文本分類的開始和結束[9-11]。為了保證短文本信息數據的完整性,將短文本變量的輸入或輸出與頭向量和尾向量混合。當模型獲得文本變量時,它將自動解析頭部和尾部變量,不會改變原始短文本信息的含義。具體輸出層的解析結構如圖2所示。

圖2 短文本分類特征向量簡圖
為了保證數據信息的精度,輸入輸出層在輸入過程中會自動地將文本信息和文字特征向量相互融合,輸入詞組分類器,進行歸一處理,完成最終的工作。歸一函數如式(3):
(3)
卷積層的任務是為NLP短文本分類模型提供捕獲短文本內容核心主題特征。卷積層的工作是分析待分類短文本詞之間的依賴關系,從而降低提取短文本主題特征的難度,設短本文主題特征間的依賴關系提取公式為
(4)

卷積層將輸出的短本文信息特征直接輸送到池化層,進行短文本信息的其他處理。
自適應多叉樹防碰撞算法的目的是防止文本閱讀器與文本的特征標簽在進行文本分類時出現碰撞,一旦碰撞文本分類模型就會崩潰,所有的數據信息失去意義。自適應多叉樹防碰撞算法的優點是調用的執行命令少,降低分類模型的自身負載[14-15]。自適應多叉樹防碰撞算法的工作流程如圖3所示。

圖3 自適應多叉樹防碰撞算法的工作流程圖
短文本分類模型的通信方式要保證通信量,無效通信量過大會導致分類模型運行效率低,出現通信信道堵塞的狀態,為了防止智能客服NLP短文本分類模型在計算訓練過程中出現無效字節的情況,本文統一制定智能客服NLP短文本模型內數據通信的模式為曼徹斯特編碼。此編碼模式的編碼遵守邏輯1和邏輯0的準則,當數據上傳時,對外封裝邏輯1編碼;當數據處理時,利用下降編碼0進行解碼,再進行本文的運算[15]。解碼雙循環控制單元如圖4所示。

圖4 編碼雙向控制循環單元結構圖
數據在解碼和編碼過程中,一旦數據出現跳碼或者空格時,都需要重新處理,否則通信無效。曼徹斯特編碼通信模式在自適應多叉樹防碰撞算法在出現本文標簽碰撞時,通過向自適應算法重新傳回文本的最高碰撞數據和最低碰撞數據即可,不需要其他冗余的碰撞數據,就可完成全部數據包的復盤,提高通信模式的通信效率。具體的短文本數據標簽與閱讀器通信編碼的碰撞結構示意圖如圖5所示。

圖5 短文本編碼通信碰撞原理結構圖
在以上論述的基礎上,基于自適應多叉樹防碰撞算法的智能客服NLP短文本分類模型的工作流程如下。
步驟一 開啟模型內架構工作的狀態,獲取需要處理的短文本數據,初始化所有數據,利用自適應多叉樹防碰撞算法的堆棧向模型發送分析命令。
步驟二 模型接收到短文本分類命令,按照架構層次的功能依次對文本進行序列處理,逐步輸出文本序列之間的依賴關系、文本的特征,集成特征標簽,同時,模型調用自適應多叉樹防碰撞算法,實時監控短文本模型內所有的標簽數據是否存在碰撞的趨勢,一旦出現時隙碰撞、空閑碰撞和可讀時隙時,立即調用自適應多叉樹防碰撞算法進行制約。
步驟三 調用多頭自注意層功能,對智能客服NLP短文本分類模型架構輸出的短文本序列特征進行有效劃分和解析,完成短文本的分類。對于文本分類的整個工作周期,自適應防碰撞算法保持監控狀態,保證模型的正常運行。
具體基于自適應多叉樹防碰撞算法的智能客服NLP短文本分類模型如圖6所示。

圖6 分類模型的工作流程
通過以上分析,完成了基于自適應多叉樹防碰撞算法的智能客服NLP短文本分類模型的設計,為了檢驗此模型對于短文本分類的工作效率和精確度,進行對比實驗。
選擇文獻[1]方法(傳統方法1)和文獻[2]方法(傳統方法2)輔助完成實驗測試。在實驗前需要搭建一個處理器為Windows 10的操作系統,并且配置Internet 17高容錯的處理器以及Pycharm的文字編譯平臺。
將3個模型導入待完成測試的計算機,然后隨機采集某商家客服與用戶之間的交互短文本信息作為測試的樣本,形成短文本樣本,進行實驗測試后,對3個模型輸出的短文本分類結果進行分析,具體的分析數據匯總如表1和圖7所示。

表1 實驗結果

圖7 實驗測試分類精度結果
綜合以上實驗結果可知,本文方法的最終輸出準確率和分類精度、召回率、反應效率都高于其他2個傳統方法,表示本文方法的工作效率較高。因為本文方法在輸入了所有短文本信息字節后,每個周期的調用字節為64字節,學習速率為we5e-5,其同步進行,可以保證模型的分類效率;利用自適應多叉樹防碰撞算法提高短文本分類模型對于文本內詞組和句子語義做捕獲分析,保證召回率;采用多頭自注意機制完成短文本內容主題特征的提取,保證方法的準確率和分類精度。
本文提出了一種基于自適應多叉樹防碰撞算法的智能客服NLP短文本分類模型,由構造詞嵌入層、多頭自注意層、輸出層以及卷積層構成,依據自適應多叉樹防碰撞算法的工作原理和內容,重新傳回文本的最高碰撞數據和最低碰撞數據,對于短文本數據信息具有較高的分析力,可以在保證準確率和分類精度、召回率、反應效率的基礎上,解決目前客服交互存在的問題,保證客服的服務質量。