基于Attention機制的BiLSTM詐騙電話識別①

2022-05-10 12:12:40許鴻奎姜彤彤周俊杰張子楓盧江坤

計算機系統應用 2022年3期

許鴻奎,姜彤彤,李鑫,周俊杰,張子楓,盧江坤

1(山東建筑大學信息與電氣工程學院,濟南 250101)

2(山東省智能建筑技術重點實驗室,濟南 250101)

隨著通信技術的迅速發展,電信網絡詐騙犯罪活動也屢禁不止,給國家和人民帶來了巨大損失.電話詐騙是電信詐騙的一種,是以電話通信的方式對受害人進行行騙,騙取信任,最后誘導受害人以銀行卡、網上轉賬等方式騙取金錢的犯罪活動.這些詐騙犯罪不僅給受害群眾造成經濟上的重大損失,更是造成精神、心理上的嚴重傷害,是人民群眾深惡痛絕的犯罪行為.例如,2016年,大一新生徐某某因詐騙電話被騙取9 900元,而導致抑郁猝死;廣東省新生蔡某某被騙后跳海身亡.一系列案件讓電信欺詐問題成為備受矚目的社會熱點,電信欺詐的影響已經深入到人們的日常生活中.盡管近幾年隨著國家對此類詐騙案刑事打擊和普法宣傳力度的不斷加大,電信網絡詐騙犯罪得到一定程度的遏制,但總體上仍呈現高發態勢,在互聯網快速發展和智能手機高度普及的新形勢下,如何有效治理電信詐騙,是運營商面臨的一大挑戰.2019年,騰訊聯合公安部、工信部和移動、聯通、電信等企業,發布了《電信網絡詐騙治理研究報告(2019 上半年)》,報告顯示,電信網絡詐騙呈現日趨專業化、公司化的趨勢,2019年上半年,全國各級公安機關共破獲電信網絡詐騙案件5.8 萬起,同比上升3%;共抓獲電信網絡犯罪嫌疑人5.14 萬人,同比上升32.28%.其中,跨平臺交易日益增多,發生詐騙最多的兩個平臺為二手交易平臺和婚戀招聘網站,分別占了28%和19%,而電話詐騙占了9%,由此可見,電話詐騙仍占據相當高的比重,通過電話進行行騙仍是犯罪分子主要的詐騙方式之一,有效防范電話詐騙,是遏制電信欺詐的重要手段.

針對國內電信詐騙頻發的現狀,很多學者也進行了廣泛的探究.

傳統的防范詐騙電話體系主要是通過對詐騙電話號碼的結構進行分析,構建黑白名單庫,從而對疑似號碼進行攔截處理[1-3],此時的詐騙行為已經發生,只能進行事后分析處理,而且詐騙類型和手段一直在更新,這就存在一定的滯后性,無法在第一時間對詐騙電話進行攔截.

近年來,機器學習迅速發展,已在各個領域得到廣泛應用,為電話詐騙的治理帶來了新的轉機和挑戰.張慧嫦等[4]提出基于信令的電話詐騙行為檢測方法,采用大數據挖掘的方式,對電話詐騙的行為特征進行分析,對疑似詐騙電話號碼進行叫停、攔截等處理.程錦紅等[5]提出基于大數據挖掘的防范電話詐騙模型,從詐騙通話的前、中、后三階段作研判分析,構建基于號碼特征和通話行為特征的混合模型,實現了對詐騙行為進行事前預判、事中攔截、事后分析.白晶晶等[6]提出基于大數據挖掘技術構建的電話詐騙識別模型,根據詐騙電話特征,分析通信行為,建立挖掘模型,不僅可以識別詐騙電話號碼,而且能夠提前預測詐騙行為,同時準確找到詐騙電話來源.

基于以上分析,可以發現,以往的防范詐騙手段大多是從政府和運營商的角度,本文則采用深度學習的方法構建一個詐騙電話識別模型,從用戶視角來提高公民的反詐騙意識,當用戶接通電話后,首先使用語音處理技術將語音轉換為文字,本文對轉換后的文字進行研究,利用自然語言處理領域中的文本分類技術來對電話文本進行識別,計算一個電話為詐騙電話的概率.

1 相關工作

文本分類問題是自然語言處理領域的一個經典問題,已廣泛應用于垃圾過濾、新聞分類、詞性標注、情感分類等領域.文本分類技術的發展經歷了從基于規則的方法到機器學習再到深度學習的過程.基于規則的方法是依據預先定義好的規則將文本分成不同類別,例如任何帶有關鍵詞“籃球”“足球”的文本就可以劃分為體育類,這種方法太依賴專家知識和歷史數據,可遷移性差.20世紀90年代初,許多機器學習方法開始成為主流趨勢,如支持向量機[7]、樸素貝葉斯[8]、決策樹[9]等,在文本分類領域得到廣泛應用,使用機器學習方法進行分類,需要兩步,第一步是人工提取特征,第二步將特征輸入分類器進行分類.但是繁瑣的人工特征工程、過度依賴特定領域知識以及不能利用大量的訓練數據又限制了其進一步發展.21世紀后,隨著深度學習的發展,很多學者開始將神經網絡模型引入文本分類任務,并取得了不錯的進展.

RNN的線性序列結構使其非常適合用于處理序列數據,但是由于其反向傳播路徑太長,容易導致梯度消失和梯度爆炸問題,為解決這一問題,Hochreiter 等[10]提出了長短時記憶神經網絡(LSTM),引入“門”結構,很大程度上緩解了梯度消失問題.很多學者開始將這種模型用于自己的研究中,黃賢英等[11]提出一種基于Word2Vec和雙向LSTM的情感分類方法,利用Word2Vec算法訓練詞向量,BiLSTM 提取特征,最后用支持向量機(SVM)進行情感分類,取得了良好的分類效果;吳鵬等人[12]提出一種BiLSTM和CRF 結合的網民負面情感分類模型,增加具有情感意義的詞向量來提高分類性能;趙明等[13]提出一種基于LSTM的關于飲食健康的分類模型,利用Word2Vec 實現詞向量表示,LSTM作為分類模型,自動提取特征,解決了數據稀疏和維度災難問題.盡管這種循環神經網絡結構在處理時序數據的研究上表現出良好效果,但它無法捕獲對重點詞的關注,因為很多時序數據在時間維度上的重要程度存在一定的差異,因此有學者提出將注意力機制引入自然語言處理領域.

注意力機制[14]來源于人類視覺的選擇性注意力機制,最早被用于計算機視覺領域[15],之后有學者將其引入自然語言處理領域,與神經網絡模型結合使用來進改善模型性能.例如,Bahdanau 等[16]將其用于神經網絡的機器翻譯模型,取得了卓越效果;關鵬飛等[17]提出一種基于注意力機制的雙向LSTM 情感分類模型,利用注意力得到每個詞的權重分布,來提升分類效果;汪嘉偉等[18]將Attention 機制和卷積神經網絡結合,利用CNN 捕捉局部特征,注意力機制捕捉文本的長距離關系,結合二者優勢,也在一定程度上彌補了CNN的不足,實驗結果表明,與CNN 模型相比,分類準確率有提升.本文將注意力機制引入詐騙電話分類模型,來彌補BiLSTM 模型不能準確提取關鍵信息的不足,以提升分類效果.

2 文本處理

2.1 文本預處理

預處理的主要目的是減少噪聲的影響,此階段主要包括分詞、去停用詞以及類別匹配3 個步驟.本文選用的分詞方法是jieba 分詞;去停用詞可以在進行分類任務之前過濾掉一些對分類無實際意義的語氣助詞,提高分類效率;本文的研究屬于有監督學習,使用帶標簽的數據集,所以需要對收集的數據進行人工標注,將數據標記為兩類,詐騙和非詐騙,最終得到詐騙數據5 890 條,非詐騙數據6 230 條.

2.2 詞嵌入

目前通常用的詞嵌入方法是神經網絡的分布式表示,神經網絡在訓練模型的同時可以得到詞語的向量表示.使用最普遍的向量表示方法是Word2Vec 算法[19],該算法包含兩種模型,CBOW 模型和Skip-gram 模型,CBOW是用上下文詞作為輸入,來預測當前詞,而Skip-gram 則相反,是用當前詞來預測上下文詞,網絡結構分別如圖1和圖2所示.Word2Vec的思想是訓練一個語言模型,該模型以詞語的one-hot 形式作為輸入,比如輸入的一個x=[1,0,0,…,0],訓練完得到神經網絡的權重v,vx正是所需的詞向量,該詞向量的維度與隱層節點數一致,本質上也是一種降維操作.Word2Vec得到了一個有效表示詞語特征的向量形式,是自然語言處理領域的重要突破.

圖1 CBOW

圖2 Skip-gram

3 模型構建

3.1 BiLSTM-Attention 模型架構

本文提出了一個基于Attention 機制的BiLSTM 電話文本分類模型,通過引入Attention 機制,建立如圖3所示的BiLSTM-Attention 神經網絡框架結構,主要由詞嵌入層、特征提取層、注意力模塊以及Softmax分類層組成.

詞嵌入層:將經過預處理后的電話文本數據映射為維度相同的詞向量,圖3中詞向量的維度為6 維.

圖3 BiLSTM-Attention 模型架構

特征提取層:為BiLSTM 模型,對詞向量進行抽象的特征提取,可以得到文本的長距離依賴關系.

注意力模塊:為進一步提高模型的擬合能力,引入Attention 機制對特征矩陣進行參數優化,抽取句中單詞之間的句法和語義特征,捕獲對當前分類任務更為重要的關鍵詞.

分類層:由全連接層和Softmax層組成,輸入為經過Attention 機制后得到的句向量,完成對電話文本的分類,得到文本分別為詐騙和非詐騙的概率.

3.2 BiLSTM 層

長短時記憶神經網絡(LSTM)是循環神經網絡的一種,它可以很大程度上解決梯度消失問題.LSTM 特有的門結構可以讓信息有選擇性地通過,決定哪些信息應該被保留,哪些信息應該被遺忘.LSTM的內部結構如圖4所示.

圖4 LSTM 結構圖

其中,Xt為當前時刻的輸入值;Ct-1為上一時刻的單元狀態;ht-1為上一時刻的隱層狀態;Ct為當前時刻的單元狀態;ht為當前時刻的隱層狀態.

LSTM的工作過程如下:

第一步是“遺忘門”(forget gate),這一步決定了要保留多少前一時刻的單元狀態信息到當前單元,它查看上一時刻的隱層單元狀態ht-1和當前時刻的輸入Xt,經過Sigmoid 激活函數,得到遺忘門的權重向量Wf,這一計算過程表示如下:

然后是“輸入門”(input gate),它決定了要保留多少當前時刻的輸入狀態Xt到當前時刻的單元狀態Ct.這一過程分兩步,首先由Sigmoid 激活函數決定更新哪些值,得到決策向量it;然后由tanh 激活函數構建候選向量Vt,由這兩個向量來得到更新值,計算過程如下:

當前時刻的單元狀態Ct的計算過程如下所示:

最后一步是“輸出門”(output gate),這一步是基于單元狀態,決定輸出什么.單元狀態Ct的決策向量Ot和隱層狀態ht的計算過程表示如下:

其中,Wx、Wf、Wo分別代表輸入門、遺忘門、輸出門的權重向量;bf、bo和bc分別代表輸入門、遺忘門、輸出門和記憶單元的偏置值;σ(·)表示Sigmoid 激活函數;tanh 表示雙曲正切激活函數.

自然語言處理的很多情況下,當前時刻的輸出不僅取決于之前的狀態,還和未來的狀態有關,由于LSTM 只能依據之前時刻的序列信息來預測下一時刻的輸出,Graves 等[20]提出雙向LSTM,該網絡結構由前向和后向的兩個LSTM 疊加構成,其結構如圖5所示.對于任一時刻,輸出由兩個方向相反的LSTM的狀態共同決定,正向LSTM 能夠從前向后捕捉“過去”時刻的信息,反向LSTM 能夠從后向前捕捉“未來時刻”的信息,同時還能獲取單詞之間的長距離依賴特征,真正做到了基于上下文判斷,豐富了句子特征,有利于提高分類準確率.

圖5 BiLSTM 神經網絡結構

在時刻i,網絡的最終輸出由前向和后向的特征采取按位加和操作得到,如式(7)所示:

3.3 Attention 層

視覺注意力機制是人類視覺所特有的一種大腦信號處理機制.人類視覺通過快速掃描全局圖像,獲得需要重點關注的目標區域,即所謂的注意力焦點,而后會更多關注目標區域的細節信息,抑制其他無用信息.人類通過這種注意力機制,可以快速從大量信息中快速篩選出少量高價值信息,從而極大地提高了視覺信息處理的效率.

深度學習中的注意力機制正是受啟發于人類視覺的選擇性注意力機制,核心目標也是從大量信息中選擇出對當前任務目標更關鍵的信息,忽略其他不重要的信息.

注意力機制的實質是為每個值分配一個權重系數,其本質思想可以表示為式(8)所示:

其中,Source為已知的某個元素,由＜Key,Value＞,數據對構成;Query為目標元素.

注意力模型在訓練過程中動態調整每個時間步的權重,計算每個單詞的權重系數,其計算過程可以表示為下式所示:

其中,hi為BiLSTM的輸出,αi為注意力權重系數,wi為權重矩陣,si為經過注意力機制后的輸出向量.

3.4 Softmax 層

本文使用Softmax回歸模型作為分類器實現對電話短文本的分類.Softmax回歸模型是Logistic 模型在多分類問題上的推廣,當類別數為2 時,即為Logistic模型.假設樣本輸入X={(x1,y1),(x2,y2),…,(xm,ym)},其中,Xi∈Rn,i表示第i個樣本的文本向量,維度為n,樣本總數為m;yi∈{1,2,…,k}表示第i個樣本對應的類別,類別數為k,本文為二分類,所以k=2.判別函數hθ(xi)為:

其中,θ1T,θ2T,…,θkT∈Rn+1表示模型參數;p(yi=k|xi;θ)為當前樣本對應第k個類別的概率.

Softmax模型的代價函數為:

其中,j代表某個類別;1{·}表示示性函數,當第i個樣本屬于第j個類別時,1{y(i)=j}=1,當第i個樣本不屬于第j個類別時,1{y(i)=j}=0.在實際的工程應用中,一般會用隨機梯度下降法來優化最小代價函數,將涉及到J(θ)對各個參數求偏導,經過數次迭代計算得到最優參數,此時的模型即為最佳分類模型.

4 實驗與分析

4.1 實驗數據集

本文實驗所用的數據集一部分是由中國移動設計院提供的,一部分來自百度、微博、知乎問答社區等網站,其中包含詐騙數據5 890 條,非詐騙數據6 000條,詐騙數據與非詐騙數據的比例約為1:1,將其按照7:3的比例分別劃分為訓練集、測試集,數據集的具體組成情況如表1所示.該數據集來自從網絡上搜集爬蟲來的近幾年出現的各類電話詐騙案件,涉及范圍包括刷單、虛假中獎、網貸、彩票股票、快遞丟件、冒充海關、冒充警察等為由的詐騙案件,幾乎涵蓋了所有的詐騙類型.

表1 數據集統計表

4.2 實驗環境

本文算法的實現采用基于PyTorch的NLP 框架AllenNLP,AllenNLP是由Allen 人工智能實驗室構建和維護的一個開源工具,是專門用于研究自然語言理解的深度學習方法平臺.

實驗環境如表2所示.

表2 實驗環境

4.3 參數設置

實驗使用由北京師范大學中文信息處理研究所與中國人民大學 DBIIR 實驗室的研究者提供的開源中文詞向量語料庫sgns.target.word-word.dynwin5.thr10.neg5.dim300.iter5.gz 作為預訓練詞向量,該詞向量維度為300 維,是通過Word2Vec 方法訓練得到,訓練語料來自百度百科,涵蓋各領域[21].

經過反復實驗,本文最終選取的最優超參數設置如表3所示.

表3 超參數

4.4 評估方法

實驗采用的評價指標為準確率accuracy,精確率precision,召回率recall和F1 值.

混淆矩陣,如表4所示.

表4 混淆矩陣

1) 準確率是指所有預測為正類占總數的比例.

2) 精確率是指所有正確預測為正類占全部正類的比例.

3) 召回率是指所有正確預測為正類占全部實際為正類的比例.

4)F1 值綜合了精確率和召回率,把Pre和Rec的權重看作是一樣的,是基于兩者的調和平均,通常作為一個綜合性的評價指標,F1 值越高,代表模型的性能越好.

4.5 實驗結果

為驗證本文提出的基于Attention 機制的BiLSTM電話詐騙識別模型的有效性,在同一數據集下,分別對LSTM,BiLSTM 以及本文提出的BiLSTM-Attention 模型進行了對比實驗,實驗結果如表5所示.

表5 實驗結果 (%)

基于以上3 種模型進行對比試驗,并針對評價指標精確率、召回率、F1 值以及準確率作對比分析.由表中實驗結果可以發現:

1) 本文提出的BiLSTM-Attention 模型的準確率為94.74%,比LSTM 高2.15%,比BiLSTM 高0.6%;F1 值為94.86%,比LSTM 高2.34%,比BiLSTM 高0.48%;

2) 通過LSTM和BiLSTM的對比實驗可以看出,BiLSTM的精確率、召回率、F1 值均要高于LSTM,即BiLSTM 模型的分類效果更好.因為前者只是提取了上文信息,而后者提取了上文和下文的信息,特征更豐富,說明基于上下文的判斷更有利于分類;

3) 通過BiLSTM和BiLSTM-Attention的對比試驗可以看出,BiLSTM-Attention的精確率、F1 值、準確率較BiLSTM,盡管提高不大,但都有顯著的提升,但召回率要低于BiLSTM 模型,這一點有待改進,說明注意力機制對實驗分類效果具有一定程度的影響.這是因為注意力機制可以通過增大重點詞的權重,增加對重點詞的關注,突出了對當前詐騙電話分類任務更關鍵的信息,即進一步捕獲經過BiLSTM 提取長距離特征后的重點信息,來提升模型性能,提高分類準確率.

5 結束語

本文提出一種基于Attention 機制的BiLSTM 詐騙電話分類方法,首先對文本進行預處理,包括分詞、去停用詞等,然后利用預訓練詞向量模型得到每個詞的詞向量,輸入BiLSTM 模型,提取長距離特征,并通過引入注意力模塊進一步捕捉關鍵信息,來提升模型性能.實驗證明,提出的模型較單模型LSTM和BiLSTM,都有顯著的提升.同時本文實驗也存在一定的不足之處,比如實驗數據不足,所提出模型分類效果提升不高等問題.未來的研究中,將考慮從以下幾個方面來改進模型,繼續搜集更新詐騙信息,擴大數據集;采取下采樣的方法增加詐騙數據;針對本研究的小數據特點,采用先進的預訓練語言模型來訓練,如ELMo、BERT、GPT 等.