王樹明,吳時清,余 菁,陳 軍,宋 偉
(1.中國煙草總公司湖北省公司;2.武漢楚煙信息技術有限公司,湖北武漢 430030;3.武漢大學計算機學院,湖北武漢 430070)
對卷煙銷售和經營活動進行嚴格的規范化管理是煙草行業專賣專營體制的內在要求。卷煙生產、銷售網絡非常龐大,面對紛繁復雜的卷煙業務系統和數據,如何挖掘和利用其中的信息和知識,從而準確、高效地識別潛在風險行為成為卷煙專賣專營管理的核心任務和需求。當前卷煙專營網絡中擁有眾多的獨立運行子系統,數據紛雜,包括營銷、物流、煙葉、專賣等十余個業務子領域。直接分析各個子系統數據并不能充分利用業務平臺數據,充分發現卷煙業務平臺中的潛在風險行為。卷煙專營網絡平臺中的審計子系統按照審計計劃管理模塊定義的審計任務和審計數據,對卷煙網絡平臺中的業務數據備份、審計。審計數據覆蓋多個卷煙平臺子系統,而且可以定義數據清理操作,提高多源審計數據的數據質量。因此,針對卷煙審計數據開展挖掘和分析,將會更加準確、高效地發現業務平臺中的高風險行為。
對審計數據進行建模分析和預測的前提是針對審計數據構建高質量數據特征。傳統數據特征構建方法非常依賴用戶對業務的理解,具有很大的局限性。卷煙業務平臺非常龐大,各省業務也有很大差異,這些因素均限制了對平臺業務數據的理解和分析。
近年來,隨著以深度學習為代表的機器學習方法逐漸普及,利用神經網絡卷積層提升數據特征維度可以盡可能地充分挖掘數據特征,篩選出對數據分析任務更有利的數據特征,不僅可以提高模型預測精度,而且可有效針對高維數據約束關鍵數據特征維度,提高模型訓練效率。2015年,Yann 等[1]在Nature 雜志上發表論文介紹了深度學習的原理、優勢和應用。循環神經網絡(Recurrent Neural Network,RNN)[2-3]、長短期記憶(Long Short-Term Memory,LSTM)[4-5]和卷積神經網絡(Convolutional Neural Networks,CNN)[6]等深度學習技術通過構建數據的序列層次可有效獲取數據的時序依賴關系,在許多領域,尤其是自然語言處理、圖像識別、語音合成等非結構化數據分析方面取得了令人矚目的成果[7]。例如,Kanter 等[8]針對高維科學數據的自動特征提取問題提出了Deep Feature Synthesis方法,該方法針對科學數據中關系型或用戶行為數據的特征提取問題,自動提取能夠表達豐富特征空間的數據特征,但該方法并不能充分利用復雜的數據特征;Chong 等[9]從3 種無監督特征提取方法出發研究了基于深度學習的股票市場預測算法,研究結果表明深度神經網絡可以從殘差中提取更多額外信息,提高整個學習模型的預測準確率。LSTM 可以有效克服傳統RNN 的梯度爆炸問題,例如Jin 等[5]基于LSTM 模型提出了LSTM-DE 模型,將檢測序列數據作為附加輸入連接到藥物處方預測序列中,提高了處方預測效果,然而LSTM-DE 模型受到RNN 網絡遺忘性的限制,當測試數據的時間序列變大時,預測效率有較明顯的下降;Ma 等[10]基于雙向神經網絡(BRNN)提出了Dipole 模型,利用歷史和未來時序數據作為輸入進行聯合訓練,提高了針對長序列時序數據的學習精度,然而Dipole模型沒有考慮到多模態數據對于預測結果的影響;Zhang等[11-12]基于CNN 提出面向時空數據分析的時空殘差網絡模型,該模型對時空數據的時間特性、空間特性和關聯關系進行建模,學習時空數據的時空關聯特征,很好地解決了時空數據特征分析,但對多模態數據的特征分析代價較大;王曉飛等[13]設計了一種基于Prophet-LSTM 模型的PM2.5 濃度預測方法,利用Prophet 模型可分解方法,將PM2.5日值濃度序列分解成趨勢、周期和隨機波動分量,對隨機波動分量建立LSTM 模型進行分析;覃智威等[14]構建了一種基于粒子群優化算法的LSTM 模型,并用于醫院門診量的時序關系預測;謝貴才等[15]提出一種基于深度學習的多尺度時序卷積網絡MSCNN,實現了人流量時序數據中短時依賴、長時周期模式的獲取和多尺度時序模式特征的重標定,可對任意時段人流量進行預測。
現有研究方法缺乏針對多源審計數據的時序特征、多模態特性開展高效深度學習方法的研究。卷煙審計數據來源多、維度大,卷煙業務平臺中用戶行為也往往具有時空差異性,用戶行為模式也都具有極大的不確定性,這給卷煙審計數據分析帶來了巨大挑戰,目前仍然缺乏針對卷煙審計數據的有效分析方法[16-18]。為此,本文基于卷煙審計數據的兩個內在特征,即多源異構性和時序關聯性,發揮深度學習在深層次數據特征分析和多維數據時序關聯分析兩方面的優勢,提出一種改進LSTM 的RNN,并對LSTM 門函數結構進行優化,提高針對多源數據卷煙審計數據的特征提取能力,準確高效地發現卷煙業務網絡中的潛在高風險行為,為我國省級卷煙業務網絡平臺提供面向多源卷煙審計數據的深度學習分析解決方案。
RNN 能夠有效處理大數據量數據,也可以對序列數據進行有效處理,但RNN 需要逐層傳遞狀態信息,這種模型訓練方式導致隨著序列長度的增加,參數傳遞的層數也會越多,導致梯度爆炸等問題,同時神經網絡對于長序列數據也會產生長時間間隔的消息失憶問題。
LSTM 是RNN 針對長序列數據依賴關系的改進實現,LSTM 單元結構如圖1 所示,其通過在RNN 中增加遺忘門和更新門,從而有選擇地對狀態信息進行記憶增強和遺忘,使得特定信息可以有效記憶并傳遞。LSTM 單元中遺忘門和更新門采用Sigmoid 函數,Sigmoid 函數取值接近于0 則門處于關閉狀態,接近于1 則門處于開啟狀態,可對信息進行有選擇的采納。LSTM 的前向傳播計算函數表示為:


Fig.1 Unit structure of LSTM neural network圖1 LSTM 神經網絡單元結構
式中,ft、it、ot分別為遺忘門、更新門和輸出門的t時刻狀態值;Ct-1和Ct分別為LSTM單元在t-1和t時刻的狀態值;ht-1和ht分別為LSTM單元在t-1和t時刻的輸出值;為LSTM 單元在t時刻的候選狀態值。遺忘門可以選擇LSTM 單元狀態中哪些分量繼續傳遞,哪些分量丟棄;更新門決定了LSTM 狀態中哪些分量更加重要;輸出門則決定了哪些分量作為當前狀態傳遞到下一個時刻。
對于卷煙審計數據分析任務來說,審計記錄、交易行為按照固定的時間間隔記錄,LSTM 可以針對審計數據的時間關聯特性,將用戶行為數據按照時間順序依次輸入到LSTM 中,利用LSTM 對高維審計數據進行篩選和處理。雖然LSTM 可以更好地利用時序關聯數據特征,但是卷煙交易行為往往具有長時間關聯特性(如明顯的季節性和政策導向性),這些服務特點導致LSTM 應用于卷煙審計數據分析時訓練模型時間較長,模型精確性有限。為此,本文引入總體經驗模態分解(Complementary Ensemble Empirical Mode Decomposition,CEEMD)方法對審計數據特性進行增強,以提高模型訓練效率,使得針對多源時序卷煙業務審計數據的分析效果更好。
卷煙業務審計系統是一個非線性、非平穩的復雜動態系統,與單業務系統不同,卷煙審計數據來源于多個業務系統,數據特征復雜,同時審計數據的時序特征是一個重要的數據特征。經驗模態分解(Empirical Mode Decomposition,EMD)方法由Huang 等[19]提出,是用于處理非線性、非平穩時間序列的有效方法。EMD 可將任意的復雜信號分解成為有限規模的本征模態函數(Intrinsic Mode Function,IMF),且每個IMF 表征原始信號不同特征尺度的時間序列。EMD 方法與Hilbert 頻譜結合是一種自適應的時間頻域分析方法。當信號中存在間歇性信號時,EMD 分解方法會產生所謂的頻率混疊現象,即一個IMF 分量中會包含多個不同特征尺度的成分,或者相似尺度的數據特征在不同的IMF 分量中存在。為解決由于間歇性數據信號導致的模態混疊現象,Yeh 等[20]基于EMD 分解方法提出了CEEMD。
針對審計數據的復雜時序特征,本文采用CEEMD 方法對審計業務系統數據進行處理,分解得到一系列相對平穩的時序分量,處理流程為:
(1)針對一組序列審計數據輸入X={x1,x2,…,xn},對xi加入第i組高斯白噪聲,得到兩個信號序列mi+和mi-,表示為:

式中,ni+和ni-為正負成對的高斯白噪聲。
(2)對mi+和mi-進行EMD 分解,得到兩組集成的IMF分量,分別為加入正噪聲組的IMF+和加入負噪聲組的IMF-。
(3)針對時序審計數據x(i1≤i≤n),得到兩組IMF 向量IMFi+和IMFi-。
省級卷煙業務平臺中審計管理業務主要分為審計資源管理、審計計劃管理、經責與專項審計、工程審計、采購審計等五大業務環節。業務涉及的源端系統主要包括營銷、物流、專賣、煙葉、財務、人力資源、內管等業務系統。數據中心采集源端業務系統業務數據后,進入數據中心進行數據采集、數據清洗、數據轉換、數據加工匯聚后形成數據服務目錄,對外提供數據服務,為支撐數據應用服務及源端業務系統的統計分析、審計數據中心提供基于CEEMD 的LSTM 審計數據分析引擎,提供針對多源時序卷煙審計數據的高效分析服務。卷煙審計數據中心框架如圖2所示。

Fig.2 Framework of cigarette audit data center圖2 卷煙審計數據中心框架
卷煙業務平臺審計數據來自多個綜合業務平臺,為實現對多源時序審計數據的精準分析,結合審計數據具有的不規則時序特征,本文設計的基于CEEMD 的LSTM 多源時序卷煙審計數據分析框架如圖3所示。
針對多源審計數據,首先采用CEEMD 方法對審計源數據進行模態分解,得到多組IMF 分解向量IMFi+和IMFi-。基于CEEMD 的特性,分解后的向量組IMFi+和IMFi-仍然保持原業務系統的時序特征,并且使得數據的時序變化相對更加平穩,有利于后續基于LSTM 對審計數據分析的精確性。

Fig.3 LSTM analysis framework over multi-sources audit data based on CEEMD圖3 基于CEEMD的多源時序審計數據LSTM 分析框架
得到IMF 分量后,為分析多源時序數據之間的時序關聯關系,對IMF 分量采用相似性分析方法擴展構建時序數據序列X={X1,X2,…,Xn}。對于給定IMF 分量IMFi={x1,x2,…,x}l和IMFj={y1,y2,…,y}l,利用公式(3)評價其相似度,表示為:

針對各IMF 分量選擇top-k的時序相似序列后,擴展得到時序數據序列X={X1,X2,…,Xn},作為后續LSTM 網絡的輸入數據。例如卷煙審計平臺數據來自卷煙平臺合同、營銷、專賣、財務、物流等業務系統,針對單業務系統數據難以充分體現卷煙審計數據的時序關聯數據特征。營銷數據僅記錄了卷煙銷售商戶的訂單信息,目前卷煙物流配送存在一定滯后性,因此單純從營銷數據和卷煙數據方面不能充分體現卷煙經營戶的經營時間特性。本文利用CEEMD 抽取跨營銷域與物流域的綜合IMF 分量可以更好地體現經營時間特性,例如抽取營銷數據和異步物流配送數據的階段時間窗口方差和平均值來體現卷煙經營戶的時序經營特征。
傳統RNN 中同樣的權重參數矩陣在不同循環層之間共享,最終的輸出層梯度為各層梯度之和。RNN 網絡中總的梯度并不會消失,但遠距離的梯度仍然會被近距離的數據梯度所主導并覆蓋,導致RNN 模型很難對遠距離的依賴關系進行學習。卷煙平臺行為數據具有明顯的季節性和周期性,而這種時間關聯性的時效特征往往非常長,因此針對煙草審計數據的學習模型必須能夠適應數據長效時間關聯特征。
LSTM 是一種特殊的RNN,主要是為了解決長序列訓練過程中的梯度消失和梯度爆炸問題。如圖1 所示,LSTM中梯度的傳播有多條途徑,在以公式(4)為代表的路徑上,逐個元素直接疊加,梯度流最穩定,但是其他路徑上梯度流傳播與普通RNN 相似,仍然有權重矩陣反復連乘,會存在梯度消失和梯度爆炸的問題。LSTM 通過保證公式(4)路徑上的梯度傳遞保證遠距離梯度的傳遞。

LSTM 單元中遺忘門可以將時序關系有選擇地傳遞給后續LSTM 單元。為了更好適應卷煙審計數據的長時間關聯特征,對LSTM 單元進行改進。首先,為保證時間梯度流穩定傳播,將公式(4)主路徑的ft設置為1(即不經過遺忘門直接傳遞給下一個狀態),利用公式(5)保證遠距離梯度的流暢傳遞不會遺失。

然而這樣的方式會導致多余的狀態信息被大量傳遞到后續LSTM 單元,進而導致潛在的狀態爆炸問題。為解決這個問題,保障對煙草審計數據的學習效果和效率,對其他路徑的參數傳遞進行控制。如圖4 所示,遺忘門負責壓縮之前的狀態信息,并過濾前一個狀態的無效參數;更新門的輸入數據受遺忘門控制,部分無效或低關聯度數據被過濾掉而不進入更新門,以控制參數爆炸的規模;輸出門控制有多少信息進入到下一個LSTM 單元。這種結構可有效控制LSTM 的信息傳遞,同時可以更好地體現周期性的時序關聯數據特征,非常適用于卷煙業務平臺中時序審計數據的分析任務。

Fig.4 Improved LSTM unit structure for time series cigarette audit data圖4 面向時序卷煙審計數據的改進LSTM 單元結構
將面向多源時序卷煙審計數據分析算法用于湖北省卷煙業務平臺中的審計數據分析,實驗明確定義多源數據審計過程中的數據不一致性、數據不合規以及數據異?,F象為風險行為,以發現其中的潛在交易風險行為。設計實驗分析比較本文算法與LSTM、ATTAIN[5]、LSTM-DE 模型[6]針對多源時序煙草審計數據的分析性能,統計在不同模型參數及數據情況下的風險行為發現查全率和查準率,并對查詢結果進行分析。
訓練數據選用卷煙審計平臺中覆蓋5 個子業務系統(合同、營銷、專賣、財務、物流)的審計數據,數據記載2019年1-12 月的各個子業務系統業務數據,每個子系統業務數據規模控制在2 萬條,訓練數據規模為10 萬條。測試數據選用2020 年6 月-2021 年6 月的卷煙審計數據(2020 年卷煙營銷數據由于疫情原因缺失,因此實驗忽略2020 年數據)共計200 萬規模,標注風險行為主要包括跨區配送(即不合理異常配送)和異常營銷風險行為(即卷煙品類采購與銷售異常)兩類。實驗運行環境為CPU AMD 5900X,ASUS RTX-3090,32GB 內存的服務器。訓練過程按照時序特征對原始訓練數據進行分片,分片規模保持與訓練層層數一致(10~50),各數據分片采用“2.4”節介紹方法提取數據特征作為輸入數據輸入學習單元。
圖5(彩圖掃OSID 碼可見,下同)統計了模型參數對學習預測查全率的影響。圖5(a)為當審計數據來源3 個業務系統(K=3)時,查全率隨著隱藏層數的變化規律。如圖5(a)所示,本文方法的查全率優于其他對比方法,當隱藏層為50 時,本文方法的查全率R=88.5%,可以很好地滿足卷煙業務系統對審計數據分析的應用需求。
卷煙業務平臺包含了多個業務系統,來源于不同審計數據具有不同的數據模態,本文設計實驗驗證設計方法是否可以更好地適應多源時序審計數據的分析需求。圖5(b)為當固定LSTM 隱藏層數為50 時查全率與數據源規模之間的關系。如圖5(b)所示,針對多源審計數據之間的關聯關系引入CEEMD 方法對時序審計數據進行模態分解,分解后的輸入數據在時序特征上更加平滑,可以更好地適應多源業務系統之間數據模態的差異,而隨著數據來源業務系統的增加,其他沒有對數據進行預處理的方法查全率均出現了不同程度的下降。由圖5(b)可知,本文方法可有效提高多源審計數據的分析效果。
設計實驗統計分析模型參數對學習查準率的影響。圖6(a)記為當審計數據來源3 個業務系統(K=3)時,查準率隨著隱藏層數的變化情況,可以看出本文方法的查準率優于其他方法,在不同隱藏層數情況下,本文方法的查準率維持在90%以上,當隱藏層為50 時,本文方法的查準率R=92.3%。卷煙業務數據具有長時間特征,導致LSTM 和LSTM-DE 方法的查準率不足,而ATTAIN 方法運用了注意力機制,本文方法設計了LSTM 單元利用遺忘門控制更新,均可以很好地利用長期數據的關聯特征。

Fig.5 experiments of recall rate圖5 查全率實驗結果

Fig.6 Precision experiments圖6 查準率實驗結果
如圖6(b)所示,當審計數據來源于多個業務系統時,由于數據模態的差異,對比方法的查準率均隨著數據模態的差異加大而有明顯下降,而本文方法采用CEEMD 進行模態分解,可以更好地使用多源業務系統的數據模態差異,其在數據源增加的前提下,分析查準率并不會出現顯著下降,仍然維持在90%以上,說明該方法針對多源卷煙審計數據具有很好的查準效率。
本文設計并實現了一種面向多源時序卷煙審計數據的深度學習分析算法,針對卷煙審計數據具有的多模態、時序關聯特性,設計了一種改進LSTM 網絡,從而更好地適應卷煙審計數據的長時間關聯特征。將本文方法應用于湖北省卷煙業務平臺,實現了面向卷煙審計數據的高效、準確分析,為大型省級卷煙業務平臺提供了跨業務系統的高效審計業務數據分析解決方案。后續將繼續關注稀疏審計數據集的分析問題,設計適用于稀疏審計數據的高效數據挖掘分析方法。