唐崔巍 王瓊 徐海勇 黃巖



【摘要】? ? 基于運營商5G套餐的精準營銷場景,將用戶數據、產品數據、訪問行為數據等多源異構數據進行圖結構轉化,文章采用InfoMap算法做圖數據節點聚類,使用圖卷積神經網絡技術對圖數據深度計算挖掘,并在群簇節點間通過隨機刪邊技術進行結構優化。結果顯示,基于InfoMap算法的圖卷積神經網絡與隨機刪邊技術相結合的潛客挖掘模型的推薦準確性具有明顯提升。在數字化轉型時期,該潛客挖掘算法為運營商提供了精準營銷、客戶管理等方面的新思路。
【關鍵詞】? ? 圖卷積神經網絡? ? InfoMap? ? 隨機刪邊技術? ? 潛客挖掘
Research on the Application of Graph Convolution Network in the Telecom OperatorsPotential Customer Mining
TANG Cui-wei, WANG Qiong,XU Hai-yong, HUANG Yan,
(China Mobile Information Technology Co., Ltd., Beijing 100037,China)
Abstract: Based on the 5G package precision marketing scenario, this paper converted users, products and behaviors data into graph-structured data.This paper applied the InfoMap algorithm to cluster nodes of graph data, utilized graph convolution neural network technology to carry out deep computation and mining of graph data, performed random drop edge technology among cluster nodes of the graph data to achieve structural optimization. The results showed that this studys model which was based on InfoMap algorithm combining graph convolution neural network with random drop edge technology model improved the recommend accuracy significantly. In the digital transformation period, the potential customer mining algorithm provides operators with new ideas in precision marketing and customer management.
Keywords: graph convolution neural network; InfoMap; dropedge; potential customers mining
引言:
隨著 “5G+工業互聯網”的應用場景迅速發展,企業數字化、智能化轉型正在加速形成,運營商的業務更趨于互聯網化和個性化,深度把握市場需求,為客戶創造價值對運營商來說至關重要。業務推薦主要是通過指標分段或以存量標簽為規則篩選目標用戶,再將配置好的商品名稱、商品圖片、商品價格、優惠方式以及商品鏈接進行推送,然而這種推薦模式存在定位人群不精準,推送商品內容與目標人群不匹配等問題,對用戶信息數據的利用率仍待提升。因此,提升運營商潛客挖掘的匹配度和準確率愈發重要。本文基于運營商線上用戶群體,將推薦引擎與5G套餐推薦場景相結合,采用GCN圖挖掘算法進行5G套餐的用戶訂購行為和用戶特征挖掘分析,深度訓練優化5G套餐訂購潛客挖掘模型,挖掘與現有訂購5G套餐用戶的特征相似用戶,從而輸出更精準有效的潛在客戶名單,實現用戶數據價值充分挖掘。
一、技術現狀分析
1.1傳統推薦算法分析
傳統潛客挖掘方法的基本原理是基于用戶與用戶,產品與產品,產品與用戶之間的關聯關系進行推薦計算[1]。然而,傳統推薦算法存在諸多問題,如算法缺乏挖掘深度關聯信息的能力,推薦內容與用戶所需內容可能只是共有很多淺層聯系,如共有很多相同的關鍵字詞,但在語義表達中并不相關,存在推薦結果形似而非神似的問題。此外,不論是人工為內容添加標簽,還是構建領域本體或建立規則進行推薦,都需要投入大量人工,訓練過程耗時較長,并要求處理者具有一定的行業知識儲備。推薦結果的精準度不僅取決于算法模型的精確性,還取決于人工工作的關聯性和準確性。最后,傳統推薦算法對數據利用并不充分,導致推薦準確率仍有較大提升空間。如何根據已有的用戶行為和信息,由推薦算法引擎精準定位出待推薦的人群,準確地進行潛客挖掘和用戶偏好預測是一個重要的問題。
1.2圖神經網絡推薦分析
圖數據在現實世界中廣泛存在,2009年Franco博士在其論文中定義了圖神經網絡[2]的理論基礎,相較于傳統推薦算法具有較高的精準度和較快的計算速度。圖神經網絡(GNN)也在相關的機器學習任務中取得了不錯的效果,但簡單地將數據給模型、希望其擬合出來可以得到預期結果的一整套函數在某種程度上是不負責任的。除此之外,隨著神經網絡層數加深,圖神經網絡存在過擬合和過平滑的問題,從而阻礙了深層圖神經網絡對節點的分類效果,影響最終的推薦模型性能。Bruna于2013年提出的圖卷積神經網絡算法[3]是基于圖神經網絡的算法升級,在一定程度上緩解了過擬合和過平滑,但是圖卷積神經網絡算法存在模型單一,缺乏實際生產的案例驗證等問題。同時,5G套餐精準推薦業務具有極強的時效性和不確定性,這將直接影響潛客挖掘的精準性。因此需要在圖卷積神經網絡與其他算法相結合,來提升潛客挖掘算法模型的精度和效率。本文將針對5G套餐客戶線上推送場景,從圖卷積神經網絡算法入手,結合其他模型優化算法,從而更加深度精準的挖掘訂購5G套餐的潛在客戶。
四、潛客挖掘算法實現
4.1 實驗概述
我們根據獲取的運營商數據,設置了三個具有不同特征類型和不同圖大?。ㄓ脩魯盗浚┑幕鶞蕡D數據集。分別將神經網絡深度設置為2/4/8/32層,不同層數即代表不同的網絡深度,基于以上數據集對潛客挖掘模型進行性能測試和結果比對。為了驗證方法的有效性,文章在不同的基準數據集上分別使用協同過濾算法、GNN、GCN、GCN + DropEdge、GCN + InfoMap + DropEdge五種模型進行數據擬合訓練。對若干產品的潛在購買用戶的進行計算挖掘,計算已訂購某產品用戶的特征相似人群。將數據集內前6個月的數據作為訓練集,后2個月的數據作為測試集。使用不同方法挖掘出相同數量的用戶,計算挖掘出用戶中真實有訂購行為的人群占比,即模型推薦準確率。
4.2 圖矩陣表示
圖數據中的每個結點無時無刻不因為相鄰和更遠的點的影響而在改變著自己的狀態直到最終的平衡,關系越親近的鄰居影響越大,圖數據如圖2所示:
因此,我們應用矩陣來度量節點和鄰居節點間的關系。將圖數據分別表示為度矩陣,鄰接矩陣和拉普拉斯矩陣,分別如圖3所示。其中度矩陣只有對角線上有值,為對應節點的度,其余為0;鄰接矩陣只有在有邊連接的兩個節點之間為1,其余地方為0 ;拉普拉斯矩陣為度矩陣與鄰接矩陣之差。
4.3圖神經網絡搭建
圖3展示了圖卷積神經網絡的搭建過程,圖卷積的核心在于聚合鄰居結點的信息,卷積操作關心每個結點的隱藏狀態如何更新。輸入的數據是整張圖,在卷積層1中,對每個結點的鄰居都進行一次卷積操作,并用卷積的結果更新該結點;然后經過激活函數如ReLU,然后再過一層卷積層與一層激活函數;反復上述過程,直到層數達到預期深度。圖卷積神經網絡會有一個局部輸出函數,用于將結點的狀態(包括隱藏狀態與結點特征)轉換成任務相關的標簽。最終在輸出層后添加一個SoftMax層,即可實現分類。
4.4圖節點聚合與隨機刪邊
圖神經網絡上的卷積的過程存在一個缺陷:卷積操作針對的對象是整張圖,也就意味著要將所有結點放入內存或顯存中,才能進行卷積操作。但對實際場景中的大規模圖而言,整個圖上的卷積操作并不現實。
因此,我們在圖卷積神經網絡中添加InfoMap算法對聚合鄰居節點的信息并結合隨機刪邊技術,如圖4所示,在保留原有信息的基礎上對數據進行整合,以提高計算效率和計算精準度。
4.5算法實現
協同過濾算法:使用傳統的推薦算法協同過濾作為實驗對照,根據用戶信息和用戶行為數據構建用戶畫像,通過相似的用戶畫像和用戶行為,計算出已訂購5G產品的相似用戶。
GCN算法:
基于數據集進行GCN模型運算,計算圖結構中的每個節點的向量特征,最終獲取已訂購5G產品的相似用戶。然而,隨著深度的增加,圖神經網絡層間輸出差會逐漸趨近于0,這表明隱藏特征已經收斂到某一駐點,出現了過平滑的問題[15]。除此之外,當圖網絡深度趨近一定數量級的層后會導致內存不足,計算效率明顯下降。
GCN + DropEdge:
通過在GCN模型基礎上添加DropEdge處理,計算圖結構中每個節點的向量特征,并隨機將不相似的產品或不具有相似特征的用戶之間的關聯切斷,隨機截斷圖數據中節點的路徑,最終計算挖掘出已訂購5G產品的相似用戶。添加DropEdge處理后的GCN性能表現良好,當層數增加時,距離不會消失為零,表明一定程度消除了過擬合問題,GCN的推薦精度顯著提升。
并且,添加DropEdge處理后的GCN模型隨著網絡深度增加計算效率依然高效,這表明DropEdge具有通過使鄰接矩陣稀疏來節省內存消耗的優勢。
GCN + InfoMap + DropEdge:
基于InfoMap聚類后的群簇數據,進行群簇間節點的隨機DropEdge,同樣保持隨機DropEdge帶來的優勢,可以顯著提高當前GCN在節點分類上的性能。
首先,我們對基準數據集進行InfoMap聚類,將圖數據中的各個節點按照平均每步編碼長度最優原則,劃分為若干個內部節點彼此相似的特定群簇類別。設置不同類別之間的各個節點間關系為0,類別內各個節點間關系為1的鄰接矩陣。
隨后,對進行InfoMap聚類后的群簇數據集進行GCN計算同時添加群簇間的隨機刪邊處理,隨機截斷圖數據中群簇的路徑。GCN在每輪訓練時,在節點群簇間隨機去掉輸入的圖上的邊,即將鄰接矩陣中的非零元素置0,得到隨機刪邊后的鄰接矩陣,正則化后代替原來的鄰接矩陣。最終計算圖結構中每個節點的向量特征,獲取已訂購5G產品的相似用戶。
考慮到圖卷積神經網絡對深度敏感,本文分別測試了網絡深度為2/4/8/32層情況下模型的準確率。由于不同的超參對不同深度的網絡影響不同,隨機測試了多組超參,最終選取了每個模型在不同基準驗證集上的最佳準確性結果。其中,協同過濾算法不具備網絡深度計算,只基于各個數據集中包含的不同用戶數量實施計算。各模型的計算結果分類匯總如下:
表2總結了4個模型基于測試集在不同網絡深度情況下的計算實驗效果,結果表明,GCN + InfoMap + DropEdge模型對于潛客挖掘提升效果顯著。據觀察,在GCN模型中添加DropEdge處理可以提高所有情況下GCN模型的計算精度,而在此基礎上融合InfoMap算法可以進一步提升模型精準度。圖5更清楚地描述了添加DropEdge和InfoMap處理對于GCN的改進情況,我們計算了單獨添加DropEdge和添加DropEdge + InfoMap在不同層數下對GCN主干的平均絕對改進。
圖5顯示DropEdge為更深層次的架構提供了明顯改進,而DropEdge + InfoMap的組合為深層架構提供了進一步優化。相較于單獨使用GCN模型,對于有2層的模型,DropEdge + InfoMap + GCN獲得了平均1.1%的改進;而對于有32層的模型,它獲得了顯著的8.2%的提高。因此,應用DropEdge + InfoMap可以大幅度提高GCN在節點分類方面的性能。
此外,單獨使用GCN的32層模型可能會出現內存不足的問題,而添加了DropEdge + InfoMap的GCN模型則運行良好,顯示了DropEdge + InfoMap通過使鄰接矩陣稀疏來節省內存消耗的優勢。
表3展示了本實驗中在GCN模型中添加和未添加DropEdge和InfoMap的計算資源內存占用情況。
五、結束語
文章將運營商5G套餐數據進行圖結構改造,將多源異構數據轉化為圖數據。對輸入的圖數據節點進行InfoMap聚類,更加有效地聚合圖數據節點挖掘隱藏信息,在圖卷積神經網絡的基礎上使用聚類結果進行隨機刪邊處理,顯著提升了算法的潛客挖掘能力。
通過用戶特征挖掘和用戶訂購行為分析,不斷深度訓練優化5G套餐潛客挖掘模型,最終挖掘輸出1000萬個潛在5G套餐訂購用戶名單。將該潛在客戶名單作為App Push推送目標用戶群,并引導用戶進行5G套餐辦理,有效提升了5G套餐業務銷量。本文的潛客挖掘方法為電信運營商用戶精細化運營、產品精準營銷提供了借鑒思路,將持續提升5G時代下算法的潛客挖掘和精準營銷能力。
參? 考? 文? 獻
[1]高琪,辛樂.基于用戶偏好度模型和情感計算的產品推薦算法[C]//第 29 屆中國控制會議. 中國自動化學會, 2011: 2981-2986.
[2] Scarselli F, Gori M, Tsoi A C, et al. The graph neural network model[J]. IEEE transactions on neural networks, 2008, 20(1): 61-80.
[3] Bruna J, Zaremba W, Szlam A, et al. Spectral networks and locally connected networks on graphs[J]. arXiv preprint arXiv:1312.6203, 2013.
[4]吳國棟, 查志康, 涂立靜,等. 圖神經網絡推薦研究進展[J]. 智能系統學報, 2020, v.15; No.81(01):20-30.
[5]王佳. 圖神經網絡淺析[J]. 現代計算機(專業版), 2019, 000(023):58-62.
[6]徐冰冰,岑科廷,黃俊杰,等. 圖卷積神經網絡綜述[J]. 計算機學報, 2020, 043(005):755-780.
[7]毛冰城. 面向腦網絡分類的圖卷積神經網絡方法及其擴展研究[D].南京航空航天大學,2019.
[8] Kipf T N, Welling M. Semi-supervised classification with graph convolutional networks[J]. arXiv preprint arXiv,2016:1609.02907,.
[9] Li G, Muller M, Thabet A, et al. Deepgcns: Can gcns go as deep as cnns?[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision. 2019: 9267-9276.
[10]鄭小柏, 崔巖, 劉興林,等. 基于實體描述和關系圖卷積神經網絡的實體分類研究[J]. 計算機科學與應用, 2020, 10(7):8.
[11] Bohlin L, Edler D, Lancichinetti A, et al. Community detection and visualization of networks with the map equation framework[M]//Measuring scholarly impact. Springer, Cham, 2014: 3-34.
[12] Rosvall M, Bergstrom C T. Maps of Information Flow Reveal Community Structure in Complex Networks[J]. Proceedings of the National Academy of Sciences USA, 2008:1118--1123.
[13] Rong Y, Huang W, Xu T,et al. DropEdge: Towards Deep Graph Convolutional Networks on Node Classification[C].2020.1907.10903,
[14]雷小鋒, 陳皎, 毛善君,等. 基于隨機KNN圖的批量邊刪除聚類算法[J]. 軟件學報, 2018, 029(012):3764-3785.
[15] Schlichtkrull M., Kipf T.N., Bloem P., van den Berg R., Titov I., Welling M. (2018) Modeling Relational Data with Graph Convolutional Networks. In: Gangemi A. et al. (eds) The Semantic Web. ESWC 2018. Lecture Notes in Computer Science, vol 10843. Springer, Cham. https://doi.org/10.1007/978-3-319-93417-4_38