張宇萌 吳昊 辛陽 承琪 趙經宇
(北京郵電大學 北京市 100876)
面對規模日益增長的信息資源,人們對于數據的理解,大多處于對數據的淺層感知模式,缺乏考慮數據之間的關聯,導致對數據的內涵理解不夠深刻。由于各類實體并不是孤立存在的,它們之間普遍存在關聯關系。正是這種聯系與交流的存在,使得數據之間顯式或隱式地形成一個巨大的關聯網絡。傳統的網絡異常行為分析采用的是在單個身份域內進行分析的方式,沒有考慮到由于系統條件、用戶背景或者用戶活躍平臺等屬性的變化而導致的行為變化所帶來的誤差。而現有的單域用戶異常行為分析模型不能很好的對多元化的用戶異常行為進行分析,因此易漏報異常行為與異常用戶。同時,現有的跨域用戶行為關聯分析研究更多的集中在用戶推薦領域[1],對跨域關聯用戶進行異常分析的研究少之又少。
隨著多域平臺的深層次合作以及用戶在各個平臺活動的多元化,對跨域網絡行為數據的挖掘與分析得到了廣大學者的研究。Xusong Chen[2]等人提出了一個注意力領域轉移網絡,通過產品域的個性化推薦方法來解決storytelling 域的用戶偏好預測問題,彌補了storytelling 與產品描述之間存在巨大差異這一缺陷,同時提出了一種雙域對比對抗學習方法,共同對storytelling 和產品的特征提取器進行預訓練。Xiujuan Wang[3]等人在單個社交網絡域中提出了一種名為“Hurst of Interest Distribution”的異常用戶檢測方法,利用文本主題特征以檢測異常賬戶。YeTao[4]等人在跨域用戶行為分析模型中引入了多維語義活動空間的概念,其中用戶行為特征被合并并表示為組合向量。通過挖掘從相應域中不同子系統的日志文件中提取的操作數據來發現用戶行為模式。他們的實驗結果表明,其所提出的方法可用于揭示跨域用戶典型行為方面的變化,如資源訪問、操作任務、性能評估等模式。Hanfei Wang[5]等人為關聯不同域用戶個性特征提出了一種新的框架,該框架側重于研究缺乏用戶個人特征信息的目標域。該文章定義了跨身份域人格特征分類問題,利用預測性文本嵌入方法作為從源到目標域遷移學習的方法,以半監督的方式訓練模型、預測結果。其大量實驗表明,跨域遷移學習可以更準確地識別用戶的個性特征,從而提高關聯性能。
為了對多個身份域中用戶行為進行關聯分析,并識別異常用戶,本文提出一種跨域用戶行為關聯分析及異常識別系統,并詳細闡述了跨域用戶行為關聯分析及異常識別的系統架構,數據處理過程、特征提取過程以及輸出格式要求,在跨域用戶行為關聯分析及異常識別系統中對系統功能進行驗證。
本文設計了一種支持億級實體數據的跨多域行為關聯與分析系統,系統首先對從不同域獲得的用戶身份屬性特征進行篩選,其次對其行為特征進行篩選,數據特征預處理,并把處理好的數據存入數據庫以便調用,最后通過對跨域用戶行為序列的挖掘與識別進而建立用戶行為關聯模型以及跨域異常行為識別模型,完成對用戶的關聯以及跨域異常用戶的判斷與識別。系統架構如圖1 所示。

圖1:系統架構
跨身份域用戶行為數據關聯分析模塊結構如圖2 所示。

圖2:跨域用戶行為數據關聯分析模塊結構圖
該結構主要包含用戶行為數據特征提取部分、跨域用戶行為序列身份關聯部分、異常用戶行為分析部分以及數據可視化部分。
實體行為數據特征提取部分對多來源、多維度、多類型及形態多變、分布零散、屬性復雜的數據進行特征提取,獲取文本、圖像視覺、時間、空間等維度的實體特征,為跨域實體行為數據身份關聯部分、跨域實體行為數據關聯分析部分提供特征數據。
該模塊研究實體屬性信息、實體生成內容和實體關系信息以分類實體行為。研究實體行為數據特征提取方法,從大量原始且具有冗余性的信息中提取最核心的、最具代表性的信息,并轉化成可進一步分析處理的特征數據。
多域的數據集從不同的平臺采集而來,比如微博、豆瓣、知乎、各大論壇等多個平臺。不同平臺的數據存在巨大的差異,微博數據文本短而知乎數據文本長;微博關注的是熱點,知乎關注的是問題;不同域論壇的數據也有很大差異,看雪論壇的重點在安全,而雪球論壇的重點在股票。
為了更高效的使用跨域數據,要對其進行一系列預處理,將數據轉換為有效數據。數據預處理的過程包括數據清洗、特征提取、行為主題提取、數據對齊、地理位置轉換。
經過數據清洗,實體行為信息去除掉部分冗余的行為信息,但是直接將原始數據作為輸入進行分析的效率和效果較差,數據難以處理且各特征的權重難以調整。需要先提取最核心的,最具代表性的信息,再進行歸一化的描述和處理。
針對文本特征的提取方法包括文本預處理、文本表示、特征提取三個步驟。文本預處理主要分為文本分詞和停用詞過濾兩個方面。文本表示指將文本轉化為更容易讓計算機識別的信息的過程,即對文本進行形式化處理。其中,特征項可以表達文本概念,并且包含一個獨有的權重。文本就是利用這些特征項來表示文本概念。
圖像視覺特征復雜多樣,其特征提取是分析用戶行為的重要操作,特征提取的質量對最終判斷效果有較大影響。常用的圖像特征有顏色特征、紋理特征、形狀特征、空間關系特征。對于不同的特征使用不同的特征提取方法,針對不同的圖像,組合不同的特征提取方法進行圖像特征提取。
針對社交網絡,特征提取方法分為基于用戶屬性信息的特征提取、基于用戶生成內容的特征提取、基于行為軌跡的特征提取、基于結構關系的特征提取四個方面。
實體行為數據特征提取為跨域實體行為數據身份關聯部分、跨域實體行為數據關聯分析部分提供特征數據。
實體行為在時序上變化規律復雜多變,跨時空實體行為刻畫也十分困難。研究跨域實體行為模式關聯分析技術,從實體行為空間、時間及屬性等復雜行為特征中有效梳理、歸納和刻畫實體行為模式,結合行為特征聚類、用戶行為融合等方法,構建多粒度網絡實體行為關聯分析模型。
跨域實體特征關聯圖的嵌入利用表示學習方法,通過學習跨域實體特征關聯圖中的節點與節點之間的關系,將節點在低維潛在空間中進行表示。用戶行為嵌入將不同域中用戶的行為作為用戶行為對象,通過異構信息網絡的頂點嵌入方法為每個用戶行為生成一個向量。
每個用戶行為得到一個固定維度的向量表示后,根據用戶行為時間分布,選取一個合適的時間間隔作為用戶行為序列采樣時間窗口,將這個時間窗口內的用戶行為作為一個用戶行為序列。對于生成的不等長用戶行為序列,在不影響模型結果的前提下利用對齊方法使每一條序列與最長用戶行為序列長度對齊。
將得到的用戶行為序列進行聚類,使得每個實體身份對應一類標簽,同類別的實體對象表示關聯。在實體對象關聯的基礎上,計算用戶關聯系數,得到相關聯的用戶。
通過對多域數據集進行預處理、特征提取后,對提取特征后的數據進行用戶行為序列的關聯,通過調參使得關聯后的序列能有效刻畫實體行為模式。對關聯實體行為得到的數據使用異常分析模型進行訓練,調參使得異常行為關聯識別模型達到較優的準確率。異常行為識別架構如圖3 所示。

圖3:異常行為識別
異常行為關聯識別主要是對可能的異常實體進行特征提取,對跨域系統中不同身份的異常實體行為進行關聯并判斷其異常類型。
本系統的原理系統使用服務器進行部署實現并進行驗證,操作系統為Centos-7。服務器內核數量為16 個,內存配置為32G,磁盤大小為512G。使用pycharm 和vscode作為開發工具,使用python3.6.9 作為編程語言。系統使用flask 框架進行web 網站搭建,使用VUE 框架進行前端開發,使用restful 風格進行資源請求,使用json 格式進行數據交流。
跨域實體行為數據關聯模型對多來源、多維度、多類型及形態多變、分布零散、屬性復雜數據間對內在關聯關系進行分析處理。經跨域實體行為數據關聯分析,跨域行為關聯序列結果如表1 所示。在行為序列關聯的基礎上關聯用戶,系統展示如圖4 和圖5 所示。

圖4:用戶關聯數展示

圖5:用戶關聯強度展示

表1:跨域行為關聯序列結果
跨域實體行為關聯分析目的就是異常行為的關聯識別,通過異常識別模型的訓練及構建,對測試的數據進行異常行為關聯識別。異常行為識別結果如表2 所示,系統展示結果如圖6 所示。

表2:異常行為識別結果

圖6:異常識別
針對100 個身份管理系統億級行為數據規模的場景下形態多樣、類型復雜的異構數據,結合實體行為數據特征提取與實體身份關聯方法,設計了跨域實體行為數據關聯模型,實現對多來源、多維度、多類型及形態多變、分布零散、屬性復雜數據間對內在關聯關系進行綜合表達。在關聯模型的基礎上,結合圖的嵌入表示、關聯強度計算等方法,實現了實體行為序列關聯分析模塊,在多源異構數據場景下,實體行為的異常識別也達到了較好的效果。