999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

跨域實體行為關聯及異常分析系統設計

2022-07-08 03:04:26張宇萌吳昊辛陽承琪趙經宇
電子技術與軟件工程 2022年1期
關鍵詞:特征提取關聯特征

張宇萌 吳昊 辛陽 承琪 趙經宇

(北京郵電大學 北京市 100876)

面對規模日益增長的信息資源,人們對于數據的理解,大多處于對數據的淺層感知模式,缺乏考慮數據之間的關聯,導致對數據的內涵理解不夠深刻。由于各類實體并不是孤立存在的,它們之間普遍存在關聯關系。正是這種聯系與交流的存在,使得數據之間顯式或隱式地形成一個巨大的關聯網絡。傳統的網絡異常行為分析采用的是在單個身份域內進行分析的方式,沒有考慮到由于系統條件、用戶背景或者用戶活躍平臺等屬性的變化而導致的行為變化所帶來的誤差。而現有的單域用戶異常行為分析模型不能很好的對多元化的用戶異常行為進行分析,因此易漏報異常行為與異常用戶。同時,現有的跨域用戶行為關聯分析研究更多的集中在用戶推薦領域[1],對跨域關聯用戶進行異常分析的研究少之又少。

隨著多域平臺的深層次合作以及用戶在各個平臺活動的多元化,對跨域網絡行為數據的挖掘與分析得到了廣大學者的研究。Xusong Chen[2]等人提出了一個注意力領域轉移網絡,通過產品域的個性化推薦方法來解決storytelling 域的用戶偏好預測問題,彌補了storytelling 與產品描述之間存在巨大差異這一缺陷,同時提出了一種雙域對比對抗學習方法,共同對storytelling 和產品的特征提取器進行預訓練。Xiujuan Wang[3]等人在單個社交網絡域中提出了一種名為“Hurst of Interest Distribution”的異常用戶檢測方法,利用文本主題特征以檢測異常賬戶。YeTao[4]等人在跨域用戶行為分析模型中引入了多維語義活動空間的概念,其中用戶行為特征被合并并表示為組合向量。通過挖掘從相應域中不同子系統的日志文件中提取的操作數據來發現用戶行為模式。他們的實驗結果表明,其所提出的方法可用于揭示跨域用戶典型行為方面的變化,如資源訪問、操作任務、性能評估等模式。Hanfei Wang[5]等人為關聯不同域用戶個性特征提出了一種新的框架,該框架側重于研究缺乏用戶個人特征信息的目標域。該文章定義了跨身份域人格特征分類問題,利用預測性文本嵌入方法作為從源到目標域遷移學習的方法,以半監督的方式訓練模型、預測結果。其大量實驗表明,跨域遷移學習可以更準確地識別用戶的個性特征,從而提高關聯性能。

為了對多個身份域中用戶行為進行關聯分析,并識別異常用戶,本文提出一種跨域用戶行為關聯分析及異常識別系統,并詳細闡述了跨域用戶行為關聯分析及異常識別的系統架構,數據處理過程、特征提取過程以及輸出格式要求,在跨域用戶行為關聯分析及異常識別系統中對系統功能進行驗證。

1 系統設計

本文設計了一種支持億級實體數據的跨多域行為關聯與分析系統,系統首先對從不同域獲得的用戶身份屬性特征進行篩選,其次對其行為特征進行篩選,數據特征預處理,并把處理好的數據存入數據庫以便調用,最后通過對跨域用戶行為序列的挖掘與識別進而建立用戶行為關聯模型以及跨域異常行為識別模型,完成對用戶的關聯以及跨域異常用戶的判斷與識別。系統架構如圖1 所示。

圖1:系統架構

1.1 系統模塊結構設計

跨身份域用戶行為數據關聯分析模塊結構如圖2 所示。

圖2:跨域用戶行為數據關聯分析模塊結構圖

該結構主要包含用戶行為數據特征提取部分、跨域用戶行為序列身份關聯部分、異常用戶行為分析部分以及數據可視化部分。

實體行為數據特征提取部分對多來源、多維度、多類型及形態多變、分布零散、屬性復雜的數據進行特征提取,獲取文本、圖像視覺、時間、空間等維度的實體特征,為跨域實體行為數據身份關聯部分、跨域實體行為數據關聯分析部分提供特征數據。

2 功能模塊分析

2.1 實體行為數據預處理模塊

該模塊研究實體屬性信息、實體生成內容和實體關系信息以分類實體行為。研究實體行為數據特征提取方法,從大量原始且具有冗余性的信息中提取最核心的、最具代表性的信息,并轉化成可進一步分析處理的特征數據。

多域的數據集從不同的平臺采集而來,比如微博、豆瓣、知乎、各大論壇等多個平臺。不同平臺的數據存在巨大的差異,微博數據文本短而知乎數據文本長;微博關注的是熱點,知乎關注的是問題;不同域論壇的數據也有很大差異,看雪論壇的重點在安全,而雪球論壇的重點在股票。

為了更高效的使用跨域數據,要對其進行一系列預處理,將數據轉換為有效數據。數據預處理的過程包括數據清洗、特征提取、行為主題提取、數據對齊、地理位置轉換。

經過數據清洗,實體行為信息去除掉部分冗余的行為信息,但是直接將原始數據作為輸入進行分析的效率和效果較差,數據難以處理且各特征的權重難以調整。需要先提取最核心的,最具代表性的信息,再進行歸一化的描述和處理。

針對文本特征的提取方法包括文本預處理、文本表示、特征提取三個步驟。文本預處理主要分為文本分詞和停用詞過濾兩個方面。文本表示指將文本轉化為更容易讓計算機識別的信息的過程,即對文本進行形式化處理。其中,特征項可以表達文本概念,并且包含一個獨有的權重。文本就是利用這些特征項來表示文本概念。

圖像視覺特征復雜多樣,其特征提取是分析用戶行為的重要操作,特征提取的質量對最終判斷效果有較大影響。常用的圖像特征有顏色特征、紋理特征、形狀特征、空間關系特征。對于不同的特征使用不同的特征提取方法,針對不同的圖像,組合不同的特征提取方法進行圖像特征提取。

針對社交網絡,特征提取方法分為基于用戶屬性信息的特征提取、基于用戶生成內容的特征提取、基于行為軌跡的特征提取、基于結構關系的特征提取四個方面。

實體行為數據特征提取為跨域實體行為數據身份關聯部分、跨域實體行為數據關聯分析部分提供特征數據。

2.2 跨域實體行為序列關聯模塊

實體行為在時序上變化規律復雜多變,跨時空實體行為刻畫也十分困難。研究跨域實體行為模式關聯分析技術,從實體行為空間、時間及屬性等復雜行為特征中有效梳理、歸納和刻畫實體行為模式,結合行為特征聚類、用戶行為融合等方法,構建多粒度網絡實體行為關聯分析模型。

跨域實體特征關聯圖的嵌入利用表示學習方法,通過學習跨域實體特征關聯圖中的節點與節點之間的關系,將節點在低維潛在空間中進行表示。用戶行為嵌入將不同域中用戶的行為作為用戶行為對象,通過異構信息網絡的頂點嵌入方法為每個用戶行為生成一個向量。

每個用戶行為得到一個固定維度的向量表示后,根據用戶行為時間分布,選取一個合適的時間間隔作為用戶行為序列采樣時間窗口,將這個時間窗口內的用戶行為作為一個用戶行為序列。對于生成的不等長用戶行為序列,在不影響模型結果的前提下利用對齊方法使每一條序列與最長用戶行為序列長度對齊。

將得到的用戶行為序列進行聚類,使得每個實體身份對應一類標簽,同類別的實體對象表示關聯。在實體對象關聯的基礎上,計算用戶關聯系數,得到相關聯的用戶。

2.3 異常用戶行為分析模型構建模塊

通過對多域數據集進行預處理、特征提取后,對提取特征后的數據進行用戶行為序列的關聯,通過調參使得關聯后的序列能有效刻畫實體行為模式。對關聯實體行為得到的數據使用異常分析模型進行訓練,調參使得異常行為關聯識別模型達到較優的準確率。異常行為識別架構如圖3 所示。

圖3:異常行為識別

異常行為關聯識別主要是對可能的異常實體進行特征提取,對跨域系統中不同身份的異常實體行為進行關聯并判斷其異常類型。

3 系統實現

3.1 系統開發環境

本系統的原理系統使用服務器進行部署實現并進行驗證,操作系統為Centos-7。服務器內核數量為16 個,內存配置為32G,磁盤大小為512G。使用pycharm 和vscode作為開發工具,使用python3.6.9 作為編程語言。系統使用flask 框架進行web 網站搭建,使用VUE 框架進行前端開發,使用restful 風格進行資源請求,使用json 格式進行數據交流。

3.2 行為序列關聯結果及展示

跨域實體行為數據關聯模型對多來源、多維度、多類型及形態多變、分布零散、屬性復雜數據間對內在關聯關系進行分析處理。經跨域實體行為數據關聯分析,跨域行為關聯序列結果如表1 所示。在行為序列關聯的基礎上關聯用戶,系統展示如圖4 和圖5 所示。

圖4:用戶關聯數展示

圖5:用戶關聯強度展示

表1:跨域行為關聯序列結果

3.3 異常行為識別結果

跨域實體行為關聯分析目的就是異常行為的關聯識別,通過異常識別模型的訓練及構建,對測試的數據進行異常行為關聯識別。異常行為識別結果如表2 所示,系統展示結果如圖6 所示。

表2:異常行為識別結果

圖6:異常識別

4 結語

針對100 個身份管理系統億級行為數據規模的場景下形態多樣、類型復雜的異構數據,結合實體行為數據特征提取與實體身份關聯方法,設計了跨域實體行為數據關聯模型,實現對多來源、多維度、多類型及形態多變、分布零散、屬性復雜數據間對內在關聯關系進行綜合表達。在關聯模型的基礎上,結合圖的嵌入表示、關聯強度計算等方法,實現了實體行為序列關聯分析模塊,在多源異構數據場景下,實體行為的異常識別也達到了較好的效果。

猜你喜歡
特征提取關聯特征
“苦”的關聯
當代陜西(2021年17期)2021-11-06 03:21:36
如何表達“特征”
基于Gazebo仿真環境的ORB特征提取與比對的研究
電子制作(2019年15期)2019-08-27 01:12:00
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
奇趣搭配
抓住特征巧觀察
智趣
讀者(2017年5期)2017-02-15 18:04:18
一種基于LBP 特征提取和稀疏表示的肝病識別算法
基于MED和循環域解調的多故障特征提取
線性代數的應用特征
河南科技(2014年23期)2014-02-27 14:19:15
主站蜘蛛池模板: 久热精品免费| 久久99久久无码毛片一区二区| 日韩欧美国产成人| 国产成人精品优优av| 成人无码区免费视频网站蜜臀| 日韩黄色大片免费看| 日本一区二区不卡视频| 日韩在线观看网站| 欧美午夜在线观看| 国产屁屁影院| 亚洲成人播放| 真实国产乱子伦视频| 狠狠v日韩v欧美v| 国产精品观看视频免费完整版| 97超爽成人免费视频在线播放| 国产成人精品在线1区| 无码一区二区三区视频在线播放| 久久综合婷婷| 青青青草国产| 国产99在线观看| 亚洲综合欧美在线一区在线播放| 久爱午夜精品免费视频| 偷拍久久网| 精品久久国产综合精麻豆| 免费一级毛片不卡在线播放| 依依成人精品无v国产| 国产亚洲精品yxsp| 欧美日韩中文字幕二区三区| 欧美69视频在线| 亚洲美女久久| 精品无码视频在线观看| 中文无码精品A∨在线观看不卡| 亚洲精品手机在线| 亚洲国产精品久久久久秋霞影院| 91娇喘视频| 国产91特黄特色A级毛片| 日韩无码黄色| 亚洲AV无码乱码在线观看裸奔| а∨天堂一区中文字幕| 亚洲一区二区三区在线视频| 一级不卡毛片| 性色生活片在线观看| 色噜噜狠狠色综合网图区| 免费一级成人毛片| 成年女人18毛片毛片免费| 中文字幕首页系列人妻| 91久久精品日日躁夜夜躁欧美| 国产精品理论片| 精品第一国产综合精品Aⅴ| 又爽又黄又无遮挡网站| 最新国产高清在线| 91丝袜乱伦| 日韩黄色大片免费看| 天天干天天色综合网| 国产精品露脸视频| 91啪在线| 国产精品欧美在线观看| 狠狠躁天天躁夜夜躁婷婷| 欧美日本在线一区二区三区| 免费观看男人免费桶女人视频| 奇米精品一区二区三区在线观看| 99久久精品免费视频| 国产精品成人不卡在线观看| 国产一级二级三级毛片| 亚洲欧美自拍视频| a亚洲视频| 天天色综合4| 亚洲一区二区三区国产精华液| 成人免费黄色小视频| 狠狠综合久久| 小说 亚洲 无码 精品| 久久青草免费91观看| 亚洲an第二区国产精品| 欧美综合区自拍亚洲综合绿色 | 美女被操黄色视频网站| 欧美成人aⅴ| 真实国产精品vr专区| 欧美成人aⅴ| 国产99精品视频| 国产一级小视频| 专干老肥熟女视频网站| 国产主播一区二区三区|