999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于卷積神經網絡的字符級用戶名嵌入跨社交網絡身份匹配算法

2021-04-13 19:14:09劉甜甜
電腦知識與技術 2021年5期

劉甜甜

摘要:針對現有基于用戶名的跨社交網絡用戶身份匹配算法,匹配時需要設計復雜的用戶名字符串統計特征用于機器學習模型輸入,本文提出了一個端到端的基于卷積神經網絡的用戶名字符級嵌入身份匹配算法。

關鍵詞:卷積神經網絡;用戶名嵌入;字符級;用戶身份匹配

1 概述

跨社交網絡用戶身份匹配技術是跨多個在線社交平臺進行信息融合的先決條件。現有的許多跨社交網絡用戶身份匹配模型主要是基于監督算法提出的,即給定一組標記的匹配用戶,錨鏈接推理預測問題可以建模為二分類任務。

用戶在選擇用戶名時通常會表現出某些行為模式,多個社交網絡平臺中傾向于使用具有個人特點的相似用戶名顯示自己的偏好,也具有獨特性[1],因此基于用戶名的跨社交網絡用戶身份匹配方法最簡單直觀,提取用戶名特征,設計基于相似度的學習匹配模型來預測錨鏈接。

Zafarani 等人[2]通過對多個社交網絡平臺中用戶名相似度的統計驗證分析,以實證的方式研究了在不同社交網絡平臺中識別相應身份的可能性。Li等人[3]利用有監督的機器學習算法來實現用戶身份匹配,該工作僅依靠不同的用戶名命名方式來提取冗余信息特征,在此特征集上進行模型的訓練。

用戶名是最直觀、最易獲取的數據形式,基于用戶名的跨網絡用戶身份匹配方法通過挖掘取名行為習慣特征進行匹配建模(如圖 1),取得了一定的研究成果。但是特征提取方法復雜煩瑣,針對此我們提出了基于卷積神經網絡用戶名字符嵌入的深度學習模型,避免了復雜的特征提取過程,提高了模型的泛化能力。

2 基于用戶名嵌入的跨社交網絡用戶身份匹配算法

本文中提出了基于卷積神經網絡的字符級用戶名嵌入匹配算法,實現端到端的跨社交網絡用戶身份匹配。

2.1 字符卷積神經網絡

文本嵌入通常采用循環神經網絡(RNN)來進行建模,因為RNN天生的循環自回歸結構是對時間序列很好表示。而傳統的卷積神經網絡一般認為不太適合時序問題的建模,主要由于其卷積核大小的限制,不能很好地抓取長時的依賴信息。Zhang[4]等人于2015年首次提出基于字符級的卷積神經網絡用于文本分類任務,初次探索了文本的字符級向量表示方法。

2.2 輸入文本處理

深度神經網絡模型的輸入應是文本向量化表示形式,在將用戶名文本信息輸入神經網絡模型前,需要將文本表示為模型可處理的數字形式。對該研究問題來說,輸入樣本應該是一對社交賬號的用戶名,首先需要從數據集中進行樣本對的構建,再對樣本進行初始的字符向量化表示。

2.2.1樣本對構建

對給定的已知錨鏈接集合[AS,T], 我們首先將其中的一對匹配賬號 [(vSi,uTj)] 的用戶名通過空格連接起來,作為二分類模型框架下的一個正樣本,隨機抽取數據產生負樣本對,使正負樣本比例達到 1:1,產生可以用于模型訓練的用戶名對樣本數據集。

2.2.2字符向量化

模型輸入層要求文本數據形式為矩陣形式,首先將字符轉化為可處理的數字化向量表示。為了比較用戶名中所包含的大、小寫字母對模型特征提取的貢獻,分別采用了兩種字母表進行用戶名嵌入。一是大小為 70 的字母表,包含英文小寫字母、數字和常見符號。大寫字母通常會用在用戶名首位,或表示用戶名縮寫,為了捕捉這一特性中的隱含特征,引入英文大寫字母 26 個,將字母表擴充為 96 個,進行字符級的用戶名文本嵌入,兩種字母如表1所示,表中的字母基本包含了用戶名樣本中的所有字符。

根據相應的字母表的長度,將樣本中每一個輸入的字符初始嵌入轉化為 [m] 維向量,將用戶名字符序列轉變為固定長度為 [l] 的 [m] 維序列,少數不在字母表中的特殊字符和空字符轉化為維度 [m] 的全零向量,得到二維文本字符特征矩陣。對于其中的一個用戶名對的樣本 [N=(w0,w1,...,wn)],其中 [n] 表示用戶名樣本中包含的單詞的個數,[wi ]表示其中的第 [i] 個詞, [wi ]包含[ l ]個字符,每個字符的嵌入向量為 [cj],其大小為 m 維,因此可以用于輸入卷積神經網絡來處理每一個字符得到該用戶名樣本的字符級向量表示。

2.3基于卷積神經網絡的字符級用戶名嵌入匹配模型設計

卷積神經網絡的核心結構主要包括卷積層、池化層以及全連接層,卷積層和池化層組合成為特征抽取器來提取用戶名文本中蘊含的高階語義特征。本文設計的跨社交網絡用戶匹配模型框架圖如2所示。

由模型框架可知,該模型以定長的二維矩陣作為輸入層,根據字母表選取的不同,輸入的特征個數分別為 70 和 96,用戶名文本特征向量的長度為該數據集中最大樣本長度的字符數。之后與卷積核做卷積操作,對輸入文本進行局部特征提取,經過池化層對卷積層輸出的特征圖進行最大池化操作,實現局部特征再提取。本論文中的模型設計了三個卷積池化層用于提取特征,將提取到的所有特征送入三個全連接層,由一個特征空間線性變換到另一個特征空間,最后通過softmax 分類器,輸出分類結果。本論文中所提模型設計的卷積池化層和全連接層如下表 2 所示,全連接層之間加入dropout 層實現模型的正則化。

3 實驗驗證與分析

為驗證所提算法的有效性,在真實社交網絡數據集上進行了實驗。實驗數據集來源于zhang等人的論文[5], 是Foursquare 和 Twitter 兩個社交網絡。

3.1實驗設置

我們采用以下基于用戶名嵌入表示的基準算法進行了對比實驗。

CharCNN Alignment-96。字母表采用96 個字符,全連接網絡作為預測輸出層。

CharCNN Alignment-70。字母表采用70 個字符,全連接網絡作為預測輸出層。

Word2Vec + Full Connected Layers。用戶名通過 word2vec 嵌入表示,CharCNN 模型中全連接部分作為預測層。

Word2Vec + 隨機森林。用戶名通過 word2vec 嵌入表示,隨機森林作為預測模型。

Word2Vec + SVM。用戶名通過 word2vec 嵌入表示,支持向量機作為預測模型。

Word2Vec + GBDT。 用戶名通過 word2vec 嵌入表示,梯度提升樹作為預測模型。

3.2實驗結果與分析

數據集劃分為 80% 作為訓練集,20% 作為測試集,與基于 word2vec 的用戶名嵌入基準匹配方法做對比實驗,得圖3中的實驗結果,橫軸表示預測結果的評價指標,縱軸表示三種預測指標值的大小,不同的顏色分別代表了不同的用戶名嵌入匹配方法。

對比不同方法的實驗結果發現,基于卷積神經網絡字符級用戶名嵌入模型當采用 96 個字符作為字母表時,其 Precision,Recall 和 F1 值分別提升了 2.2%,3.09%,2.62%。因此實驗結果表明在用戶名嵌入研究問題下,由于用戶名字符組成結構的特異性,大寫字母對于字符組合語義特征的表達具有積極作用。除此以外,經典的 Word2Vec 文本嵌入方法無法在基于用戶名嵌入的身份匹配這一問題上獲得比較好的結果。實驗證明了本文提出的基于卷積神經網絡的字符級用戶名嵌入匹配算法的有效性。

4總結

現有基于用戶名的身份匹配算法從用戶名字符串中提取各類字符統計特征以捕獲用戶名選取背后的行為模式,但設計特征提取過程復雜,不同數據集間特征設計規則差異較大,缺乏通用性。本文針對用戶名數據,提出了基于卷積神經網絡的字符級用戶名嵌入匹配算法,這是一個端到端的深度模型框架,可以自動學習獲得用戶名字符組合模式的隱含特征。該模型避免了復雜的特征提取過程,同時較易對模型進行擴展,提高了模型對不同語言的泛化能力以及通用性。

參考文獻:

[1] ZAFARANI R, LIU H. Connecting users across social media sites: a behavioral modeling approach[C]//Proceedings of the 19th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, 2013: 41-49.

[2] ZAFARANI R, LIU H. Connecting Corresponding Identities across Communities.[C]//Proceedings of the 3rd International Conference on Weblogs and Social Media, 2009: 354-357.

[3] LI Y, PENG Y, JI W, et al. User identification based on display names across online social networks[J]. IEEE Access, 2017(5): 17342-17353.

[4] ZHANG X, ZHAO J, LECUN Y. Character-level convolutional networks for text classification[J]. Advances in neural information processing systems, 2015(28): 649657.

[5] ZHANG J, YU P S. Integrated anchor and social link predictions across social networks[C]//Proceedings of the 24th International Conference on Artificial Intelligence, 2015: 2125-2131.

【通聯編輯:光文玲】

主站蜘蛛池模板: 亚洲第一综合天堂另类专| 伊人久久综在合线亚洲91| 就去色综合| 最新加勒比隔壁人妻| 宅男噜噜噜66国产在线观看| 情侣午夜国产在线一区无码| 中文字幕无码av专区久久| 欧美特级AAAAAA视频免费观看| 亚洲天堂视频在线观看免费| 亚洲男人天堂网址| 久久久久88色偷偷| 人妻21p大胆| 亚洲精品国偷自产在线91正片| 亚洲永久色| 国产日韩欧美视频| 欧美精品亚洲日韩a| 日韩人妻精品一区| 免费看美女毛片| 婷婷中文在线| 国产精品19p| 亚洲成aⅴ人在线观看| 色婷婷成人网| 国产精品私拍99pans大尺度 | 这里只有精品在线| 伊人久久大线影院首页| 久久精品国产精品国产一区| 久久这里只精品国产99热8| 伊人久久福利中文字幕| 喷潮白浆直流在线播放| 精品五夜婷香蕉国产线看观看| 日韩毛片免费观看| 亚洲人成色77777在线观看| 无码av免费不卡在线观看| 国产在线观看第二页| 色视频国产| 综合天天色| 99热这里只有精品免费| 香蕉eeww99国产精选播放| 亚洲αv毛片| 伊人大杳蕉中文无码| 国产美女自慰在线观看| 国产综合精品日本亚洲777| 日韩精品中文字幕一区三区| 亚洲人成影院在线观看| 91精品人妻互换| 五月婷婷伊人网| 国产日韩精品一区在线不卡| 国产小视频在线高清播放| 国产人碰人摸人爱免费视频| 有专无码视频| 91青青草视频在线观看的| 国产精品乱偷免费视频| 午夜a级毛片| 为你提供最新久久精品久久综合| 久久久久无码精品| 精品一区二区无码av| 四虎永久在线精品影院| 午夜日韩久久影院| a毛片在线| 久久精品国产精品青草app| 亚洲精品中文字幕无乱码| 精品无码人妻一区二区| 婷婷丁香色| 性做久久久久久久免费看| 日韩AV无码免费一二三区| 国产欧美日韩视频怡春院| 国产精品男人的天堂| 国产永久在线视频| 伊人成人在线视频| 日韩午夜伦| 99久久精品免费看国产免费软件| 日韩精品专区免费无码aⅴ| 精品国产免费人成在线观看| 欧美日韩激情| 白浆免费视频国产精品视频| 欧美激情伊人| 久久人妻xunleige无码| 巨熟乳波霸若妻中文观看免费| 国产高清在线丝袜精品一区| 无码内射在线| 99久久99这里只有免费的精品| 国产人碰人摸人爱免费视频|