999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于卷積神經(jīng)網(wǎng)絡的字符級用戶名嵌入跨社交網(wǎng)絡身份匹配算法

2021-04-13 19:14:09劉甜甜
電腦知識與技術 2021年5期

劉甜甜

摘要:針對現(xiàn)有基于用戶名的跨社交網(wǎng)絡用戶身份匹配算法,匹配時需要設計復雜的用戶名字符串統(tǒng)計特征用于機器學習模型輸入,本文提出了一個端到端的基于卷積神經(jīng)網(wǎng)絡的用戶名字符級嵌入身份匹配算法。

關鍵詞:卷積神經(jīng)網(wǎng)絡;用戶名嵌入;字符級;用戶身份匹配

1 概述

跨社交網(wǎng)絡用戶身份匹配技術是跨多個在線社交平臺進行信息融合的先決條件。現(xiàn)有的許多跨社交網(wǎng)絡用戶身份匹配模型主要是基于監(jiān)督算法提出的,即給定一組標記的匹配用戶,錨鏈接推理預測問題可以建模為二分類任務。

用戶在選擇用戶名時通常會表現(xiàn)出某些行為模式,多個社交網(wǎng)絡平臺中傾向于使用具有個人特點的相似用戶名顯示自己的偏好,也具有獨特性[1],因此基于用戶名的跨社交網(wǎng)絡用戶身份匹配方法最簡單直觀,提取用戶名特征,設計基于相似度的學習匹配模型來預測錨鏈接。

Zafarani 等人[2]通過對多個社交網(wǎng)絡平臺中用戶名相似度的統(tǒng)計驗證分析,以實證的方式研究了在不同社交網(wǎng)絡平臺中識別相應身份的可能性。Li等人[3]利用有監(jiān)督的機器學習算法來實現(xiàn)用戶身份匹配,該工作僅依靠不同的用戶名命名方式來提取冗余信息特征,在此特征集上進行模型的訓練。

用戶名是最直觀、最易獲取的數(shù)據(jù)形式,基于用戶名的跨網(wǎng)絡用戶身份匹配方法通過挖掘取名行為習慣特征進行匹配建模(如圖 1),取得了一定的研究成果。但是特征提取方法復雜煩瑣,針對此我們提出了基于卷積神經(jīng)網(wǎng)絡用戶名字符嵌入的深度學習模型,避免了復雜的特征提取過程,提高了模型的泛化能力。

2 基于用戶名嵌入的跨社交網(wǎng)絡用戶身份匹配算法

本文中提出了基于卷積神經(jīng)網(wǎng)絡的字符級用戶名嵌入匹配算法,實現(xiàn)端到端的跨社交網(wǎng)絡用戶身份匹配。

2.1 字符卷積神經(jīng)網(wǎng)絡

文本嵌入通常采用循環(huán)神經(jīng)網(wǎng)絡(RNN)來進行建模,因為RNN天生的循環(huán)自回歸結構是對時間序列很好表示。而傳統(tǒng)的卷積神經(jīng)網(wǎng)絡一般認為不太適合時序問題的建模,主要由于其卷積核大小的限制,不能很好地抓取長時的依賴信息。Zhang[4]等人于2015年首次提出基于字符級的卷積神經(jīng)網(wǎng)絡用于文本分類任務,初次探索了文本的字符級向量表示方法。

2.2 輸入文本處理

深度神經(jīng)網(wǎng)絡模型的輸入應是文本向量化表示形式,在將用戶名文本信息輸入神經(jīng)網(wǎng)絡模型前,需要將文本表示為模型可處理的數(shù)字形式。對該研究問題來說,輸入樣本應該是一對社交賬號的用戶名,首先需要從數(shù)據(jù)集中進行樣本對的構建,再對樣本進行初始的字符向量化表示。

2.2.1樣本對構建

對給定的已知錨鏈接集合[AS,T], 我們首先將其中的一對匹配賬號 [(vSi,uTj)] 的用戶名通過空格連接起來,作為二分類模型框架下的一個正樣本,隨機抽取數(shù)據(jù)產(chǎn)生負樣本對,使正負樣本比例達到 1:1,產(chǎn)生可以用于模型訓練的用戶名對樣本數(shù)據(jù)集。

2.2.2字符向量化

模型輸入層要求文本數(shù)據(jù)形式為矩陣形式,首先將字符轉(zhuǎn)化為可處理的數(shù)字化向量表示。為了比較用戶名中所包含的大、小寫字母對模型特征提取的貢獻,分別采用了兩種字母表進行用戶名嵌入。一是大小為 70 的字母表,包含英文小寫字母、數(shù)字和常見符號。大寫字母通常會用在用戶名首位,或表示用戶名縮寫,為了捕捉這一特性中的隱含特征,引入英文大寫字母 26 個,將字母表擴充為 96 個,進行字符級的用戶名文本嵌入,兩種字母如表1所示,表中的字母基本包含了用戶名樣本中的所有字符。

根據(jù)相應的字母表的長度,將樣本中每一個輸入的字符初始嵌入轉(zhuǎn)化為 [m] 維向量,將用戶名字符序列轉(zhuǎn)變?yōu)楣潭ㄩL度為 [l] 的 [m] 維序列,少數(shù)不在字母表中的特殊字符和空字符轉(zhuǎn)化為維度 [m] 的全零向量,得到二維文本字符特征矩陣。對于其中的一個用戶名對的樣本 [N=(w0,w1,...,wn)],其中 [n] 表示用戶名樣本中包含的單詞的個數(shù),[wi ]表示其中的第 [i] 個詞, [wi ]包含[ l ]個字符,每個字符的嵌入向量為 [cj],其大小為 m 維,因此可以用于輸入卷積神經(jīng)網(wǎng)絡來處理每一個字符得到該用戶名樣本的字符級向量表示。

2.3基于卷積神經(jīng)網(wǎng)絡的字符級用戶名嵌入匹配模型設計

卷積神經(jīng)網(wǎng)絡的核心結構主要包括卷積層、池化層以及全連接層,卷積層和池化層組合成為特征抽取器來提取用戶名文本中蘊含的高階語義特征。本文設計的跨社交網(wǎng)絡用戶匹配模型框架圖如2所示。

由模型框架可知,該模型以定長的二維矩陣作為輸入層,根據(jù)字母表選取的不同,輸入的特征個數(shù)分別為 70 和 96,用戶名文本特征向量的長度為該數(shù)據(jù)集中最大樣本長度的字符數(shù)。之后與卷積核做卷積操作,對輸入文本進行局部特征提取,經(jīng)過池化層對卷積層輸出的特征圖進行最大池化操作,實現(xiàn)局部特征再提取。本論文中的模型設計了三個卷積池化層用于提取特征,將提取到的所有特征送入三個全連接層,由一個特征空間線性變換到另一個特征空間,最后通過softmax 分類器,輸出分類結果。本論文中所提模型設計的卷積池化層和全連接層如下表 2 所示,全連接層之間加入dropout 層實現(xiàn)模型的正則化。

3 實驗驗證與分析

為驗證所提算法的有效性,在真實社交網(wǎng)絡數(shù)據(jù)集上進行了實驗。實驗數(shù)據(jù)集來源于zhang等人的論文[5], 是Foursquare 和 Twitter 兩個社交網(wǎng)絡。

3.1實驗設置

我們采用以下基于用戶名嵌入表示的基準算法進行了對比實驗。

CharCNN Alignment-96。字母表采用96 個字符,全連接網(wǎng)絡作為預測輸出層。

CharCNN Alignment-70。字母表采用70 個字符,全連接網(wǎng)絡作為預測輸出層。

Word2Vec + Full Connected Layers。用戶名通過 word2vec 嵌入表示,CharCNN 模型中全連接部分作為預測層。

Word2Vec + 隨機森林。用戶名通過 word2vec 嵌入表示,隨機森林作為預測模型。

Word2Vec + SVM。用戶名通過 word2vec 嵌入表示,支持向量機作為預測模型。

Word2Vec + GBDT。 用戶名通過 word2vec 嵌入表示,梯度提升樹作為預測模型。

3.2實驗結果與分析

數(shù)據(jù)集劃分為 80% 作為訓練集,20% 作為測試集,與基于 word2vec 的用戶名嵌入基準匹配方法做對比實驗,得圖3中的實驗結果,橫軸表示預測結果的評價指標,縱軸表示三種預測指標值的大小,不同的顏色分別代表了不同的用戶名嵌入匹配方法。

對比不同方法的實驗結果發(fā)現(xiàn),基于卷積神經(jīng)網(wǎng)絡字符級用戶名嵌入模型當采用 96 個字符作為字母表時,其 Precision,Recall 和 F1 值分別提升了 2.2%,3.09%,2.62%。因此實驗結果表明在用戶名嵌入研究問題下,由于用戶名字符組成結構的特異性,大寫字母對于字符組合語義特征的表達具有積極作用。除此以外,經(jīng)典的 Word2Vec 文本嵌入方法無法在基于用戶名嵌入的身份匹配這一問題上獲得比較好的結果。實驗證明了本文提出的基于卷積神經(jīng)網(wǎng)絡的字符級用戶名嵌入匹配算法的有效性。

4總結

現(xiàn)有基于用戶名的身份匹配算法從用戶名字符串中提取各類字符統(tǒng)計特征以捕獲用戶名選取背后的行為模式,但設計特征提取過程復雜,不同數(shù)據(jù)集間特征設計規(guī)則差異較大,缺乏通用性。本文針對用戶名數(shù)據(jù),提出了基于卷積神經(jīng)網(wǎng)絡的字符級用戶名嵌入匹配算法,這是一個端到端的深度模型框架,可以自動學習獲得用戶名字符組合模式的隱含特征。該模型避免了復雜的特征提取過程,同時較易對模型進行擴展,提高了模型對不同語言的泛化能力以及通用性。

參考文獻:

[1] ZAFARANI R, LIU H. Connecting users across social media sites: a behavioral modeling approach[C]//Proceedings of the 19th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, 2013: 41-49.

[2] ZAFARANI R, LIU H. Connecting Corresponding Identities across Communities.[C]//Proceedings of the 3rd International Conference on Weblogs and Social Media, 2009: 354-357.

[3] LI Y, PENG Y, JI W, et al. User identification based on display names across online social networks[J]. IEEE Access, 2017(5): 17342-17353.

[4] ZHANG X, ZHAO J, LECUN Y. Character-level convolutional networks for text classification[J]. Advances in neural information processing systems, 2015(28): 649657.

[5] ZHANG J, YU P S. Integrated anchor and social link predictions across social networks[C]//Proceedings of the 24th International Conference on Artificial Intelligence, 2015: 2125-2131.

【通聯(lián)編輯:光文玲】

主站蜘蛛池模板: 日韩在线播放欧美字幕| h视频在线观看网站| 99国产精品一区二区| 成人免费一区二区三区| 国产在线观看一区精品| a天堂视频| 国产一区二区三区免费| 亚洲天堂.com| 久久青草视频| 国产成人夜色91| 国产精品19p| 四虎永久在线精品影院| 国产一级视频久久| 国产成人91精品| 久久久久亚洲AV成人人电影软件| 亚洲精品在线91| 国产成人亚洲精品蜜芽影院 | 国产精品妖精视频| 男女男精品视频| 国产精品毛片在线直播完整版| 最新国产精品第1页| 中文字幕在线看视频一区二区三区| 日韩欧美中文字幕在线韩免费| 亚洲欧洲AV一区二区三区| 欧美黄网站免费观看| 欧美精品不卡| 国产精品吹潮在线观看中文| 日本草草视频在线观看| 丝袜美女被出水视频一区| 亚洲精品福利视频| 国产精品成人AⅤ在线一二三四| 欧美日韩福利| 激情无码字幕综合| 91精品伊人久久大香线蕉| 制服丝袜 91视频| 一级香蕉视频在线观看| 黑色丝袜高跟国产在线91| 日韩免费毛片视频| 欧美激情首页| 国产第一福利影院| 4虎影视国产在线观看精品| 国产美女无遮挡免费视频| 成年A级毛片| 国产浮力第一页永久地址| 一级毛片免费不卡在线| 99在线小视频| 久久综合色视频| 欧美色99| 99视频在线观看免费| 熟妇无码人妻| 国产毛片片精品天天看视频| 成人午夜精品一级毛片| 国产jizzjizz视频| 久久99精品久久久大学生| 无码中文AⅤ在线观看| 尤物视频一区| 成人午夜视频免费看欧美| 婷婷亚洲天堂| 青草国产在线视频| 国产午夜人做人免费视频中文| 黄色网站在线观看无码| 欧美国产日韩在线观看| 亚洲婷婷六月| 大香网伊人久久综合网2020| 亚洲国产综合精品一区| 福利在线免费视频| 亚洲一区黄色| 国产96在线 | 2020亚洲精品无码| 美女内射视频WWW网站午夜 | 亚洲成人在线免费| 久久久波多野结衣av一区二区| 2021国产精品自产拍在线观看| 国产精品自拍露脸视频| 97久久免费视频| AV在线麻免费观看网站 | 亚洲天堂网在线观看视频| 无码'专区第一页| 国产视频欧美| a毛片免费观看| 久久久久九九精品影院| 亚洲天堂网视频|