999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

跨平臺的用戶匹配研究綜述

2020-04-22 23:38:42倪亞晨張凱強
現代計算機 2020年8期
關鍵詞:跨平臺特征用戶

倪亞晨,張凱強

(四川大學計算機學院,成都610065)

0 引言

進入二十一世紀,信息產業高速發展,而互聯網作為信息產業的基礎設施,在近二十年取得了輝煌的成果?!?019 年互聯網趨勢報告》中顯示,互聯網的滲透率已經自2009 年的24%增長到2018 年的51%之多,這表明全球已經有超過一半的人在使用互聯網,其中亞太地區的互聯網用戶占所有互聯網用戶的53%,歐洲為15%,北美則僅為9%。報告中還指出,全球互聯網企業市值前30 名中,美國牢牢占據著18 個席位,中國緊隨其后,占據7 個席位。2018 年全球互聯網用戶增長略有放緩,低于2017 年1%,但仍然達到了6%的增長率,說明互聯網的高速發展態勢并沒有改變。

隨著互聯網的快速發展,各種互聯網公司不斷興起。美國出現了蘋果、亞馬遜、微軟、Alphabet、臉書、推特等,中國有阿里巴巴、京東、騰訊、網易、字節跳動和新浪等公司,不同的公司提供不同的平臺,以滿足用戶不同的需求。一個人在某個互聯網平臺注冊為新用戶后,通過注冊行為和在該平臺上的活動,會產生大量的數據。用戶數量和用戶活動數據的積累,使得大數據時代到來,各平臺可以采集使用這些數據,從中挖掘出有價值的信息,開發推薦系統等。

在現實中,一個人可能在不同的平臺都有注冊,從而成為多個平臺的用戶。例如,李華可能既是百度貼吧的用戶又是新浪微博的用戶,李鵬飛在多異構社交網絡用戶關聯研究中,將百度貼吧和新浪微博的用戶進行關聯,為國內用戶關聯研究提供了重要參考[1]。一個用戶往往會產生很多信息,這些信息是廣泛而多樣的,例如結構化表、半結構化網頁、非結構化文本和多媒體文件(圖像、音頻和視頻)。問題是這些數據常常是零散的、不一致的、混亂的,而且單獨一個互聯網平臺搜集到的用戶數據可能是片面的、有缺失的或者虛假的,因此將不同平臺上的同一個用戶的賬號關聯起來,能夠很好地解決上述用戶數據問題。Monika S 等人[2]提到用戶的行為在不同平臺會表現出令人驚訝的一致性,用戶的核心結構具有極大的相似性,并且可以高度區分用戶,這表明跨平臺的用戶匹配是可能的。

跨平臺用戶匹配研究有諸多好處,對于提高網絡平臺服務水平和維護互聯網安全都具有長遠意義。如果通過多個平臺,對一個人建立了全面真實的畫像,平臺就可以依據這些用戶信息,對不同的用戶提供差異化的服務,精確推薦符合用戶喜好的內容[5-6]。另外,進行跨平臺的用戶匹配還可以解決冷啟動問題和許多預測任務中的數據稀疏性問題[3-4],在多個社交媒體平臺上擁有賬戶的用戶,還可以幫研究者分析用戶遷移模式,并指導Web 開發[6],進一步了解不同類型人的活動之間的相互作用[10],在安全方面,可以提升用戶隱私保護意識,幫助改進各平臺的用戶信息展示策略[7]。

綜上所述,互聯網高速發展,用戶量快速提升,各種互聯網平臺也是百花齊放。在這個背景下,跨平臺的用戶匹配研究漸漸成為一個熱門方向,也可以解決很多單平臺下難以處理的問題。因此,近些年逐漸有不少研究者開展該方面的研究,并取得了很多顯著成果,在下面的章節中,這些研究文獻將被綜述整理,并簡述未來的研究方向。

1 問題定義

跨平臺的用戶匹配研究,即是將一個人在不同平臺的賬號進行關聯的研究,例如,若現實世界中一個名叫Bobi 的人,在A 平臺注冊為Bobi,在B 平臺注冊為Boby,用戶匹配的任務就是要識別A 平臺的Bobi 和B平臺的Boby 是同一個人。

平臺:平臺在這里指個人、機構或公司搭建的提供一種或幾種服務的網絡平臺,不同的平臺肯定擁有不同的一級域名。一般情況下,不同的平臺代表不同的網站,例如“淘寶”和“新浪微博”屬于不同的平臺。不同的平臺在沒有合作的情況下,不會相互交換各自用戶的信息,在有合作時,可能會交換部分信息。

用戶:當一個人在一個網絡平臺注冊成為用戶之后,他在該平臺上的所有信息或部分信息會被這個平臺保存下來,用戶信息可以分為三類,如圖1 所示。

圖1 用戶信息組成

Profile:在用戶信息中可稱之為簡檔,表示用戶的基本信息,包括用戶名、網名、電話號碼、郵箱地址、用戶頭像、所在地址、性別、個人簡介、年齡、受教育程度和國籍等信息,在進行用戶匹配時起到非常重要的作用。

Content:內容特征表示用戶在某個平臺上活動產生的內容,例如用戶發表的博客、帖子、評論、回復以及用戶在個人主頁上展示的文本、視頻和圖片等信息。這部分信息非常豐富,但又非常復雜,且能反映用戶的興趣、風格、技能水平和思維方式等內在特質。

Network:在該研究領域,網絡指用戶的社交網絡,表示用戶與同一個平臺上的其他用戶的交互網絡。

對于跨平臺的用戶匹配問題,下面給出其數學定義。

定義1[8]:給出兩個在線社交網絡Gs(源站)Gt(目標站),用戶匹配任務是要預測來自于Gs和Gt的一對用戶us和ut是否是同一個自然人,即:

上述表達式雖然看起來簡單,但其實現卻相當復雜,難度在于選取什么特征、如何處理特征、如何計算特征之間的相似性以及如何確定兩個不同平臺的用戶就是同一個人。

2 研究現狀

由上文可知,在網絡平臺上,用戶的個人信息可分為用戶簡檔、活動內容和社交網絡信息[8]。用戶簡檔中的常見屬性包括用戶的網名、性別、年齡大小、國籍、所在公司、受教育程度、電子郵件帳戶地址等很多類型,可以在此類信息集上建立簡單的匹配策略。然而,這些屬性對于用戶匹配的重要性并不一致,因為在識別匹配用戶時,諸如用戶性別之類的屬性和“John”之類的名字,與電子郵件地址這種屬性是有區別的[2]。一般情況下,一個人可以有多個郵箱,但一個郵箱基本只對應一個人,所以使用郵箱進行用戶匹配在跨平臺的用戶匹配之初被多人采用。Vasilescu B 等人[9]使用GitHub 和Stack Overflow 兩個平臺用戶的個人郵箱進行用戶匹配,GitHub 用戶可以選擇是否填寫郵箱,并公布在個人主頁上。Stack Overflow 數據集中的用戶郵箱并不直接公布,但保留有用戶郵箱的MD5 值,因此作者將GitHub 用戶郵箱使用MD5 加密后,與Stack Overflow 用戶郵箱的MD5 值進行比較,若兩個用戶的郵箱MD5 值相等,則認為是同一用戶。使用這種方法,最終識別出來了23.6%的GitHub 用戶。Anshu Malhotra 等人[11]計算用戶簡檔特征之間的距離,并且使用樸素貝葉斯分類器進行深入比較,以此分析特征辨別能力,最后得出用戶名和網名在區分用戶時是最具辨別力的特征。

用戶頭像同樣是簡檔里面一個特別重要的屬性,例如,有些用戶會將個人自拍照片作為自己的頭像,或者即使某個人在兩個平臺上的頭像不是同一張圖片,但兩張圖片可能風格一樣或者屬于同一類型,仍具有極大的相似性。Jain P 等人[12]使用標準的RGB 直方圖圖像匹配算法,計算兩個用戶頭像圖片之間的相似性得分。計算方法見公式(2):

公式(2)中,hIA和hIBj表示A 平臺中的一個用戶圖片和候選來比較的B 平臺的一個用戶圖片的RGB柱狀圖,Ns是hIA的大小。如果兩張圖片是同一張圖片,IMs的值就是0,否則會可能是其他任意一個正數。但是,兩個圖片越接近,計算的到的數據就會越小??梢砸来藖淼玫絻蓚€用戶頭像的近似程度,若它們極其相似,那么這兩個用戶屬于同一個人的可能性就很大。

使用內容特征進行用戶匹配主要是考慮內容的文本信息,利用有監督、無監督或者自定義規則的方法進行用戶的相似性計算。Nie Y 等人[13]將用戶的興趣分為核心興趣和邊緣興趣,并定義用戶的興趣是核心興趣和邊緣興趣相加。Nie Y 認為用戶的核心興趣是在動態變化的,通過分析核心興趣的變化,可以提高結果的準確性。在處理用戶相關文本時,作者使用LDA(latent Dirichlet Allocation)算法進行主題建模,得到用戶的興趣模型。得到不同用戶相關文本的主題分布之后,有多種技術都可以計算兩個分布的近似程度,例如KL 散度(Kullback Leibler)或者JS 散度(Jensen-Shannon),作者則采用KL 散度。不同于Nie Y 等人的研究方法,Lee K W 等人[14]定義了一個共同參與相似性分數,用來衡量共同參與GH 和SO 兩個平臺的開發者之間的興趣相似性。研究發現,同一開發人員在GitHub 和Stack Overflow 上有著共同的興趣。平均而言,一個開發人員參與的GitHub 代碼庫和Stack Overflow 問答中有39%符合共同興趣。李鵬飛等人[15]首先基于Text Rank獲得用戶興趣話題詞,使用Word2Vec 表示之后,計算兩個用戶對應位置興趣話題詞相似度,再加和計算用戶相似度。之后計算兩個用戶對應位置興趣話題詞的加權相似度,再計算兩個用戶所有興趣話題詞的相似度,最后計算兩個用戶所有興趣話題詞的加權相似度。除此之外,李鵬飛使用用戶與其得到的相似用戶的關注、粉絲重合率來驗證算法的優劣。內容特征不僅可以反映用戶興趣,還可以反映用戶的文本風格,文獻[16]利用基于風格的內容特征,然后應用邏輯回歸分類器來預測匹配的用戶身份對。Sha Y 等人[17]基于用戶的信息,建立了用戶內容風格模型來識別用戶,最終實現F1 分數達到了74.0 之高。

用戶通常在不同的社交網絡(例如Twitter 和Facebook)中具有相似的社交網絡連接,因為此類社交連接可以隱式地反映用戶在現實生活中的社交關系和社交習慣。所以可以利用來自不同社交網絡的兩個用戶帳戶之間的社交相似性來幫助定位同一用戶[2]。Silvestri G 等人[10]將社交網絡信息作為連接Twitter、GitHub 和Stack Overflow 三個平臺用戶的考慮因素,包括Twitter和GitHub 用戶的關注和被關注者,以及Stack Overflow用戶的提供回答的人和提供問題的人幾種社交關系。Narayanan A 等人[18]提出了一種基于共同鄰居數量的圖理論模型,來開展用戶匹配研究。另外,Korula N 等人[19]設計了一種基于鄰域特征的并行映射算法。這都是基于用戶網絡特征的用戶匹配方法。

隨著該領域研究的進行,研究者并不是局限于使用用戶的單個屬性(例如郵箱)進行用戶匹配,更多的是融合用戶的簡檔特征、活動內容和社交網絡信息,選用不同的特征表示和預測模型進行用戶匹配。在文獻[10]中,作者其實考慮的遠比社交網絡特征更加全面,總的來說是采用以下三種策略尋找匹配用戶的:①顯式匹配,其目的是識別一個平臺中的用戶顯式提供的指向他在其他平臺上的帳戶的鏈接,以進行用戶匹配。例如,有些Stack Overflow 用戶會在自己的主頁上填寫他的GitHub 主頁地址。②基于屬性的匹配,它利用用戶帳戶(例如電子郵件)的某個屬性來連接跨多個平臺的同一個人。③模糊匹配,它利用不太準確的用戶屬性(例如登錄名和用戶頭像)來匹配用戶。文獻[1]進行微博和貼吧的用戶關聯時,綜合考慮了用戶背景屬性、用戶名屬性、基于用戶興趣的內容屬性和用戶網絡的結構屬性。Xiong Y 等人[18]使用用戶名、用戶行為和書寫風格進行GitHub 和Stack Overflow 的用戶匹配研究,用戶匹配模型的訓練則采用CART 決策樹。用戶名相似度計算采用的是Levenshtein 距離、Jaro-Winkler 距離、最長公共子串和最長公共子序列四種方式,最后選擇兩種表現最好的計算方法。對于GitHub 中的每個存儲庫或StackOverflow 中的每個問答,都有一個描述編程語言或相關技術的標簽。因此,Xiong Y 等人使用這些標簽獲取用戶行為中的主題,并使用其行為的主題分布相似性,來度量兩個用戶行為的相似性。

3 結語

跨平臺的用戶匹配是一個具有巨大潛在價值和意義的研究方向,研究者最初從郵箱匹配入手,后來逐步嘗試其他特征,例如用戶名和用戶頭像,隨著研究進展的深入,越來越多的研究者發現用戶活動產生的文本數據和用戶的社交網絡特征,在區分用戶時也能起到顯著的作用。所以近些年的研究中,更多的人開始采用內容特征和社交網絡數據,并取得了不錯的效果。但是,當前文獻在比較兩個用戶的頭像相似度時,僅僅采用數值計算的方式,不能夠提取和比較兩個用戶頭像的深層特征,例如風格,或者當兩個圖片是一個人不同場景下的自拍時,也難以將其判斷為同一個人,故計算兩個頭像圖片相似度時,還需要嘗試新的泛化能力更強的算法。另外,近些年的文獻雖然已經意識到考慮用戶的簡檔、內容和網絡特征,但多是分別使用各個特征,得到一些候選用戶,再篩選可能匹配的用戶,沒有做到同時考慮這些特征,因此在未來的研究中,可以嘗試同時考慮所有特征對其他用戶進行打分的方式,得到匹配用戶。

猜你喜歡
跨平臺特征用戶
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
跨平臺APEX接口組件的設計與實現
測控技術(2018年9期)2018-11-25 07:44:58
抓住特征巧觀察
關注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
關注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
關注用戶
商用汽車(2016年4期)2016-05-09 01:23:12
基于QT的跨平臺輸電鐵塔監控終端軟件設計與實現
基于OPC跨平臺通信的電機監測與診斷系統
基于B/S的跨平臺用戶界面可配置算法研究
主站蜘蛛池模板: 中文字幕一区二区视频| 久久精品丝袜高跟鞋| 原味小视频在线www国产| 欧日韩在线不卡视频| 欧美日韩精品一区二区视频| 国产乱人乱偷精品视频a人人澡| 国产丝袜第一页| 华人在线亚洲欧美精品| 54pao国产成人免费视频| 国产免费看久久久| 日韩无码黄色网站| 亚洲国产一区在线观看| 无码国产伊人| hezyo加勒比一区二区三区| 狠狠操夜夜爽| 亚洲欧洲日产国产无码AV| 99在线国产| 国产成人精品一区二区| 好紧好深好大乳无码中文字幕| Jizz国产色系免费| 亚洲国产高清精品线久久| 亚洲欧美日韩精品专区| 美女内射视频WWW网站午夜| 久久久精品久久久久三级| 国产美女自慰在线观看| 欧美日韩北条麻妃一区二区| 亚洲一区二区黄色| 激情国产精品一区| 狠狠躁天天躁夜夜躁婷婷| 国产精品无码制服丝袜| 欧美人与性动交a欧美精品| 亚洲天堂网在线视频| 孕妇高潮太爽了在线观看免费| 91人妻在线视频| 欧美亚洲一二三区| 欧洲一区二区三区无码| 欧美日韩一区二区在线播放| 色偷偷综合网| 亚洲人成网站18禁动漫无码| 午夜电影在线观看国产1区| 91麻豆国产在线| 国产a v无码专区亚洲av| 天天做天天爱天天爽综合区| 国产精品久久久久久久久| 欧美视频在线第一页| 久久久久亚洲精品无码网站| a级毛片免费播放| 国产极品美女在线播放| 九九热视频精品在线| 色135综合网| 99热这里只有精品免费国产| 中文字幕日韩欧美| 日韩国产黄色网站| 国产在线一二三区| 欧美国产日韩一区二区三区精品影视| 欧美97欧美综合色伦图| 国产av一码二码三码无码 | 国产视频a| 国产免费观看av大片的网站| 亚洲一区二区成人| 精品国产Av电影无码久久久| 亚洲人成色在线观看| 日本成人在线不卡视频| 国产在线麻豆波多野结衣| 欧美亚洲一二三区| 中文字幕有乳无码| 高清欧美性猛交XXXX黑人猛交 | 欧美一级一级做性视频| 欧美成人看片一区二区三区 | 国产精品爆乳99久久| 国产人成在线视频| 亚洲天堂免费观看| 日韩美女福利视频| 国产人成在线视频| 欧美亚洲香蕉| A级毛片无码久久精品免费| 成人在线欧美| 91久久偷偷做嫩草影院免费看 | 亚洲浓毛av| 精品国产一二三区| 茄子视频毛片免费观看| 成年人福利视频|