999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于社會多媒體內容的用戶建模應用研究

2020-03-30 09:29:38徐常勝黃曉雯錢勝勝方全
南京信息工程大學學報 2020年1期
關鍵詞:模態多媒體用戶

徐常勝 黃曉雯 錢勝勝 方全

1 中國科學院自動化研究所 模式識別國家重點實驗室,北京100190 2 中國科學院大學,北京,100190

0 引言

互聯網的發展促使社會媒體的出現和興盛,社交網絡、在線購物網站、視頻分享網站等越來越受到人們的歡迎.如圖1所示,以微博、淘寶、愛奇藝等在線網絡平臺為代表的社會媒體的出現,使用戶可以從這些豐富的網絡應用中尋找各自感興趣的內容或需要的物品.人類已經進入社會多媒體大數據時代,社會媒體作為一種新型的允許人們創造和分享媒體信息的工具和平臺,近年來得到飛速的發展,吸引著全球數以億計的用戶參與其中.以用戶為中心的網絡數據紛繁復雜、包羅萬象,除了數據量巨大的特點,數據類型也相當豐富,包括文本、圖像、視頻、關系、行為等,如何從如此復雜多樣的信息中挖掘出有價值的信息是個嚴峻的挑戰.因此,對社會多媒體內容進行有效的知識提取和表示、分析和研究是十分必要的.多媒體內容的知識提取和表示以社會媒體網絡上的多模態內容為研究對象,主要目的是通過社會媒體平臺上豐富的多模態大數據,提取有價值的信息,構建有效的知識表示,實現對社交媒體用戶的理解;另一方面,我們進行有效的用戶建模研究,從而為用戶提供更優質的個性化服務,例如用戶人口屬性推斷、用戶關系標注、個性化推薦等,同時也為社會媒體網絡系統的在線廣告、異常行為監測等方面提供幫助.

社會媒體使得用戶可以隨時隨地獲取和分享信息,用戶產生的文本、圖像、音頻、視頻等各種網絡內容數據呈爆炸式增長,產生了海量的社會多媒體內容數據.據 IDC2013年初的研究報告指出,預計2020年全球數據總量將達到 40 ZB,也就是40萬億GB,平均每人 5 200 GB,年均增長率超過 40%.大數據的潛在價值已經逐步被人們認可并重視.

在我們為大數據的潛在價值欣喜的同時,社會媒體大數據的復雜特性也為知識提取和表示帶來了巨大的挑戰.社會媒體大數據的復雜特性主要體現在以下幾個方面:

1)大規模性.社會媒體的高速發展帶來了數據的爆發式增長,并且漲勢迅猛、體量非常龐大.以時下最熱門的短視頻平臺之一快手為例,快手發布的2018年度數據報告顯示,2018年,1.9億用戶在快手發布作品,點贊數逾1 400億,使用總時長突破500萬年,庫存短視頻數量百億級,每日新增視頻千萬級.

2)多模態性.社會媒體涵蓋了各種各樣的網站平臺,包括新聞網站、論壇貼吧、微博微信公眾號、圖片視頻分享網站、點評網站、百科地圖、知識社區、短視頻/直播網站等.同一實體的知識內容數據會以文本、音頻、圖片、視頻以及新媒體文件如 3D 等描述呈現.

3)多源性、異構性.互聯網上的多媒體數據可能由官方或者個人發布上傳,并存在于新聞、博客、播客、論壇、視頻分享等不同的網站上.從類型看,除了基本的圖像、視頻和語音,出現了很多新媒體形式,如圖片微博、語音圖片、帶地理位置的視頻等.同時,用戶通常活躍于各種不同類型的社會媒體平臺上,由于各類社會媒體平臺的功能不同,用戶在各類平臺上產生的行為具有異構性.

4)價值密度低.從產生機制看,開放式網絡環境的用戶貢獻機制下,產生了大量重復、低質量的數據.從需求特點看,在每日上傳的 10 萬h的YouTube 視頻和 180 萬張 Flickr 照片中,滿足特定查詢需求或個性化偏好的只有很小一部分.

另一方面,社會媒體網絡以用戶為中心,絕大多數的社會多媒體數據都是用戶生成內容(User Grenerated Content,UGC).用戶是社交媒體網絡發展的核心競爭力,如何通過海量的UGC社會媒體大數據內容挖掘有效的信息,從而服務于用戶,給用戶更好的社交體驗至關重要.因此,用戶建模成為了社會媒體持續有力發展的關鍵技術.但面向社會媒體的用戶建模包含幾個關鍵問題:

1)社交媒體平臺的用戶行為信息是異構、冗余的.用戶的行為對象不盡相同,如文本、圖像、視頻、音頻等.即使對于同一行為對象,用戶行為模式也多種多樣,如上傳、收藏、分享、評論等.此外,在不同平臺的這些用戶信息之間可能是冗余甚至是彼此對立的.如何去除冗余信息,有效融合異構信息是社會媒體平臺用戶建模的重要內容.

2)用戶在網絡上的行為有著豐富的上下文信息,如時間、地點、天氣、事件等.在不同的上下文信息下,用戶有著不同的行為模式.因此,通過用戶在社會媒體網絡上的行為信息,有效提取行為內容的知識表示,學習用戶在不同上下文情境下的用戶表示,有助于更深刻理解用戶行為,實現更精準的用戶個性化服務.

3)用戶行為具有動態特性,用戶在社會媒體網絡上的行為隨著時間的推移會發生變化.但這種行為變化并不是隨機產生的,而是具有很強的時序依賴性,即用戶在時間節點前的行為信息對時間節點上的行為會產生較大的影響.用戶行為的動態特性給用戶建模帶來了極大的挑戰,克服這種挑戰有利于我們有效捕捉用戶的短期興趣,使得用戶建模更加全面精準,有利于提升個性化服務品質.

綜上所述,由于社會多媒體內容的大規模、多模態、多源異構等特性,以及用戶行為的異構、上下文依賴、動態變化等特性,基于社會多媒體內容知識表示的用戶建模研究極具挑戰性.如何對用戶生成的多模態內容進行有效的整合,獲得優質的知識表示,并設計有效的用戶建模模型來深入理解用戶,促進用戶和社會媒體平臺協同發展成為社會多媒體領域一個關鍵的研究問題.本文對近年來在社會多媒體內容分析、知識提取和表示以及用戶建模應用的相關研究展開綜述,并針對社會多媒體特征融合、跨模態知識提取與表示以及基于社會媒體的用戶建模相關應用研究三方面進行詳細總結.

1 研究現狀

本章圍繞社會多媒體特征融合、跨模態知識提取與表示,以及基于社會媒體的用戶建模相關應用研究三方面進行回顧與總結.

1.1 社會多媒體特征融合

近年來,隨著網絡技術的發展,社會多媒體資訊載體逐步從傳統的純文本內容,轉變為富媒體(包含更加豐富的多媒體素材)內容信息.同時,隨著大數據技術的發展推廣,目前互聯網上已經積累了海量的文本、圖像、視頻、音頻等多模態耦合的媒體內容,在此環境下,傳統的基于單模態(如文本信息等)的特征表示技術已經難以滿足現有需求,因此,近年來,學術界提出了基于多模態協同挖掘的內容理解技術,以解決這一痛點問題.在社會多媒體內容理解技術中,主要包括了單模態特征表示和多模態特征融合兩個部分.

1.1.1 單模態特征表示

社會多媒體內容理解任務中,依賴了自然語言處理、計算機視覺、語音識別等單模態的學習技術,以形成單一模態的特征向量表示,進而支撐跨模態的協同計算.典型地,文本信息可通過詞袋模型表示成詞頻、TF-IDF特征向量,或使用主題模型,將文檔與主題關系建模為矩陣形式,學習潛在的特征表示信息,如LSI、pLSI、LDA等.近幾年,詞向量表示成低維稠密的實值向量的方法[1],因高效實用而得到大量關注.圖像可以提取不同的底層特征表示,如全局性特征:顏色直方圖、顏色矩、紋理信息特征、形狀信息特征和場景信息特征GIST[2]等;局部性特征:SIFT[3].音頻常用MFCC[4]等基于內容的特征描述.對于視頻,則在視覺特征外,還需考慮時空信息特征.

以往的特征學習過程中,嚴重地依賴了人工特征的選擇,并且在不同的場景下,均需要定制化地設計出一套與之對應的特征規則,非常不利于數據特征的泛化使用.同時,在現今大數據技術廣泛應用的基礎上,算法場景逐漸面臨著大規模、多模態、異構、非結構化等特點,這使得傳統方法的應用顯得越來越困難.深度學習技術的出現,有效地解決了這一痛點問題.

深度學習的主要思想是:通過神經網絡模擬人腦的多層抽象機制,來實現對數據的抽象表達,進而構建出一種“端到端”的學習模型.該技術的目的是通過神經網絡技術,在大規模訓練集上,通過梯度下降等優化算法,自動地學習出各類數據的特征表示,通過不斷優化模型參數,使模型具備一種高性能的非線性映射能力,從而挖掘出數據中所蘊含的復雜模式,以支撐下游任務.

從2006年Hinton[5]首先提出“深度學習”概念開始,深度學習當前已經在學術界和工業界引起了廣泛的關注.例如Google公司發布的BERT模型,在機器閱讀理解水平測試數據集SQuAD上,測試結果全面超越人類,同時在11種不同的NLP測試中均取得當前最佳的性能表現.同時近期的GPT-2、ERNIE等,更是不斷取得更好的表示性能.微軟雷德蒙研究院的俞棟博士及其合作者提出使用深層神經網絡對數以千計的神經元直接建模,形成一個成功用于大詞匯量的語音識別系統的上下文相關的深層神經網絡-隱馬爾可夫混合模型[6].2012年,Krizhevsky等運用深度神經網絡在ImageNet數據上取得85%的分類準確率,相比2011年的74%提高了11個百分點[7].2016年微軟亞洲研究院的何愷明等[8]提出的深度殘差網絡在ImageNet上取得3.57%的錯誤率,超過了人類的識別水平.由上可見深度學習在圖像、語音以及自然語言的數據特征學習及應用任務上都獲得了顯著的性能提升,取得極大成功.

1.1.2 多模態特征融合

在多媒體信息理解中,僅通過單一模態特征的簡單疊加,往往難以取得很好的算法效果.一方面,多模態的特點給相關的研究帶來很大的挑戰.不同模態的數據服從不同的統計特性[9].比如,文本常常被表示為單詞的數目統計(word count),而圖像則是被表示成像素或者一些計算機視覺學者們設計的特征,很難通過一種方法找到它們潛在的相關性.而另一方面,相對于單模態數據的語義理解研究,多模態數據之間的互補性,也為多媒體的內容理解提供了另一種途徑.多模態的信息之間可以相互提供補充,使得某些單模態情形下難以理解的數據,在多模態下出現了新的希望.例如用戶在Flick上傳圖片的同時,往往會添加自己的文本標簽標注,這種圖像與文本標簽是強語義關聯的,而對于新聞文檔或者微信公眾號上的文章,這些圖像視頻與周圍環繞文本具有較強的語義關聯,但與其他位置的文本有時是不相關的.

針對以上特點,研究者們提出了跨模態學習模型,在有效考慮強弱語義關聯的同時,將多模態的數據信息統一表示于單一向量空間之中.Frome等提出了相似性模型,目標是如何最小化協同空間中的模態間距離.舉例來說,在相似性模型中,單詞“dog”和狗的圖片,要比車的圖片距離更近[10].Weston等[11-12]提出了WSABIE(Web Scale Annotation By Image Embedding)模型,它為圖像及其標注構建了一個聯合空間,此模型構建了一個簡單的從圖像到文本特征的線性映射,從而使得圖像表示和相關的標注區域更加相近.Kiros等[13]通過使用LSTM模型和成對排序(pairwise ranking)損失協同特征空間,并將此擴展到句子和圖像的協同表示.Socher等[14]將語言模型擴展到依存樹RNN上,以實現語義單元的整合.Xu等[15]使用主題、動詞、賓語組合語言模型,同時引入深層視頻信息,構建視頻和句子之間的協同學習空間,進而將該表示用于跨模態檢索和視頻描述任務.Verdrov等[16]和Zhang等[17]提出了一種結構化協同表示模型,實現圖像和語言的序列嵌入,在該模型中實施了一種非對稱的差異性度量.

1.2 跨模態知識提取與表示

1.2.1 多模態知識提取

網絡多媒體內容可以為大數據理解提供關鍵的數據支持,但如何理解網絡多媒體內容數據從中提取知識元素,構成知識圖譜結構,變成高度結構化的知識信息,仍面臨著巨大的挑戰.從提取內容上劃分,可包括知識實體概念的提取、語義類提取、屬性和屬性值提取和關系提取等.在知識抽取技術的發展過程中,逐漸從基于規則的匹配方法,朝著基于深度學習的抽取方法轉變,并逐漸落地應用.

文獻[18]對近幾年的自動和半自動的知識抽取方法做了較為詳細的介紹,但方法主要集中在基于規則的模板匹配技術上,處理的數據對象多面向半結構化的百科類或垂直站點網站,難以滿足非結構化數據的知識提取工作.社會媒體內容數據更多的是非結構類型數據,對其的知識提取是一項挑戰性的任務.

1)實體抽取部分.文獻[19]將實體抽取的方法分為三種:基于規則與詞典的方法、基于統計機器學習的方法以及面向開放域的抽取方法.基于規則的方法通常需要為目標實體編寫模板,然后在原始語料中進行匹配[20];基于統計機器學習的方法主要是通過機器學習的方法對原始語料進行訓練[21],然后再利用訓練好的模型去識別實體.

2)屬性抽取.Google提出Knowledge Vault[22],以一種概率性的知識融合方法來處理網絡文本、HTML表格、標注等數據來抽取知識三元組以構建知識圖譜.Carlson等[23]提出了一個可以利用互聯網Web文本信息,自動構建知識庫的系統.文獻[24]提出基于規則與啟發式算法的屬性抽取方法,能夠從Wikipedia及WordNet的半結構化網頁中自動抽取相應的屬性名稱與屬性值.

3)關系抽取.實體之間關系抽取解決實體間語義鏈接的問題,早期的關系抽取主要是通過人工構造語義規則以及模板的方法識別實體關系.隨后,實體間的關系模型逐漸替代了人工預定義的語法與規則,但是仍需要提前定義實體間的關系類型.因此部分研究者提出了基于馬爾可夫邏輯網、基于本體推理的深層隱含關系抽取方法.文獻[25]提出了一種無監督學習模型StatSnowball,不同于傳統的OIE,該方法可自動產生或選擇模板生成抽取器.相比大量的研究工作主要處理文本類型的數據,而對多模態的網絡內容數據的語義理解工作仍比較有限.Yang等[26]設計了領域自適應算法,即在目標領域視頻數量有限的情況下,如何從已有領域的模型獲得目標領域的模型.Fang等[27]提出一種概率圖模型來自動挖掘實體的多模態主題特征以及相應的用戶觀點.NEIL[28]是一個不停學習的系統,自動從搜索引擎提取語義概念、關系以及圖像實例來構建圖像視覺知識庫.中國科學院自動化研究所[29]提出一種系統性的框架,利用社區用戶產生標簽圖片數據來自動完成視覺知識圖譜的構建,從圖片分享網站Flickr收集了2.4億張標簽圖像,構建框架包括三步:概念發現、概念關系提取、概念層級結構建立,構建的多模態知識庫能很好地應用在圖像識別以及檢索上,并有顯著的性能提升.

1.2.2 跨模態知識表示

傳統的知識表示方法主要是以RDF三元組SPO來符號性描述實體之間的關系.這種表示方法通用簡單,受到廣泛認可,但是其在計算效率、數據稀疏性等方面面臨諸多問題.近年來,以深度學習為代表的表示學習技術取得了重要的進展,可以將實體的語義信息表示為稠密低維實值向量,進而在低維空間中高效計算實體、關系及其之間的復雜語義關聯,對知識庫的構建、推理、融合以及應用均具有重要的意義[30-33].知識表示學習的代表模型有翻譯距離模型、關系矩陣語義匹配模型、神經網絡語義匹配模型等幾大類別.

1)翻譯距離模型通過建模關系變換將一個實體變換到另一個實體的表示空間,通過距離函數得到評分函數.代表方法包括TransE[33]及其擴展方法 TransH[34]、TransR[35]、TransD[36]、TranSparse[37]、ManifoldE[38]、TransG[39]、KG2E[40]模型等.

2)關系矩陣語義匹配模型通過矩陣分解關系約束相關方法匹配實體表示和關系表示的隱語義,其中的典型代表是文獻[41]提出的RESCAL,及其擴展方法TATEC[42]、DistMult[43]、HolE[44]、ComplEx[45]、ANALOGY[46]等.

3)神經網絡語義匹配模型,使用神經網絡建模匹配實體表示和關系表示的隱語義,包括神經張量模型NTN[47]、神經關聯模型NAM[48]等.

近年來,隨著深度神經網絡的發展,研究者們提出一些基于深度神經網絡的方法,建模更加復雜的知識語義關系.Dettmers等[49]將實體和關系的語義匹配計算建模為一個二維卷積神經網絡,得到的特征圖通過全連接層變換為尾部實體表示的預測值.Schlichtkrull等[50]將圖卷積神經網絡擴展為可計算多關系卷積的方式,將知識圖譜中更加豐富的鄰域結構信息引入知識表示學習,在DistMult框架下計算實現.Guan等[51]提出了顯式建模頭實體預測任務和尾實體預測任務共享表示的神經網絡,使用映射性質的自適應損失函數.

使用深度神經網絡在多模態知識表示也做了一系列的研究和探索.Mousselly-Sergieh等[52]提出了翻譯距離模型架構結合語言和圖像的多模態表示方法,使用交叉表示的方式融合多模態特征.Pezeshkpour等[53]提出了一種神經網絡編碼模型,將實體文本和圖像的信息編碼到實體表示中,并建立了基于條件生成式對抗網絡的解碼模型,可以生成缺失的屬性值以及實體相關的文本和圖像.An 等[54]提出了引入關系mention和實體描述信息,通過注意力機制增強實體表示和關系表示的學習,緩解實體和關系的多意性.

1.3 基于社會媒體行為的用戶建模應用

基于社會媒體的用戶建模指的是通過從用戶在社會媒體行為中提取有效信息,以表示用戶差異化的屬性、偏好等.通過對用戶在社會媒體上的行為內容進行精細化處理,如多模態特征融合、知識提取與表示等,有利于構建完整準確的用戶畫像,進而更好地分析和理解用戶,為用戶提供個性化的服務.下文我們將闡述幾類基于用戶社會媒體行為的典型的應用.

1.3.1 用戶屬性推斷

如何更好地分析和理解用戶,為用戶提供個性化的信息服務,成為社交媒體的主要任務和挑戰.用戶人口統計屬性,包括年齡、性別、婚姻狀況和職業等,是理解和進行用戶畫像的基礎.用戶在社會媒體網絡中產生的海量多媒體內容數據與豐富的用戶行為信息,隱含地揭示了關于用戶個人信息的重要線索,為解決社交網絡中用戶人口統計屬性的缺失與稀疏問題提供了解決途徑.社會媒體海量的數據為學者們提供了豐富的原材料,目前對用戶屬性推斷的工作主要有對用戶性別[55-65]、年齡[56,59-66]、政治傾向[60-62,65,67-68]、地理位置[61,63,69-71]、種族[59,65,68]、宗教信仰[60,63]、職業[63,72]、學歷[59,65]等方向.社會媒體行為信息如用戶對話內容[55-56]、博客文章內容[55,58,66]、用戶的搜索查詢詞[59-60]、Twitter上的推文內容[61-62,67-68,70-71]、傳記[63,72]、頭像圖片[64]、社交關系[65]等都被應用于用戶人口統計屬性的研究中.

用戶人口統計屬性推斷主要有兩類方法:基于規則的和基于統計學習的.基于規則的方法主要思想是從文本中提取用戶的人口統計屬性信息.例如,Garera等[63]從傳記文本信息中提取出傳記事實,包括了生日、職業、國籍等屬性.Zhou等[73]將鑒別和提取傳記信息作為了一個摘要任務.Yu等[74]使用了一個串聯的信息提取框架從簡歷中提取出用戶的個人信息.Mann等[75]利用了上下文模式的學習方法提取出了具體事實,比如出生地等.Bergsma等[76]提出了使用概念類的屬性預測出社會媒體用戶的隱性傳記屬性.雖然基于規則或者模式匹配的方法能夠有效地提取出用戶人口統計屬性的信息,但所學到的模板卻受限于特定的人口統計屬性的提取,缺乏擴展性和普適性.基于統計學習的屬性推斷方法被應用于解決這類問題.許多研究工作從社會媒體數據中提取出用戶的特征并學習相應的模型來預測用戶的人口統計屬性.用戶的人口統計屬性在很大程度上會影響用戶在社會媒體網絡上的行為內容.文獻[77-78]分析了用戶的個人信息和社會媒體行為的一致性,并統計性地證明了利用用戶社會媒體行為數據進行人口統計屬性推斷的可行性.利用社會媒體行為信息提取用戶屬性特征,結合分類器可以進行簡單有效的屬性推斷.Garera等[56]擴展了N元模型來提取語言學特征,并利用了線性支持向量機模型在對話和電子郵件中有效提取出用戶的個人信息.Rao等[61]利用Twitter上的用戶行為數據進行了用戶的人口統計屬性推斷.van Durme[79]提出了一個流式的框架推斷出參與者的屬性信息.Pennacchiotti等[68]試圖通過聚合用戶人口統計屬性來對用戶進行分類.另外,Xiang等[80]在現有的用戶人口統計屬性的研究基礎上,利用用戶人口統計屬性的關聯性和穩定性,對用戶人口統計屬性推斷工作進行了進一步的深入研究.

1.3.2 用戶關系標注

社交媒體中的社會關系作為一種渠道,在信息傳播中起著重要的作用.有效的社會關系可以幫助用戶對信息爆炸的社交媒體網絡上的內容取其精華去其糟粕.當前的用戶關系標注問題主要基于從多個通信通道的交互數據中提取的特征或對關系的描述.Gilbert等[81]確定了74個Facebook變量作為潛在的預測因素,并將社交媒體的聯系映射為強弱關系.Tang等[82]基于某些社交網絡屬性和有限的預先已知信息來識別社交網絡用戶之間的關系,并且通過選擇用于營銷的少量種子來最大化傳播.Sun等[83]提出利用智能手機獨特的多模式交互數據,在電話、物理位置/鄰近、電子郵件和在線社交網絡四種通信渠道中對社會關系進行分類.Yang等[84]同時捕捉用戶的行為、社交互動以及兩者之間的關聯,將社交網絡圖的邊緣標記為正相關或負相關關系.He等[85]提出了一種基于決策樹的隨機游走模型,該模型不僅考慮了全局網絡結構,而且很好地利用了局部用戶行為,從而識別了多個異構社會網絡之間的關系類型.此外,大多數現有作品總是根據不同的規則將每個用戶的用戶關系劃分為固定的類型,例如關系類型(包括家庭、工作和朋友等)[82-83,85]、關系程度(包括強、弱等)[81,84,86].

以Twitter平臺為例,Twitter的列表功能于2009年11月向Twitter公眾公布.由于Twitter列表中的元數據中蘊含著豐富而有價值的語義線索,它引起了越來越多的研究者的關注.Kim等[87]使用Twitter列表來推斷用戶的特性,尤其是關于其興趣的特性,并確認在用戶感知特征方面,列表是Twitter用戶的良好分組.Yamaguchi等[88]建議從列表名稱中提取標記(tags),通過使用Twitter列表為用戶發現合適的主題.Ghosh等[89]挖掘Twitter列表信息,以建立在Twitter中查找專題專家的系統,并強調Twitter列表是Twitter中未來內容或專家搜索系統潛在的寶貴信息來源.Rakesh等[90]提出了一種新的框架,用于推薦比用戶目前訂閱的清單更受歡迎的輔助名單,方法是合并幾個共同反映用戶個人興趣的特征.Huang等[91]從用戶自身出發,根據用戶之間的相似性來提取特征,從Twitter列表中提取豐富的多模態行為和社會交互來進行個性化的社交關系標注.

1.3.3 個性化推薦

隨著信息的爆炸式增長,用戶容易迷失在系統提供的大量商品中.推薦系統(Recommendation System,RS)用作克服這種信息過載的通用解決方案,旨在從壓倒性的在線內容和服務(例如電影、新聞和產品)中找到一組相關商品以滿足用戶的個人興趣.個性化推薦基于社會媒體上用戶與項目的歷史交互,以及用戶和項目的屬性信息來評估用戶對項目的偏好.

1)傳統推薦方法

傳統的推薦策略通常分為三類[92]:協同過濾(CF)、基于內容的推薦策略和混合推薦策略.本節主要介紹基于協同過濾的推薦方法.CF通過從用戶-項目歷史交互、顯式反饋(例如評論和打分)或隱式反饋(例如瀏覽和點擊)來探索對目標項目的用戶偏好.基于記憶的CF方法[92-94]直接從用戶項目交互記錄驅動用戶和項目相似性矩陣,并且因此在用戶和目標項目之間產生估計分數.矩陣因式分解(MF)是最簡單、最有效的潛在因子模型之一,它用一個潛在的向量來描述一個用戶,將用戶顯式反饋(如打分)建模為其潛在向量的內積.在MF的啟發下,研究者們提出了許多變體,如SVD[95]、因子分解機(FM)[96]、Localized MF[97]、Social MF[98]等模型.FM目前取得了比較好的效果,因為它可以建模任意數量實體之間的特征交互,而MF只對用戶和項目之間的交互進行建模.隨著神經網絡模型的廣泛應用,近年來基于深度學習的用戶建模研究開始高速發展.深度學習在圖像、文本領域取得的巨大成功表明深度學習模型可以很好地學習隱含的特征表達,挖掘知識表示的深層關聯,進而有利于輔助基于社會媒體行為的用戶屬性/偏好挖掘,從而在用戶建模任務中取得較好的效果.從多層感知機(MLP)和自編碼器(AE)[99]到卷積神經網絡(CNN)和遞歸神經網絡(RNN),各種類型的深度學習技術都應用廣泛.現有的基于深度學習技術的研究豐富了圖像和文本等輔助數據中用戶和項目的表示方式[100-101],增強了特征交互功能[102-103].文獻[102]中提出了Wide&Deep方法,其中Wide部分學習一些明確的特征依賴關系,Deep部分在特征嵌入向量的級聯上采用MLP來揭示隱式特征之間的相互作用.深度交叉(deep crossing)[104]將一個MLP和多個殘差單元疊加在單個特征的嵌入上,以自動生成組合特征.神經協同過濾(NCF)[103]利用前饋神經網絡代替MF的內積并對用戶-項目交互函數進行參數化,是一種通用的深度推薦解決方案.最近,作為FM的擴展,神經因子分解機(NFM)[105]提出了一種雙線性交互池化操作,在用戶和項目的嵌入向量上采用元素級乘積,然后疊加MLP來捕獲用戶和項目之間的非線性關系.以上所述這些用戶建模的研究工作都取得了不錯的效果,但往往都忽略了一個問題,即用戶行為是具有動態特性的,用戶在社會媒體網絡上的行為隨著時間的推移會發生變化.但這種行為變化并不是隨機產生的,而是具有很強的時序依賴性的,即用戶在時間節點前的行為信息對時間節點上的行為會產生較大的影響.為了解決這個問題,許多研究者開始著手于構建用戶動態興趣模型的工作.由于用戶行為的時序性,用戶的動態興趣變化通常通過建模用戶的序列行為來完成,因此序列推薦任務對捕捉用戶動態偏好,全面理解用戶興趣方面有重要意義.

2)序列推薦

序列推薦問題通常被作為序列預測問題來解決.大多數現有的方法都集中在基于馬爾可夫鏈(MC)的方法和基于神經網絡的方法上.可擴展的序列模型通常依賴MC來捕獲序列模式[106-107],其中L階馬爾可夫鏈根據以前的L個行為作出推薦.然而,基于MC的模型的一個主要問題是,所有的成分都是獨立組合的,表示它在多個因素[108]之間做出了強烈的獨立性假設.基于矩陣分解(MF)的方法同樣可以用于序列行為建模,MF將從當前項到下一項的轉移概率矩陣分解為潛在因子[109].然而,由于現實世界中的數據通常服從冪律分布,MF備受稀疏問題的困擾[110].在矩陣分解的強大力量的啟發下,分解個性化馬爾可夫鏈(FPMC)[107]結合MF和MC的能力,對底層MC上的轉移矩陣進行分解,為推薦建立個性化的序列行為模型.FPMC及其變體[111]通過將該轉移矩陣分解為兩個潛在的和低秩的子矩陣來改進該方法.最近,遞歸神經網絡(RNN)方法在序列建模方面取得了很大的成功[112].它已經被成功地應用于諸如句子建模任務[112-114]、視頻建模[115]、序列點擊預測[116]、多行為序列預測[117]和位置預測[118]等多個應用.雖然它是編碼用戶上下文的一種非常有效的方法,但它仍然有一些難以攻克的缺點,例如難以并行化、耗時、難以保持長期依賴關系等.最近,基于卷積神經網絡(CNN)的編碼方法在許多序列處理任務中也取得了與RNN相當的性能[119-120].要了解項目和上下文的相關性是很有挑戰性的.引入注意力機制[121],提供在解碼器中動態引用特定行為記錄的能力,近年來在閱讀理解[122-123]、廣告推薦[124-125]和計算機視覺[126]等方面已經取得了很大的成功.自注意力模型(self-attention)研究了編碼端項目之間的內在聯系[122-123,127].ATRank[128]模型僅基于自注意力網絡,通過將所有類型的行為投影到多個潛在的語義空間,從而提升推薦的效果.另外,Huang等[129]提出了一種完全基于自注意力的用戶行為建模框架,其自注意力機制在特征層上工作,同時模型中使用位置編碼矩陣對動態上下文依賴進行建模,在提高了推薦準確率的同時也加快了模型的訓練速度.

3)可解釋性推薦

可解釋的推薦算法旨在解決這樣的問題:不僅向用戶提供合適的建議,而且為用戶解釋為什么系統推薦這些項目[130].由于知識圖譜中包含了豐富的用戶和項目的外部結構信息,近年來知識圖譜被廣泛地應用于可解釋性推薦任務中.將知識嵌入到推薦系統中的方法大致可以分為兩類:基于知識圖譜嵌入(Knowledge Graph Embedding,KGE)的方法和基于路徑的方法.基于KGE的方法通常將項目本身的內容表示與知識感知嵌入結合起來,以便為項目生成更好的表示[131-133].這些方法的缺點是,盡管推薦的準確性可以提高,但很難解釋為什么將該項目推薦給用戶,因為引入的知識圖譜嵌入表示是隱式的.對路徑連接實體語義關系的忽視導致了推理能力的缺乏.因此,許多研究將基于路徑的實體相似度擴展到一般推薦模型,這些路徑通過知識圖譜中不同的語義來表示兩個實體之間的聯系.元路徑(meta-path)是圖中連接對象對的一種典型方式,它是一種關系序列,廣泛用于提取結構特征,為推薦捕獲相關的語義[134].以前的一些工作已經將連接模式引入到推薦系統中[134-140].但是基于元路徑的方法在很大程度上依賴于手工構建的特性和所選元路徑的質量,這就要求研究人員需要一定的領域知識.最新的一種方法是通過模型自動捕獲語義關聯.知識圖譜的實體對之間的合格路徑被自動挖掘,然后通過遞歸網絡進行編碼.在網絡末端無縫集成推薦層,該推薦層可以以端到端的方式進行訓練,以將語義結構知識結合到推薦任務中[141-142].

2 發展趨勢

移動互聯網時代盡管已經發展了很多年,但隨著通信技術的迅猛發展,比如即將到來的5G時代,社會媒體必定會進入另一個更活躍更豐富多彩的新時期.用戶的行為逐漸從文本時代過渡到圖片時代,進入到高速網絡下的視頻時代,未來更有可能進入全民直播時代等.可以預見社會媒體的功能、品類、關系網絡只會越來越復雜.因此,如何解決與日俱增的龐大多模態數據與用戶越來越獨特鮮明的個性化需求之間的矛盾,是未來基于社會多媒體內容用戶建模應用的關鍵研究和發展趨勢.總結來說,當前基于社會多媒體內容的用戶建模應用研究領域有以下幾個發展趨勢:

1) 跨模態社會媒體內容的知識表征

跨模態數據的異構復雜性和演化動態性使得傳統的數據表達和融合方法難以實現跨模態大數據的魯棒、高效、有判別力的特征表達,以及知識的有效組織與融合.未經組織和處理的文本、聲音、圖像和視頻等數據價值密度較低,而知識是一種包含了結構化的經驗、關聯信息、定量關系以及專家見解等要素的動態組合,是更為抽象的本質的描述.因此,如何從復雜的跨模態數據中提取有價值信息,全面構建知識,實現知識的可表征是多媒體內容理解的一個關鍵問題.

2) 基于知識圖譜的社會媒體深度分析與決策

社會媒體深度分析與決策的核心是將數據抽象為可表征和可推理的知識,從而跨越數據到決策的鴻溝,為后續的用戶建模等應用提供知識層面的輔助決策.然而,近年來社會多媒體內容理解的研究熱點主要集中于數據層面,即對社會媒體網絡上的多媒體大數據進行關聯挖掘,利用數據之間的關聯關系發現事物發展的潛在規律,進而進行統計推理與預測.然而數據不代表知識,數據是未經組織和處理的文本、聲音、圖像和視頻等,價值密度較低,而知識是一種包含了結構化的經驗、價值觀、關聯信息以及專家見解等要素的動態組合,比數據更有價值是因為它更貼近行動.但當前主要有兩個挑戰:一是知識的動態關聯和增強;二是知識具有不確定性.如何解決這些難題,綜合基于知識圖譜的社會媒體深度分析與決策實現多媒體應用分析還需要研究者足夠的重視.

3) 基于社會媒體內容的用戶個性化服務

在用戶屬性推斷應用方面,目前研究大多集中在人口屬性推斷.但用戶物理世界的屬性包含很多維度,人口屬性推斷只是用戶物理世界的屬性中很小的一部分.目前基于社交多媒體行為的物理世界用戶屬性研究尚處于起步階段,有很多屬性并未被深入研究.因此,未來的工作應考慮利用社交多媒體行為進行更多的用戶物理世界屬性的研究,例如用戶的心理屬性、真實社會關系等.用戶關系標注方面,目前的工作大多基于已標注的數據集上進行研究,標注數據獲取困難,人工標注也需要耗費大量的人力物力.未來的發展趨勢應該借助各類無標注的樣本進行無監督學習,提高模型的可用程度.個性化推薦方面,利用輔助信息是推薦任務中的一項重要任務.未來的工作可以從兩個方向進行擴展:一是信息來源方向,不僅考慮單一的用戶屬性或單模態特征,進一步可以通過考慮更復雜的多模態融合技術,另外引入復雜關系網絡或外部知識圖譜來作為上下文新輔助進行用戶建模和個性化推薦;另一個是模型算法方向,當前的可解釋性推薦的相關工作主要集中在考慮用戶靜態行為的top-K推薦任務中,如上文所述,用戶行為在動態變化中,如何通過用戶的時序行為捕捉用戶動態偏好是一個重要的研究方向.未來在可解釋性推薦工作的道路上,可解釋性序列推薦必定是個值得深入研究的有意義的方向.

3 總結與展望

本綜述圍繞社會多媒體特征融合、跨模態知識提取與表示,以及基于社會媒體的用戶建模相關應用研究三個方面介紹國內外在社會多媒體分析和應用領域的研究進展,總結國內外現有的多媒體內容理解方法和用戶建模應用技術,分析國際學科發展趨勢.總之,近年來國內外學者在多媒體內容分析和用戶建模的三個方面進行了廣泛的研究并取得了驕人的成果.另外研究者并未停止對多媒體內容分析其他領域的探索,如跨模態社會媒體內容的知識表征、社會媒體深度分析與決策以及可解釋用戶個性化服務等.另一方面,在移動互聯網、大數據、社交媒體背景下,仍需要在方法創新以及原創基礎理論研究等方面進一步加強,并注重加強學術界到工業界、從技術到產品的轉換以及交叉學科的互補研究.

猜你喜歡
模態多媒體用戶
借助多媒體探尋有效設問的“四度”
多媒體在《機械制圖》課中的應用
消費導刊(2018年10期)2018-08-20 02:56:28
關注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
關注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
關注用戶
商用汽車(2016年4期)2016-05-09 01:23:12
多媒體達人煉成記
河南電力(2016年5期)2016-02-06 02:11:40
國內多模態教學研究回顧與展望
適切 適時 適度——說說語文課堂的多媒體使用
語文知識(2015年9期)2015-02-28 22:01:42
基于HHT和Prony算法的電力系統低頻振蕩模態識別
如何獲取一億海外用戶
創業家(2015年5期)2015-02-27 07:53:25
主站蜘蛛池模板: 国产激情国语对白普通话| 素人激情视频福利| 真实国产乱子伦视频| 在线看片中文字幕| 老司国产精品视频| 香蕉久久国产精品免| 91在线精品麻豆欧美在线| 欧美成人看片一区二区三区| 九九视频免费在线观看| 国产97视频在线观看| 国产精品成| 国产精品内射视频| 久久夜色精品国产嚕嚕亚洲av| 亚洲嫩模喷白浆| 成人精品视频一区二区在线| 国产一区二区精品高清在线观看 | 亚洲精品色AV无码看| 久久99国产乱子伦精品免| 国国产a国产片免费麻豆| 国产永久在线视频| 欧美日韩中文字幕二区三区| 制服丝袜在线视频香蕉| 18黑白丝水手服自慰喷水网站| 天堂av综合网| 国产欧美成人不卡视频| 一级毛片在线播放免费| 国产超碰一区二区三区| 午夜视频在线观看区二区| 99re热精品视频国产免费| 日韩欧美中文在线| 成人在线综合| 中文字幕无码av专区久久| 欧美激情首页| 久久精品电影| 一本综合久久| 亚洲第七页| 亚洲欧美成aⅴ人在线观看 | 亚洲精品国产精品乱码不卞| 国产一级无码不卡视频| 国产人人射| av在线5g无码天天| 99色亚洲国产精品11p| 亚洲欧美综合另类图片小说区| 国产迷奸在线看| 蜜桃视频一区二区三区| 青草精品视频| 欧美一区二区精品久久久| 日本一区二区不卡视频| 伊人久综合| 中文字幕av一区二区三区欲色| 亚洲狼网站狼狼鲁亚洲下载| 99精品视频播放| 中文字幕在线观看日本| 欧美一级高清片久久99| 制服丝袜 91视频| 亚洲精品无码AⅤ片青青在线观看| 国产99精品久久| 国产成人精品一区二区三在线观看| 国产精品jizz在线观看软件| 久久这里只有精品国产99| 亚洲人成网站观看在线观看| 国产精品人人做人人爽人人添| 国产精品区视频中文字幕| 亚洲视频在线网| 一区二区三区国产| 69视频国产| 欧美亚洲国产视频| 中文字幕调教一区二区视频| 99偷拍视频精品一区二区| 中文字幕在线视频免费| 狼友av永久网站免费观看| 极品尤物av美乳在线观看| 老司机午夜精品视频你懂的| 国产人成午夜免费看| 在线观看免费国产| 国产精品久久久久久久伊一| 国产成人一二三| 成人免费视频一区二区三区| 亚洲国产成人麻豆精品| 国产国产人成免费视频77777| 日本高清成本人视频一区| 亚洲天堂久久久|