999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于用戶-標簽異構網絡的社區問答專家發現方法

2020-02-19 11:26:28劉永堅
計算機工程 2020年2期
關鍵詞:特征文本用戶

黃 輝,劉永堅,解 慶

(武漢理工大學 計算機科學與技術學院,武漢 430070)

0 概述

在Stack Overflow、Quora等社區問答(Community Question Answering,CQA)網站中,用戶提出新問題等待其他用戶來回答,其他用戶能對該問題下的回答表示贊同或者反對,提問者也可以采納其中一個答案,將其設置為“最佳回答”。這種互動方式使得提問者可以獲得具有針對性的答案,能減少用戶在互聯網中獲得知識的成本。CQA通過提供一個知識共享平臺來滿足用戶獲取和發布知識的需求,由于其具有開放性、交互性等特點,因此受到廣大用戶的喜愛。

隨著用戶量的增多以及新問題的不斷提出,問答社區面臨一些新的挑戰。Stack Overflow是一個全球熱門的與計算機編程相關的問答網站,本文以其為例分析2009年至2015年之間的問答數據:問題數量不斷快速增長,到2013年,累積的問題數量已經超過200萬,但新問題的增長速度明顯減慢,同時未被解答的問題比例由2009年的99.5%下降至2013年的90.9%,到2015年進一步下降至79.5%。該網站中大量新問題被提出,但是在一定時間內都得不到任何人解答,由此可以認為,未被解答的問題增多會導致社區的用戶活躍度下降。

問答社區需要合適的專家發現方法以尋找能夠提供正確答案的專家,這有利于提高用戶的活躍度并促進用戶主動分享知識。本文圍繞開放的問答模式,針對問答社區的特點提出一種基于用戶-標簽網絡的專家發現方法。根據用戶的歷史回答記錄,以用戶和標簽為節點構建異構網絡,使用網絡嵌入方法得到用戶的向量表示,并為每個問題組合標題、標簽、正文以生成問題文本,對問題進行數據清洗以獲得適合訓練的數據。在此基礎上,應用深度語義匹配模型DSSM提取用戶特征和問題文本特征,根據兩者的余弦相似度排序得到候選專家列表。

1 相關工作

社區問答中的專家發現方法主要分為3種,即基于主題生成模型的方法、基于深度學習的方法和基于網絡的方法。

目前有一部分工作從挖掘文本主題信息的角度出發,尋找問題和用戶之間潛在主題信息的關聯,而多數工作則使用LDA主題模型尋找用戶的領域,計算用戶在各個類別內的專業程度從而進行專家排序[1]。文獻[2]根據在線問答社區中答案的產生過程,提出一種問題-回答者-話題模型。文獻[3]應用分段主題模型(Segmented Topic Model,STM)解決專家發現問題,并且對比了TF-IDF模型、語言模型以及LDA模型,實驗結果顯示STM表現更好。文獻[4]提出作者-主題模型(Author-Topic Model,ATM)以尋找作者、文檔、主題和詞之間的關系。文獻[5-6]提出標簽詞主題模型(Tag Topic Model,TTM),利用問題文本和問題附帶的標簽,使得每一個文本中的單詞都能和每一個標簽組成“標簽-詞”對,從而解決因問題文本較短導致傳統主題模型難以提取潛在主題的問題。

深度學習被廣泛應用于多個領域[7-9],一些工作將深度學習應用于專家發現。這些方法根據用戶的歷史回答記錄建立用戶文檔,然后從中提取用戶特征。文獻[10]使用DSSM模型[11]提取文本特征和用戶特征,然后根據用戶文本特征和問題文本特征的余弦相似度從大到小排序獲得專家列表。文獻[12]使用卷積神經網絡提取文本特征,也取得了較好的效果。此外,傳統的支持向量機方法也被用于專家發現任務。文獻[13]提出RankingSVM模型,通過訓練一個二分類器對樣本進行分類,從而將排序轉化為一個分類問題,利用機器學習的方法進行排序。

基于網絡的方法根據問答關系構建社交網絡,傳統的方法通常基于鏈接分析,如基于PageRank的方法[14]和基于HITS的方法[15]。近期的一些方法應用了圖嵌入法生成網絡中節點的特征向量。文獻[16]構建用戶與用戶、用戶與問題之間的異構網絡,通過Random-Walk算法[17]得到用戶和問題的向量表示,最后使用深度神經網絡學習提取特征并比較兩者之間的余弦相關度。文獻[18]設計了一種聯合網絡結構信息和文本信息的動態門裝置,然后使用神經張量網絡(Neural Tensor Network,NTN)[19]得到問題特征和用戶特征的匹配分數。

以上方法均圍繞問答關系抽象出用戶和問題作為節點構建網絡,忽略了問題附帶的標簽。稀疏的標簽難以利用,但卻能反映出問題的領域性。因此,本文通過尋找用戶與標簽的聯系,構建用戶-標簽異構網絡,以此減少節點數,加快模型訓練的速度,同時提高準確性。

2 基于用戶-標簽網絡的專家發現方法

本文基于用戶-標簽網絡的專家發現方法框架如圖1所示。以用戶和標簽為節點,根據標簽與標簽之間的關系以及用戶與標簽的關系構建用戶-標簽異構網絡,然后應用DSSM模型[11]獲取用戶向量和問題向量的相似度,最后得到候選專家列表。

圖1 本文方法框架

2.1 用戶-標簽異構網絡

問答社區中的問題通常都附有若干個標簽,這些標簽大多能正確反映出問題的主題,但是它們非常稀疏,難以直接利用。如圖2所示,用戶回答了某個問題,該問題附有3個標簽,筆者認為其與該用戶有關聯,因此,通過構建用戶-標簽異構網絡對這些稀疏標簽加以利用。

圖2 用戶與標簽之間的聯系

設問題集為Q={q1,q2,…,ql},用戶集為U={u1,u2,…,um},標簽集為T={t1,t2,…,tn}。基于用戶集U和標簽集T,本文構建一個用戶-標簽異構網絡,該網絡是一個無向圖,能反映出用戶與標簽在網絡層面中的關系。設該異構CQA網絡為G=(V,E),其中節點集V包含用戶集U和標簽集T這兩種類型的節點,邊集合E由用戶-標簽關系和標簽-標簽關系組成,詳細描述如下:

圖3展示了用戶-標簽異構網絡結構,其中包含2種節點,即用戶節點和標簽節點。本文通過LINE方法[20]學習用戶在網絡中的向量表示U。

圖3 用戶-標簽異構網絡結構

2.2 全連接神經網絡

本文應用DSSM模型來預測結果,如圖4所示,該模型包含2個共享結構但參數不同的全連接深度神經網絡(Deep Neural Network,DNN)。該神經網絡的隱藏層有2層,每層含有300個神經元,輸出層含有128個神經元。第1個DNN輸入為用戶向量U,第2個DNN輸入為問題文本向量Q。

圖4 DSSM模型結構

輸入用戶向量U和問題向量Q后,經過2個共享網絡結構的DNN,但是這兩個DNN參數不共享,包括權值矩陣W和偏置向量b。隱藏層的定義如下:

h1(k)=W1(k)·x

(1)

hi(k)=F(Wi(k)·hi-1(k)+bi)

(2)

F(x)=ReLU(x)=max(0,x)

(3)

如式(1)和式(2)所示,首先使用W1乘以輸入向量x得到能被后續隱藏層接受的值h1,然后下一層接受上一層的輸出,Wi(k)為第i層的權值,bi是第i層的偏置向量,k為離散時間,i的取值范圍為2~m,式(3)定義了激活函數F。

輸出層含有128個神經元,則輸出的特征維度為128。本文使用余弦函數來計算2個DNN分別輸出的用戶特征和問題特征的相似度,計算公式如下:

(4)

一個用戶能在多個問題下取得最佳回答,設K為用戶取得最佳回答的問題總數,r為從問題集中隨機抽取的非該用戶回答的問題數量。因此,每一組數據包含一個用戶、該用戶取得最佳回答的問題集以及r個非該用戶回答的問題。如式(5)所示,基于隨機抽取方法從問題集中得到r個非該用戶回答的問題,本文中r設為3。然后應用Softmax函數處理問題特征和每一個該用戶回答過的問題特征的余弦相似度,確保總概率和為1。

(5)

本文定義損失函數fLoss來提高準確率,K為用戶U取得最佳回答的問題數量,在訓練過程中使fLoss最小化。如式(6)所示,當用戶取得最佳回答的問題特征和用戶特征余弦相似度最大且非最佳回答問題特征與用戶特征余弦相似度最小時,fLoss為最小值。如果一個用戶回答了許多的問題,可以令K=10,將一組數據拆分為多組數據以便于神經網絡的訓練。

(6)

3 實驗與結果分析

3.1 數據集與數據預處理

StackExchange是一系列具有相同問答模式的問答網站集合,其中包含133個網站,每一個網站覆蓋不同領域,包括數學、園藝、物理、密碼學、天文學、數據科學、攝影、經濟學等。經過多年發展,StackExchange已經成為一個巨大的知識圖書館,Stack Overflow是其中的第一個成員,其他的網站都根據Stack Overflow的模式而建立。在這種問答模式下,用戶可以提出新問題并將回答設置成“最佳回答”,可以瀏覽并回答其他人提出的問題,也可以對其他問題的答案表示贊成或者反對。由于提問者在編寫問題時需要輸入該問題的標簽,因此目前網站中包含大量的標簽用以反映問題的領域并且對問題分類。

本文使用的是“Super User”和“Server Fault”這兩個站點的數據集,取其中2010年1月至2016年12月之間的數據作為訓練集,2017年1月至2018年7月的數據作為測試集。

首先根據時間段以及類型(在數據源文件Post.xml中,問題和回答的類型序號分別是1和2)得到問題集。問題由問題標題、問題標簽和問題正文3個元素組成,因此,設問題文本=問題標題+問題標簽+問題正文。然后對問題文本進行數據清洗,包括以下4個步驟:

1)移除HTML標簽。去除無用的標簽,只保留含有有用信息的問題正文。

2)停止詞過濾。使用的是標準的418個英文停止詞。

3)去除代碼段。移除被“”包圍的代碼段。移除代碼段產生的噪聲,能取得更好的結果[10]。

4)詞干提取。詞干提取是去除詞綴得到詞根的過程,比詞根提取的效率更高。例如,對單詞“fished”提取詞干后得到“fish”。

因此,本文得到僅由單詞詞干組成、含有重要詞匯的詞序列。為減少詞向量的維度,使用谷歌開源的詞向量工具Word2vec。經過訓練,得到低維度的詞向量,由于詞向量的加法運算特性,因此能將問題文本詞序列表示成計算機能識別的低維度向量。

沒有設置最佳回答的問題也會被過濾掉,最后根據時間節點將數據集分成訓練集和測試集。由于問答社區中問題的回答質量良莠不齊,甚至存在惡意回答問題的情況,因此筆者認為“最佳回答”得到了提問者的認可,是正確答案。表1列出了這兩個數據集中的訓練集問題數量和測試集問題總數。

表1 訓練集和測試集的問題總數

2種數據集下的訓練集和測試集描述如表2所示,設N為用戶取得最佳回答的問題數,Nmin為N最小值。本文以Nmin=5,10,15,20構造4個用戶集UN[13]。在數據集“Server Fault”中,最佳回答數至少為20的用戶有470位,這些用戶取得最佳回答的問題在訓練集中有34 655個,在測試集中有1 875個。N越大,則用戶數顯著減少,但是該用戶集回答的問題數卻沒有顯著減少。分析結果表明,數量僅為0.5%的用戶回答了35%的問題(有答案的問題中)[3]。因此,本文通過N區分出專業度和活躍度不同的用戶。

表2 2種數據集下的訓練集和測試集

3.2 實驗結果分析

為進行公正評價,本文使用MRR(Mean Reciprocal Rank)指標評價算法。MRR經常被用于對搜索算法進行評價:對于查出來的結果列表,如果第1個結果匹配,那么分數為1,第2個匹配則分數為0.5,……,第n個匹配則分數為1/n。本文方法為測試集中所有問題生成候選專家列表,如果該問題的最佳回答者出現在候選專家列表的第n個位置,那么此次MRR分數為1/n。

將本文方法與4種不同類型的方法在2個數據集Super User和Server Fault上進行對比實驗,即基于LDA的專家發現方法LDA[3]、基于分段主題模型的方法STM[3]、RankingSVM模型[13]和QR-DSSM[10]。其中,LDA和STM從用戶文檔以及問題文本中挖掘潛在主題信息,根據用戶的潛在主題信息估算其專業知識,能夠判斷新提出問題能否被該用戶回答。RankingSVM將排序問題轉化成分類問題,為新提出的問題生成候選專家列表。QR-DSSM使用DSSM模型提取語義特征,即從用戶文本中提取用戶特征,從問題文本中提取問題特征,最后根據兩者的余弦相似度值從高到低得到候選專家列表,該方法首先建立用戶檔案,從用戶檔案和問題文本中使用DSSM模型學習用戶特征和問題特征。

本文實驗的實驗結果均在處理器為Inter(R)Core(TM)i7-6700HQ CPU@2.60 GHz的計算機上得到,實驗數據如表3所示,MRR曲線如圖5、圖6所示。

表3 5種方法的實驗結果對比

圖5 Super User數據集下的實驗結果

圖6 Server Fault數據集下的實驗結果

從表3、圖5和圖6中可以看出,對Super User和Server Fault上的4個用戶集(Nmin=5,10,15,20),本文方法均取得了更好的效果。其中,數據集Super User的用戶量比數據集Server Fault要多18%~30%,各方法在Super User上的結果均優于Server Fault,本文方法在Super User上取得了最高的MRR指標,為0.195 9。

與基于主題模型的方法LDA[3]和STM[3]相比,本文方法平均MRR指標提高了67%和69%,比起效果更好的STM也提高了45%和46%,這表明傳統的主題模型在短文本上難以挖掘潛在主題信息,而本文方法從網絡中學習用戶信息的方式更優。與基于分類模型的RankingSVM[13]方法相比,本文方法平均MRR指標提高了19.8%和19.1%,與QR-DSSM[10]相比,本文方法在準確率上也提高了2%~5%。QR-DSSM根據用戶歷史回答記錄建立用戶文檔,問題附帶的標簽被作為普通的文本處理,重要的標簽信息經過神經網絡的學習逐漸被忽略。而本文方法則從用戶-標簽網絡中學習用戶向量,使用戶向量包含網絡結構信息以及標簽信息,而使用DSSM模型則能更好地尋找用戶與問題的映射關系。由此可以證明,本文方法能更準確地尋找到可提供正確答案的候選專家。

4 結束語

本文以用戶和標簽為節點構建用戶-標簽異構網絡,基于此提出一種社區問答專家發現方法。使用網絡嵌入方法獲得用戶在網絡中的向量表示,通過Word2vec工具訓練得到問題文本的低緯度向量表示。在此基礎上,應用DSSM模型提取用戶特征和問題特征,根據兩者的余弦相似度生成專家列表。使用StackExchange站點的真實世界數據集進行實驗,結果表明,本文方法的專家發現性能優于對比的問答社區專家發現方法,能為問題尋找到更合適的專家。下一步將對標簽進行聚類以減少網絡節點,從而加快網絡嵌入訓練的速度。

猜你喜歡
特征文本用戶
如何表達“特征”
在808DA上文本顯示的改善
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
抓住特征巧觀察
關注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
關注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
關注用戶
商用汽車(2016年4期)2016-05-09 01:23:12
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
如何獲取一億海外用戶
創業家(2015年5期)2015-02-27 07:53:25
主站蜘蛛池模板: 亚洲国产成人超福利久久精品| 97国产在线播放| 日韩不卡高清视频| 亚洲精品成人片在线观看| 一本综合久久| 久久综合五月| 久久99国产综合精品女同| 97超爽成人免费视频在线播放| 亚洲 日韩 激情 无码 中出| 国产aⅴ无码专区亚洲av综合网| 91久久性奴调教国产免费| 国产亚洲视频免费播放| 在线日本国产成人免费的| 日本午夜影院| 国产日本一区二区三区| 中文字幕在线播放不卡| 国产精女同一区二区三区久| 538国产在线| 伊人激情综合网| 欧美一区二区人人喊爽| 国产精品一线天| 国产成人精品视频一区二区电影| 5555国产在线观看| 欧美α片免费观看| 992tv国产人成在线观看| 国产成人区在线观看视频| 亚洲成A人V欧美综合| 国产亚卅精品无码| 日韩中文精品亚洲第三区| 色天堂无毒不卡| 97成人在线视频| 国产成人啪视频一区二区三区| 免费毛片全部不收费的| 欧美三级日韩三级| 亚洲精品无码不卡在线播放| 国产熟睡乱子伦视频网站| 亚洲男人的天堂在线观看| 97视频免费看| 日韩经典精品无码一区二区| 波多野结衣一区二区三区四区| 日韩精品成人网页视频在线| a欧美在线| 成人精品免费视频| 熟女日韩精品2区| 亚洲欧洲自拍拍偷午夜色| 国产一区亚洲一区| 最新日韩AV网址在线观看| 最新国产成人剧情在线播放| 免费高清a毛片| 国产a v无码专区亚洲av| 亚洲男人的天堂久久香蕉| 福利小视频在线播放| av在线5g无码天天| 久久精品一卡日本电影 | 欧美日韩国产高清一区二区三区| 2021国产乱人伦在线播放| jijzzizz老师出水喷水喷出| 亚洲国产日韩一区| 91视频国产高清| 欧洲亚洲欧美国产日本高清| 免费A级毛片无码免费视频| 久久精品66| 欧美va亚洲va香蕉在线| 国产一级小视频| 国产成人亚洲无吗淙合青草| 精品精品国产高清A毛片| 国产毛片不卡| 国产成人一级| 国产精品美女网站| 高潮毛片无遮挡高清视频播放| 91成人在线观看| 99re在线观看视频| 国产精品视频导航| 99r在线精品视频在线播放| 亚洲欧洲日本在线| 国产激情在线视频| 啊嗯不日本网站| 国产日本欧美在线观看| 亚洲欧美另类中文字幕| 亚洲欧洲自拍拍偷午夜色| 强乱中文字幕在线播放不卡| 国产精品自在线拍国产电影|