



摘" 要: 互聯網高速發展背景下,社區問答網站提問者有著更強烈的求知需求,海量數據為提問者識別有效信息帶來困難,為提問者推薦更專業的專家用戶對問題進行回答顯得尤為重要。針對傳統社區問答專家推薦方法難以準確計算出提問者提出的目標問題和候選專家之間的相關性等問題,為了提高社區問答網站中專家推薦的效率,構建問題節點關系無向圖,利用圖神經網絡GraphSAGE提取節點的二階鄰居信息,并使用多視圖學習方法學習不同視圖間的互補信息,最終獲取目標問題文本和候選專家歷史問題集豐富的向量表示,用來計算出目標問題與候選專家之間的匹配度,進而推薦出最適合回答目標問題的專家用戶。實驗結果表明,在不同的社區問答專家推薦方法上,文中方法在評價指標MRR、NDCG@10上均取得了更優的推薦效果。
關鍵詞: 社區問答; 專家推薦; 圖神經網絡; 多視圖學習; 推薦系統; 深度學習模型
中圖分類號: TN711?34""""""""""""""""""""""" 文獻標識碼: A"""""""""""""""""""""""""" 文章編號: 1004?373X(2024)09?0115?04
0" 引" 言
隨著互聯網的高速發展,知識壁壘被打破,人們求知熱情高漲,社區問答網站應運而生,在社區問答網站上,提問者提出問題,由系統推送給潛在回答者。為向提問者推薦相應領域的專家用戶來回答問題,一種高效的社區問答專家推薦方法亟待研究。針對問題文本信息和專家用戶信息的提取,目前通常在單一視圖上進行,或采用注意力機制等方法,這些方法在一定程度上解決了專家用戶的個性化推薦問題,但從單一視圖中學習文本特征,忽略了其他視圖中的互補信息。因此,本文提出一種結合圖神經網絡與多視圖學習的社區問答專家推薦方法,用以從多個視圖中挖掘專家用戶和問題之間的交互信息,并通過在圖上的信息傳遞,從二級鄰居節點中提取有效信息,然后學習豐富的專家向量和問題向量,用以進行最終的預測,推薦出合適的專家來回答問題。
1" 問題文本信息提取
1.1" 問題節點關系無向圖構建
在社區問答網站中,提問者提出的問題稱為目標問題,社區問答網站中潛在的能夠為提問者給出高質量回答的用戶集稱為候選專家[1]。對于候選專家集中的每個專家,專家所回答過的歷史問題集構成該專家的一個屬性,其中每個問題(即目標問題以及包含在候選專家歷史回答問題集中的問題)都與它們的標簽、標題、正文相關聯。標題、標簽、正文這三種信息可以被視為對問題的不同看法,都有助于表示問題。同一個候選專家回答過的問題之間建立一條邊,依次形成一張問題節點關系無向圖,如圖1所示。
1.2" 問題文本語義特征提取
對于給定問題的標簽,本文使用標簽嵌入層將其轉換為低維嵌入向量。由于標簽是獨立的分類特征,本文利用密集層學習標簽特征,然后堆疊所有標簽特征,并通過平均聚合器聚合得到標簽特征。
對于長文本信息,則使用Transformer進行語義信息提取[2]。同理可得標題的特征,再使用均值聚合器聚合,可得標簽、標題、正文的視圖信息矩陣。
2" GraphSAGE圖表示學習模塊
本文認為回答過同一個問題的專家具有相似的知識能力,因此學習一個專家節點的鄰居節點特征,有助于獲得該專家節點更豐富的表示。本文使用GraphSAGE圖神經網絡來提取節點的鄰居節點特征[3]。
假設已經學習了聚合函數的參數,這些聚合函數從鄰居節點中聚合信息,用于在專家信息提取模塊的不同層之間傳播信息圖矩陣。該模塊在每次迭代或搜索深度時,節點都會從該節點鄰居那里聚合信息,隨著這個過程的迭代,節點會從圖的更遠部分逐漸獲得越來越多的信息。
在本階段將從上一階段獲得的標簽、標題、正文三個視圖信息矩陣輸入到圖神經網絡中,使用GraphSAGE對節點進行一階鄰居和二階鄰居的信息提取,公式如下所示:
[hGraph=ReLUWGi=0nfi+fs]
式中:[WG]是投影矩陣;輸入[fi]和[fs]是兩跳鄰居和一跳鄰居的特征嵌入組合。
最終形成標簽、標題、正文的視圖表示。
3" 多視圖注意力機制模塊
多視圖注意力機制模塊如圖2所示。
考慮到專家回答過不同領域的問題,而專家回答過的問題與目標問題的相關性不同,因此需提取出專家歷史回答過的問題中和目標問題相關的部分[4]。文中進行了多視圖注意力機制的研究,經過上一層圖表示學習層后,形成了三個視圖,將三個視圖聚合,形成目標問題向量。而對于候選專家的處理,因為每個專家不僅回答自身領域的問題,還可能會回答他感興趣的問題,所以要提取他的回答中和目標問題相關的部分。
給定候選專家的多視圖特征,計算專家用戶在標簽視圖注意力下的權重。對于標題和正文視圖特征,可以用同樣的方法分別計算它們的權重。通過這種方式,該模型可以分別利用三種視圖的交互注意力機制來捕捉候選專家與目標問題之間的視圖內相關性。然后,根據不同視圖特征的不同權重對其進行聚合,得到候選專家特征[5]。
最后,將候選專家特征和目標問題特征相結合,再利用線性層計算它們之間的相關性得分。具有最高相關性[6]得分的候選專家將被推薦為目標問題的專家。
4" 實" 驗
4.1" 數據集和實驗設置
本文在真實世界的CQA數據集上進行了大量實驗,以評估本文提出的方法的性能。
本文從StackExchange[7]中選擇了三個真實世界的CQA數據集,見表1,該數據集包含三個領域,即人工智能學、出版學和歷史學。每個數據集都包括一個問題集,其中每個問題都與其標題、正文和標簽相關聯,這是不同回答者提供的幾個答案中的一個“公認答案”[8]。本文遵循先前工作中的預處理方法,從數據集中篩選出提供少于5個答案的回答者,以避免冷啟動問題。本文將每個數據集劃分為訓練集、驗證集和測試集,按時間順序,比例分別為80%、10%和10%。驗證集用于調整方法中的超參數。根據先前工作,本文構建了一個候選專家集,每個問題包括20名專家,包括回答這個問題的原始專家和從回答者集中隨機選擇的其他專家[9]。
4.2" 超參數設置
實驗中,本文使用驗證集來調整超參數,將低維嵌入、標簽嵌入和專家嵌入維度設置為100。問題文本、專家特征大小設置為100,Transformer頭的數量為2,Transformer編碼器層數為2,批處理大小[10]設置為64。本文使用填充操作將專家歷史回答問題的數量固定為30。對于每個問題,其標簽的數量為3,標題的單詞長度為15,正文的單詞長度是60。為了緩解過擬合問題,本文使用丟棄技術,并將丟棄率設置為0.25,采用Adam優化器來優化模型。
4.3" 評估指標
本文采用的是被廣泛使用的推薦排名指標,包括MRR、NDCG@10以驗證專家排名質量[11]。將每個實驗重復5次,并計算平均結果。所有實驗都是使用Pytorch框架和24 GB內存的RTX A5000 GPU服務器實現的。
4.4" 基" 線
本文與現有模型進行了比較,包括:
1) NeRank:NeRank通過異構網絡嵌入算法學習問題內容、提問者和專家的特征,并利用神經網絡計算排名得分;
2) TCQR:該方法利用時間動態的多粒度中的時間上下文感知模型來實現多方面、時間感知的專家學習;
3) RMRN:該模型利用遞歸推理機制捕捉問題和候選專家之間的隱含相關性,以改進專家發現;
4) UserEmb:該模型捕獲了專家的社會關系和語義特征,并將這些特征結合起來以提高模型性能[12]。
5" 實驗結果與分析
比較所有方法在不同數據集上的結果可以發現,在所有評價指標上,本文模型明顯優于所有基線。基于深度學習的方法(TCQR、RMRN、UserEmb)在所有數據集上表現良好,因為神經網絡強大的表示能力可從問題內容中捕獲深層語義信息[10]。捕獲數據使用固有交互信息的方法(NeRank、RMRN、PMEF)通常比不使用捕獲固有交互方法(TCQR、UserEmb)的性能更好。因為這些方法通過交互式信息的捕捉找到了與目標問題更相關的專家。
本文方法結合了圖神經網絡綜合地學習問題特征,并采用多視圖學習[13]捕捉專家和目標問題之間的視圖特定交互信息。不同方法在MRR指標上的表現如表2所示。
5.1" 圖神經網絡GraphSAGE的效果
本文研究了圖神經網絡GraphSAGE的效果,并替換了兩種圖神經網絡來探索圖神經網絡在提取鄰居節點信息方面的貢獻。
1) 圖卷積神經網絡:可以捕捉圖的全局信息,可以很好地表示節點特征,但全局訓練的方式需要所有節點都參與訓練才能得到節點嵌入,無法快速得到新節點的嵌入,在時間上有極大損耗;
2) 圖注意力神經網絡[13]:通過為同一鄰域的節點分配不同權重,可以提取模型中的重點信息,使用多頭自注意力機制,方便并行、計算高效,但過平滑嚴重,不適合處理高階特征,且由于領域節點的高度重疊,產生冗余計算,導致在空間上占用過大。
5.2" 多視圖注意力機制的效果
本文的多視圖注意力機制模塊通過交互式注意力機制自動地捕捉候選專家和目標問題之間的視圖內特定匹配信息。使用了注意力機制的多視圖學習推薦效果要高于沒使用注意力機制的多視圖學習,這表明在多視圖學習中注意機制的必要性,因為不同的歷史回答問題對建模專家具有不同的重要性。通過這種方式,該模型可以捕捉目標問題和候選專家之間的不同視圖交互,這有利于準確向目標問題推薦合適回答的專家用戶。
6" 結" 語
本文提出了一種融合圖神經網絡和多視圖學習的社區問答專家推薦方法。結合圖神經網絡與多視圖注意力機制,強化了目標問題與專家用戶之間相關性的計算。實驗結果表明,與傳統社區問答專家推薦方法相比,本文提出的融合圖神經網絡與多視圖學習的社區問答專家推薦方法具有較好的準確性和泛化性。下一步將對專家用戶知識能力隨時間的變化開展研究。
參考文獻
[1] MUMTAZ S, RODRIGUEZ C, BENATALLAH B. Expert2Vec: Experts representation in community question answering for question routing [C]// 31th International Conference on Advanced Information Systems Engineering. Heidelberg: Springer, 2019: 213?229.
[2] SONG J, XU X L, WANG X H. TSAR?based expert recommendation mechanism for community question answering [C]// 2021 IEEE 24th International Conference on Computer Supported Cooperative Work in Design (CSCWD). New York: IEEE, 2021: 162?167.
[3] PENG Q Y, LIU H T, WANG Y H, et al. Towards a multi?view attentive matching for personalized expert finding [C]// Proceedings of the ACM Web Conference. New York: ACM, 2022: 2131?2140.
[4] YUAN S, ZHANG Y, TANG J, et al. Expert finding in community question answering: A review [J]. Artificial intelligence review, 2020, 53(2): 843?874.
[5] FU J L, YI L, ZHANG Q, et al. Recurrent memory reasoning network for expert finding in community question answering [C]// Proceedings of the 13th International Conference on Web Search and Data Mining. New York: ACM, 2020: 187?195.
[6] LI Z Y, JIANG J Y, SUN Y Z, et al. Personalized question routing via heterogeneous network embedding [C]// Proceedings of the International Conference on Artificial Intelligence. [S.l.]: AAAI, 2019: 192?199.
[7] ZHANG X C, CHENG W, ZONG B, et al. Temporal context?aware representation learning for question routing [C]// Proceedings of the International Conference on Web Search and Data Mining. New York: ACM, 2020: 753?761.
[8] FAN S H, ZHU J X, HAN X T, et al. Metapath?guided heterogeneous graph neural network for intent recommendation [C]// Proceedings of the 25th International Conference on Knowledge Discovery. New York: IEEE, 2019: 2478?2486.
[9] SHI C, HU B B, ZHAO W X, et al. Heterogeneous information network embedding for recommendation [J]. IEEE transactions on knowledge and data engineering, 2019, 31(2): 357?370.
[10] ZHANG C X, SONG D J, HUANG C, et al. Heterogeneous graph neural network [C]// Proceedings of Conference on Knowledge Discovery and Data Mining. [S.l.: s.n.], 2019: 793?803.
[11] WANG X, JI H Y, SHI C, et al. Heterogeneous graph attention network [C]// Proceedings of the World Wide Web Conference (WWW 2019). New York: ACM, 2019: 2022?2032.
[12] BHATT G, JHA P, RAMAN B, et al. Representation learning using step?based deep multi?modal autoencoders [J]. Pattern recognition, 2019, 95: 12?23.
[13] WANG H, YANG Y, LIU B. GMC: Graph?based multi?view clustering [J]. IEEE transactions on knowledge and data engineering, 2019, 32(6): 1116?1129.
Study on community Qamp;A expert recommendation method based on fusion of graph neural network and multi?view learning
XIONG Weinan
(Faculty of Information Engineering and Automation, Kunming University of Science and Technology, Kunming 650500, China)
Abstract: Under the background of the rapid development of the Internet, community Qamp;A website questioners have a stronger demand for knowledge. Massive data poses difficulties for questioners in identifying effective information, making it particularly important to recommend more professional expert users to answer questions. However, it is difficult to accurately calculate the correlation between the object question raised by the questioner and the candidate experts by the traditional community Qamp;A expert recommendation methods. In order to improve the efficiency of expert recommendation in community Qamp;A websites, an undirected graph of the problem node relationship is constructed, and a graph neural network (GNN) GraphSAGE is used to extract the second?order neighbor information of nodes. The multi?view learning method is used to learn the complementary information between different views and finally obtain a rich vector representation of the object question text and the candidate expert′s historical question set, which is used to calculate the matching degree between the object question and the candidate expert, and then recommend the most suitable expert user to answer the object question. The experimental results show that, in comparison with different community Qamp;A expert recommendation methods, the proposed method has achieved better recommendation results on both the evaluation indicators MRR and NDCG@10.
Keywords: community Qamp;A; expert recommendation; GNN; multi?view learning; recommendation system; deep learning model
DOI:10.16652/j.issn.1004?373x.2024.09.021
引用格式:熊瑋楠.融合圖神經網絡與多視圖學習的社區問答專家推薦方法研究[J].現代電子技術,2024,47(9):115?118.
收稿日期:2023?11?06"""""""""" 修回日期:2023?11?29
熊瑋楠:融合圖神經網絡與多視圖學習的社區問答專家推薦方法研究
作者簡介:熊瑋楠(1997—),女,碩士,研究方向為推薦系統。