999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于特征擾動的半監督專家發現方法

2022-11-03 06:10:44陳卓張樊星杜軍威袁璽明
湖南大學學報(自然科學版) 2022年10期
關鍵詞:用戶模型

陳卓,張樊星,杜軍威,袁璽明

(青島科技大學信息科學技術學院,山東青島 266061)

問答社區模擬現實中的社區,使人們能夠突破時間與空間的限制,通過網絡聚集到一起,進行即刻交流和知識獲取.專家在問答社區中發揮著重要作用,因專家可為社區問答提供權威的答復,專家認可的問題和回答也更可信、更具推廣價值.

目前,問答社區普遍采用自動和人工兩種方式進行權威專家的評定.在自動評定方式中,用戶的權威性可根據用戶所在用戶組進行判定.用戶組等級越高,其在問答社區中的權威性也越高,但用戶需要依靠累計數據的評價制度才能成為權威專家.在人工評定方式中,用戶可以向問答社區版主或負責人發送自我介紹以及參與的高質量問答信息,申請成為權威專家.該方式雖然不需要用戶長期積累問答社區互動數據,但是人工審核不僅需要耗費大量的人力和時間成本,審核效率低下,而且該方式需要用戶發起申請,社區缺乏主動發現潛在權威專家的能力.

因此,如何高效精準地主動發現問答社區用戶中的權威專家,成為提升問答社區服務質量、提高用戶參與社區互動積極性、保障社區持續發展的關鍵技術問題.目前,專家發現問題普遍采用的監督學習模型難以有效解決問答社區數據中存在的以下兩個突出問題:社區用戶數據集中存在噪聲標簽數據、社區用戶數據集類別不平衡問題.

本文提出了一種基于特征擾動的半監督專家發現算法(Semi-supervised expert discovery method based on feature perturbation,SSED),其貢獻可以總結為以下兩點:

1)針對社區用戶數據集中存在噪聲標簽數據的問題,本文將疑似噪聲數據歸為無標簽數據,并構建一種無標簽數據的特征擾動策略,利用Sharpening算法實現無標簽數據的偽標簽化.

2)針對用戶類別不平衡問題,本文基于ADASYN(adaptive synthetic sampling)算法,通過構建專家用戶鄰近樣本的方式擴充專家樣本數據量,緩解分類數據的不平衡;構建聯合損失函數,利用有標簽和偽標簽數據共同訓練分類器,增強模型的泛化性能.

1 相關工作

1.1 專家發現算法

專家發現的目的是找到社區內擁有強大專業知識與解決問題能力的權威專家,學者們根據不同的數據特征,構建了相應的專家推薦模型.

從用戶個人特征角度出發,張高明[1]綜合考慮項目與專家的知識匹配度、項目間的相似性、用戶選擇偏好以及專家的歷史表現等因素,融合了基于內容特征、潛在主題特征、協同過濾的方法對用戶進行專家發現.Campos 等[2]從政客的個人資料和演講稿中獲取政客的專業知識,然后將政治會議的主題與政客的專業知識進行相似度計算,為會議尋找特定領域的專家.史玉珍[3]將h指數應用到個人學術水平評價中,并結合文獻特征使用層次聚類算法實現學術領域的專家發現.

從用戶網絡特征角度出發,龔凱樂[4]構建問題-用戶的權威值傳播網絡,利用答案質量改進加權的HITS 實現專家發現.薛凌云[5]融合用戶的線下行為信息和線上的關系信息,通過位置特征將線上虛擬空間和線下現實社會進行連接,提出了基于評論的本地專家發現算法.

通過進一步分析,不難發現利用上述專家發現方法進行專家發現時,都對訓練數據標注的準確性和數據規模有很高的要求,沒有充分考慮由于專家人數少導致的分類數據不平衡以及訓練集中存在噪聲標簽數據的問題.

1.2 半監督學習

半監督學習是機器學習的一個分支,用以解決在傳統監督學習任務中,訓練樣本不足導致的模型性能退化問題,常被應用于物品分類問題和圖片分類問題.半監督學習算法多數是對傳統的機器學習算法進行改進[6],將現有的監督算法擴展到半監督學習,即加入無標記樣本.

自訓練最早由Yarowsky[7]提出,應用于文本文檔消除詞義歧義,并由Triguero 等[8]將其歸類于最基本的偽標記方法.Kingma 等[9]采用疊加的生成模型來學習標記樣本和無標記樣本,使用SVM 對偽標記樣本進行分類.Rasmus 等[10]通過在每層解碼器和編碼器之間添加跳躍連接,在最高層添加分類器,將ladderNet 變成一個半監督模型.Weston 等[11]在網絡輸出層的目標函數和中間隱含層的目標函數中分別加入圖的拉普拉斯正則化項,實現半監督的分類和特征學習.Tanha 等[12]采用局部度量距離確定實例之間的置信度等級,提出一種決策樹分類器的半監督自訓練方法.毛銘澤等[13]從學習器的不同角度充分擴展模型的多樣性,提出了一種基于權值多樣性的半監督分類學習算法.

2 SSED模型

問答社區中專家人數比例極少,存在較嚴重的分類數據不平衡性問題.而且社區中現有的用戶級別信息無法準確評價用戶權威性,例如部分近一兩年內新注冊的用戶雖然級別不高,但積極參與社區問答且問題回答質量高.有鑒于半監督學習在處理小樣本標注信息[14]上的獨特優勢,本文提出SSED 算法進行問答社區專家發現.

SSED 的模型圖如圖1 所示,圖中包括了有標簽數據的不平衡處理、無標簽數據的輕微擾動操作、無標簽數據的偽標簽化以及損失計算四部分內容.

圖1 SSED模型圖Fig.1 SSED model diagram

2.1 有標簽數據的不平衡處理

本文實驗數據中有標簽的專家與普通用戶比例為1∶26,不平衡的數據會嚴重干擾損失函數的優化,進一步影響到分類器的性能,因此在輸入分類器之前,需要先降低數據的不平衡率.

ADASYN 算法由He 等人[15]提出,其原理是與負樣本的距離近的樣本仍是負樣本,該方法解決了隨即向上抽樣中簡單的復制所帶來的隨機性和重復問題.本文首先遍歷專家用戶,尋找與專家用戶特征相近的k個用戶,在專家和鄰近用戶之間生成新樣本,生成公式見式(1).

式中:uexpert表示專家用戶,ui(i=1,2,…,k)表示與uex-pert鄰近的用戶,k為超參數,rand(0,1)表示(0,1)之間的一個隨機數.

將產生的人造專家不斷加入原始有標簽數據集,計算專家與普通用戶的比例,直至專家與普通用戶比例為1∶1.

2.2 無標簽數據的輕微擾動

2.2.1 一致性正則化

半監督學習在訓練模型時,通過充分利用無標簽數據來增強模型的泛化能力[16],思路是對未標記的數據進行樣本特征的擾動操作,將這些增強的數據重新輸入分類器,同一樣本的不同擾動數據的預測結果應該保持一致.模型損失函數的傳統定義形式見式(2).

式中:xn表示無標簽數據,Augment 表示對xn做隨機增強產生的新數據,θ表示模型參數,yn表示模型的預測結果.

2.2.2 輕微擾動

借鑒一致性正則化思想,本文對無標簽用戶進行輕微擾動,將輕微擾動后的數據輸入分類器,其分類結果也應與未經擾動的無標簽數據預測結果一致.因為2.1 節使用的ADASYN 算法的設計思想為:在樣本的附近人工生成的樣本標簽與原樣本標簽保持一致.因此,本文使用ADASYN 算法對無標簽用戶數據進行輕微擾動,生成k個無標簽數據的輕微擾動樣本并輸入分類器,對于目標用戶的k個輕微擾動的輸出進行平均化,計算公式見式(3).

式中:pavg表示平均化后的預測分布,c表示分類器,k為擾動生成的樣本個數,ui表示無標簽樣本輕微擾動數據.

2.3 無標簽數據的偽標簽化

在2.2節中,本文首先對無標簽數據進行輕微擾動,將輕微擾動后的數據輸入模型,再將得到的結果平均化.對于大部分輸出結果應當是高置信度的,即專家的高密度區域和普通用戶的高密度區域應當有明顯邊界.

半監督學習普遍基于一個假設,即分類器的分類邊界不應該穿過任何一類的高密度區域.因此,本文對無標簽數據輕微擾動后輸出的結果進一步使用Sharpening 算法[17]實現最小化分類.Sharpening 算法對數據預測進行最小化熵的操作,使得輸出結果的交叉熵更低,即在預測專家時,要么大概率是專家,要么大概率是普通用戶,具體公式見式(4).

式中:p表示用戶屬于專家或普通用戶的概率,i表示類別,L表示類別數,T為超參數.T用于調節分類熵,通過降低T,促使模型產生低熵的預測,T越接近0,算法輸出的結果越接近獨熱編碼的分布,即社區用戶要么是專家,要么是普通用戶.

本文通過對分類器輸出的結果進行銳化,將預測的置信度提高.若該無標簽樣本不滿足銳化條件,則在本輪訓練中不計算該樣本.銳化判別公式見式(5).

式中:pas表示對同一個用戶輕微擾動k次的樣本預測平均值進行Sharpening 后的分布.max(pas)所屬的用戶類別作為該無標簽用戶的偽標簽,Tc為手動設置的置信度閾值.

2.4 聯合損失計算

在基于特征擾動的半監督專家發現方法中,模型的損失函數由三部分組成:監督損失Lu、非監督損失Lu′和相似對損失Lp,公式見式(6).

式中:α和β是Lu′和Lp的權重參數,接下來本文將分別介紹這三部分損失.

2.4.1 有標簽數據損失的定義

將有標簽數據和擾動生成的無標簽數據輸入模型,計算預測結果與實際標簽的交叉熵,利用該交叉熵表示有標簽數據損失,計算公式見式(7).

式中:ul表示原始的有標簽用戶數據,uADASYN表示ADASYN 算法生成的無標簽用戶數據,表示分類器對于樣本的預測結果,H表示交叉熵函數,θ表示模型參數集合.

2.4.2 無標簽數據損失的定義

計算分類網絡預測的輕微擾動樣本與原始無標簽樣本之間的距離,利用該距離表示無標簽數據損失,計算公式見式(8).

式中:u′表示無標簽用戶數據;pas表示對無標簽數據進行偽標簽化后的分布,若分布大于閾值Tc,則將其看作樣本的偽標簽,進一步計算分類器對于原始無標簽數據的分類結果;Lu′則表示所有數據的偽標簽與原始數據預測標簽的L2損失的均值.

2.4.3 相似對損失的定義

相似對損失的計算過程如圖2 所示,對于無標簽數據,其原始數據輸入分類器的預測結果不僅應該和該用戶本身的偽標簽一致,與相似偽標簽用戶的偽標簽也應該保持一致.因此本文引入了一個新的損失項——相似對損失,它允許信息在不同的無標簽用戶之間隱式傳播.在相似對損失中,本文使用無標簽數據的一個高置信度的預測作為偽標簽p.

圖2 計算相似對損失的流程Fig.2 Process of calculating the loss of similarity pairs

對于用戶u1和用戶u2,若其偽標簽p1和p2的相似度超過閾值Tsim,那么分類器對于用戶u2預測的概率向量分布與偽標簽p1之間也應該保持一個較短的距離.相似對損失的公式見式(9).

式中:i和j表示偽標簽樣本表示模型對xj預測的概率向量,H表示所有偽標簽的概率向量之間相似對的數量,u′表示無標簽用戶.

本文采用巴氏距離計算兩個偽標簽的相似度,計算公式見式(10).

兩個概率向量的差異計算公式見式(11).

3 實驗與分析

3.1 實驗數據集

為了驗證系統的有效性和實用性,本文使用海川化工論壇的用戶及問答信息構建實驗數據集.在該論壇數據中選取的6 017 名用戶中,僅有148 名專家用戶,有3 884人作為普通用戶,其余1 985人作為無標簽數據,選取結果見表1.

表1 問答社區數據集Tab.1 Dataset of the CQA

本文將用戶歷史回答能力的向量、用戶認可度表示和用戶自編碼后的個人特征拼接后作為用戶特征,選用DeepFM 作為分類器進行模型訓練,并對其實驗結果進行統計與分析.

3.2 評價指標

為了能夠評估模型的準確性和泛化性能,在每次評估模型效果時,本文對所有用戶進行重新專家評定,采用Answeravg、Moneyavg和Rankavg作為模型性能的評價指標.

平均回答問題數計算公式見式(12).

式中:T表示該組用戶回答的總條數,P表示該組用戶的總人數.

平均回答單條問題所獲財富值數的計算公式見式(13).

式中:mi表示用戶的回答i所獲得的財富值.

用戶平均回答單條問題所獲財富值排名的計算公式見式(14).

式中:ri表示用戶的回答i所獲得的財富值在所屬問題中的排名,cti表示i所屬問題下回答的總數.

3.3 參數設定

SSED 模型的超參數有輕微擾動的參數k、偽標簽化的參數Tc、損失函數中的α和β,共四個.本文通過實驗對比了問答社區數據集中,不同參數k、Tc以及α、β取值時,SSED 模型的專家發現效果,實驗結果見表2至表4.

表2 不同輕微擾動參數k的專家發現效果對比Tab.2 Comparison of expert discovery of different slight perturbation parameters k

表3 不同偽標簽化參數Tc的專家發現效果對比Tab.3 Comparison of expert discovery of different pseudo-labeled parameters Tc

表4 不同損失函數參數α和β的專家發現效果對比Tab.4 Comparison of expert discovery of different loss function parameters α and β

由表2 至表4 可知,當輕微擾動的參數k取3,偽標簽化的參數Tc取0.80,損失函數中α取100、β取120時,專家發現效果最好.因此,在下文的消融和對比實驗中,選取了本節中各最優參數值作為各超參數的取值.

3.4 消融實驗

本文選取了2.4節中的三個損失,由于問答社區即使不使用無標簽數據,也依然可以完成專家推薦.因此,當只輸入損失Lu時,分類器模型為監督學習.本文通過輸入不同損失計算模型的預測效果,實驗結果見表5.

表5 不同損失的專家發現效果對比Tab.5 Comparison of expert discovery between loss

通過分析表5 可知,監督學習模型由于數據較少,發現的專家回答問題的質量不如半監督學習的效果出色.這證明了對于問答社區數據使用半監督算法的有效性,同時證明了加入本文提出的相似對損失能夠進一步提升分類器的性能.

3.5 對比實驗

為了評估SSED 算法的性能,本文選擇以下三種半監督模型作為基線方法進行對比實驗.

S4VM[18]模型:該模型試圖找到能夠正確劃分有標記樣本且穿過特征空間中密度最低的區域的多個超平面.

SSWL[19]模型:通過考慮實例相似度和標簽相似度來彌補缺失的標簽.

UDEED[20]模型:通過對未標記的數據增加多樣性來促進集成學習對于有監督數據的訓練結果.

SSED 與基線方法在數據集上,按照9∶1 劃分訓練集和測試集.關于模型對比實驗結果如表6所示.

表6 不同模型之間的專家發現效果對比Tab.6 Comparison of expert findings between different models

表6 中顯示了在三個評價指標下,SSED 算法在社區論壇數據上的表現優于其他三種半監督基線模型,驗證了本文方法的有效性和可行性.

4 結論

專家能為問答社區提供高質量回復,提高問題解決效率,因此準確高效的專家發現是問答社區持續發展所面臨的一個重要問題.已有專家發現方法通常采用監督學習模型,難以有效處理社區用戶數據集中存在的噪聲標簽數據以及分類數據的不平衡問題.

本文提出SSED 模型,利用過采樣技術平衡有標簽數據樣本,采用無標簽數據特征擾動策略進行數據增強,通過有標簽和偽標簽數據共同訓練分類器,增強模型的泛化性能.實驗結果表明,SSED 模型在多個評價指標上優于已有模型和方法.

由于ADASYN 算法在生成人造樣本和擾動數據時存在一定誤差,在計算無標簽數據輕微擾動時容易發生誤差累積的問題.后續可以基于用戶短期的問答行為進一步改進專家樣本生成方法,使其在保持專家樣本主要特征的基礎上,具備更加豐富的個性化特征,進一步避免專家樣本的單一化,減少累積誤差.

猜你喜歡
用戶模型
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
關注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
3D打印中的模型分割與打包
關注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
關注用戶
商用汽車(2016年4期)2016-05-09 01:23:12
FLUKA幾何模型到CAD幾何模型轉換方法初步研究
Camera360:拍出5億用戶
創業家(2015年10期)2015-02-27 07:55:08
100萬用戶
創業家(2015年10期)2015-02-27 07:54:39
主站蜘蛛池模板: 国产正在播放| 天天色天天综合| 国产福利小视频高清在线观看| 欧美a网站| 国产成人禁片在线观看| 波多野结衣第一页| 精品福利视频网| 国产美女精品一区二区| 99热这里只有精品免费| 国产第二十一页| 亚洲日产2021三区在线| 福利一区在线| 久久久久免费看成人影片| 亚洲国产精品日韩欧美一区| 青青草国产在线视频| 午夜毛片免费看| 国产精品一区在线麻豆| 波多野结衣无码AV在线| 国产农村1级毛片| 亚洲欧美日韩动漫| 日韩A级毛片一区二区三区| 一区二区三区精品视频在线观看| 国产一级二级三级毛片| 成·人免费午夜无码视频在线观看| 麻豆精品在线视频| 国产白丝av| a毛片免费看| 日韩在线永久免费播放| 五月天在线网站| 亚洲三级电影在线播放 | 亚洲国产欧美国产综合久久 | 日韩欧美91| 亚洲精品国产成人7777| 国产极品美女在线观看| 在线免费观看AV| 日韩精品成人在线| 久久成人18免费| 日韩精品无码一级毛片免费| 国产精品3p视频| 国产成人91精品免费网址在线| 久久夜夜视频| 女同久久精品国产99国| 免费高清a毛片| 国产jizzjizz视频| 亚洲福利片无码最新在线播放| 国产极品嫩模在线观看91| 精品国产一区91在线| 国产成人免费观看在线视频| 亚洲a免费| 一本色道久久88综合日韩精品| 中文字幕人妻av一区二区| 操国产美女| 激情五月婷婷综合网| 美女被操黄色视频网站| 黄色一及毛片| 亚洲欧美一级一级a| 蜜臀av性久久久久蜜臀aⅴ麻豆 | 亚洲香蕉在线| 国产欧美在线| 少妇高潮惨叫久久久久久| 久草视频中文| 一级成人a做片免费| 激情无码视频在线看| 国产免费a级片| 伊人精品成人久久综合| 中文字幕人成乱码熟女免费| 亚洲综合狠狠| 国产理论精品| 国产午夜福利片在线观看| 三级国产在线观看| av在线无码浏览| 无码国产偷倩在线播放老年人| 国产精品污视频| 亚洲欧美精品一中文字幕| 热久久综合这里只有精品电影| 综合色在线| 国产成人午夜福利免费无码r| 欧美a网站| 波多野结衣国产精品| 在线观看免费国产| 99成人在线观看| 99视频在线免费观看|