摘要:專家推薦是在線問答社區的研究熱點之一,但現有的算法大多關注用戶的靜態興趣和問題信息的匹配,忽視了對用戶的動態興趣表征信息的有效捕捉,從而導致推薦的準確度不足。針對上述問題,提出了融合多頭自注意力的問答社區專家推薦算法。首先,構造由卷積神經網絡和注意力機制組成的問題編碼器,來處理目標問題和用戶歷史回答問題,提取對應的問題表征;其次,將用戶歷史回答問題序列當做時間序列,利用多頭自注意力機制學習序列中所蘊涵的動態興趣表征,結合用戶的靜態興趣表征,獲取用戶的綜合興趣表征;最后,將目標問題表征和用戶綜合表征進行相似性計算產生推薦結果。利用來自知乎問答社區的真實數據進行了不同參數配置及不同算法的對比實驗,實驗結果表明該算法性能要明顯優于目前較流行的深度學習專家推薦算法。
關鍵詞:深度學習;卷積神經網絡;多頭自注意力機制;專家推薦;社區問答
中圖分類號:TP391文獻標志碼:A文章編號:1001-3695(2023)05-026-1452-07doi:10.19734/j.issn.1001-3695.2022.09.0467
0引言
隨著互聯網的普及,人們的學習方式更加多元化,在線分享知識與經驗逐漸成為流行,用戶可以通過在線問答社區發布問題,收獲由其他知識豐富的用戶所提供的解答,這種學習方式可以有效地促進知識傳播[1,2]。在大數據背景下,隨著用戶的大量涌入和生成內容的爆發式增長,平臺需要處理的數據不僅龐大且復雜多樣,若社區內的大量問題未獲得高質量回答,平臺的用戶粘性就會下降[3]。如何將問題推薦給可能解答的專家用戶,以及如何挖掘平臺用戶的興趣,將成為在線問答社區面臨的重大挑戰。因此,在線問答社區需要一個智能的推薦系統協助用戶過濾不相關的信息,發現用戶感興趣的問題,創建個性化的知識推薦服務。
推薦系統的核心是推薦算法,而算法的準確度則依托于特征信息提取的有效性,傳統的機器學習方法依賴于人工構建特征質量,難以學習到表達力更強的深度語義特征。一些工作將深度學習的方法應用于專家推薦算法中,如卷積神經網絡(convolutionalneuralnetwork,CNN)、循環神經網絡(recurrentneuralnetwork,RNN)、注意力機制(attentionmechanism)等,提升了推薦算法的準確度[4]。然而,隨著專家推薦問題研究的逐漸深入,研究者發現在實際的推薦場景中,用戶的新知識會不斷積累,其感興趣的問題也會發生變化,可見,用戶的興趣并非一成不變,甚至存在短期的興趣漂移現象[5]。更進一步的研究表明,用戶的長期興趣偏好相對穩定,而用戶在短時間內的興趣偏好則呈現出靈活多變、難以捕捉的特性。但已有實驗證明,相對于長期興趣偏好,短期興趣具有更強的表達能力,也更能反映出用戶未來的興趣需求[6,7]。
雖然相關工作很好地實現了專家推薦,但是大多忽視了用戶短期的動態興趣變化,僅根據用戶的長期關注話題等靜態特征刻畫用戶興趣,這使得產生的推薦結果不夠靈活精確,難以滿足用戶短時間內的興趣需求。為了提高推薦的質量,推薦算法是否能夠學習到更為精確的用戶的動態興趣表征十分關鍵。
事實上,在專家用戶推薦問題中,用戶回答信息包含的近期歷史數據就具有明顯的時序關系,對其進行序列分析就可以捕捉用戶的動態興趣變化,并以此提高推薦質量。RNN雖被廣泛地應用于序列建模,但其僅考慮序列內相鄰項目的轉移關系,無法捕捉任意兩個項目間的轉移依賴,也會導致特征信息的丟失。多頭自注意力(multi-headself-attention,MHA)機制擅長捕捉序列內任意兩個項目之間的相關性,其核心的自注意力機制可以將序列中的不同位置聯系起來,計算出蘊涵動態關系的序列表示,多頭的特性則利于捕捉不同子空間的豐富信息,與循環神經網絡固有的順序性質相比,可以并行計算,避免丟失序列前端信息,有效地利用計算資源[8]。因此,采用該方法處理歷史回答問題序列可以挖掘出用戶的短期動態興趣。
綜上所述,本文提出了融合多頭自注意力的問答社區專家推薦算法,命名為MDSIUR(incorporatingmultiheadself-attentionmechanismtoextractdynamicandstaticinterestrepresentationsforuserrecommendation),綜合考慮用戶的動靜態興趣表征,采用多頭自注意力機制提取用戶的動態興趣表征,根據用戶的歷史回答問題序列動態地捕捉用戶的短期興趣變化,使得推薦結果更具有實時性。本文的主要工作和貢獻如下:
a)使用預訓練詞嵌入模型在語義空間上獲取問題主題和問題標題的詞嵌入表示。利用CNN和Attention對問題描述信息進行特征提取,CNN可以準確捕捉詞的上下文信息,而注意力機制則對提取的特征賦予不同程度的關注度。將兩種方法結合構造出問題編碼器,既補充了預訓練模型中遺忘的上下文信息,又強調了問題的重要信息,抑制了無關信息,提高了算法的準確性。
b)采用MHA機制處理用戶的歷史回答問題序列,動態地捕捉用戶歷史行為中所蘊涵的興趣變化的特征信息。該結構特性既避免了序列前端信息的丟失,又可以學習豐富的特征信息。另外,結合用戶的長期關注主題對應的嵌入表示,作為用戶的靜態興趣表征,構造了可有效提取用戶動靜態興趣的用戶編碼器。
c)將用戶綜合興趣特征和目標問題特征進行點積運算,再通過全連接層獲得相似度,產生推薦結果。在知乎問答社區的真實數據集上,與目前流行的深度學習專家推薦算法進行實驗對比,結果表明MDSIUR算法在推薦性能上有明顯提升。
1相關工作
專家推薦是在線問答社區的一大挑戰,也是近年來學術界和工業界研究的一個熱門課題。早期的專家推薦主要是基于鏈接分析的方法,通過對社區用戶之間的問答關系建模來發現專家用戶,代表算法有PageRank算法[9]、基于超鏈接的主題搜索算法(hyperlinkinducedtopicsearch,HITS)[10]及其變體[11]。后來,提出了基于文本分析的方法來解決該問題,通過對用戶的回答記錄的文本信息進行建模來發現專家用戶。由于涉及到文本處理和文本挖掘,一些學者考慮將自然語言處理的先進技術引入模型。例如,使用查詢似然語言模型(querylikelihoodlanguage,QLL)[12]、概率潛在語義分析主題模型(probabilisticlatentsemanticanalysis,PLSA)[13]和隱含狄利克雷分布主題模型(latentDirichletallocation,LDA)[14]等方法計算問題和用戶配置信息的匹配程度。后續研究中,一些工作將專家識別問題轉換為分類問題,并采用支持向量機[15]、隨機森林[16]、決策樹[17]等方法來解決問題,其目的是區分某一類問題對應的專家用戶和普通用戶。這種方法可以從用戶、問題、回答或用戶間交互的角度,將多方面的特征應用于專家推薦問題。
近年來,隨著人工智能技術的發展,深度學習相關技術在推薦系統中也得到了廣泛的應用,并且取得了良好的效果。與上述傳統的專家推薦方法相比,基于深度學習的方法優勢有:a)無須人工構建各種復雜的特征,增強了推薦的有效性和可擴展性;b)通過深層神經網絡結構能夠學習到抽象的高階特征交互信息,另外使用tanh等非線性激活函數可以提取非線性的特征信息,使得模型的表達能力更強;c)模型能夠融入文本、圖像等異構數據,更充分地進行數據挖掘[4]。
在基于深度神經網絡的方法中最具代表性的是CNN和RNN的應用。CNN常用于文本編碼,其核心結構卷積層可以很好地學習到局部語義特征,池化層則可以學習全局語義特征,最后使用全連接層來總結特征[18]。比如,Wang等人[19]提出了一種細粒度興趣匹配方法FIM,利用3D-CNN模型從用戶歷史交互項目和候選項目的語義相關性來建模用戶對候選項目的興趣。RNN擅長處理學習時間序列特征,模擬序列數據間的影響關系。用戶的決策往往會受到過往經驗的影響,故一些工作將用戶的歷史記錄抽象為序列信息,輸入RNN中訓練提取用戶的動態興趣特征[20]。Zhao等人[21]提出了一種排序度量網絡學習框架,利用用戶對給定問題的相對質量排名及其社會關系來尋找專家,還開發了一種基于RNN模型的隨機漫步學習方法來對度量網絡嵌入進行排序。后續又衍生了許多RNN變體模型,代表模型有長短期記憶循環網絡(longshorttermmemory,LSTM)[22]、門控循環網絡(gatedrecurrentunit,GRU)[23]、雙向變體模型Bi-LSTM[24]和Bi-GRU[25]。這些變體模型相比傳統RNN增加了保存長期狀態的隱藏單元,利用各種門來控制單元間的信息傳遞,更有效地對序列間的依賴關系進行建模。為了綜合各種神經網絡模型的優勢,也有學者采用混合的神經網絡模型并引入注意力機制,對提取的特征賦予不同程度的關注度,進一步提升了推薦性能[26~30]。
上述相關工作很好地實現了專家推薦,然而在實際推薦場景中,用戶的短期興趣是動態的,而各種模型在提取用戶的動態興趣表征上仍有不足。大部分算法專注于對用戶的靜態興趣進行建模,忽略了用戶興趣的短期動態變化,沒有充分考慮用戶當下的個性化需求,RNN雖然考慮了用戶的歷史序列信息,但是只可以提取序列內相鄰問題之間的轉移關系,無法捕捉序列內任意兩個問題之間的相關性,固有的結構特性又使其只能按順序對序列項目逐個進行計算,無法并行計算,容易損失序列前端的信息,這些因素會使得推薦的準確度有所下降。針對上述問題,本文采用多頭自注意力機制網絡來提取用戶的動態興趣表征,其優勢在于可以捕捉用戶的歷史回答序列中任意兩個問題之間的相關性,以此提高推薦的準確度,而且可以并行計算,不會隨著序列長度增加而損失序列的前端信息,同時利用多頭的特性可以捕捉豐富的表征信息。
2問題描述
本文將問答社區的專家推薦問題定義為問題—用戶的匹配問題,目標是通過訓練集構建的模型f獲取問題—用戶的匹配度,判斷用戶是否會接受某個問題的邀請。具體的問題描述為:假設Q表示問題集合,U表示用戶集合,問題樣本表示為qx,用戶樣本表示為ux,給定問題—邀請用戶對為[qx,ux],標簽為yx∈{0,1},其中0表示用戶未接收問題邀請,1表示為用戶接收邀請并回答,N個訓練樣本[qx,ux,yx]即構成訓練數據集,利用訓練數據集構建模型f,并定義損失函數優化模型,判斷用戶是否會接受某個問題的邀請,即標簽yx為0或為1。
3MDSIUR算法
MDSIUR算法的整體簡化架構如圖1所示。它包括三個組件:a)問題編碼器采用CNN和Attention機制相結合的方法,從問題標題和問題主題中學習問題的表征信息;b)用戶編碼器為核心組件,通過注入多頭自注意力機制來捕捉用戶的動態興趣變化,結合從用戶的長期關注主題中提取的用戶的靜態興趣表示,獲取用戶的綜合興趣表征;c)預測器由多個全連接層組成,將用戶側輸出結果和問題側輸出結果進行匹配,產生推薦結果。
3.1問題編碼器
問題的描述信息包括問題標題信息及其所屬的主題詞信息。對問題側的特征編碼,需要提取問題標題和問題主題中蘊涵的信息作為問題標簽,將其與專家用戶的興趣標簽進行匹配,其結構如圖2所示。將數據集中的所有問題記錄進行訓練,構造出問題側的編碼器。具體步驟如下:
3.2用戶編碼器
用戶的近期歷史回答問題序列反映了用戶的短期動態興趣變化,而用戶主動關注的主題則代表用戶的長期靜態興趣。因此,構造用戶編碼器對用戶的歷史回答問題序列和用戶關注主題進行特征編碼,獲取用戶側的最終向量表示,其結構如圖3所示。
4實驗結果及分析
4.1數據集介紹
本文的實驗數據來自于BienData平臺發布的知乎問答數據集。知乎是一個中文互聯網高質量的在線問答社區,讓人們可以在碎片化的時間里利用移動設備來便捷有效地進行知識、經驗、見解的分享。數據集中包含用戶和問題的相關信息,如用戶—問題的邀請信息、用戶信息、問題信息、用戶歷史回答信息等,其基本統計信息如表1所示。
4.4參數設置
實驗中,所有模型均基于TensorFlow+Keras實現。樣本數據集被劃分為訓練集和測試集,訓練集94943條,測試集11365條,兩者之間沒有重疊。每次實驗采用5折交叉驗證,將訓練集隨機劃分為5份,其中4份作為訓練集,剩余1份作為驗證集,循環5次訓練,模型的驗證精度是5次的平均值。另外,模型訓練過程中,還應用了早停機制[32]和dropout正則化機制[33],以防止模型過擬合,損失函數采用二元交叉熵,優化器為Adam算法[34]。具體參數如下:詞向量的嵌入維度為64。CNN的過濾器數量為64,窗口滑動步長為1,窗口大小為3。多頭自注意力網絡設置為單層結構,有2個head,嵌入矩陣E大小為6×64。在最終的預測器模塊中,全連接層結構為4層,其神經元節點大小逐層遞減,分別為1024、512、256、128。批處理大小設置為2048,學習率為0.00001,dropout設置為0.3。
4.5實驗結果
本節將MDSIUR算法與其他基線方法進行對比。圖7~9展示了MDSIUR算法在不同全連接層結構下的實驗結果,可以看出,4層全連接層的效果最好,更多的全連接層反而會引起過擬合,從而降低算法的準確度。因此,將全連接層數固定為4層。
圖10~12展示了所有算法在不同迭代次數下的預測結果。可以看出,隨著迭代次數增加,AUC值和ACC值逐漸增加,算法的損失值逐漸減少。而迭代4次后的變化已經不明顯,考慮到計算資源的消耗和運行的時間,將迭代次數也固定為4次。
表2展示了所有算法在不同比例的訓練數據下的預測效果。采用30%訓練數據時,算法也有一定的精度,說明預訓練的詞嵌入表示使得算法具有魯棒性,可以緩解數據稀疏問題;隨著訓練數據增加,算法性能也逐漸提升,說明訓練數據越多,模型提取的特征就越準確,可以更精確地刻畫用戶興趣。采用100%比例的訓練數據時,通過對比所有算法的評估指標值變化可知,ESIM算法的效果較差,LSTM算法要優于GRU算法,Bi-LSTM和DSIERM算法采用了雙向機制,比起單向的LSTM算法更優,FIM算法則使用堆疊的擴展卷積神經網絡在細粒度上進一步匹配用戶興趣和問題語義特征,獲得了更優的性能表現。而本文提出的MDSIUR算法整體性能要明顯優于上述算法,說明多頭自注意力機制可以提取到更豐富的用戶動態興趣特征表示,且并行輸入的網絡結構比起依次輸入的網絡結構,會減少信息的丟失。
4.6案例展示
針對問答社區的專家推薦問題,給出具體案例下MDSIUR算法與其他基線方法的預測結果對比。表3展示了從真實的知乎問答數據集中隨機選取的四組用戶—問題邀請對,對其采用不同的推薦方法時所獲取的預測概率得分;圖13展示了部分樣本的可視化結果,可以發現MDSIUR算法所得結果相比于其他基線方法,可以更精準地區分用戶是否為愿意接受該問題邀請的專家用戶,即對于正樣本而言,其預測得分會更加趨近1,而對于負樣本,其預測得分更趨近0。
5結束語
針對用戶的動態興趣表征提取不足而導致的問答社區專家推薦準確度不足的問題,本文提出了融合多頭自注意力的問答社區專家推薦算法。首先,構造由CNN和Attention組成的問題編碼器,來處理目標問題和用戶歷史回答問題,提取對應的問題表征;其次,根據用戶歷史回答問題序列,采用多頭自注意力機制學習序列中所蘊涵的動態興趣表征,并結合用戶的靜態興趣表征,獲取用戶的綜合興趣表征;最后,將目標問題表征和用戶綜合表征進行相似性計算產生推薦結果。實驗結果表明,與現有的幾種較流行的專家推薦算法相比,MDSIUR算法在推薦性能上得到了有效提升。在未來的研究中,將進一步考慮在本文算法的基礎上進行模型壓縮和剪枝來降低算法的時間復雜度和空間復雜度。
參考文獻:
[1]吳智勇.知識貢獻行為的非經濟動力因素分析——以非營利性網絡問答社區為例[J].現代商貿工業,2017(33):1-2.(WuZhiyong.Ananalysisofthenon-economicdrivingfactorsofknowledgecontributionbehavior:acasestudyofnon-profitonlineQamp;Acommunity[J].ModernBusinessTradeIndustry,2017(33):1-2.)
[2]方軍.知識付費:互聯網知識經濟的興起[J].互聯網經濟,2017(5):72-77.(FangJun.Payingforknowledge:theriseoftheinternetknowledgeeconomy[J].DigitalEconomy,2017(5):72-77.)
[3]李鵬.基于用戶興趣模型和社團挖掘的推薦方法研究[D].蘭州:蘭州大學,2019.(LiPeng.Recommendationmethodbasedonuserinterestmodelandcommunitydetection[D].Lanzhou:LanzhouUniversity,2019.)
[4]劉方愛,王倩倩,郝建華.基于深度神經網絡的推薦系統研究綜述[J].山東師范大學學報:自然科學版,2021,36(4):325-336.(LiuFang’ai,WangQianqian,HaoJianhua.Asurveyofrecommendationsystembasedondeepneuralnetwork[J].JournalofShandongNormalUniversity:NaturalScience,2021,36(4):325-336.)
[5]YinHongzhi,ZhouXiaofang,CuiBin,etal.AdaptingtouserinterestdriftforPoIrecommendation[J].IEEETransonKnowledgeandDataEngineering,2016,28(10):2566-2581.
[6]SunKe,QianTieyun,ChenTong,etal.Wheretogonext:modelinglong-andshort-termuserpreferencesforpoint-of-interestrecommendation[C]//Procofthe34thAAAIConferenceonArtificialIntelligence.PaloAlto,CA:AAAIPress,2020:214-221.
[7]YuZeping,LianJianxun,MahmoodyA,etal.Adaptiveusermodelingwithlongandshorttermpreferencesforpersonalizedrecommendation[C]//Procofthe28thInternationalJointConferenceonArtificialIntelligence.PaloAlto,CA:AAAIPress,2019:4213-4219.
[8]VaswaniA,ShazeerN,ParmarN,etal.Attentionisallyouneed[C]//Procofthe31stInternationalConferenceonNeuralInformationProcessingSystems.RedHook,NY:CurranAssociatesInc.,2017:6000-6010.
[9]JurczykP,AgichteinE.Discoveringauthoritiesinquestionanswercommunitiesbyusinglinkanalysis[C]//Procofthe16thACMConferenceonInformationandKnowledgeManagement.NewYork:ACMPress,2007:919-922.
[10]JurczykP,AgichteinE.Hitsonquestionanswerportals:explorationoflinkanalysisforauthorranking[C]//Procofthe30thAnnualInternationalACMSIGIRConferenceonResearchandDevelopmentinInformationRetrieval.NewYork:ACMPress,2007:845-846.
[11]ShahriariM,ParekodiS,KlammaR.Community-awarerankingalgorithmsforexpertidentificationinquestion-answerforums[C]//Procofthe15thInternationalConferenceonKnowledgeTechnologiesandData-drivenBusiness.NewYork:ACMPress,2015:articleNo.8.
[12]ZhengXiaolin,HuZhongkai,XuAiwu,etal.Algorithmforrecommendinganswerprovidersincommunity-basedquestionanswering[J].JournalofInformationScience,2012,38(1):3-14.
[13]XuFei,JiZongcheng,WangBin.Dualrolemodelforquestionrecommendationincommunityquestionanswering[C]//Procofthe35thInternationalACMSIGIRConferenceonResearchandDevelopmentinInformationRetrieval.NewYork:ACMPress,2012:771-780.
[14]SahuTP,NagwaniNK,VermaS.TagLDAbaseduserpersonamodeltoidentifytopicalexpertsfornewlypostedquestionsincommunityquestionansweringsites[J].InternationalJournalofAppliedEngineeringResearch,2016,11(10):7072-7078.
[15]JiZongcheng,WangBin.Learningtorankforquestionroutingincommunityquestionanswering[C]//Procofthe22ndACMInternationalConferenceonInformationamp;KnowledgeManagement.NewYork:ACMPress,2013:2363-2368.
[16]BurelG,MulhollandP,HeYulan,etal.Predictingansweringbeha-viourinonlinequestionansweringcommunities[C]//Procofthe26thACMConferenceonHypertextamp;SocialMedia.NewYork:ACMPress,2015:201-210.
[17]PalA,FarzanR,KonstanJA,etal.Earlydetectionofpotentialexpertsinquestionansweringcommunities[C]//Procofthe19thInternationalConferenceonUserModeling,Adaption,andPersonalization.Berlin:Springer,2011:231-242.
[18]LeiTao,ShiZhizhong,LiuDuoxing,etal.AnovelCNN-basedmethodforquestionclassificationinintelligentquestionanswering[C]//ProcofInternationalConferenceonAlgorithms,ComputingandArtificialIntelligence.NewYork:ACMPress,2018:articleNo.54.
[19]WangHeyuan,WuFangzhao,LiuZheng,etal.Fine-grainedinterestmatchingforneuralnewsrecommendation[C]//Procofthe58thAnnualMeetingoftheAssociation-for-Computational-Linguistics.Stroudsburg,PA:AssociationforComputationalLinguistics,2020:836-845.
[20]DuChangshun,HuangLei.Textclassificationresearchwithattention-basedrecurrentneuralnetworks[J].InternationalJournalofComputersCommunicationsamp;Control,2018,13(1):50-61.
[21]ZhaoZhou,YangQifan,CaiDeng,etal.Expertfindingforcommunity-basedquestionansweringviarankingmetricnetworklearning[C]//Procofthe25thInternationalJointConferenceonArtificialIntelligence.PaloAlto,CA:AAAIPress,2016:3000-3006.
[22]GreffK,SrivastavaRK,KoutníkJ,etal.LSTM:asearchspaceodyssey[J].IEEETransonNeuralNetworksandLearningSystems,2016,28(10):2222-2232.
[23]KorotaevA,LyadovaL.Methodforthedevelopmentofrecommendationsystems,customizabletodomains,withdeepGRUnetwork[C]//Procofthe10thInternationalConferenceonKnowledgeEngineeringandOntologyDevelopment.[S.l.]:SciTePress,2018:229-234.
[24]HameedZ,GarciaZB.Sentimentclassificationusingasingle-layeredBiLSTMmodel[J].IEEEAccess,2020,8:73992-74001.
[25]LiuYuwen,SongZuolong,XuXiaolong,etal.BidirectionalGRUnetworks-basednextPOIcategorypredictionforhealthcare[J].InternationalJournalofIntelligentSystems,2022,37(7):4020-4040.
[26]TangQinting,LiJian,ChenJiayu,etal.Fullattention-basedBi-GRUneuralnetworkfornewstextclassification[C]//Procofthe5thInternationalConferenceonComputerandCommunications.Piscataway,NJ:IEEEPress,2019:1970-1974.
[27]KangGuosheng,XiaoYong,LiuJianxun,etal.Tatt-BiLSTM:Webserviceclassificationwithtopicalattention-basedBiLSTM[J].ConcurrencyandComputation:PracticeandExperience,2021,33(16):e6287.
[28]ChenGuibin,YeDeheng,XingZhenchang,etal.Ensembleapplicationofconvolutionalandrecurrentneuralnetworksformulti-labeltextcategorization[C]//ProcofInternationalJointConferenceonNeuralNetworks.Piscataway,NJ:IEEEPress,2017:2377-2383.
[29]呂曉琦,紀科,陳貞翔,等.結合注意力與循環神經網絡的專家推薦算法[J].計算機科學與探索,2022,16(9):2068-2077.(LyuXiaoqi,JiKe,ChenZhenxiang,etal.Expertrecommendationalgorithmbycombiningattentionandrecurrentneuralnetwork[J].JournalofFrontiersofComputerScienceandTechnology,2022,16(9):2068-2077.)
[30]AnMingxiao,WuFangzhao,WuChuhan,etal.Neuralnewsrecommendationwithlong-andshort-termuserrepresentations[C]//Procofthe57thAnnualMeetingoftheAssociationforComputationalLinguistics.Stroudsburg,PA:AssociationforComputationalLinguistics,2019:336-345.
[31]ChenQian,ZhuXiaodan,LingZhenhua,etal.EnhancedLSTMfornaturallanguageinference[C]//Procofthe55thAnnualMeetingoftheAssociationforComputationalLinguistics.Stroudsburg,PA:AssociationforComputationalLinguistics,2017:1657-1668.
[32]PrecheltL.Earlystopping-butwhen?[M]//NeuralNetworks:TricksoftheTrade.Berlin:Springer,1998:55-69.
[33]SrivastavaN,HintonG,KrizhevskyA,etal.Dropout:asimplewaytopreventneuralnetworksfromoverfitting[J].JournalofMachineLearningResearch,2014,15(1):1929-1958.
[34]KingmaDP,BaJ.Adam:amethodforstochasticoptimization[EB/OL].(2017-01-30).https://arxiv.org/pdf/1412.6980.pdf.