999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

一種在線學(xué)習(xí)社區(qū)的學(xué)習(xí)者情感識別方法研究

2021-05-10 12:21:22葉俊民廖志鑫宋家琦唐文韜葛沛鑫劉亭玉
小型微型計算機系統(tǒng) 2021年5期
關(guān)鍵詞:語義分類特征

葉俊民,廖志鑫,宋家琦,唐文韜,葛沛鑫,劉亭玉,曾 僖,劉 靜

(華中師范大學(xué) 計算機學(xué)院,武漢 430079)

1 引 言

隨著5G等信息技術(shù)的高速發(fā)展,在線學(xué)習(xí)已經(jīng)成為學(xué)習(xí)者獲取新知識的途徑,在線學(xué)習(xí)社區(qū)就是實現(xiàn)這一途徑的具體載體,其具體實例包括MOOC和QQ群等不同形式.在線學(xué)習(xí)不受學(xué)習(xí)時間和學(xué)習(xí)地點的限制,學(xué)習(xí)者可以利用自己的碎片時間自主選擇有興趣的課程進(jìn)行學(xué)習(xí).在線學(xué)習(xí)過程中如何根據(jù)學(xué)習(xí)者的情感促進(jìn)學(xué)習(xí)者持續(xù)不斷的學(xué)習(xí)是一個非常值得研究的課題.眾所周知,學(xué)習(xí)者的情緒與其學(xué)習(xí)績效有著密切的聯(lián)系,如積極情感有助于激發(fā)學(xué)習(xí)者的學(xué)習(xí)興趣,促進(jìn)學(xué)習(xí)者在學(xué)習(xí)中的有效認(rèn)知過程;而消極情感則會分散其注意力,影響其在學(xué)習(xí)過程中的信心與耐心,對學(xué)習(xí)者的認(rèn)知過程產(chǎn)生阻礙,這將影響到學(xué)習(xí)者的學(xué)習(xí)成效[1].這一結(jié)論對在線學(xué)習(xí)社區(qū)的學(xué)習(xí)者尤為重要,由于在在線學(xué)習(xí)社區(qū)環(huán)境下,學(xué)習(xí)者和教師之間在時空上產(chǎn)生分離,這使得教師無法準(zhǔn)確地了解學(xué)習(xí)者在學(xué)習(xí)過程中的情感狀態(tài),即產(chǎn)生所謂的情感缺失問題[2].近年來,國外學(xué)者開始研究學(xué)習(xí)者產(chǎn)生的文本信息中所蘊含的情感信息如何識別和利用問題.國外的相關(guān)工作如Kechaou等人對在線學(xué)習(xí)社區(qū)上的學(xué)習(xí)者評論文本的情感識別進(jìn)行了研究,使用了互信息與信息增益相結(jié)合的方法,提取了文本情感特征,使用了隱馬爾科夫模型和支持向量機相融合的方法,將學(xué)習(xí)者評論文本分類為正面或負(fù)面情感類型[3];KIM等人使用了啟發(fā)式規(guī)則識別文本中所含的情感信息,幫助教師識別出自信心低下或挫折感強的那些學(xué)習(xí)者,以及時進(jìn)行教學(xué)干預(yù)[4].Hew等人對MOOCs學(xué)習(xí)者評論進(jìn)行情緒分析,以量化學(xué)習(xí)者對在線課程的滿意度,結(jié)果表明教師、課程內(nèi)容、課程計劃等對學(xué)習(xí)者滿意度會產(chǎn)生較大影響,這會直接影響在線學(xué)習(xí)者的課程完成率[5].Huang等人提出了一個描述在線學(xué)習(xí)環(huán)境中不同交互過程的四階段模型,該模型刻畫了學(xué)習(xí)者在學(xué)習(xí)過程中學(xué)習(xí)情感生成、碰撞、穩(wěn)定的動態(tài)過程[6].Chen等人提出了一種基于學(xué)習(xí)者興趣和情感識別的情感教育框架,首先對學(xué)習(xí)者的語音、文本和行為日志數(shù)據(jù)進(jìn)行預(yù)處理,然后使用關(guān)聯(lián)規(guī)則分析、SO-PMI(語義定向點互信息)和ANN-DL(具有深度學(xué)習(xí)的人工神經(jīng)網(wǎng)絡(luò))等方法來學(xué)習(xí)學(xué)習(xí)者的興趣挖掘和情感識別,結(jié)果表明該方法可有效地識別移動學(xué)習(xí)中學(xué)習(xí)者的情緒,能滿足情感教育的要求[7].Olivier HABIMANA等人在一項針對情感識別的綜述研究中指出,遷移學(xué)習(xí)方法DATN在情感分析數(shù)據(jù)集SemEval-18上能取得優(yōu)于注意力卷積神經(jīng)網(wǎng)絡(luò)的分類準(zhǔn)確度[8].Akputu等人提出了概念性的基于情感的在線學(xué)習(xí)模型(EEM),并提出了情感識別框架,該工作已在不同的情感數(shù)據(jù)集上進(jìn)行了評估,表現(xiàn)良好[9].近年來,國內(nèi)學(xué)者也展開了對在線學(xué)習(xí)社區(qū)學(xué)習(xí)者情感識別與應(yīng)用方面的研究,如潘怡等人[10]設(shè)計了一種情感向量空間模型并基于規(guī)則的特征提取方法,實現(xiàn)了對文本情感的特征表示,在此基礎(chǔ)上利用支持向量機方法對評論文本的情感進(jìn)行了分類;田鋒等人[11]研究了在線學(xué)習(xí)環(huán)境中的交互文本并提取了這些文本的主題,提出了基于學(xué)習(xí)者交互文本的情感識別框架,使用隨機森林方法識別了在線學(xué)習(xí)者的情感,實驗結(jié)果表明其分類效果好于支持向量機和樸素貝葉斯分類算法;朱燁等人[12]結(jié)合注意力機制提出了一種用于評論文本情感識別的卷積神經(jīng)網(wǎng)絡(luò)變種模型,該模型相較于其他模型具有更優(yōu)的分類性能;Chen等人將半監(jiān)督機器學(xué)習(xí)方法引入在線學(xué)習(xí)社區(qū)課程論壇帖子的情感分類任務(wù)中,同時利用有限的標(biāo)記數(shù)據(jù)和大量的未標(biāo)記數(shù)據(jù),取得了與在大量標(biāo)記數(shù)據(jù)上訓(xùn)練的方法相當(dāng)?shù)男阅躘13];Tang等人針對基于傳統(tǒng)機器學(xué)習(xí)的文本情感分類方法較少進(jìn)行情感特征提取的問題,提出了一種基于機器學(xué)習(xí)和模式匹配相結(jié)合的情感分析方法,結(jié)果表明情感特征的有效提取能夠提升模型的分類性能[14];王根生等人提出了多元特征融合的GRU神經(jīng)網(wǎng)絡(luò)文本情感分類模型(TMMG),該模型在訓(xùn)練數(shù)據(jù)量不足時也能獲得較好的分類效果[15];吳彥文等人構(gòu)建了LDA和LSTM混合模型,用以解決短文本情感分類問題[16];韓飛等人提出了基于帶權(quán)情感詞極性判別算法,通過粗糙決策置信度模型對文本的最終情感類別進(jìn)行判定,實驗結(jié)果表明了該方法具有較好的泛化能力[17].

雖然相關(guān)研究利用有監(jiān)督機器學(xué)習(xí)方法能夠進(jìn)行在線學(xué)習(xí)者的情感識別,但該研究工作還有許多方面值得進(jìn)一步研究:

1)當(dāng)前所采用的有監(jiān)督分類方法需要大量有情感標(biāo)記的文本,這需要研究人員投入大量的時間和精力進(jìn)行文本數(shù)據(jù)的情感標(biāo)記,據(jù)此才可以對情感識別模型進(jìn)行訓(xùn)練,這樣做顯然會提升情感識別問題求解的成本;

2)當(dāng)前大部分研究中的文本表示方法只考慮了詞語的上下文關(guān)系,而沒有考慮到詞語的句法依存關(guān)系,這意味著對文本的語義信息刻畫程度不夠,這會影響到文本情感識別的有效性.

針對以上問題,提出一種結(jié)合了句法依存關(guān)系的文本表示方法,然后基于層次注意力遷移網(wǎng)絡(luò)[18]完成了文本的情感識別過程,在此過程中使用了兩個層次化注意力網(wǎng)絡(luò),具體思路如下:首先,利用文本的詞序關(guān)系和句法依存關(guān)系得到文本的語義向量表示;其次,基于層次注意力分類網(wǎng)絡(luò)HAN1對有情感標(biāo)記的源域文本和無情感標(biāo)記的目標(biāo)域文本同時進(jìn)行情感分類和域分類多任務(wù)學(xué)習(xí),在注意力機制的作用下,提取兩個域共享的情感特征;然后,使用層次注意力分類網(wǎng)絡(luò)HAN2對兩個域的文本進(jìn)行情感分類,將域獨有的情感特征映射到共享特征空間中;最后,聯(lián)合訓(xùn)練層次注意力網(wǎng)絡(luò)HAN1和HAN2實現(xiàn)了文本的情感識別.

2 問題定義

為了更好地闡述基于遷移學(xué)習(xí)的在線學(xué)習(xí)社區(qū)學(xué)習(xí)者情感識別研究工作,本節(jié)先定義相關(guān)術(shù)語如下.

定義1.域.一個域D由特征空間χ及邊緣概率分布P(χ)組成.其中,χ是由所有特征向量組成的空間.

在本文中,在線學(xué)習(xí)社區(qū)中的一門課程的交流論壇代表一個域,論壇內(nèi)的一條評論代表特定域內(nèi)的一個樣本.

示例1.(XSi,YSi)=("結(jié)合比賽視頻的教學(xué)真有趣!",+1).

定義4.詞序關(guān)系.對文本S=c1c2…cm分詞后得到的文本的有序詞語列表S′=[w1,w2,…,wn]中,相鄰的兩個詞語構(gòu)成詞序關(guān)系R=.

定義5.句法依存關(guān)系.文本S的依存句法樹DPS中,每一條依存邊構(gòu)成詞語的句法依存關(guān)系R=.

其他術(shù)語有情感特征,即文本中能體現(xiàn)發(fā)言人情感色彩的主觀性詞匯,包括共享情感特征(即源域和目標(biāo)域共享的情感特征,在兩個域都能表達(dá)相似的情感信息)和獨享情感特征(即源域或者目標(biāo)域特有的情感特征,只在特定域表達(dá)一定的情感信息).

定義6.TSG-GE文本詞語語義編碼算法.TSG-GE(TextSemanticGraph-GraphEmbedding)文本詞語語義編碼算法是本文提出的多源信息文本表示算法.這個算法的主要思想是:首先對文本進(jìn)行分詞之后得到文本的有序詞語序列作為信息源一,然后構(gòu)造文本的依存句法樹作為信息源二,再將兩個信息源的信息融合得到文本語義圖,也就是算法中TSG-TextSemanticGraph的含義.通過先前的步驟得到文本的語義圖之后再利用圖嵌入技術(shù)對語義圖中的圖節(jié)點進(jìn)行表征,即可得到最終含有多源文本語義信息的詞向量.

定義7.基于遷移學(xué)習(xí)的在線學(xué)習(xí)社區(qū)學(xué)習(xí)者情感識別.

輸入:帶有情感標(biāo)記源域的在線學(xué)習(xí)社區(qū)學(xué)習(xí)者評論文本DS;待分類無情感標(biāo)記目標(biāo)域的在線學(xué)習(xí)社區(qū)學(xué)習(xí)者評論文本DT.

輸出:無情感標(biāo)記目標(biāo)域在線學(xué)習(xí)社區(qū)學(xué)習(xí)者評論文本DT的情感類型YDi.

針對上述問題,本文基于遷移學(xué)習(xí)理論設(shè)計了一種在線學(xué)習(xí)社區(qū)學(xué)習(xí)者情感識別框架,如圖1所示.

圖1 在線學(xué)習(xí)社區(qū)學(xué)習(xí)者情感識別框架

該框架中的處理步驟分為3個階段,第1階段,結(jié)合文本的詞序關(guān)系和句法依存關(guān)系計算詞語的語義化向量表示;第2階段,分別使用層次化注意力網(wǎng)絡(luò)HAN1和HAN2提取兩個域的共享和獨享情感特征;第3階段,聯(lián)合訓(xùn)練好的兩個層次注意力網(wǎng)絡(luò)進(jìn)行情感分類.

3 在線學(xué)習(xí)社區(qū)學(xué)習(xí)者情感識別

3.1 TSG-GE文本詞語語義編碼算法

因為需要根據(jù)語料庫構(gòu)建詞典,像詞袋模型、N-gram模型等傳統(tǒng)離散化文本特征表示模型會出現(xiàn)維度災(zāi)難問題和特征稀疏性問題,而word2vec文本特征表示方法雖然解決了離散化表示中的固有維度災(zāi)難問題,但是其不能刻畫文本的語義信息.為了得到具有語義信息的文本表示,在考慮了詞序信息的基礎(chǔ)上,融合了文本的句法依存關(guān)系,將文本轉(zhuǎn)化成文本語義圖,然后使用graph embedding技術(shù)對文本中的詞語進(jìn)行建模[19],不僅避免了維度災(zāi)難問題,還可以得到具有語義信息的詞向量編碼.具體過程如圖2的算法.

圖2 TSG-GE文本詞語語義編碼算法

具體而言,TSG-GE文本詞語語義編碼算法包括以下5個步驟.

算法功能:將文本詞語轉(zhuǎn)化為語義化的向量編碼

輸入:文本S

輸出:詞語語義編碼semanticvec

第1步.按照詞語的先后順序:將文本S抽象成圖數(shù)據(jù)結(jié)構(gòu),以刻畫出文本的語序信息;將文本S=c1c2…cm經(jīng)過分詞后得到有序詞語列表記為S′=[w1,w2,w…,wn];針對S′,將詞語wi(i∈[1,n])抽象成圖節(jié)點V1i,并將所有相鄰的詞語wj和wj+1之間,添加一條邊E1j=,得到圖G1=(V1,E1);

第2步.構(gòu)建文本依存語法樹:將第一步分好詞的文本S′進(jìn)行詞性標(biāo)記,得到Ps′=[p1,p2,…,pn];根據(jù)S′和Ps′構(gòu)造文本的依存句法樹DPS;針對DPS,將詞語wi,i∈[1,n]抽象成圖節(jié)點V2i,在具有依存關(guān)系的兩個詞語wj和wk之間添加一條邊E2j=,得到圖G2=(V2,E2);

第3步.將圖G1=(V1,E1)和圖G2=(V2,E2)合并得到文本語義圖G=(V,E),V=V1∪V2,E=E1∪E2.

第4步.使用DeepWalk算法對圖G采樣,得到圖G上的多條隨機序列.

第5步.對采樣得到的隨機序列,使用Skip-gram模型構(gòu)建詞語語義化的向量表示.

將TSG-GE文本詞語語義編碼算法的第1步和第5步抽取出來單獨合并在一起,便等價于傳統(tǒng)的Word2Vec方法,即在傳統(tǒng)的方法中,只考慮到了文本中各詞語元素的線性先后關(guān)系,這就直接導(dǎo)致了訓(xùn)練得到的詞向量只能表征一個詞的當(dāng)前上下文信息,無法表征文本中的長距離句法依存關(guān)系,針對此缺陷,通過將文本的依存句法關(guān)系引入到文本表示過程中,把線性的文本詞語關(guān)系擴展成非線性的文本語義圖結(jié)構(gòu),在一個圖中將文本的多方面信息進(jìn)行了融合表示,對應(yīng)到算法流程中就是第2步與第3步的工作.圖嵌入是將圖數(shù)據(jù)映射為低維稠密向量的過程,能夠用于表征圖中的信息,因此為了將文本語義圖中的信息提取出來,引入圖嵌入技術(shù)對文本語義圖進(jìn)行解析,具體而言,使用Deepwalk技術(shù)隨機采樣文本語義圖上的多條隨機序列,這些序列的內(nèi)部關(guān)系有的是文本中詞語的先后關(guān)系,有的是文本中詞語的句法依存關(guān)系,多方面信息的融合對文本本身的語義內(nèi)涵進(jìn)行了更全面的覆蓋,這就保證最終通過文本語義圖得到的詞向量具有更豐富的語義信息.

3.2 情感特征提取

3.2.1 域共享特征提取

域共享特征是源域和目標(biāo)域共享的情感特征,在此兩個域中均能表達(dá)出相近的情感信息,例如“真棒”,這個詞語具有兩個特性:第一,區(qū)分了不同的情感類型;第二,實現(xiàn)了源域和目標(biāo)域共享.利用這些特性,設(shè)計層次注意力網(wǎng)絡(luò)提取域共享特征,可同時實現(xiàn)情感分類任務(wù)與加了梯度反轉(zhuǎn)層的域分類任務(wù)學(xué)習(xí),具體如圖3所示.

圖3 使用HAN1進(jìn)行域共享特征提取

在使用HAN1對源域數(shù)據(jù)進(jìn)行情感分類時,輸入源域中的有標(biāo)記數(shù)據(jù)XS到HAN1,計算詞級別和句級別的注意力權(quán)重并得到文本向量,再將之輸入分類器中完成情感分類,情感分類的損失函數(shù)Lsen如公式(1)所示,其中,yi∈{0,1},0表示負(fù)向文本情感,1表示正向文本情感.

(1)

做域分類任務(wù)可同時將分屬兩個域中的數(shù)據(jù)XS和XT輸入HAN1,并計算得到文本向量,接著對樣本的域標(biāo)記進(jìn)行分類.為了進(jìn)行域遷移,故需減少兩個域之間的差異,這意味著要讓損失函數(shù)盡可能大,但由于一般意義下的梯度下降函數(shù)是最小化目標(biāo)函數(shù),所以需要對損失函數(shù)中的梯度做反轉(zhuǎn),這意味著:第一,正向傳播時傳遞權(quán)值不變;第二,反向傳播時,將神經(jīng)元權(quán)值增量符號取反,即達(dá)到與目標(biāo)函數(shù)方向?qū)沟哪康?因此在將文本向量輸入分類器之前設(shè)計了一個梯度反轉(zhuǎn)層,以實現(xiàn)在進(jìn)行基于域分類的對抗訓(xùn)練時,減少兩個域之間的差異.域分類的損失函數(shù)Ldom如公式(2)所示,其中,di∈{0,1},0表示源域文本,1表示目標(biāo)域文本.

(2)

現(xiàn)將這兩個任務(wù)的損失函數(shù)相加得到HAN1最終的損失函數(shù)LHAN1如公式(3)所示.

LHAN1=Lsen(H(XS;θHAN1))+Ldom

(3)

HAN1的參數(shù)在兩個分類器中共享,故均參與了梯度更新過程,其中一個參數(shù)控制最小化情感分類誤差,另一個參數(shù)控制最大化域分類誤差,以確保了來自HAN1的向量既實現(xiàn)了域共享性,又有利于情感的分類.當(dāng)網(wǎng)絡(luò)訓(xùn)練完成后,基于注意力機制的作用,不同的詞根據(jù)其對分類結(jié)果的影響程度而被分配得到了不同的注意力權(quán)重,即每個句子中注意力權(quán)重最大的詞就是域共享特征詞.

3.2.2 域獨享特征提取

域獨享特征是源域或目標(biāo)域獨有的情感特征,在文本中常常與域共享特征共同出現(xiàn),通常只在特定域中表達(dá)情感信息,例如對書本的評論詞“耐讀”或者對電池的評論詞“持久”,這些詞具有兩個特性:第一,對于不同情感類別的區(qū)分有用;第二,為源域或目標(biāo)域所特有.利用這些特性,設(shè)計層次注意力網(wǎng)絡(luò)提取域獨享特征,可同時實現(xiàn)情感分類和域獨享特征分類,具體如圖4所示.

在進(jìn)行域獨享特征提取時,為了排除域共享特征的對分類結(jié)果的影響,將輸入文本X中的域共享特征詞隱去,以達(dá)到不含域共享特征詞的文本X′的目的,具體如公式(4),其中,hide函數(shù)是隱藏操作,實現(xiàn)將文本X中的域共享特征詞用零向量代替,以達(dá)到隱藏詞匯的目的.

X′=hide(X)

(4)

(5)

(6)

使用以上兩個分類任務(wù)對HAN2進(jìn)行多任務(wù)訓(xùn)練時,情感分類任務(wù)保證了域獨享特征對區(qū)分不同情感類別有用,域共享特征分類任務(wù)可以發(fā)現(xiàn)兩個域獨有的特征,并將它們投影到域共享特征空間中.現(xiàn)將這兩個任務(wù)的損失函數(shù)相加,可得到HAN2最終的損失函數(shù)LHAN2,具體如公式(7)所示.

(7)

HAN2的參數(shù)在兩個分類器中共享,將文本的域共享特征詞隱去后進(jìn)行域共享特征詞類別的分類,基于注意力機制作用,將其中對域共享特征類別具有較高區(qū)分度的域獨享特征詞,分配給較高的注意力權(quán)重.

3.3 在線學(xué)習(xí)社區(qū)學(xué)習(xí)者情感識別

基于注意力機制,域共享特征提取網(wǎng)絡(luò)HAN1通過情感分類和對抗域分類任務(wù),捕捉到兩個域共享的關(guān)鍵特征;域獨享特征網(wǎng)絡(luò)HAN2通過將域共享特征隱去后,再實現(xiàn)情感分類和域共享特征分類,并將域獨享特征映射到域共享特征空間之中.這兩個網(wǎng)絡(luò)均有情感分類能力,通過預(yù)訓(xùn)練,這兩個網(wǎng)絡(luò)最終生成的文本向量在表示上是互補的.因此,可將預(yù)訓(xùn)練好這兩個網(wǎng)絡(luò),再做聯(lián)合訓(xùn)練,即可實現(xiàn)跨域情感分類(見圖5).

圖5 對HAN1和HAN2聯(lián)合訓(xùn)練以實現(xiàn)跨域情感分類

(8)

聯(lián)合訓(xùn)練完成后,將目標(biāo)域待分類文本XT同時輸入到網(wǎng)絡(luò)HAN1和HAN2中,以計算出相關(guān)的文本向量并使用softmax函數(shù)進(jìn)行分類,具體如公式(9)所示.

(9)

上式中計算得到的sentiment之值便是待分類文本XT的情感類型.

4 實 驗

在真實的MOOC學(xué)習(xí)數(shù)據(jù)集上進(jìn)行實驗,論證了本文方法的有效性.

4.1 數(shù)據(jù)集

實驗數(shù)據(jù)是某在線公開的在線學(xué)習(xí)社區(qū)真實數(shù)據(jù).該數(shù)據(jù)集包含了5門在線課程的學(xué)習(xí)者評論數(shù)據(jù),這5門課程包括文學(xué)(L)、體育(S)、心理學(xué)(P)、數(shù)學(xué)(M)和經(jīng)濟學(xué)(E),其中的評論數(shù)據(jù)樣例見表1.

表1 學(xué)習(xí)者評論數(shù)據(jù)示例

數(shù)據(jù)的統(tǒng)計信息見表2,5門課程(即5個域)的學(xué)習(xí)者評論數(shù)據(jù)均超過900條,表中的“評論數(shù)量”反映了對每個域內(nèi)數(shù)據(jù)的情感分布統(tǒng)計.發(fā)表評論的學(xué)習(xí)者數(shù)目,則根據(jù)用戶ID去重后再計數(shù)得到.每名學(xué)習(xí)者平均發(fā)表評論數(shù)量是將課程的評論總數(shù)除以發(fā)表評論的學(xué)習(xí)者數(shù)得到的比例數(shù),該值反映了一門課程的交流活躍程度.每篇評論的平均詞數(shù)是對所有評論文本分詞之后,統(tǒng)計詞數(shù)量再除以總的評論條數(shù)得到,該值反映了學(xué)習(xí)者發(fā)言的平均狀態(tài).

表2 實驗數(shù)據(jù)的統(tǒng)計信息

4.2 在線學(xué)習(xí)社區(qū)學(xué)習(xí)者情感識別結(jié)果

基于層次注意力機制的域共享特征提取網(wǎng)絡(luò)HAN1能夠識別出兩個域之間共享的情感特征詞;基于層次注意力機制的域獨享特征提取網(wǎng)絡(luò)HAN2,會對文本中的域獨有特征分配更大的注意力權(quán)重.現(xiàn)說明一下相關(guān)對照實驗結(jié)果.

第1組對照實驗,其目的是探究不同的文本表示方法對文本情感分類結(jié)果的影響.在體育到文學(xué)跨域情感分類任務(wù)S→L中,選取不同的文本表示方法進(jìn)行對比實驗,實驗結(jié)果如表3所示.

表3 用不同文本表示方法進(jìn)行文本情感分類的結(jié)果

對照實驗組采用了4種不同的文本表示方法,即CBOW、Skip-gram、Fasttext和基于Graph embedding的文本表示方法.在CBOW方法中,使用周圍詞預(yù)測中心詞并依據(jù)預(yù)測結(jié)果使用梯度下降方法來不斷地調(diào)整周圍詞的向量,訓(xùn)練完畢后,可獲得整個文本里面所有詞的詞向量[20].Skip-gram用中心詞來預(yù)測周圍的詞并依據(jù)周圍詞的預(yù)測結(jié)果使用梯度下降方法不斷地調(diào)整中心詞的詞向量,以得到文本所有詞的詞向量.Word2vec模型下的詞順序不重要,模型訓(xùn)練完之后,每個詞根據(jù)其上下文關(guān)系可映射到一個向量上,以表示詞與詞之間的關(guān)系.Fasttext加入了N-gram特征以對文本的詞序信息進(jìn)行刻畫.本文使用了基于Graph embedding,該方法不僅考慮了文本的詞序信息,還結(jié)合了文本的句法依存關(guān)系,將文本抽象成語義圖之后,再通過Graph embedding得到文本的詞向量.實驗結(jié)果是:本文方法在精確率P、召回值R和F1這3個指標(biāo)上取得了優(yōu)于對照實驗組中的其他詞向量表示方法,說明本文的文本表示方法能取得比傳統(tǒng)Word2Vec方法具有更豐富語義的詞向量,提高了下游情感分類任務(wù)的分類準(zhǔn)確率.

第2組對照實驗的目的是比較不同文本分類模型在情感分類任務(wù)上的優(yōu)劣,為此對在線學(xué)習(xí)社區(qū)學(xué)習(xí)者評論數(shù)據(jù)使用了不同的文本分類模型.由于所使用的遷移學(xué)習(xí)方法涉及到源域和目標(biāo)域兩部分?jǐn)?shù)據(jù)集,而傳統(tǒng)的有監(jiān)督機器學(xué)習(xí)算法只在一個特定域上進(jìn)行訓(xùn)練學(xué)習(xí),因此對從域A遷移到域B的任務(wù)A→B而言,我們對應(yīng)地在目標(biāo)域B上開展了有監(jiān)督學(xué)習(xí)的相關(guān)實驗,由于數(shù)據(jù)集中共包括5個不同的域的數(shù)據(jù),考慮從任何一個域遷移到其他剩余的4個域,在這總計有20個跨域情感分類任務(wù){(diào)S,L,P,M,E}→{S,L,P,M,E}對照實驗結(jié)果如圖6所示.

圖6 使用不同的文本分類模型進(jìn)行情感分類的F1值

對照實驗組采用了結(jié)構(gòu)化映射學(xué)習(xí)(SCL)、支持向量機(SVM)、卷積神經(jīng)網(wǎng)絡(luò)(CNN)、長短期記憶網(wǎng)絡(luò)(LSTM)和層次注意力遷移網(wǎng)絡(luò)(HATN).其中SCL是遷移學(xué)習(xí)的一種實現(xiàn)技術(shù),在這里作為遷移學(xué)習(xí)的基線模型用以與HATN方法進(jìn)行對比.在本文所涉及到的5種文本分類方法中,SCL和HATN方法屬于跨域情感分類方法,涉及到源域和目標(biāo)域兩個范疇,但是SVM、CNN和LSTM方法不涉及到跨域的問題,它們只在一個域上開展有監(jiān)督情感分類任務(wù),因此在具體實驗中,只在每一組遷移任務(wù)的源域上開展實驗作為對比.觀察圖6的實驗結(jié)果,發(fā)現(xiàn)除了實驗編號為1、3、10、18的實驗,其余實驗均是HATN方法得到了最優(yōu)的F1值.現(xiàn)對圖6中的實驗結(jié)果進(jìn)行說明:

1)實驗編號1、10、18的最優(yōu)實驗結(jié)果均是LSTM方法在域L上取得的,觀察表2實驗數(shù)據(jù)的統(tǒng)計信息,可以發(fā)現(xiàn)域L中每篇評論的平均詞數(shù)是5個域中最大的,即域L中的文本往往具有較長的文本長度,而LSTM模型恰好擅長播捉長文本中的信息,由此在這幾個實驗上取得了相較于其他方法更優(yōu)的F1值;

2)實驗3中SVM方法在域M上取得最優(yōu)結(jié)果,這是由于數(shù)據(jù)集較小的緣故造成的;

3)從整體上來看,遷移學(xué)習(xí)方法與有監(jiān)督機器學(xué)習(xí)方法相比,由于缺乏目標(biāo)域上的數(shù)據(jù)標(biāo)記,存在著先天的分類能力不足的問題,但層次注意力遷移網(wǎng)絡(luò)依然能夠在絕大部分實驗中取得了更好的F1值,最重要的是該方法能夠節(jié)省標(biāo)記數(shù)據(jù)的時間成本和人力成本.同時,在所有的20個實驗上,層次注意力遷移網(wǎng)絡(luò)方法均超過了同為遷移學(xué)習(xí)方法的結(jié)構(gòu)化映射學(xué)習(xí)方法,說明該方法是一個有效的跨域分類模型.

5 結(jié)束語

針對在線學(xué)習(xí)社區(qū)學(xué)習(xí)者的情感識別問題:

1)提出了多源信息文本表示方法—TSG-GE文本詞語語義編碼算法,在文本語義圖上通過圖嵌入技術(shù)得到含有豐富語義信息的詞向量;

2)將遷移學(xué)習(xí)技術(shù)引入到在線學(xué)習(xí)社區(qū)的學(xué)習(xí)者情感識別任務(wù)中,避免了有監(jiān)督學(xué)習(xí)需要大量有標(biāo)簽數(shù)據(jù)的問題.

在理論研究的基礎(chǔ)上,本文通過在真實數(shù)據(jù)集上的實驗得到了兩個結(jié)論:

1)融合了文本詞序信息和句法依存信息的文本表示方法的語義刻畫能力強;

2)基于遷移學(xué)習(xí)的在線學(xué)習(xí)社區(qū)學(xué)習(xí)者情感分類方法在整體上看不如有監(jiān)督的機器學(xué)習(xí)分類算法,但該方法省去了對目標(biāo)域的數(shù)據(jù)需做的標(biāo)記過程,所以這節(jié)省了大量的時間成本和人力成本,并且在一定的情況下能得到更好的分類效果,所以在這個意義上講,本文提出的方法是有效的.

在今后的研究中,還可以從情感識別粒度上進(jìn)行擴展,在情感極性分類的基礎(chǔ)之上對情感的類型進(jìn)行更細(xì)粒度的劃分,比如興奮、激動、期待、沮喪和失望等具體情緒,更具體的情緒類型能夠給在線學(xué)習(xí)社區(qū)的學(xué)習(xí)者帶來更細(xì)致的學(xué)習(xí)分析與教育干預(yù).

猜你喜歡
語義分類特征
分類算一算
語言與語義
如何表達(dá)“特征”
不忠誠的四個特征
分類討論求坐標(biāo)
數(shù)據(jù)分析中的分類討論
教你一招:數(shù)的分類
抓住特征巧觀察
“上”與“下”語義的不對稱性及其認(rèn)知闡釋
認(rèn)知范疇模糊與語義模糊
主站蜘蛛池模板: 国产精品不卡片视频免费观看| 97超级碰碰碰碰精品| 日韩在线永久免费播放| 久久9966精品国产免费| 性网站在线观看| 亚洲欧美国产五月天综合| 免费AV在线播放观看18禁强制| 午夜不卡视频| 精品欧美一区二区三区在线| 日韩毛片视频| 丝袜久久剧情精品国产| 亚洲人成影视在线观看| 久久一日本道色综合久久| 久久五月视频| 高清无码手机在线观看| 亚洲福利视频一区二区| 真实国产精品vr专区| 超碰91免费人妻| 欧美三级日韩三级| 精品国产中文一级毛片在线看| 青青草国产在线视频| 91精品伊人久久大香线蕉| 免费国产高清精品一区在线| 少妇极品熟妇人妻专区视频| 亚洲无码A视频在线| 亚洲区第一页| 亚洲午夜国产精品无卡| 国产无码精品在线| 免费看美女毛片| 欧美怡红院视频一区二区三区| 青青青国产精品国产精品美女| 国产理论最新国产精品视频| 久久久亚洲色| 国产亚洲欧美在线专区| 99热这里只有成人精品国产| 天堂在线亚洲| 国产成人综合日韩精品无码首页| 99视频在线免费观看| 久久这里只精品国产99热8| 91国语视频| 久久久噜噜噜| 91欧洲国产日韩在线人成| 精品视频91| 欧美成人精品欧美一级乱黄| 国产精品自在在线午夜区app| 色综合成人| 欧美日本视频在线观看| 99免费在线观看视频| 欧美日本视频在线观看| 欧美午夜久久| 欧美亚洲国产日韩电影在线| 日韩精品无码不卡无码| 新SSS无码手机在线观看| 国产一区在线观看无码| 国产激爽大片在线播放| 国产又黄又硬又粗| 无码综合天天久久综合网| 免费高清a毛片| 日韩欧美国产成人| 亚洲第一视频免费在线| 亚洲视频一区| 久久夜色精品| av在线5g无码天天| jizz亚洲高清在线观看| 91精品国产无线乱码在线| 亚洲国产黄色| 欧美日韩中文字幕二区三区| 91高清在线视频| 日韩一区二区三免费高清| 欧美日韩国产综合视频在线观看| 爽爽影院十八禁在线观看| 久久九九热视频| 久久精品国产亚洲麻豆| 日本免费精品| 亚洲国产成熟视频在线多多| 亚州AV秘 一区二区三区| 日韩国产 在线| 欧美一区二区三区国产精品| 国产男人天堂| 欧美激情福利| 亚洲欧美日韩动漫| 国产aⅴ无码专区亚洲av综合网|