999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于多語(yǔ)BERT的無(wú)監(jiān)督攻擊性言論檢測(cè)

2022-11-30 07:29:58師夏陽(yáng)張風(fēng)遠(yuǎn)袁嘉琪黃敏
計(jì)算機(jī)應(yīng)用 2022年11期
關(guān)鍵詞:文本資源語(yǔ)言

師夏陽(yáng),張風(fēng)遠(yuǎn),袁嘉琪,黃敏*

基于多語(yǔ)BERT的無(wú)監(jiān)督攻擊性言論檢測(cè)

師夏陽(yáng)1,張風(fēng)遠(yuǎn)1,袁嘉琪2,黃敏1*

(1.鄭州輕工業(yè)大學(xué) 軟件學(xué)院,鄭州 450001; 2.鄭州輕工業(yè)大學(xué) 數(shù)學(xué)與信息科學(xué)學(xué)院,鄭州 450001)(?通信作者電子郵箱huangmin@zzuli.edu.cn)

攻擊性言論會(huì)對(duì)社會(huì)安定造成嚴(yán)重不良影響,但目前攻擊性言論自動(dòng)檢測(cè)主要集中在少數(shù)幾種高資源語(yǔ)言,對(duì)低資源語(yǔ)言缺少足夠的攻擊性言論標(biāo)注語(yǔ)料導(dǎo)致檢測(cè)困難,為此,提出一種跨語(yǔ)言無(wú)監(jiān)督攻擊性遷移檢測(cè)方法。首先,使用多語(yǔ)BERT(mBERT)模型在高資源英語(yǔ)數(shù)據(jù)集上進(jìn)行對(duì)攻擊性特征的學(xué)習(xí),得到一個(gè)原模型;然后,通過(guò)分析英語(yǔ)與丹麥語(yǔ)、阿拉伯語(yǔ)、土耳其語(yǔ)、希臘語(yǔ)的語(yǔ)言相似程度,將原模型遷移到這四種低資源語(yǔ)言上,實(shí)現(xiàn)對(duì)低資源語(yǔ)言的攻擊性言論自動(dòng)檢測(cè)。實(shí)驗(yàn)結(jié)果顯示,與BERT、線性回歸(LR)、支持向量機(jī)(SVM)、多層感知機(jī)(MLP)這四種方法相比,所提方法在丹麥語(yǔ)、阿拉伯語(yǔ)、土耳其語(yǔ)、希臘語(yǔ)這四種語(yǔ)言上的攻擊性言論檢測(cè)的準(zhǔn)確率和F1值均提高了近2個(gè)百分點(diǎn),接近目前的有監(jiān)督檢測(cè),可見(jiàn)采用跨語(yǔ)言模型遷移學(xué)習(xí)和遷移檢測(cè)相結(jié)合的方法能夠?qū)崿F(xiàn)對(duì)低資源語(yǔ)言的無(wú)監(jiān)督攻擊性檢測(cè)。

跨語(yǔ)言模型;攻擊性言論檢測(cè);BERT;無(wú)監(jiān)督方法;遷移學(xué)習(xí)

0 引言

網(wǎng)絡(luò)社交媒體中時(shí)常存在著大量的攻擊性言論,如網(wǎng)絡(luò)欺凌、網(wǎng)絡(luò)攻擊和仇恨言論等[1-2]。社交媒體中的攻擊性言論會(huì)嚴(yán)重影響人們的正常交流,更有甚者可能煽動(dòng)群眾情緒,對(duì)社會(huì)穩(wěn)定造成不良的影響。因此,檢測(cè)和過(guò)濾網(wǎng)絡(luò)中的攻擊性言論顯得格外重要,成為自然語(yǔ)言處理領(lǐng)域的一個(gè)研究熱點(diǎn)[3]。

目前攻擊性言論檢測(cè)的研究主要集中在高資源語(yǔ)言(如英語(yǔ))中,這是因?yàn)楦哔Y源的數(shù)據(jù)集資源、單語(yǔ)詞典和預(yù)訓(xùn)練語(yǔ)言模型成果豐富[4]。然而,在社交媒體平臺(tái)上,往往存在著多種語(yǔ)言的攻擊性言論(例如:不同國(guó)家的語(yǔ)言、不同民族的語(yǔ)言和不同地區(qū)的方言),而對(duì)語(yǔ)言進(jìn)行攻擊性言論檢測(cè)研究大多基于有限的數(shù)據(jù)集上,因此低資源語(yǔ)言攻擊性言論檢測(cè)的研究面臨巨大的挑戰(zhàn)[5-6]。

攻擊性言論檢測(cè)是分類任務(wù)中的一項(xiàng)具體應(yīng)用,往往將分類任務(wù)分為上游的語(yǔ)言建模和下游的分類特征學(xué)習(xí)兩階段。神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型(Neural Network Language Model, NNLM)通過(guò)構(gòu)建神經(jīng)網(wǎng)絡(luò)的方式來(lái)探索和建模自然語(yǔ)言內(nèi)在的依賴關(guān)系,能夠用向量表征一個(gè)單詞或者句子,優(yōu)良表征能夠提高下游模型泛化能力。檢測(cè)方法泛化能力往往建立在龐大的數(shù)據(jù)資源基礎(chǔ)上,因此,當(dāng)建模語(yǔ)言對(duì)象為低資源語(yǔ)言時(shí),由于可用資源很少,無(wú)法學(xué)習(xí)到語(yǔ)言對(duì)象中內(nèi)在的依賴關(guān)系,也就無(wú)法對(duì)低資源語(yǔ)言中的文本語(yǔ)義特征進(jìn)行有效的語(yǔ)義編碼學(xué)習(xí)。研究表明可以通過(guò)跨語(yǔ)言詞向量結(jié)合遷移學(xué)習(xí)(Transfer Learning, TL)實(shí)現(xiàn)對(duì)低資源語(yǔ)言上的文本語(yǔ)義編碼[7]。此外,下游階段模型的泛化能力決定分類性能的優(yōu)劣,而可用數(shù)據(jù)資源的多少又決定了下游階段的泛化能力;同時(shí),也造成了下游分類模型無(wú)法依靠這些低資源數(shù)據(jù)得到一個(gè)有效的攻擊性言論檢測(cè)模型。

低資源的攻擊性言論檢測(cè)面臨兩大挑戰(zhàn):一是由于可用資源少,無(wú)法單獨(dú)對(duì)低資源語(yǔ)言中的文本語(yǔ)義進(jìn)行有效編碼;二是無(wú)法對(duì)低資源語(yǔ)言中的攻擊性特征進(jìn)行有效訓(xùn)練?;谏鲜龇治?,本文采用遷移學(xué)習(xí)架構(gòu),在BERT(Bidirectional Encoder Representation from Transformers)模型的基礎(chǔ)上,多語(yǔ)言預(yù)訓(xùn)練語(yǔ)言模型——多語(yǔ)BERT(multilingual BERT, mBERT)進(jìn)行在低資源語(yǔ)言中的遷移學(xué)習(xí),使模型具備對(duì)低資源語(yǔ)言的文本語(yǔ)義編碼能力[8]。此外,通過(guò)探索不同語(yǔ)言之間的語(yǔ)言相似程度,再次對(duì)低資源語(yǔ)言進(jìn)行遷移,實(shí)現(xiàn)對(duì)低資源語(yǔ)言的攻擊性言論的跨語(yǔ)言檢測(cè),使模型具有一定的對(duì)低資源語(yǔ)言的攻擊性言論檢測(cè)的泛化能力。

本文的主要工作包括:

1)提出了一種融合mBERT的跨語(yǔ)言攻擊性言論遷移檢測(cè)方法,通過(guò)探索不同語(yǔ)言之間的語(yǔ)言相似度,將在高資源語(yǔ)言上訓(xùn)練的模型遷移到其他低資源語(yǔ)言中來(lái)檢測(cè)該低資源語(yǔ)言中的攻擊性;

2)使用BERT模型作為語(yǔ)言模型,通過(guò)對(duì)BERT微調(diào),保證了對(duì)自然語(yǔ)言的語(yǔ)義編碼能力;

3)利用mBERT進(jìn)行不同語(yǔ)言的遷移學(xué)習(xí),保留了mBERT模型對(duì)不同語(yǔ)言的語(yǔ)義編碼特征,以便于探索不同語(yǔ)言之間的語(yǔ)言相似程度。

1 相關(guān)工作

進(jìn)行攻擊性言論識(shí)別的早期工作依賴于手動(dòng)提取不同類型的特征和基于知識(shí)的功能以及多模式信息[9-10],如:Saroj等[11]使用四種機(jī)器學(xué)習(xí)分類器:多項(xiàng)式樸素貝葉斯(Multinomial Naive?Bayes, MNB)、隨機(jī)梯度下降(Stochastic Gradient Descent,SGD)、線性支持向量機(jī)(Linear Support Vector Machine, LSVM)和線性回歸(Linear Regression,LR)來(lái)識(shí)別社交媒體中印地語(yǔ)中的攻擊性言論;Pathak等[12]通過(guò)提取文本語(yǔ)言中的?gram特征,使用機(jī)器學(xué)習(xí)中的分類和回歸方法來(lái)學(xué)習(xí)這些攻擊性言論的特征。但是這種基于特征的方法在文本表示中的能力相對(duì)較弱,往往需要構(gòu)建高維的特征對(duì)復(fù)雜文本進(jìn)行特征學(xué)習(xí),在進(jìn)行相關(guān)計(jì)算時(shí)耗費(fèi)大量資源,且特征的冗余會(huì)影響分類的實(shí)際效果[13]。受Zampieri 等[14]的啟發(fā),Howard等[15]借助BERT,利用ULMFiT(Universal Language Model Fine?tuning for Text classification, ULMFiT)方法經(jīng)過(guò)預(yù)訓(xùn)練的語(yǔ)言模型成功實(shí)現(xiàn)了遷移學(xué)習(xí)在攻擊性言論檢測(cè)的應(yīng)用,由于性能較好,該類方法成為用于解決攻擊性言論識(shí)別任務(wù)的主流。在2019年OffensEval競(jìng)賽[16]中,參加任務(wù)A的前10個(gè)團(tuán)隊(duì)中,有7個(gè)使用了BERT,僅在參數(shù)設(shè)置和預(yù)處理步驟有所不同[17-18]。目前利用跨語(yǔ)言預(yù)訓(xùn)練模型進(jìn)行攻擊性言論檢測(cè)大多數(shù)都以預(yù)訓(xùn)練跨語(yǔ)言模型基礎(chǔ)[19-21]。這類方法最大的優(yōu)點(diǎn)是:通過(guò)這種無(wú)監(jiān)督的跨語(yǔ)言預(yù)訓(xùn)練模型,能夠?qū)崿F(xiàn)低資源語(yǔ)言的攻擊性言論檢測(cè)。Ayo等[22]提出基于支持向量機(jī)(Support Vector Machine, SVM)和BERT的方法構(gòu)建跨語(yǔ)言攻擊性言論和厭女性(Misogynist)言論檢測(cè)模型。Kapil等[23]在跨語(yǔ)言預(yù)訓(xùn)練模型的基礎(chǔ)上加入了遷移學(xué)習(xí),將豐富資源的攻擊性言論檢測(cè)任務(wù)知識(shí)遷移到低資源語(yǔ)言上,可以有效提高低資源語(yǔ)言的攻擊性言論檢測(cè)準(zhǔn)確率,但上述方法的檢測(cè)性能并不令人滿意。

2 融合mBERT與TL的攻擊性言論檢測(cè)方法

本文提出的方法包括兩個(gè)方面:第一是單語(yǔ)攻擊性言論檢測(cè)學(xué)習(xí);第二是跨語(yǔ)言遷移檢測(cè)。對(duì)于給定的單語(yǔ)攻擊性言論樣本集,首先,使用mBERT模型在單語(yǔ)攻擊性言論樣本集中進(jìn)行遷移學(xué)習(xí),得到單語(yǔ)攻擊性言論檢測(cè)器。對(duì)于給定的低資源語(yǔ)種文本,將單語(yǔ)攻擊性言論檢測(cè)器遷移到低資源語(yǔ)言,檢測(cè)低資源語(yǔ)言文本中的攻擊性言論。融合mBERT與TL的攻擊性言論檢測(cè)方法結(jié)構(gòu)如圖1所示。

2.1 單語(yǔ)攻擊性言論檢測(cè)學(xué)習(xí)

由于給定的單語(yǔ)攻擊性言論樣本集較小,不足以支撐構(gòu)建一個(gè)相對(duì)完整的模型表達(dá)這些言論中的文本語(yǔ)義信息,但跨語(yǔ)言遷移學(xué)習(xí)方法能夠利用其他語(yǔ)言提供的更大的可用數(shù)據(jù)集。通過(guò)遷移學(xué)習(xí)將已經(jīng)學(xué)到的模型參數(shù)(也可理解為模型學(xué)到的知識(shí))通過(guò)某種方式來(lái)分享給新模型,從而提高模型的學(xué)習(xí)效率,避免了多數(shù)網(wǎng)絡(luò)從零學(xué)習(xí)的缺點(diǎn)。

mBERT為Google發(fā)布的基于BERT模型訓(xùn)練的多語(yǔ)言預(yù)訓(xùn)練模型,由12個(gè)堆疊的Transformer組成,其中一個(gè)隱藏層大小為768,還包括12個(gè)自注意力頭。mBERT模型經(jīng)過(guò)預(yù)先訓(xùn)練,將104種不同語(yǔ)言的單語(yǔ)維基百科數(shù)據(jù)(包括英語(yǔ)、印地語(yǔ)、土耳其語(yǔ)、馬拉雅拉姆語(yǔ)等)與一個(gè)共享的詞匯表(該詞匯表包括12萬(wàn)個(gè)單詞)進(jìn)行連接,使得所有字符編碼共享一個(gè)嵌入空間和編碼器,方便應(yīng)用于不同的語(yǔ)言任務(wù)中[24]。Kudugunta等[25]和Kondratyuk等[26]驗(yàn)證了在下游任務(wù)上(如詞性標(biāo)注、命名實(shí)體識(shí)別等)可以實(shí)現(xiàn)從跨語(yǔ)言預(yù)訓(xùn)練模型中提取相關(guān)特征,獲取在特定任務(wù)上的基于語(yǔ)言知識(shí)的信息。Kumar等[27]在德語(yǔ)和印地語(yǔ)任務(wù)中,使用了預(yù)訓(xùn)練模型mBERT,通過(guò)對(duì)BERT模型微調(diào)在德語(yǔ)和印地語(yǔ)的識(shí)別仇恨和冒犯性任務(wù)上取得了顯著的效果。Libovicky等[28]證明了基于上下文的mBERT可以捕捉語(yǔ)言之間的相似性,并將語(yǔ)言按語(yǔ)種進(jìn)行聚類,且跨語(yǔ)言微調(diào)后不會(huì)破壞這個(gè)屬性。換句話說(shuō),mBERT可以將語(yǔ)言信息的一部分按照嵌入空間中的位置進(jìn)行編碼,將每種語(yǔ)言的編碼集中起來(lái),可以實(shí)現(xiàn)一定程度的跨語(yǔ)言性。

圖 1 本文方法的結(jié)構(gòu)

受到前面工作的啟發(fā),本文利用mBERT模型的跨語(yǔ)言性使得檢測(cè)器可以捕獲不同語(yǔ)言的文本特征,通過(guò)遷移學(xué)習(xí)將mBERT學(xué)到的有關(guān)各種語(yǔ)言的知識(shí)信息分享給新模型,在mBERT模型參數(shù)的基礎(chǔ)上進(jìn)行檢測(cè)器模型的訓(xùn)練,從而提高模型的學(xué)習(xí)效率。本文方法使用BERT模型作為構(gòu)建攻擊性言論檢測(cè)模型的基礎(chǔ)結(jié)構(gòu),將mBERT的模型參數(shù)作為上述攻擊性言論檢測(cè)模型的初始參數(shù),在此基礎(chǔ)上,通過(guò)對(duì)BERT模型進(jìn)行微調(diào),完成攻擊性言論檢測(cè)器的訓(xùn)練。

最后,使用交叉熵函數(shù)作為該任務(wù)的損失函數(shù)。該損失函數(shù)如式(3)所示:

通過(guò)使用遷移學(xué)習(xí),將mBERT跨語(yǔ)言預(yù)訓(xùn)練模型的權(quán)重參數(shù)遷移到單語(yǔ)攻擊性言論檢測(cè)模型中作為單語(yǔ)攻擊性言論檢測(cè)模型的初始參數(shù),在這基礎(chǔ)上進(jìn)行攻擊性言論中的攻擊性特征的學(xué)習(xí),最后得到一個(gè)單語(yǔ)攻擊性言論檢測(cè)模型。

2.2 跨語(yǔ)言檢測(cè)

2.1節(jié)中得到的單語(yǔ)攻擊性言論檢測(cè)模型不僅可以解釋高資源攻擊性言論中的攻擊性特征,還繼承了遷移到mBERT預(yù)訓(xùn)練模型對(duì)多種語(yǔ)言的語(yǔ)義編碼能力。這種能力使單語(yǔ)攻擊性言論檢測(cè)模型可以對(duì)未參與攻擊性特征學(xué)習(xí)的語(yǔ)言直接進(jìn)行檢測(cè)。本文將使用訓(xùn)練好的單語(yǔ)攻擊性言論檢測(cè)模型對(duì)未參與攻擊性特征學(xué)習(xí)的語(yǔ)言進(jìn)行檢測(cè)的方法稱為跨語(yǔ)言檢測(cè)。

為觀察語(yǔ)言之間的關(guān)系,從每種語(yǔ)言中隨機(jī)抽取了1 000個(gè)樣本,并使用tSNE(t?distributed Stochastic Neighbor Embedding)可視化了它們的句子嵌入(見(jiàn)圖2)[29]。從可視化中觀察到,這些例子基于它們的語(yǔ)言形成了一個(gè)粗略的聚類,但是英語(yǔ)和丹麥語(yǔ)的集群彼此靠近。這進(jìn)一步說(shuō)明了利用嵌入空間的這種接近性來(lái)提高對(duì)低資源語(yǔ)言攻擊性文本檢測(cè)的可能性。

需要特別指出的是,本文方法并未使用上述單語(yǔ)攻擊性言論檢測(cè)模型在低資源數(shù)據(jù)上進(jìn)行再遷移學(xué)習(xí),因此該方法可以稱無(wú)監(jiān)督的跨語(yǔ)言檢測(cè)。

對(duì)于某些語(yǔ)種(如丹麥語(yǔ)、阿拉伯語(yǔ)和印地語(yǔ)等),由于這些語(yǔ)種的攻擊性言論樣本資源極少,在對(duì)現(xiàn)有資源進(jìn)行跨語(yǔ)言遷移學(xué)習(xí)時(shí),這些樣本量不足以訓(xùn)練一個(gè)完整的針對(duì)該語(yǔ)言的攻擊性言論檢測(cè)器。通過(guò)觀察表1,發(fā)現(xiàn)這些語(yǔ)言之間或多或少都有些相似之處,如:丹麥語(yǔ)和英語(yǔ)之間,在實(shí)際生活中,丹麥語(yǔ)中也包含大部分的英語(yǔ);又發(fā)現(xiàn)如英語(yǔ)、土耳其語(yǔ)這些語(yǔ)言,構(gòu)成文本的字符較為相似;而印地語(yǔ)、阿拉伯語(yǔ)和希臘語(yǔ)這些語(yǔ)言的字符之間差異較大,這些差異也決定了這些語(yǔ)言間的相似性不高。因此,提出一種通過(guò)探索不同語(yǔ)言之間的語(yǔ)言相似度,選取合適的單語(yǔ)攻擊性言論檢測(cè)器,用來(lái)檢測(cè)低資源語(yǔ)種文本中的攻擊性言論。

為了定量估計(jì)兩種語(yǔ)言的語(yǔ)義相似性,本文使用了Patra等[30]提出的GH(Gromov?Hausdroff)距離度量?jī)蓚€(gè)單詞之間嵌入空間距離的方法。與文獻(xiàn)[30]中不同語(yǔ)言的單詞所映射到的嵌入空間不同的情況相反,通過(guò)跨語(yǔ)言預(yù)訓(xùn)練模型mBERT編碼的嵌入編碼都映射在同一空間內(nèi),且通過(guò)編碼可視化(編碼可視化如圖2所示)可以看出不同語(yǔ)言的編碼聚集在不同區(qū)域。因此,本文只需計(jì)算兩種語(yǔ)言嵌入編碼在不同區(qū)域的等距距離,以此來(lái)定量?jī)煞N語(yǔ)言的語(yǔ)義相似程度。

表1 各語(yǔ)種的樣本數(shù)據(jù)

具體來(lái)說(shuō),GH距離定義如式(4)所示:

3 實(shí)驗(yàn)設(shè)置

3.1 數(shù)據(jù)設(shè)置

為了驗(yàn)證本文方法的性能,使用了如表2所示的公開(kāi)可用的攻擊性言論檢測(cè)數(shù)據(jù)集。對(duì)于豐富的資源語(yǔ)言,本文使用2019年OffensEval共享任務(wù)6中發(fā)布的英文標(biāo)記數(shù)據(jù)集(EN?OLID)[31],OLID(EN?OLID)是最流行的英語(yǔ)語(yǔ)言數(shù)據(jù)集之一。對(duì)于其他資源匱乏的語(yǔ)言,選擇使用在2020年OffensEval共享任務(wù)12中發(fā)布的丹麥語(yǔ)(Danish)、阿拉伯語(yǔ)(Arabic)、土耳其語(yǔ)(Turkish)和希臘語(yǔ)(Greek)數(shù)據(jù)集。其中,OLID數(shù)據(jù)集包括三個(gè)子任務(wù)。子任務(wù)A:檢測(cè)語(yǔ)言文本具有攻擊性或不具有攻擊性,以及兩者樣本總和;子任B:將攻擊語(yǔ)言文本的攻擊類型分類為有針對(duì)性的侮辱(TIN)、有針對(duì)性的威脅(TTH)或無(wú)針對(duì)性的(UNT);子任務(wù)C:將攻擊目標(biāo)確定為個(gè)人(IND)、人群(GRP)、組織或?qū)嶓w(ORG)及其他(OTH)。而阿拉伯語(yǔ)、丹麥語(yǔ)、希臘語(yǔ)和土耳其語(yǔ)只包含子任務(wù)A。本文實(shí)驗(yàn)只針對(duì)上述所有任務(wù)A數(shù)據(jù)進(jìn)行探討。此外,實(shí)驗(yàn)中設(shè)置訓(xùn)練集樣本量和測(cè)試集樣本量的比例為9∶1。

表2 樣本數(shù)據(jù)分布

3.2 參數(shù)設(shè)置

詞向量維度:設(shè)置本方法中的模型詞向量維度為768維。

詞表:設(shè)置mBERT預(yù)訓(xùn)練模型對(duì)應(yīng)的詞表作為文本實(shí)驗(yàn)中的共享詞表,其中,該詞表包括104種語(yǔ)言,共有12萬(wàn)詞匯。

跨語(yǔ)言遷移學(xué)習(xí):經(jīng)過(guò)對(duì)樣本的數(shù)據(jù)分析,發(fā)現(xiàn)大部分?jǐn)?shù)據(jù)長(zhǎng)度在120個(gè)詞以內(nèi),因此設(shè)置句子最大長(zhǎng)度為120。設(shè)置Softmax層的隱藏層單元為標(biāo)簽類別個(gè)數(shù)2。

模型訓(xùn)練:設(shè)置訓(xùn)練batch為64,epoch為10。

優(yōu)化器設(shè)置:設(shè)置優(yōu)化器為Adam。

優(yōu)化參數(shù)設(shè)置:設(shè)置隱藏層dropout參數(shù)為0.01,固定學(xué)習(xí)率為0.000 02。

4 實(shí)驗(yàn)及結(jié)果分析

4.1 度量標(biāo)準(zhǔn)

度量標(biāo)準(zhǔn)主要包括模型預(yù)測(cè)的準(zhǔn)確率(Accuracy)、精確率(Precision)、召回率(Recall)、宏平均macro F1值(后文統(tǒng)稱F1值)。

4.2 對(duì)比實(shí)驗(yàn)分析

首先實(shí)驗(yàn)驗(yàn)證所提方法對(duì)于低資源語(yǔ)言攻擊性言論檢測(cè)的有效性。先抽取英語(yǔ)樣本集做跨語(yǔ)言遷移學(xué)習(xí),接著將訓(xùn)練好的攻擊性言論檢測(cè)器遷移到其他語(yǔ)言樣本中,用來(lái)檢測(cè)文本中的攻擊性。同時(shí)設(shè)置幾個(gè)單語(yǔ)模型作為對(duì)比,單語(yǔ)模型設(shè)置如下:

BERT:直接遷移mBERT預(yù)訓(xùn)練模型權(quán)重參數(shù)到低資源語(yǔ)言上進(jìn)行攻擊性特征的學(xué)習(xí)。

LR:使用詞頻?逆向文檔頻率(Term Frequency?Inverse Document Frequency,TF?IDF)提取語(yǔ)言文本特征信息,接著使用Logistic Regression算法構(gòu)建攻擊性言論分類器。

SVM:使用TF?IDF提取語(yǔ)言文本中的特征信息,使用SVM來(lái)學(xué)習(xí)特征信息中的文本特征。

MLP:使用多層感知機(jī)(Multi?Layer Perceptron, MLP)來(lái)構(gòu)建攻擊性文本分類器。

實(shí)驗(yàn)結(jié)果如表3所示。表3顯示,與所設(shè)置的4種方法相比,本文方法不論是準(zhǔn)確率還是F1值都有所提升,進(jìn)一步驗(yàn)證了本文提出的跨語(yǔ)言遷移檢測(cè)方法要優(yōu)于基于單語(yǔ)模型的檢測(cè)方法。從以下兩方面分析原因:

1)理論上,可以通過(guò)對(duì)BERT模型進(jìn)行微調(diào)來(lái)自動(dòng)檢測(cè)攻擊性言論,但要達(dá)到上述目標(biāo)需要大量的語(yǔ)料,而由于語(yǔ)料不足,模型無(wú)法很好地對(duì)文本中的攻擊性特征進(jìn)行表示學(xué)習(xí);類似地,在使用TF?IDF表示文本特征時(shí),數(shù)據(jù)集極少的情況下并不能將文本中的多元信息很好地表示出來(lái),所以這些單語(yǔ)模型盡管可以學(xué)習(xí)到一些攻擊性特征,但在測(cè)試過(guò)程中的檢測(cè)性能表現(xiàn)一般。

2)在數(shù)據(jù)資源極少的情況下,由于組成不同語(yǔ)言的單詞不同,可能差異很大。這導(dǎo)致將其他語(yǔ)言的文本作為單語(yǔ)檢測(cè)器的輸入時(shí),該檢測(cè)器對(duì)上述所能表示的信息量與對(duì)訓(xùn)練語(yǔ)言相同的文本表示的信息量相差懸殊,不利于遷移檢測(cè)。而對(duì)mBERT的遷移學(xué)習(xí)使該檢測(cè)器對(duì)不同的語(yǔ)言都有一定的表示能力,可以縮小文本表示階段的信息量差距,這有利于將單語(yǔ)檢測(cè)器學(xué)習(xí)到的特征遷移到其他語(yǔ)言做檢測(cè)。

表3 不同模型的實(shí)驗(yàn)結(jié)果對(duì)比

經(jīng)驗(yàn)上,對(duì)可用數(shù)據(jù)資源極少的語(yǔ)言收集工作和標(biāo)記工作都是極耗費(fèi)人力物力的,從而導(dǎo)致這些語(yǔ)言的可用資源很少;而使用跨語(yǔ)言遷移檢測(cè)方法能夠?qū)膭e的語(yǔ)言上學(xué)習(xí)到的攻擊性特征遷移到低資源語(yǔ)言上檢測(cè)包含攻擊性的言論,擴(kuò)大了該方法的使用范圍。

實(shí)驗(yàn)也驗(yàn)證了跨語(yǔ)言遷移檢測(cè)方法可以檢測(cè)低資源語(yǔ)言中的攻擊性言論。觀察表3,可以看到基于英語(yǔ)數(shù)據(jù)集的攻擊性言論檢測(cè)器在不同語(yǔ)言上的遷移檢測(cè)實(shí)驗(yàn)結(jié)果并不一致。相比其他語(yǔ)言,在丹麥語(yǔ)上的遷移檢測(cè)結(jié)果最好。通過(guò)觀察表3中的原數(shù)據(jù),發(fā)現(xiàn)不同的單語(yǔ)檢測(cè)模型在不同語(yǔ)言的遷移檢測(cè)效果是不同的。可以得出結(jié)論,在兩種語(yǔ)義相近的語(yǔ)言上做遷移檢測(cè)可以解決低資源的攻擊性言論檢測(cè)問(wèn)題。為進(jìn)一步驗(yàn)證本文方法的有效性,通過(guò)式(4)計(jì)算兩個(gè)語(yǔ)言的GH距離作為判斷最佳遷移檢測(cè)模型的效果,結(jié)果如表4所示。表4計(jì)算了樣本量最高的三種語(yǔ)言(英語(yǔ)、土耳其語(yǔ)和希臘語(yǔ))和其他語(yǔ)言之間的單詞向量的GH距離來(lái)衡量不同語(yǔ)種之間的語(yǔ)言相似度。其中,兩種不同語(yǔ)言對(duì)應(yīng)的值越小,表明這兩種語(yǔ)言越相似。從表4中可以看出英語(yǔ)與丹麥語(yǔ)相似度更高,而希臘語(yǔ)與丹麥語(yǔ)、土耳其語(yǔ)與阿拉伯語(yǔ)相似度高,這也符合人們對(duì)語(yǔ)言的觀測(cè)。

4.3 語(yǔ)義相似度對(duì)遷移效果的影響分析

為了分析語(yǔ)義相似度對(duì)遷移效果的影響,設(shè)置樣本量最高的三種語(yǔ)言訓(xùn)練單語(yǔ)檢測(cè)模型,并遷移到其他語(yǔ)言中做遷移檢測(cè)實(shí)驗(yàn),檢測(cè)不同單語(yǔ)檢測(cè)模型對(duì)不同語(yǔ)言的遷移檢測(cè)效果。

首先,分別在英語(yǔ)、土耳其語(yǔ)和希臘語(yǔ)三個(gè)語(yǔ)言的數(shù)據(jù)集上進(jìn)行攻擊性言論檢測(cè)模型的訓(xùn)練,得到英語(yǔ)檢測(cè)模型、土耳其語(yǔ)檢測(cè)模型和希臘語(yǔ)檢測(cè)模型;接著,將這三個(gè)檢測(cè)模型分別在其他語(yǔ)言上進(jìn)行檢測(cè)實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果圖3所示,其中en、da、ar、tr、和el表示英語(yǔ)、丹麥語(yǔ)、阿拉伯語(yǔ)、土耳其語(yǔ)和希臘語(yǔ)。

圖3 五種語(yǔ)言模型的準(zhǔn)確度、召回率、精確度和F1性能比較

從圖3可以看出,對(duì)于丹麥語(yǔ)、阿拉伯語(yǔ)和土耳其語(yǔ)的F1以及Recall,使用英語(yǔ)檢測(cè)器的檢測(cè)結(jié)果對(duì)應(yīng)的四個(gè)評(píng)價(jià)指標(biāo)基本優(yōu)于另外兩個(gè)分類器(在本次分析中,使用土耳其語(yǔ)檢測(cè)器檢測(cè)土耳其語(yǔ)和使用希臘語(yǔ)檢測(cè)器檢測(cè)希臘語(yǔ)的結(jié)果不參與分析),且這三種語(yǔ)言與英語(yǔ)之間的GH距離也遠(yuǎn)小于其他兩種語(yǔ)言之間的GH距離。對(duì)于Accuracy和Precision,土耳其語(yǔ)對(duì)應(yīng)的柱狀圖要高于英語(yǔ)對(duì)應(yīng)的柱狀圖,表明這種方法在一定程度上利用了語(yǔ)言上的相似性,使在語(yǔ)義相似的語(yǔ)言間遷移時(shí)達(dá)到信息損失最小化,進(jìn)一步說(shuō)明了判斷語(yǔ)義相似度在跨語(yǔ)言檢測(cè)中的重要性。可以利用這種特性,選擇與低資源語(yǔ)言語(yǔ)義相似度最高的高資源數(shù)據(jù)進(jìn)行單語(yǔ)攻擊性言論檢測(cè)模型的訓(xùn)練,進(jìn)而可以更好地實(shí)現(xiàn)對(duì)低資源語(yǔ)言中的攻擊性判斷。

4.4 訓(xùn)練資源的多少對(duì)遷移效果的影響分析

設(shè)置不同的訓(xùn)練樣本量以分析樣本量變化過(guò)程中遷移檢測(cè)效果的變化,結(jié)果如圖4??梢钥闯觯S著訓(xùn)練樣本量的增多,遷移檢測(cè)效果的性能也不斷提升。觀察圖4發(fā)現(xiàn),當(dāng)訓(xùn)練樣本量小于3 000時(shí),對(duì)各個(gè)語(yǔ)言的遷移檢測(cè)性能指標(biāo)均低于0.35,此時(shí)模型處于不夠理想的狀態(tài);隨著訓(xùn)練樣本量的增加,模型的遷移檢測(cè)性能指標(biāo)也隨之上升,當(dāng)訓(xùn)練樣本量增加到12 000時(shí),圖中各指標(biāo)處于緩慢增長(zhǎng)甚至穩(wěn)定狀態(tài)。而且相較于其他語(yǔ)言,與英語(yǔ)語(yǔ)義相似度最高的丹麥語(yǔ)的檢測(cè)性能指標(biāo)增長(zhǎng)最快。所以訓(xùn)練樣本越多,用這些訓(xùn)練樣本訓(xùn)練得到的模型遷移到其他語(yǔ)言中的效果越好,但當(dāng)樣本量超過(guò)一定值時(shí),訓(xùn)練資源的多少帶來(lái)的影響就會(huì)很??;而且與高資源語(yǔ)言相似度最高的低資源語(yǔ)言的檢測(cè)性能的變化最明顯。由此,本文認(rèn)為語(yǔ)言之間的相似性是使遷移效果更優(yōu)的主要原因,兩種語(yǔ)言越相似,遷移檢測(cè)效果越好。

4.5 與有監(jiān)督方法的對(duì)比實(shí)驗(yàn)分析

本文方法主要是基于mBERT的無(wú)監(jiān)督檢測(cè)方法,為了進(jìn)一步探究語(yǔ)言相似性對(duì)低資源語(yǔ)言任務(wù)中的影響,將無(wú)監(jiān)督方法與一組有監(jiān)督方法作對(duì)比實(shí)驗(yàn)。具體實(shí)現(xiàn)為在得到英語(yǔ)這種高資源語(yǔ)言對(duì)應(yīng)的檢測(cè)模型后,在有限的低資源語(yǔ)言中做進(jìn)一步的遷移學(xué)習(xí),實(shí)驗(yàn)結(jié)果如表5。由表5可以看出,本文的無(wú)監(jiān)督方法效果接近有監(jiān)督的方法,并且不同語(yǔ)言之間的接近程度有一定的差異。值得注意的是,丹麥語(yǔ)中的有監(jiān)督方法比無(wú)監(jiān)督方法在Accuracy和F1兩種評(píng)價(jià)指標(biāo)中分別高0.029和0.090。同時(shí)發(fā)現(xiàn),與英語(yǔ)相似度更高的丹麥語(yǔ)無(wú)論是各指標(biāo)值還是接近程度都要優(yōu)于其他語(yǔ)言,這也進(jìn)一步驗(yàn)證了語(yǔ)言相似性對(duì)低資源語(yǔ)言任務(wù)中的影響一致性。

圖 4 訓(xùn)練樣本量不同時(shí)的模型遷移檢測(cè)對(duì)比

表5 本文方法與有監(jiān)督方法的對(duì)比

5 結(jié)語(yǔ)

本文采用跨語(yǔ)言模型遷移學(xué)習(xí)和遷移檢測(cè)相結(jié)合方式構(gòu)建了攻擊性言論監(jiān)測(cè)器,實(shí)現(xiàn)了對(duì)低資源語(yǔ)言的攻擊性檢測(cè)。通過(guò)在BERT模型中遷移跨語(yǔ)言預(yù)訓(xùn)練語(yǔ)言模型mBERT,保證模型對(duì)多種語(yǔ)言的語(yǔ)義編碼能力,且減少多語(yǔ)語(yǔ)言模型訓(xùn)練過(guò)程中資源的耗費(fèi)。對(duì)BERT模型微調(diào),實(shí)現(xiàn)在該語(yǔ)言中的攻擊性言論檢測(cè)。通過(guò)探索不同語(yǔ)言之間的語(yǔ)言相似度,提高在低資源語(yǔ)種中的攻擊性言論遷移檢測(cè)有效性。實(shí)驗(yàn)結(jié)果表明,本文方法確實(shí)能有效提高對(duì)低資源語(yǔ)種的遷移檢測(cè)效果。在今后的研究中,會(huì)嘗試將這種方法應(yīng)用在多種任務(wù)上,如其他自然語(yǔ)言處理領(lǐng)域的機(jī)器翻譯、文本生成等。

[1] MALMASI S, ZAMPIERI M. Challenges in discriminating profanity from hate speech[J]. Journal of Experimental and Theoretical Artificial Intelligence, 2018. 30(2): 187-202.

[2] KUMAR R, OJHA A K, MALMASI S, et al. Benchmarking aggression identification in social media[C]// Proceedings of the 1st Workshop on Trolling, Aggression, and Cyberbullying. Stroudsburg, PA: Association for Computational Linguistics, 2018: 1-11.

[3] NOBATA C, TETREAULT J, THOMAS A, et al. Abusive language detection in online user content[C]// Proceedings of the 25th International Conference on World Wide Web. Republic and Canton of Geneva: International World Wide Web Conferences Steering Committee, 2016: 145-153.

[4] ROSENTHAL S, ATANASOVA P, KARADZHOV G, et al. SOLID: a large?scale semi?supervised dataset for offensive language identification[C]// Findings of the Association for Computational Linguistics: ACL?IJCNLP 2021. Stroudsburg, PA: Association for Computational Linguistics, 2021: 915-928.

[5] MUBARAK H, RASHED A, DARWISH K, et al. Arabic offensive language on Twitter: analysis and experiments[C]// Proceedings of the 6th Arabic Natural Language Processing Workshop. Stroudsburg, PA: Association for Computational Linguistics, 2021: 126-135.

[6] ??LTEKIN ?. A corpus of Turkish offensive language on social media[C]// Proceedings of the 12th Language Resources and Evaluation Conference. Paris: European Language Resources Association, 2020: 6174-6184.

[7] CASULA C, PALMERO APROSIO A, MENINI S, et al. FBK?DH at SemEval-2020 Task 12: using multi?channel BERT for multilingual offensive language detection[C]// Proceedings of the 14th Workshop on Semantic Evaluation. [S.l.]: International Committee for Computational Linguistics, 2020: 1539-1545.

[8] FENG F X Y,YANG Y F, CER D, et al. Language?agnostic BERT sentence embedding[C]// Proceedings of the 60th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). Stroudsburg, PA: Association for Computational Linguistics, 2022: 878-891.

[9] PAMUNGKAS E W, PATTI V. Cross?domain and cross?lingual abusive language detection: a hybrid approach with deep learning and a multilingual lexicon[C]// Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics: Student Research Workshop. Stroudsburg, PA: Association for Computational Linguistics,2019: 363-370.

[10] WARNER W, HIRSCHBERG J. Detecting hate speech on the world wide web[C]// Proceedings of the 2nd Workshop on Language in Social Media. Stroudsburg, PA: Association for Computational Linguistics, 2012: 19-26.

[11] SAROJ A, PAL S. An Indian language social media collection for hate and offensive speech[C]// Proceedings of the 1st Workshop on Resources and Techniques for User and Author Profiling in Abusive Language. Paris: European Language Resources Association, 2020: 2-8.

[12] PATHAK V, JOSHI M, JOSHI P A, et al. KBCNMUJAL@ HASOC?Dravidian?CodeMix?FIRE2020: using machine learning for detection of hate speech and offensive code?mixed social media text[EB/OL]. (2021-02-19)[2021-08-10].https://arxiv.org/ftp/arxiv/papers/2102/2102.09866.pdf.

[13] 蘇金樹(shù),張博鋒,徐昕. 基于機(jī)器學(xué)習(xí)的文本分類技術(shù)研究進(jìn)展[J]. 軟件學(xué)報(bào), 2006, 17(9): 1848-1859.(SU J S, ZHANG B F, XU X. Advances in machine learning based text categorization[J]. Journal of Software, 2006, 17(9):1848-1859.)

[14] ZAMPIERI M, NAKOV P, ROSENTHAL S, et al. SemEval-2020 Task 12: multilingual offensive language identification in social media (OffensEval 2020)[C]// Proceedings of the 14th Workshop on Semantic Evaluation. [S.l.]: International Committee for Computational Linguistics, 2020: 1425-1447.

[15] HOWARD J, RUDER S. Universal language model fine?tuning for text classification[C]// Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). Stroudsburg, PA: Association for Computational Linguistics, 2018: 328-339.

[16] LIU P, LI W, ZOU L. NULI at SemEval-2019 Task 6: transfer learning for offensive language detection using bidirectional transformers[C]// Proceedings of the 13th International Workshop on Semantic Evaluation. Stroudsburg, PA: Association for Computational Linguistics, 2019: 87-91.

[17] PITENIS Z, ZAMPIERI M, RANASINGHE T. Offensive language identification in Greek[C]// Proceedings of the 12th Language Resources and Evaluation Conference. Paris: European Language Resources Association, 2020: 5113-5119.

[18] NIKOLOV A, RADIVCHEV V. Nikolov?Radivchev at SemEval-2019 Task 6: offensive tweet classification with BERT and ensembles[C]// Proceedings of the 13th International Workshop on Semantic Evaluation. Stroudsburg, PA: Association for Computational Linguistics, 2019: 691-695.

[19] MAHESHAPPA P, MATHEW B, SAHA P. Using knowledge graphs to improve hate speech detection[C]// Proceedings of the 3rd ACM India Joint International Conference on Data Science and Management of Data. New York: ACM, 2021: 430-430.

[20] PHAM Q H, NGUYEN V A, DOAN L B, et al. From universal language model to downstream task: improving RoBERTa?based Vietnamese hate speech detection[C]// Proceedings of the 12th International Conference on Knowledge and Systems Engineering. Piscataway: IEEE, 2020: 37-42.

[21] AL?MAKHADMEH Z, TOLBA A . Automatic hate speech detection using killer natural language processing optimizing ensemble deep learning approach[J]. Computing, 2020, 102(2):501-522.

[22] AYO F E, FOLORUNSO O, IBHARALU F T, et al. Hate speech detection in Twitter using hybrid embeddings and improved cuckoo search?based neural networks[J]. International Journal of Intelligent Computing and Cybernetics,2020, 13(4):485-525.

[23] KAPIL P, EKBAL A. A deep neural network based multi?task learning approach to hate speech detection[J]. Knowledge?Based Systems, 2020, 210: No.106458.

[24] COLLA D, CASELLI T, BASILE V, et al. GruPaTo at SemEval-2020 Task 12: retraining mBERT on social media and fine?tuned offensive language models[C]// Proceedings of the 14th Workshop on Semantic Evaluation. [S.l.]: International Committee for Computational Linguistics, 2020: 1546-1554.

[25] KUDUGUNTA S, BAPNA A, CASWELL I, et al. Investigating multilingual NMT representations at scale[C]// Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing. Stroudsburg, PA: Association for Computational Linguistics, 2019: 1565-1575.

[26] KONDRATYUK D, STRAKA M. 75 languages, 1 model: parsing universal dependencies universally[C]// Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing. Stroudsburg, PA: Association for Computational Linguistics, 2019: 2779-2795.

[27] KUMAR A, SAUMYA S, SINGH J P . NITP?AI?NLP@HASOC? FIRE2020: fine tuned BERT for the hate speech and offensive content identification from social media[C]// Proceedings of the 12th Meeting of Forum for Information Retrieval Evaluation. Aachen: CEUR?WS.org, 2020: 266-273.

[28] LIBOVICKY J, ROSA R, FRASER A. How language?neutral is multilingual BERT?[EB/OL]. (2019-11-08)[2021-08-10].https://arxiv.org/pdf/1911.03310.pdf.

[29] ABE M, MIYAO J, KURITA T. q?SNE: visualizing data using q?Gaussian distributed stochastic neighbor embedding[C]// Proceedings of the 25th International Conference on Pattern Recognition. Piscataway: IEEE, 2021: 1051-1058.

[30] PATRA B, MONIZ J R A, GARG S, et al. Bilingual lexicon induction with semi?supervision in non?isometric embedding spaces[C]// Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics, Stroudsburg, PA: Association for Computational Linguistics, 2019: 184-193.

[31] ZAMPIERI M, MALMASI S, NAKOV P, et al. SemEval-2019 Task 6: identifying and categorizing offensive language in social media (OffensEval)[C]// Proceedings of the 13th International Workshop on Semantic Evaluation. Stroudsburg, PA: Association for Computational Linguistics, 2019: 75-86.

Detection of unsupervised offensive speech based on multilingual BERT

SHI Xiayang1, ZHANG Fengyuan1, YUAN Jiaqi2, HUANG Min1*

(1,,450001,;2,,450001,)

Offensive speech has a serious negative impact on social stability. Currently, automatic detection of offensive speech focuses on a few high?resource languages, and the lack of sufficient offensive speech tagged corpus for low?resource languages makes it difficult to detect offensive speech in low?resource languages. In order to solve the above problem, a cross?language unsupervised offensiveness transfer detection method was proposed. Firstly, an original model was obtained by using the multilingual BERT (multilingual Bidirectional Encoder Representation from Transformers, mBERT)model to learn the offensive features on the high?resource English dataset. Then, by analyzing the language similarity between English and Danish, Arabic, Turkish, Greek, the obtained original model was transferred to the above four low?resource languages to achieve automatic detection of offensive speech on low?resource languages. Experimental results show that compared with the four methods of BERT, Linear Regression (LR), Support Vector Machine (SVM) and Multi?Layer Perceptron (MLP), the proposed method increases both the accuracy and F1 score of detecting offensive speech of languages such as Danish, Arabic, Turkish, and Greek by nearly 2 percentage points, which are close to those of the current supervised detection, showing that the combination of cross?language model transfer learning and transfer detection can achieve unsupervised offensiveness detection of low?resource languages.

cross?language model; offensive speech detection; BERT (Bidirectional Encoder Representation from Transformers); unsupervised method; Transfer Learning (TL)

This work is partially supported by Key Research and Development and Promotion Project of Henan Province (212102210547).

SHI Xiayang, born in 1978,Ph. D., lecturer. His research interests include natural language processing, machine translation.

ZHANG Fengyuan, born in 1998. Her research interests include natural language processing, machine translation.

YUAN Jiaqi, born in 1996, M. S. candidate. Her research interests include natural language processing, multimodal machine translation.

HUANG Min, born in 1972, Ph. D., professor. His research interests include data mining, information processing.

TP391.1

A

1001-9081(2022)11-3379-07

10.11772/j.issn.1001-9081.2021112005

2021?11?25;

2021?12?31;

2022?01?14。

河南省重點(diǎn)研發(fā)與推廣專項(xiàng)(212102210547)。

師夏陽(yáng)(1978—),男,河南魯山人,講師,博士,CCF會(huì)員,主要研究方向:自然語(yǔ)言處理、機(jī)器翻譯;張風(fēng)遠(yuǎn)(1998—),女,河南許昌人,主要研究方向:自然語(yǔ)言處理、機(jī)器翻譯;袁嘉琪(1996—),女,河南許昌人,碩士研究生,主要研究方向:自然語(yǔ)言處理、多模態(tài)機(jī)器翻譯;黃敏(1972—),男,河南南陽(yáng)人,教授,博士,主要研究方向:數(shù)據(jù)挖掘、信息處理。

猜你喜歡
文本資源語(yǔ)言
基礎(chǔ)教育資源展示
一樣的資源,不一樣的收獲
語(yǔ)言是刀
文苑(2020年4期)2020-05-30 12:35:30
在808DA上文本顯示的改善
資源回收
基于doc2vec和TF-IDF的相似文本識(shí)別
電子制作(2018年18期)2018-11-14 01:48:06
讓語(yǔ)言描寫搖曳多姿
資源再生 歡迎訂閱
資源再生(2017年3期)2017-06-01 12:20:59
累積動(dòng)態(tài)分析下的同聲傳譯語(yǔ)言壓縮
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
主站蜘蛛池模板: 国产激情影院| 一级爆乳无码av| 精品久久久久久久久久久| 亚洲三级片在线看| 精品视频福利| 欧美日韩一区二区三区四区在线观看| 伊人久久大香线蕉影院| 中国丰满人妻无码束缚啪啪| 在线高清亚洲精品二区| 丁香婷婷综合激情| 久久国产亚洲偷自| 五月天在线网站| 青青网在线国产| 日韩免费毛片| 91久久夜色精品国产网站| 九九热视频精品在线| 国产网站免费| 国产精品 欧美激情 在线播放| 暴力调教一区二区三区| 91破解版在线亚洲| A级全黄试看30分钟小视频| 香蕉色综合| 久久这里只有精品23| 亚洲系列中文字幕一区二区| 国产SUV精品一区二区6| 国产亚洲精品自在线| 噜噜噜久久| 欧美激情视频一区二区三区免费| 99国产在线视频| 久久香蕉国产线看观看亚洲片| 国产一二三区在线| 毛片久久久| 国产区人妖精品人妖精品视频| 成人福利视频网| 国产女人综合久久精品视| 国产一区亚洲一区| 99精品视频在线观看免费播放| 亚洲水蜜桃久久综合网站 | 狼友视频国产精品首页| 亚洲精品国产日韩无码AV永久免费网 | 91久久偷偷做嫩草影院电| 人人看人人鲁狠狠高清| 欧美精品一区在线看| 日韩毛片免费视频| 免费一级毛片不卡在线播放| 九九久久精品国产av片囯产区| 97se亚洲| 天堂亚洲网| 国产尤物在线播放| 成人永久免费A∨一级在线播放| 亚洲国产av无码综合原创国产| 亚洲成人网在线播放| 国产成人啪视频一区二区三区| 91美女视频在线| 亚洲三级色| 素人激情视频福利| 国内黄色精品| 毛片网站在线看| 黄色片中文字幕| 欧美在线一级片| 伊人无码视屏| 国产午夜精品一区二区三| 国产亚洲精| 欧美有码在线观看| 极品国产一区二区三区| 亚洲精品成人7777在线观看| 亚洲激情区| 精品国产Ⅴ无码大片在线观看81| 日韩毛片基地| 亚洲精品黄| 美女被狂躁www在线观看| 久久久久人妻一区精品| 青草视频网站在线观看| 亚洲福利片无码最新在线播放| 亚洲视频免费在线看| 亚洲综合专区| 波多野结衣第一页| 欧美不卡二区| 狠狠亚洲五月天| 2021国产乱人伦在线播放| 99久久无色码中文字幕| 欧美午夜理伦三级在线观看|