999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

英語學習者作文自動評分特征選擇及模型優(yōu)化研究

2021-12-14 01:37:28
計算機應用與軟件 2021年12期
關鍵詞:詞匯特征文本

劉 磊

(燕山大學外國語學院 河北 秦皇島 066004)

0 引 言

作文是評測英語學習者語言能力的重要指標。目前,在英語教學和測試領域,學習者作文通常依靠人工審閱,耗費大量人力和物力,同時很難保證評測結果的可信度和有效性[1]。為了改善這一狀況,近年來國內(nèi)外學者開始借助機器學習和自然語言處理技術,利用計算機自動評測學習者的作文質(zhì)量[2]。作文自動評分(Automated Essay Scoring,AES)系統(tǒng)可用于TOEFL和GRE等大規(guī)模、高影響力的語言水平測試,作為輔助手段驗證人工評分的信度,如果二者相差較大,則需重新評估作文質(zhì)量[3]。此外,AES系統(tǒng)也適用于非考試環(huán)境下的網(wǎng)絡自主學習平臺,在學生提交作文后提供實時反饋,通過動態(tài)評估督促其修改作文,提高二語寫作水平[4]。本文結合計算機科學和語言學領域的研究方法,采用基于機器學習的統(tǒng)計算法,提取學習者文本的詞匯、語法和語篇特征,從文本復雜度、語法正確度和語篇連貫度等層面構建評分模型,提高現(xiàn)有AES系統(tǒng)的性能。

1 相關工作

AES研究始于20世紀60年代,在當時的技術條件下,計算機并不對輸入文本進行語言學分析,只采用簡單的表層特征,如平均詞長、句長和標點符號數(shù)量等評測作文質(zhì)量[5]。但是,由于當時計算機普及程度較低,運算能力有限,導致AES研究一度陷入沉寂。直至20世紀90年代,隨著計算機軟硬件性能的提高和自然語言處理技術的進步,AES研究重新煥發(fā)生機,出現(xiàn)了一批面向商業(yè)應用的英語作文自動評閱系統(tǒng)[6],如Measurement Inc.公司的Project Essay Grader、美國教育考試處的E-rater和Pearson Knowledge Technologies公司的Intelligent Essay Assessor。然而,由于版權原因,上述商用AES系統(tǒng)均未公開訓練和測試數(shù)據(jù),文獻中也未涉及詳細的算法介紹。因此,雖然這些系統(tǒng)聲稱機器評分信度已達到甚至超過人工評分,但研究者無法在相同數(shù)據(jù)的基礎上對比不同評分方法的優(yōu)劣,繼續(xù)提高AES系統(tǒng)的性能。為了改善這一狀況,近十年來,從事AES研究的學者陸續(xù)建立了一批可供研究者免費使用的英語學習者語料,如劍橋FCE和TOEFLL11考試作文語料庫,使得基于公開數(shù)據(jù)集的系統(tǒng)評測成為可能[7]。現(xiàn)有的基于FCE數(shù)據(jù)集的AES系統(tǒng)如表1所示。

表1 現(xiàn)有基于FCE數(shù)據(jù)集的AES系統(tǒng)

可以看出,Yannakoudakis等[8]使用FCE語料庫,從中提取N元序列、句法復雜度和語法錯誤數(shù)量等文本特征,使用支持向量回歸(Support Vector Regression,SVR)算法訓練AES模型,系統(tǒng)機評與人評分數(shù)的Pearson相關系數(shù)r和Spearman相關系數(shù)ρ分別達到0.741和0.773。Yannakoudakis等[9]和Zhang等[10]在上述研究基礎上增加了語篇連貫特征,改進后的評分模型將Pearson和Spearman相關系數(shù)提升為0.761和0.790,均方根誤差為3.988。Farag等[11]采用基于詞向量和卷積神經(jīng)網(wǎng)絡(Convolutional Neural Network,CNN)的深度學習算法構建評分模型,但其準確率低于基于語言學特征的SVR模型。因此,本文著重探討如何細化語言學特征的選取及優(yōu)化SVR模型,從以下三方面提高現(xiàn)有AES系統(tǒng)的性能。

(1) 降低詞袋特征維度。現(xiàn)有AES系統(tǒng)通常采用由單詞和詞性N元序列構成的詞袋(Bag of Words,BOW)特征訓練評分模型。假設訓練集的詞匯數(shù)量為V,則可能的N元序列多達VN,造成維度災難,影響系統(tǒng)性能。現(xiàn)有研究多采用頻率閾值降低特征維度。本文利用互信息值(Mutual Information,MI)篩選詞袋特征,選取與作文分數(shù)高度相關的特征子集。

(2) 細化語言學特征。文本復雜度、語法錯誤數(shù)量和語篇連貫度等深層語言學特征與英語學習者書面語質(zhì)量關系密切[12]。現(xiàn)有研究只使用了平均詞長和句長等表層特征測量文本復雜度,未涉及詞匯豐富度和詞匯難度等指標。Yannakoudakis等[8]采用RASP句法分析器自動剖析學習者作文的句法結構,通過計算主語-謂語、謂語-賓語等語法關系間的平均距離評測句法復雜度。但這種方法未考慮句子的層級結構,如簡單句、復雜句、從句和復雜名詞短語比例等指標,無法全面反映學習者書面語的句法復雜性。此外,現(xiàn)有研究的語法錯誤檢測模塊多采用統(tǒng)計方法,借助外部語料庫計算作文中的二元或三元詞組概率,如果概率低于設定閾值則判定為語法錯誤。但這種方法只能分析相鄰序列的概率,無法檢測涉及長距離語法關系的語誤(如主謂不一致錯誤)。語篇連貫包括局部連貫和整體連貫兩個層次,分別考察語篇句子間和段落間的語義關聯(lián)[13]。現(xiàn)有研究通過計算作文中相鄰句子的語義相似度評測作文連貫性,忽略了文本的整體連貫度。為解決上述問題,本文從文本表層特征、詞匯多樣性、文本可讀性和句法復雜度四個方面評估文本復雜度;采用基于語法規(guī)則的鏈語法分析器檢測語法錯誤;從局部和整體兩個維度考察語篇連貫性。

(3) 融合稀疏和非稀疏特征。使用詞袋特征構建AES模型時,需要將文本表征為一個包含N元序列頻數(shù)的向量。N元序列數(shù)量龐大,每個文本只包含少數(shù)序列。因此,詞袋特征向量的多數(shù)元素為0,屬于稀疏特征。而由文本復雜度、語法錯誤數(shù)量和語篇連貫度構成的語言學特征為連續(xù)性數(shù)值變量,屬于非稀疏/稠密特征。現(xiàn)有研究構建評分模型時,將詞袋向量vbow和語言學向量vling合并為向量v=(vbow_1,vbow_2,…,vbow_m,vling_1,vling_2,…,vling_n),其中,m和n為詞袋和語言學特征的數(shù)量。由于m?n,經(jīng)過數(shù)據(jù)標準化處理的語言學特征權重降低,無法體現(xiàn)其重要性。因此,本文使用Stacking集成學習算法[14]將詞袋特征轉換為非稀疏的實數(shù)值后構建AES模型。

2 方法設計

為便于與先前研究展開對比,本文選用FCE語料庫訓練和評測作文評分系統(tǒng)。總體框架如圖1所示,其包括數(shù)據(jù)預處理、特征篩選、模型構建和模型評測四個部分。

圖1 AES評分系統(tǒng)總體框架

2.1 詞袋特征提取與篩選

1) 特征提取。首先從訓練集提取所有N元序列集合V,然后將訓練和測試集中的每篇作文轉換為|V|維向量,|V|代表序列種類。假設V={v1,v2,…,v|V|},則文本d可表征為向量d=(c(v1,d),c(v2,d),…,c(v|V|,d))。其中c(v,d)是序列v在文本d中的出現(xiàn)頻率。詞袋特征由長度為1~3的單詞和詞性序列構成。例如,作文“What clothes should I taken? How much money should I taken? And how could we meet at the airport? I am looking forward your reply.”中包含的單詞和詞性序列如表2所示。其中,詞性賦碼PRP表示代詞,VB為動詞原形,MD為情態(tài)動詞[15]。

表2 詞袋特征提取

N元序列體現(xiàn)了詞匯間的固定搭配關系;不同水平作文中的序列種類和數(shù)量存在差異,能夠反映學習者英語的準確度和流暢度。如上例中的三元詞性序列“MD PRP VBN”可檢測作文中兩例情態(tài)動詞+動詞的誤用現(xiàn)象“should I taken”。

2) 特征篩選。如式(1)所示,本文通過N元序列長度和互信息篩選原始特征集合BOW,得到特征子集BOWsub。其中:lenv為單詞和詞性序列的長度;tlen為長度閾值;MIv為序列的互信息值;tmi為互信息閾值。tlen和tmi由人工設定取值范圍,最終根據(jù)SVR模型誤差確定最佳值。

BOWsub={v∈BOW|lenvtmi}

(1)

N元序列的種類與序列長度成正比。然而,部分序列只是與訓練作文主題密切相關的特殊詞匯。如果不加篩選,會降低模型在預測不同主題作文時的泛化能力。互信息值用于選取高區(qū)別度的N元序列,計算方法如下:首先統(tǒng)計序列v在高分和低分作文的分布情況,構建表3所示的2×2列聯(lián)表。其中,高分作文Dhigh_score={d∈Dtrain|score(d)≥m},低分作文Dlow_score={d∈Dtrain|score(d)

表3 N元序列分布列聯(lián)表

根據(jù)式(2)計算序列v的MI值:

(2)

式中:n=n11+n12+n21+n22,表示訓練集作文總數(shù);n1+=n11+n12,表示包含序列v的作文數(shù)量;n+1=n11+n21,表示高分作文數(shù)量。互信息值測量給定文本類別后序列分布的信息增益,MI值越高表示序列和作文分數(shù)的相關度越高。

SVR模型需要對序列頻率進行加權,以降低常用詞(如get、make等)權重。如式(3)和式(4)所示,本文采用詞頻二值化(Binary)和詞頻-逆文檔頻率(TF-IDF)兩種方式對原始詞頻進行加權。

(3)

(4)

(5)

2.2 語言學特征提取與篩選

1) 特征提取。語言學特征包括文本表層特征、詞匯多樣性、文本可讀性、句法復雜度、語法正確性和語篇連貫度等6個維度,共28個子類。

(1) 文本表層特征。評分員傾向于根據(jù)作文長度評測寫作質(zhì)量,兩者存在正相關關系[16]。因此,本文選擇7類基于文本長度的表層特征構建評分模型,如表4所示。早期AES系統(tǒng)如PEG完全采用表層特征構建,只考慮文本形式,不涉及文本內(nèi)容,很容易出現(xiàn)誤判情況。為避免上述缺陷,需要引入其他深層語言學特征提高系統(tǒng)準確率。

表4 文本表層特征

(2) 文本可讀性。本文選用表5所示的可讀性指標評測英語學習者書面語的復雜度。其中:N為作文總詞數(shù);SYL為所有單詞的音節(jié)總數(shù);CW指復雜單詞,即包含兩個以上音節(jié)單詞的數(shù)量;ASL為平均句長;AWS為單詞平均音節(jié)長度。FOG、FLESCH和KINCAID可讀性計算公式中的參數(shù)均由多元回歸方程確定[17]。FOG和KINCAID的值與文本難度成正比,大致對應學習者的語言水平;FLESCH測量文本的易讀性,與文本難度成反比。

表5 文本可讀性特征

續(xù)表5

(3) 詞匯多樣性。如表6所示,詞匯多樣性指不同詞匯類型T與文本總詞數(shù)N的比值。Lu[18]指出,詞匯多樣性在不同水平英語學習者的語言產(chǎn)出中存在明顯差異,并建議使用該指標評測學生的詞匯運用能力。

表6 詞匯多樣性特征

傳統(tǒng)的多樣性計算方法為詞種/詞次比(Type Token Ration,TTR)。然而,這種方法受文本長度影響較大,隨著文本字數(shù)增加,TTR逐漸減小,無法準確測量不同長度文本的詞匯多樣性。為解決這一問題,出現(xiàn)了若干基于TTR的變換形式,如方根TTR、對數(shù)TTR和標準化TTR等[19]。其中,標準化TTR從文本抽取m個長度為n的樣本,然后計算所有樣本的TTR均值。本文采用連續(xù)和隨機抽樣兩種方式計算標準化TTR,樣本長度n=50,隨機樣本數(shù)量m=100,連續(xù)樣本數(shù)量m=N/n。

(4) 句法復雜度。如表7所示,句法復雜度通過分析學習者作文中各句法結構的比例評測寫作質(zhì)量[20]。首先使用句法分析器自動標注子句(SYN_C)、從句(SYN_DC)、動詞短語(SYN_VP)、復雜名詞短語(SYN_CN)和并列短語(SYN_CN)等語法結構,然后通過計算上述結構的使用頻率與文本總句數(shù)S的比值衡量句法復雜度。

表7 句法復雜度特征

通過編寫例1中(b)和(c)所示的Tregex表達式[21]檢索例句1(a)中的定語從句“which should be filmed”和由從句修飾的復雜名詞短語“l(fā)essons and activities which … …”。

例1

(a) I write this report to suggest some [NP[NPlessons and activities][DCwhich should be filmed ]].

(b) SBAR<(S|SINV|SQ<(VP<#MD|VBD|VBP|VBZ))

(c) NP!>NP [<

Tregex表達式用于匹配句法樹各節(jié)點間的支配、從屬和相鄰關系:如符號<和>分別表示父節(jié)點和子節(jié)點,$++表示兄弟節(jié)點,可檢索表6所示各語法結構的使用頻率。

(5) 語法正確度。如表8所示,本文通過檢測拼寫(SPELL_E)和復雜語法錯誤(GRM_E)評估學習者作文的語法正確性。其中,復雜語法錯誤檢測基于鏈語法[22]。鏈語法由詞典和算法兩部分組成,詞典包含詞匯的句法搭配方式;算法根據(jù)詞條的搭配方式對句子進行切分,符合語法的句子形成完整的鏈接,反之,則表明包含語法錯誤。

表8 語法正確度特征

以檢測例句2(a)中的語法錯誤為例,鏈語法首先讀取由詞條和鏈接子表達式構成的詞典,然后分析各鏈接子之間是否能形成完成的鏈條,分析結果如圖2所示。

例2

(a) I’m looking forward your reply.

(b) I: S+; ’m: S- & Pg+; looking: Pg- & MVa+; forward: MVa-; your: D+; reply: O- & D-

圖2 鏈語法語誤檢測示例

(6) 語篇連貫度。如表9所示,本文根據(jù)詞匯銜接理論[23],通過計算語篇的詞匯連接數(shù)量評估作文的整體和局部連貫度。其中:Linkslocal和Linksglobal是作文中相鄰和任意兩個句子間的詞匯連接數(shù)量,Nsent是作文總句數(shù)。

表9 語篇連貫度特征

詞匯連接數(shù)量的計算方法如下:首先使用Word2vec詞嵌入模型[24],將句子中的代詞和名詞表征為實數(shù)值向量,然后通過式(6)計算詞匯的語義相似度。

(6)

式中:w1和w2為Word2vec詞向量;分子為向量點積,分母為向量模的乘積。若詞匯相似度大于0.25,則判定為存在詞匯連接。如圖3所示,例3中的兩個句子包含4條詞匯連接。

例3

I like doing sports. I would like to play basketball and golf when I am at the Camp.

圖3 詞匯連接示例

2) 特征篩選。提取語言學特征后,使用隨機森林(RF)算法篩選特征。RF回歸采用自助抽樣法(Bootstrap sampling)和CART算法構建n個決策樹,每個決策樹節(jié)點從隨機選取的m個特征中挑選一個最優(yōu)特征劃分數(shù)據(jù),最終結果由n個決策樹預測值的均值決定。使用自助抽樣法選取決策樹訓練集時,大約有35%的樣本未出現(xiàn)在數(shù)據(jù)集中,構成包外樣本(oob),用于評測特征的重要度[25],具體計算式為:

(7)

式中:x為語言學特征;Ntree為決策樹數(shù)目;MSE為第i個決策樹模型預測包外樣本(oobi)分數(shù)的均方誤差;permutate(·)函數(shù)用于隨機排列包外樣本中特征x的值。本文選取重要度大于0的語言學特征構建評分模型。

3 實 驗

3.1 實驗數(shù)據(jù)

使用公開數(shù)據(jù)集FCE英語學習者語料庫訓練并測試評分模型。如表10所示,該語料庫由劍橋FCE考試作文構成,包含訓練集作文1 141篇,測試集作文97篇,共95萬詞,每篇作文均有人工批改分數(shù)。此外,F(xiàn)CE訓練和測試集語料選自不同年份的FCE考試作文,寫作主題并不重合。

表10 FCE訓練集和測試集情況

FCE中的語法錯誤均為人工標注,有助于研究英語學習者的二語寫作能力與語法錯誤之間的關系[26]。但本文通過鏈語法自動檢測語法錯誤評估作文質(zhì)量,不借助人工標注的數(shù)據(jù)訓練模型,因此需要將語料中的XML標簽刪除,轉換為純文本文件,然后使用斯坦福自然語言處理工具Stanford CoreNLP[27]自動標注文本的詞性和句法結構等語言學信息。

3.2 特征提取和篩選

首先采用隨機抽樣法,從訓練數(shù)據(jù)中選取90%的樣本作為訓練集,10%的樣本作為驗證集,然后通過設定N元序列長度和互信息值提取詞袋特征。其中:序列長度取值范圍為1≤lenv≤3;互信息取值范圍為10≤-log2MIv≤20。采用Binary和TF-IDF兩種方式對訓練和驗證集數(shù)據(jù)加權,使用LIBLINEAR[28]構建SVR模型。模型的損失函數(shù)為:

(8)

式中:(xi,yi)為訓練集樣本,i=1,2,…,m,xi∈Rn,w∈Rn;超參C為約束代價參數(shù),ε為不敏感損失參數(shù)。本文選用LIBLINEAR的默認參數(shù)設置訓練模型,令C=1,ε=0.1。求得模型參數(shù)w后,使用驗證集計算模型的均方誤差,進而篩選特征。

圖4是詞袋類型(type)、MI值與模型誤差的關系圖示。其中:t為單詞序列,p為詞性序列。可以看出:Binary加權模型的誤差低于TF-IDF;由一元單詞序列(t1)和一元到三元詞性序列(p3)構建的模型誤差最低。表11是模型誤差最小的5類特征組合。可以看出,所有特征均包含一元到三元詞性序列,但不包含三元單詞序列。一元到三元單詞序列的種類較多,大多數(shù)序列的頻率都很低,不利于模型的泛化。與之相比,詞性序列的出現(xiàn)頻率較高,同時能夠反映學習者書面語的詞匯和句法搭配關系,具備更強的泛化能力。

圖4 詞袋特征-模型誤差圖

表11 詞袋特征篩選結果

篩選詞袋特征后,使用統(tǒng)計軟件R構建隨機森林模型,通過式(7)計算語言學特征的重要度。模型參數(shù)設置如下:決策樹數(shù)目Ntree=1 000;隨機選取特征數(shù)m=9。如圖5所示,篩選結果顯示段落數(shù)(LEN_PARA)和并列短語比例(SYN_CP/S)的重要度小于0。排除這兩類特征后,最終選取26類語言學特征構建評分模型。

圖5 語言學特征篩選結果

3.3 模型構建和評測

圖6 集成學習評分模型框架

如表12所示,評測結果表明,基于集成學習的評分模型準確率明顯高于基于SVR的模型。Pearson相關系數(shù)r、Spearman相關系數(shù)ρ和均方根誤差RMSE等評測指標顯示,模型Ⅱ以詞袋特征BOW_A和26類語言學特征LINGUA構建的集成評分模型均優(yōu)于現(xiàn)有基于FCE數(shù)據(jù)集的基準模型。

表12 集成評分模型評測

為了更全面地與現(xiàn)有研究展開對比,本文使用Python深度學習工具Keras,嘗試了兩種基于CNN深度學習算法的評分模型。如圖7所示,模型Ⅲ實驗參數(shù)如下:輸入層單詞序列的長度為最大作文字數(shù)dinput_length=900;詞嵌入層選用Word2vec預訓練詞向量,維度dword_embedding=300;卷積層的濾波器數(shù)量h=20,卷積窗口長度m=3;最大池化層窗口長度n=2;全連接層維度ddense=128。模型Ⅳ除單詞序列外,在輸入層增加了詞性序列,詞性嵌入層維度dpos_embedding=50,通過模型訓練得到詞性向量,然后融合兩類序列在全連接層的輸出預測作文分數(shù)。模型Ⅲ和模型Ⅳ的各層均選用ReLU激活函數(shù),模型訓練使用Adam優(yōu)化器,訓練批次大小batch=16。如表13所示,評測結果顯示,加入詞性序列的深度網(wǎng)絡模型準確率最高。如前文所述,詞性序列包含一些反映學習者寫作質(zhì)量的淺層句法特征,融合單詞和詞性序列的模型優(yōu)于單一的詞向量模型。

圖7 深度學習評分模型框架

表13 深度學習評分模型評測

然而,與集成評分模型相比,基于CNN的深度學習評分模型準確率仍有較大差距。可能的原因是參加FCE考試的考生多為初級英語學習者,導致數(shù)據(jù)集中包含較多的語法錯誤。如圖5所示,復雜語法錯誤數(shù)量比例是預測作文質(zhì)量的重要語言學特征,而基于英語本族語使用者的Word2vec詞嵌入模型不能有效地識別這些錯誤。

4 結 語

本文結合機器學習、自然語言處理和語言學領域的相關研究成果,開發(fā)了英語學習者作文質(zhì)量自動評閱系統(tǒng)。首先使用支持向量回歸,通過N元序列長度和互信息值篩選出與作文分數(shù)高度相關的詞袋特征子集;然后從文本復雜度、正確度和連貫度入手,提取作文的深層語言學特征;最后,使用基于隨機森林回歸的集成學習算法融合詞袋和語言學特征,構建評分模型。與現(xiàn)有評分系統(tǒng)相比,本文方法減少了詞袋特征數(shù)量,降低了模型復雜度;細化了語言學特征種類,從詞匯、語法和語篇等多個角度評估學習者作文質(zhì)量。研究結果表明,本文選取的26類語言學特征與作文質(zhì)量高度相關,基于集成學習的評分系統(tǒng)優(yōu)于現(xiàn)有基于SVR和CNN的評分系統(tǒng)。本文的局限在于FCE語料庫的訓練和評測數(shù)據(jù)較少。主要原因是現(xiàn)有公開的英語學習者作文語料中,大多不包含人工評閱分數(shù),無法構建和評估系統(tǒng)性能。后續(xù)研究將擴大訓練和測試樣本數(shù)量,從在線機考平臺收集更多的學習者數(shù)據(jù),驗證和改善本文的評分模型,以進一步提高學習者作文自動評分系統(tǒng)的準確率。

猜你喜歡
詞匯特征文本
本刊可直接用縮寫的常用詞匯
一些常用詞匯可直接用縮寫
如何表達“特征”
在808DA上文本顯示的改善
本刊可直接用縮寫的常用詞匯
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
抓住特征巧觀察
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
如何快速走進文本
語文知識(2014年1期)2014-02-28 21:59:13
主站蜘蛛池模板: 亚洲欧洲日韩综合| 欧美全免费aaaaaa特黄在线| 国产美女免费| 四虎精品国产AV二区| 日韩精品久久久久久久电影蜜臀| Jizz国产色系免费| 亚洲无码91视频| 亚洲日韩Av中文字幕无码| 亚洲人人视频| 2021亚洲精品不卡a| 国产精品第一区| 2022精品国偷自产免费观看| 色婷婷色丁香| 美女视频黄频a免费高清不卡| a毛片免费在线观看| 国产草草影院18成年视频| 久操线在视频在线观看| 美女视频黄频a免费高清不卡| 欧美激情首页| 国产十八禁在线观看免费| 为你提供最新久久精品久久综合| 91在线日韩在线播放| 在线亚洲天堂| 久久精品国产精品一区二区| 色综合天天娱乐综合网| 免费可以看的无遮挡av无码| 亚洲午夜福利在线| 另类专区亚洲| 国产精品久久久久无码网站| 国产精品久久精品| 国产在线97| 欧美一级在线| 在线色国产| 视频一本大道香蕉久在线播放| 人妻少妇乱子伦精品无码专区毛片| 日本午夜精品一本在线观看| 综合天天色| 日韩欧美中文字幕在线韩免费| 成人日韩视频| 一区二区在线视频免费观看| 亚洲av无码人妻| 1024你懂的国产精品| 久久www视频| 久久黄色免费电影| 高清不卡一区二区三区香蕉| 欧美在线精品一区二区三区| 亚洲精品国产成人7777| 国产成+人+综合+亚洲欧美| 色妺妺在线视频喷水| 久久精品无码国产一区二区三区| 欧美日韩另类在线| 青青草原国产av福利网站| 老熟妇喷水一区二区三区| 午夜综合网| 激情无码视频在线看| 91视频精品| 国产91九色在线播放| 国产欧美另类| 99久久精品国产精品亚洲| 国产原创自拍不卡第一页| 少妇精品网站| 一区二区午夜| 国产经典三级在线| 黄色三级网站免费| 国产成人无码Av在线播放无广告| 日韩黄色在线| 777午夜精品电影免费看| 蜜桃臀无码内射一区二区三区| 波多野结衣一二三| 国产素人在线| 国产精品自拍合集| 91麻豆国产精品91久久久| 亚洲AV一二三区无码AV蜜桃| 无码啪啪精品天堂浪潮av| 久久精品国产999大香线焦| 欧美97欧美综合色伦图| 亚洲视频欧美不卡| 无码精品一区二区久久久| 国产精品xxx| 国产成人调教在线视频| 成人字幕网视频在线观看| 在线观看亚洲精品福利片|