999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于魯棒和可靠對稱交叉熵的測試時適應算法

2024-07-31 00:00:00熊浩宇向宇張亞萍
計算機應用研究 2024年6期

摘 要:測試時間適應(test-time adaptation,TTA)的目標是利用未標記的測試數據使已訓練完成的神經網絡模型在測試時適應測試數據分布。現有的TTA方法主要考慮在單個或多個靜態環境中進行適應。然而,在非平穩環境中,測試數據分布會隨著時間的推移而連續變化,這導致以往的TTA方法不穩定。因此,提出了一種基于魯棒和可靠對稱交叉熵的測試時適應(robust and reliable symmetric cross entropy test-time adaptation,RRSTA)算法。首先,為提高對噪聲分布變化的魯棒性和緩解災難性遺忘,提出了基于均值教師模型的對稱交叉熵,既鼓勵模型正確預測又懲罰錯誤的預測。其次,為了提高對不同噪聲樣本的魯棒性,提出了一種雙流擾動技術,通過教師模型強視圖,指導學生模型的由弱到強的擾動視圖。最后,提出了可靠熵最小化策略,防止參數的劇烈變化,以穩定適應。廣泛的實驗和消融研究在CIFAR10C和CIFAR100C上證實了所提方法的有效性,相比于未經適應的模型,錯誤率降低了26.13%和14.69%,并且顯著優于次優的方法。

關鍵詞:測試時適應; 領域自適應; 連續適應; 分布變化

中圖分類號:TP301 文獻標志碼:A

文章編號:1001-3695(2024)06-022-1756-06

doi:10.19734/j.issn.1001-3695.2023.10.0500

Robust and reliable symmetric cross-entropy-based test-time adaptation

Abstract:TTA aims to make the trained neural network model adapt to the test data distribution at test time using unlabeled test data. Existing TTA methods mainly consider adaptation in a single or multiple static environments. However, in non-stationary environments, the test data distribution changes continuously over time, which leads to the instability of previous TTA methods. Therefore, this paper proposed a test-time adaptation algorithm(RRSTA) based on robust and reliable symmetric cross entropy. Firstly, in order to improve the robustness to noise distribution changes and alleviate catastrophic forgetting, it proposed a symmetric cross entropy based on the mean teacher model, which encouraged the model to predict correctly and punished the wrong prediction. Secondly, in order to improve the robustness to different noise samples, it proposed a dual-stream perturbation technique, which guided the weak-to-strong perturbation view of the student model through the strong view of the teacher model. Finally, it proposed a reliable entropy minimization strategy to prevent the drastic change of parameters and stabilize adaptation. Extensive experiments and ablation studies on CIFAR10C and CIFAR100C confirm the effectiveness of the proposed method. Compared with the unadapted models, the error rate is significantly reduced by 26.13% and 14.69%, and it is significantly better than the second-best method.

Key words:test-time adaptation; domain adaptation; continuous adaptation; distribution change

0 引言

當前的深度神經網絡(DNN)已經在廣泛的領域取得了令人印象深刻的性能,包括計算機視覺[1]和自然語言處理[2]。不幸的是,當訓練數據和測試數據取自不同的分布時,深度模型經常違反這一假設,出現了顯著的性能下降的情況,因為許多環境通常是非平穩且不斷變化的。為了解決這種退化問題,之前的研究通常尋求在訓練過程中增強模型的魯棒性,包括利用數據增強[3]、領域適應[4]、領域泛化[5]和對抗訓練[6]。盡管這些方法試圖從各個角度減少訓練數據和目標數據之間的分布差異來解決退化問題,但在實際應用中,由于成本、時間和資源可用性的限制,仍然存在某些無法觀察到的分布偏移[7],這可能對方法的有效性提出重大挑戰。此外,這些技術需要在訓練過程中進行干預,文獻[8]指出這進一步增加了災難性失敗的風險。

盡管領域適應、領域泛化都廣泛研究了分布變化的問題并取得了積極的結果. 然而在很多實際場景中, 由于隱私問題或法律約束源域數據并不總是可訪問的,例如,用戶身份信息、病人健康數據等。此外,現有方法需要額外附加的計算成本,并難以在訓練期間推廣到潛在未知的數據分布范圍。測試時間適應[9~11]方法正成為一種替代解決方案,TTA僅利用當前未標記的測試數據在線更新模型參數以克服數據分布偏移。毫無疑問,TTA考慮了更具挑戰性但更現實的問題,并引起了廣泛的關注和應用,例如多模態[12]、醫學圖像分析[13]等。

先前的TTA已被證明能通過熵最小化[10, 14, 15]、批量歸一化統計[16]顯著提高模型對分布偏移的魯棒性。然而,其良好的性能通常是在較為溫和的測試時設置下實現的,其中測試樣本是從具有相同數據分布偏移類型的固定目標域中獨立采樣的。然而,在更為現實的環境中,這些方法的有效性可能會降低,這是因為數據環境會隨著天氣、地理位置、時間或其他因素而不斷發生改變。例如,在自動駕駛系統中,汽車周圍環境會隨著時間的推移而不斷變化、汽車進出隧道光線發生改變、街道上意外出現的兒童或是傳感器鏡頭的自然老化或污損。以上都是現實中常見的場景,這通常會使得已經訓練完成的模型出現性能退化。因此,本文進一步考慮更加現實的測試時設置,即文獻[9]首次提出的連續測試時適應,其中測試數據分布會隨著時間不斷變化。相關方法的比較如表1所示。

為了提升模型在非平穩環境中的表現,本文首先深入研究了基于熵最小化的TTA方法失敗的案例,發現以往的TTA方法表現良好,通常是在較為溫和的環境下并且嚴重依賴于超參數的選擇, 而當超參數發生細小的改變則有可能導致災難性的失敗;然后進一步分析了不同熵值樣本對模型性能的貢獻;最后提出了基于均值教師模型的魯棒和可靠對稱交叉熵的測試時適應(robust and reliable symmetric cross entropy test-time adaptation,RRSTA)算法來穩定測試時適應。 相比以往的方法而言,本文專注于更現實和更具挑戰性的設置,其中數據分布不斷變化。在廣泛使用的CIFAR10C和CIFAR100C基準數據集上,所提出的測試時適應方法能夠降低26.13%和14.69%的錯誤率,并顯著高于次優方法。

1 問題定義

測試時適應算法的目標是僅利用當前未標記的測試數據,使已經預訓練好的模型在測試時有效適應到新的目標域,解決目標域和源域的數據分布差異問題。為了詳細說明,接下來將用公式化和具體符號來進行描述。

2 測試時適應的風險

事實上,數據分布不斷變化的設置很大程度上是由部署模型的實際需求驅動的。正如在引言中所提到的,自動駕駛汽車周圍環境的總是會隨著時間的推移而變化,并且會受到天氣和地理位置等因素的影響。以往的一些測試時適應算法在較為溫和的條件取得了成功。然而,由于目標域的數據分布不斷變化,一些方法通常會無聲地退化模型的性能,且在短時間內難以觀察到這種性能退化的現象。本文進一步繪制了具有代表性的熵最小化方法[10]的失效模式, 總的結果如圖1所示。

2.1 超參數敏感

首先本節選取具有代表性的純熵最小化的測試時適應方法(tent[10]),并在不同批量大小和學習率上進行實驗。結果如圖1(a)(b)所示,五種不同批量大小中有三種發生了崩潰(即錯誤率>;90%),而所考慮的三種不同的學習率(η)中有兩種同樣也發生了崩潰。這表明以往的純熵最小化的方法在動態分布變化的場景中進行連續的適應是不穩定的。雖然通過超參數能夠避免這一現象的產生,但是為不同場景都單獨準備超參數是不現實的。 此外,即便超參數調優或許能延緩崩潰現象的發生,但這種崩潰的發生最終是不可避免的。例如,當批量大小選取512或學習率為0.001時都表現出了崩潰的趨勢。

2.2 低質量的偽標簽

在測試時適應領域中,熵最小化是具有代表性的方法之一。在數據集分布相同且不包含噪聲的情況下,傳統的熵最小化通常是有效的,它鼓勵模型對正確偽標簽作出正確的預測結果。傳統的純熵最小化的公式表示為

Euclid Math OneLAp=-∑fθ(xt)log fθ(xt)(3)

其中:fθ(xt)表示模型對于輸入xt的預測結果,并將模型自身預測結果作為偽標簽。

然而,當數據存在分布變化或噪聲時,這將使得偽標簽變得嘈雜,從而容易出現低質量的偽標簽。而且這些噪聲會使得錯誤不斷積累。結果如圖1(c)中所示,模型最終發生崩潰,模型傾向于將所有輸入樣本預測為某幾類,即使這些樣本具有不同的真實類別。這是因為傳統的熵最小化只鼓勵正確預測結果,而不對錯誤預測結果進行懲罰。因此,迫切地需求已經部署的模型在以上場景中表現良好。

3 方法

在非平穩的現實環境中,面對分布不同的目標域數據,預訓練模型fθ0的預測結果會變得不可靠。 為了防止性能進一步下降,本文提出了魯棒和可靠對稱交叉熵測試時適應算法,主要分為三個部分:基于對稱交叉熵的均值教師模型、雙流擾動技術以及可靠熵最小化。RRSTA算法框架如圖2所示。

3.1 基于對稱交叉熵的均值教師模型

給定測試數據xt和模型fθt,在測試時適應中,以往的TTA方法的目標通常是最小化預測的交叉熵來更新模型權重,這已被證實是有效的。然而在不斷變化的測試流數據中,這些方法可能會因為數據分布的改變導致低質量的偽標簽從而發生性能退化。

一種理想的方式是利用平均教師模型[17],這是因為教師模型通過移動指數平均(exponential moving average)[18]進行更新,其預測結果qt會包含過去迭代模型的信息,從而能提供更高質量的偽標簽,緩解連續適應過程中的災難性遺忘問題[19]。

其中:γ=0.99是初始平滑系數。

然而,基于常規交叉熵的平均教師模型主要關注增強正確標簽的預測概率,而不懲罰預測錯誤的預測概率。如圖1 (c)所示,這可能導致在面對噪聲樣本時過度自信或降低泛化能

其中:第一項是常規交叉熵損失,第二項是反向交叉熵[20]損失。相比常規交叉熵而言,對稱交叉熵不僅關注正確標簽的不確定性,同時能夠懲罰模型對于錯誤標簽的過度確定性。

3.2 雙流擾動技術

本節提出了基于對稱交叉熵的均值教師模型。但是由于數據分布不斷變化,可能還會存在一些自然或合成的噪聲樣本。為了進一步提高模型對噪聲分布變化的魯棒性,本節在對稱交叉熵的基礎上進一步提出了一種雙流擾動技術,通過在原始樣本的弱視圖的指導下,使由弱到強的擾動視圖保持一致。 對于自然噪聲,本節考慮通過原始級的擾動來進行應對,而對于合成噪聲,采用一組人工合成的數據增強策略來進行補充。

本節強調將不同屬性的擾動分離成獨立流的必要性。這與最近將不同擾動混合到單個流中的工作不同,為了驗證雙流擾動之間能否可以很好地互補,本節進行了一個簡單的實驗進行驗證,首先從xt獨立地產生雙流擾動與混合雙流擾動進行對比。如圖3所示,獨立雙流擾動帶來了一致的改進,而混合擾動則相反。

3.3 可靠熵最小化策略

直覺上不同的樣本在測試時適應過程中會對模型性能產生不同的貢獻。為了驗證這一點,本節首先根據熵值大小對樣本的貢獻程度進行了劃分。圖4為高熵樣本和低熵樣本對模型性能的貢獻,其中通過tent方法在CIFAR100C(損壞類型motion blur,損壞嚴重等級為5)上調整模型。從圖4中,毫無疑問的是低熵樣本總是比高熵樣本對模型性能的貢獻更大,而高熵樣本通常會損壞模型性能。這是因為高熵樣本通常有偏差且不可靠。基于上述分析,受文獻[23]啟發,一種最直接的方案是通過熵值進行過濾。形式上,令E(xt;Θ)表示樣本xt的熵。那么,熵最小化的目標可以表示為

4 實驗

4.1 數據集

本文主要在廣泛使用的基準上評估所有方法,即CIFAR10C、CIFAR100C[24]。它們分別是基于CIFAR10、CIFAR100測試集然后通過各種算法合成不同噪聲來構建的。如圖5所示,主要包括噪聲(Gaussian noise、shot noise、impulse noise)、模糊(defocus blur、frosted glass blur、motion blur、zoom blur)、天氣(snow、frost、fog)和數碼(brightness、contrast、elastic、pixelate、JPEG),共計15種不同的損壞類型組成。其中每種損壞類型具有5個不同的嚴重性級別,并且嚴重性級別越大意味著分布變化越嚴重。

4.2 實施細節

在CIFAR10→CIFAR10C中使用預訓練的WideResNet-28[25]模型,在CIFAR100→CIFAR100C中使用ResNeXt-29[26]模型進行實驗。需要注意的是本文不對訓練過程做任何調優,在所有任務中預訓練模型的權重均由魯棒評測基準RobustBench[27]提供,并保持所有的預定義模型設置。

在測試時,本文方法采用SGD優化器,動量設置為0.9,學習率大小設置為η=1×10-3。關于超參數設置,熵過濾閾值ε=0.4×ln C,C是類別總數,式(8)中的擾動數量n設置為4,式(5)中指數移動平均系數γ=0.99,與CoTTA[9]方法保持一致,關于其他超參數均保持默認。為了公平比較, 本文在所有實驗中將批量大小設置為64。

4.3 對比方法

為了驗證本文算法的有效性, 考慮以下典型的強有力的基線方法進行比較,其中包括:a)tent[10]將模型的預測概率值作為偽標簽并最小化熵來更新模型參數;b)CoTTA[9]通過權重平均和增強樣本平均來提升偽標簽的質量,并通過持續將一小部分神經元隨機恢復到源預訓練的權重;c)SHOT[11]通過利用信息最大化和自監督偽標簽來學習目標特定特征提取模塊,以隱式地將目標域的表示與源假設對齊;d)BN[16]僅使用批量歸一化統計量, 而無須任何參數更新。需要注意的是,source方法直接在目標域上進行評估,無須進行任何調整和適應。關于所對比的其他方法,本文都遵循其官方代碼的實現方式并保持與其論文一致的超參數設置。

4.4 實驗結果

表2中顯示了連續測試時適應設置下連續適應不同損壞類型的結果,并且所有TTA方法都共享相同的損壞類型順序。其中,損壞等級最高為5級,下畫線表示性能低于source的結果,粗體表示最佳結果,“±”代表標準差。從總體來看,直接使用預訓練模型(source)的性能不佳,在CIFAR10C和CIFAR100C上的平均錯誤率分別低至43.52%和46.44%,這表明在測試時對模型進行適應是有必要的。當僅使用批量歸一化統計量(BN)進行適應時,在CIFAR10C和CIFAR100C上的錯誤率分別降低了22.59%和10.22%。雖然大多數方法在CIFAR10C上表現良好,但當在較難的CIFAR100C數據集時,甚至部分方法在適應后的性能反而出現了下滑。如果把注意力轉向適應過程,可以觀察到基于純熵最小化的方法tent的性能退化十分顯著,并由于錯誤的不斷積累,導致模型最終發生崩潰(即錯誤率大于90%)。雖然CoTTA方法在CIFAR10C上取得了次優的結果,但這是以額外擴增32次增強樣本并前向傳播的代價取得的。

相反,本文RSSTA方法在所有數據集上都取得了優異的結果。從總體來看,相比于未經適應的模型,在CIFAR10C和CIFAR100C上分別將平均錯誤率降低了26.13%和14.69%。此外,所提出的RSSTA在所有腐敗類型上都取得了最好的結果。廣泛的實驗結果強有力地驗證了RSSTA能有效適應不同的損壞類型,并擁有更低的錯誤率。

5 消融研究

5.1 不同損壞嚴重等級的影響

在真實的場景中,考慮到損壞嚴重等級并不總是最嚴重的。因此,為了驗證本文方法RSSTA在不同損壞嚴重等級的有效性, 本節進一步改變不同的損壞嚴重等級并與其他方法進行比較。如圖6所示,隨著損壞等級的增加,tent方法的錯誤率提升尤為顯著。相反,RSSTA與次優方法相比仍保持較大優勢。最重要的是,RSSTA在所有損壞等級下都保持一致的最佳性能。

5.2 不同擾動數量的影響

為了驗證式(8)中不同擾動數量n的影響,本節改變n的數值大小。如圖7所示,最大與最小的數值都不利于模型性能提升。而在數值為4時取得了最佳優勢,因此在所有實驗中,本文方法RSSTA中的參數n默認數值設置為4。此外,不建議n的數量超過5,是因為會出現較大dropout概率值,導致切斷層之間的連接太多,從而限制模型的學習能力[28]。

5.3 損失表面可視化

本節通過Loss landscape[29]分別繪制了具有代表性的熵最小化的方法tent與所提出的RSSTA方法的損失表面。如圖8所示,RSSTA的損失表面更為平坦和光滑,且在更小的步數就已達到更平坦的表面,這表明RSSTA具有更好的泛化性,對噪聲樣本具有更好的魯棒性。

5.4 計算開銷

表3總結了本文中所涉及方法的詳細特征。綜合實驗結果和時間開銷來看,所提出的RSSTA取得了一個理想的平衡。而CoTTA方法通過額外的32次數據增強,導致了最高的計算時間開銷。眾所周知,反向傳播通常占據大部分計算開銷,雖然RSSTA對增強樣本和原始樣本通過了兩次前向傳播,但受益于RSSTA只最小化可靠熵,因此反向傳播的數量能大大減少。

6 結束語

本文分析了以往測試時適應方法的失敗的案例,發現以往的TTA方法表現良好,通常是在較為溫和的環境下并且依賴于超參數的選擇,如果超參數發現細微的改變往往會導致災難性的失敗。針對深度學習模型在不同的目標域性能退化的問題,本文考慮了更加現實的測試場景,即目標域的數據分布是不斷變化的,提出了魯棒和可靠的對稱交叉熵的測試時適應算法,以提高模型在新領域上的性能。首先,引入了基于均值教師模型的對稱交叉熵來緩解災難性遺忘。此外,本文還對樣本熵值對模型的貢獻進行分析,發現高熵值樣本往往會損害模型適應,基于此本文提出只最小化可靠熵值的樣本。大量的實驗和消融研究證明了本文方法的穩健性和有效性,相比于未經適應的模型,錯誤率降低了26.13%和14.69%。本文方法的代碼可在https://anonymous.4open.science/r/test-time-adaptation-20231018獲得。

參考文獻:

[1]Alzubaidi L, Zhang Jinglan, Humaidi A J, et al. Review of deep learning: concepts, CNN architectures, challenges, applications, future directions[J]. Journal of Big Data, 2021,8: 1-74.

[2]Liu Yinhan, Ott M, Goyal N, et al. Roberta: a robustly optimized BERT pretraining approach[EB/OL]. (2019-07-26). https://arxiv.org/abs/1907.11692.

[3]Zhong Zhun, Zheng Liang, Kang Guoliang, et al. Random erasing data augmentation[C]//Proc of AAAI Conference on Artificial Intelligence. Palo Alto,CA:AAAI Press, 2020: 13001-13008.

[4]Wang Mei, Deng Weihong. Deep visual domain adaptation: a survey[J]. Neurocomputing, 2018, 312: 135-153.

[5]Zhou Kaiyang, Liu Ziwei, Qiao Yu, et al. Domain generalization: a survey[J]. IEEE Trans on Pattern Analysis and Machine Intelligence, 2022,45(4): 4396-4415.

[6]Tramer F, Boneh D. Adversarial training and robustness for multiple perturbations[C]//Proc of the 33rd International Conference on Neural Information Processing Systems. Red Hook, NY:Curran Associates Inc., 2019:5866-5876.

[7]Koh P W, Sagawa S, Marklund H, et al. Wilds: a benchmark of in-the-wild distribution shifts[C]//Proc of International Conference on Machine Learning. 2021: 5637-5664.

[8]Bommasani R, Hudson D A, Adeli E, et al. On the opportunities and risks of foundation models[EB/OL]. (2021-08-16). https://arxiv.org/abs/2108. 07258.

[9]Wang Qin, Fink O, Van Gool L, et al. Continual test-time domain adaptation[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway,NJ:IEEE Press, 2022: 7201-7211.

[10]Wang Dequan, Shelhamer E, Liu Shaoteng, et al. Tent: fully test-time adaptation by entropy minimization[EB/OL]. (2020-06-18). https://arxiv.org/abs/2006.10726.

[11]Liang Jian, Hu Dapeng, Feng Jiashi. Do we really need to access the source data?Source hypothesis transfer for unsupervised domain adaptation[C]//Proc of International Conference on Machine Lear-ning. 2020: 6028-6039.

[12]Shu Manli, Nie Weili, Huang De’an, et al. Test-time prompt tuning for zero-shot generalization in vision-language models[C]//Proc of NeurIPS.2022.

[13]Liu Quande, Chen Cheng, Dou Qi, et al. Single-domain generalization in medical image segmentation via test-time adaptation from shape dictionary[C]//Proc of AAAI Conference on Artificial Intelligence. Palo Alto,CA:AAAI Press, 2022: 1756-1764.

[14]Ben-David S, Blitzer J, Crammer K, et al. Analysis of representations for domain adaptation[C]//Advances in Neural Information Processing Systems. 2006.

[15]Wang Jindong, Lan Cuiling, Liu Chang, et al. Generalizing to unseen domains: a survey on domain generalization[J]. IEEE Trans on Knowledge and Data Engineering, 2022,35(8):8052-8072.

[16]Nado Z, Padhy S, Sculley D, et al. Evaluating prediction-time batch normalization for robustness under covariate shift[EB/OL]. (2020-06-19). https://arxiv.org/abs/2006.10963.

[17]Tarvainen A, Valpola H. Mean teachers are better role models: weight-averaged consistency targets improve semi-supervised deep learning results[C]//Advances in Neural Information Processing Systems.2017.

[18]Cai Zhaowei, Ravichandran A, Maji S, et al. Exponential moving average normalization for self-supervised and semi-supervised learning[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway,NJ:IEEE Press, 2021: 194-203.

[19]Kirkpatrick J, Pascanu R, Rabinowitz N, et al. Overcoming catastrophic forgetting in neural networks[J].Proc of National Academy of Sciences, 2017,114(13): 3521-3526.

[20]Wang Yisen, Ma Xingjun, Chen Zaiyi, et al. Symmetric cross entropy for robust learning with noisy labels[C]//Proc of IEEE International Conference on Computer Vision. Piscataway,NJ:IEEE Press, 2019: 322-330.

[21]Yang Lihe, Qi Lei, Feng Litong, et al. Revisiting weak-to-strong consistency in semi-supervised semantic segmentation[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2023: 7236-7246.

[22]Wagner T, Guha S, Kasiviswanathan S, et al. Semi-supervised lear-ning on data streams via temporal label propagation[C]//Proc of International Conference on Machine Learning. 2018: 5095-5104.

[23]Niu Shuaicheng, Wu Jiaxiang, Zhang Yifan, et al. Efficient test-time model adaptation without forgetting[C]//Proc of the 39th Internatio-nal Conference on Machine Learning. 2022: 16888-16905.

[24]Hendrycks D, Dietterich T. Benchmarking neural network robustness to common corruptions and perturbations[C]//Proc of International Conference on Learning Representations. 2019.

[25]Zagoruyko S, Komodakis N. Wide residual networks[EB/OL]. (2016-05-23). https://arxiv.org/abs/1605.07146.

[26]Xie Saining, Girshick R, Dollár P, et al. Aggregated residual transformations for deep neural networks[C]//PronA9LgqUp/xvZ+AvFZwFy52dguG6M2IhEVFefmvuOdfg=c of IEEE Conference on Computer Vision and Pattern Recognition. Piscataway,NJ:IEEE Press, 2017: 1492-1500.

[27]Croce F, Andriushchenko M, Sehwag V, et al. RobustBench: a standardized adversarial robustness benchmark[EB/OL]. (2020-10-19). https://arxiv.org/abs/2010.09670.

[28]Baldi P, Sadowski P J. Understanding dropout[C]//Advances in Neural Information Processing Systems. 2013.

[29]Li Hao, Xu Zheng, Taylor G, et al. Visualizing the Loss Landscape of neural nets[C]//Proc of Neural Information Processing Systems. 2018.

主站蜘蛛池模板: 污网站在线观看视频| 天天婬欲婬香婬色婬视频播放| 无码专区在线观看| 性激烈欧美三级在线播放| 国产人人射| 香蕉久久永久视频| 极品国产在线| 亚洲香蕉久久| 亚洲天堂精品在线观看| 久久这里只有精品8| 亚洲综合久久成人AV| 欧类av怡春院| 国产一级裸网站| 老司国产精品视频91| 亚洲无码37.| 成人一区在线| 波多野结衣一二三| 亚洲国产成人自拍| 亚洲AV一二三区无码AV蜜桃| 欧美a在线视频| 99热国产这里只有精品9九| 伊人久久综在合线亚洲91| 69精品在线观看| 国产精品va| 亚洲人成色在线观看| 精品久久久无码专区中文字幕| 日韩欧美网址| 亚洲中文字幕av无码区| 久久精品亚洲中文字幕乱码| 免费又爽又刺激高潮网址 | 国产18在线播放| 色综合久久久久8天国| 在线va视频| 在线视频亚洲色图| 啊嗯不日本网站| 亚洲欧美精品一中文字幕| 婷婷99视频精品全部在线观看| h视频在线播放| 成人看片欧美一区二区| 伊人成人在线视频| 国产高清无码麻豆精品| 日韩不卡免费视频| 91伊人国产| 国产精品视频系列专区| 日韩福利在线视频| 国产国产人免费视频成18| 久久综合伊人 六十路| 亚洲三级网站| 国产美女在线观看| 国内精品自在欧美一区| 成人综合久久综合| 久久综合久久鬼| 国产亚洲精品自在久久不卡| 五月婷婷丁香综合| 国产成人三级在线观看视频| 亚洲精品你懂的| 久久久精品国产亚洲AV日韩| 亚洲伊人天堂| 亚洲国内精品自在自线官| 日韩小视频在线播放| 少妇精品久久久一区二区三区| 国产精品美女网站| 日本不卡在线播放| 91精品人妻互换| 成人亚洲国产| 亚洲色精品国产一区二区三区| 亚洲精品桃花岛av在线| 国产91透明丝袜美腿在线| 久久动漫精品| 精品国产亚洲人成在线| 欧美激情视频二区| 国产啪在线91| 免费va国产在线观看| 亚洲精品国产首次亮相| 久久久亚洲国产美女国产盗摄| 91一级片| 狠狠色丁香婷婷| 视频一区亚洲| 夜精品a一区二区三区| 欧美性色综合网| 亚洲视频在线青青| 538国产在线|