999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于DeepSeek的智能評分:效度、信度與可行性研究

2025-07-08 00:00:00陳曦胡中鋒
高教探索 2025年3期
關鍵詞:人工智能智能差異

一、問題提出

長期以來,傳統人工評價在教育評價中占據主導地位。然而,隨著教育規模擴張和評價需求復雜化,人工評價的局限性日益顯現。1]人工評價不僅耗時費力、成本高昂,且易受評價者主觀因素影響,難以保證評價的客觀性、公正性和一致性,制約了教育評價的整體效能。

近年來,以ChatGPT為代表的生成式人工智能技術對各行各業產生了深遠影響,教育領域也不例外。[2]自然語言處理(NLP)、機器學習(ML)等人工智能技術在文本分析、模式識別等方面取得了顯著進展,為教育評價的自動化、智能化提供了技術支撐。3]其中,智能評分作為一種新興的教育評價手段,受到了越來越多的關注[4]它利用計算機程序對文本進行自動分析和評估,能夠快速、客觀地給出評分結果,具有高效、經濟、可擴展等優勢,為解決傳統人工評價面臨的困境提供了新的解決方案。2025年政府工作報告提出“持續推進‘人工智能’ + 行動”,并將“支持大模型廣泛應用”首次寫入報告。5]這表明國家層面高度重視人工智能技術的發展和應用,也為本研究提供了重要的政策背景和發展機遇。

在眾多大語言模型中,DeepSeek作為國內自主研發的大規模語言模型,具有多項技術優勢。Deep-Seek-R1在后訓練階段大規模使用了強化學習技術,在極少標注數據的情況下,極大提升了模型推理能力。在數學、代碼、自然語言推理等任務上,性能比肩OpenAIo1正式版。[6DeepSeek-R1與o1定位相似,但其開源屬性和低成本API提供了更高性價比,較低的技術門檻便于社區二次開發,特別是完整公開的“推理鏈”機制,為科研人員理解模型邏輯提供了獨特優勢。7]與國際主流模型相比,Deep-Seek在中文語義理解、學術文本評估和教育場景適應性方面具有獨特優勢,且支持本地化部署,有助于保護數據安全和隱私。[8]本研究選擇DeepSeek 作為研究對象,旨在通過將DeepSeek的評分結果與專家評分進行系統對比分析,深入考察DeepSeek在教學創新報告評價中的效度、信度及應用價值,全面揭示其在文本評分方面的優勢與局限性,為智能評分技術在高等教育領域的科學應用提供實證參考和理論依據,并深入探索國產大語言模型在教育評價領域的應用潛力,為“人工智能+”教育提供本土化解決方案。

二、文獻回顧

智能評分作為一種新興的教育評價手段,其研究歷史可以追溯到上世紀六十年代。早期的智能評分系統主要基于簡單的詞匯統計和語法規則,對文本進行淺層分析和評估。9隨著計算機技術的不斷發展,機器學習技術逐漸被引入到智能評分領域。基于機器學習的智能評分系統能夠自動學習文本的特征,并建立評分模型,從而提高評分的準確性和可靠性。近年來,深度學習技術的突破性進展為智能評分帶來了新的機遇。基于深度學習的智能評分系統能夠自動學習文本的深層語義特征,從而更加準確地評估文本的質量。

在國外,智能評分的研究和應用已經相對成熟。Shermis和Burstein(2016)對智能評分領域的研究進行了元分析,結果表明智能評分在整體上具有較高的效度和信度,能夠有效地輔助人工評價。[0]Zhai和Ma(2023)通過元分析發現,自動化寫作評估對寫作質量具有顯著的積極影響,尤其對非英語母語學習者和議論文寫作效果更佳。[1]許多商業化的智能評分系統,如e-rater、Criterion等,已經被廣泛應用于各種教育考試和寫作教學中。這些系統不僅能夠提供評分結果,還能夠為學生提供個性化的寫作反饋,幫助他們提高寫作水平。

在國內,智能評分的研究和應用起步較晚,但近年來也取得了顯著進展。江進林和陳丹丹(2021)對國內外英語作文、英/漢翻譯和英語口語自動評分研究的發展脈絡進行了回顧,并對各項技術的優勢和不足之處進行了評價。他們指出,當前智能評分研究面臨的困難和挑戰包括:如何提高智能評分的準確性和可靠性,如何應對智能評分在應用過程中可能出現的倫理和社會問題等。[12]隨著人工智能技術的不斷發展,智能評分的應用范圍也日益擴大。王冠和魏蘭(2024)探討了人工智能大模型技術在教育考試全題型閱卷中的應用,結果表明人工智能大模型技術在閱卷速度、輔助定標成效、AI評分質量等方面均得到有效驗證。[13]宛平等(2024)構建了一個生成式人工智能支持的人機協同評價實踐模式,并以上海市H大學開展的基于問題解決的主觀作業評價活動為例,解釋了如何應用生成式人工智能支持人機協同評價。[14]

盡管智能評分具有諸多優勢,但其信度問題仍然備受關注。白麗芳和王建(2018)以“中國學習者英語語料庫”中的大學英語四、六級考試作文為研究樣本,比較了專家評分和國內某自動評分系統結果的差異,結果顯示自動批改系統整體評分效度有待提高,機器所依賴的語言類量化特征在人工批改中的作用有限,評分依據的不同造成兩者結果的差異。[15]何屹松等(2018)通過實驗探索了人工智能評測技術在人工網上評卷質量監控中的應用及其他相關應用。實驗結果表明,智能閱卷基本上達到了與評卷教師相當的水平,且始終采用統一的評分標準,更具客觀公正性,能為人工網上評卷提供有效的質量監控[16]孫海洋和張敏(2020)對比了訊飛口語自動評分系統和專家評分員對學生的口試任務錄音的評分結果,發現機器對不同類型的口試任務的評分存在顯著的偏差,機評和人評以及專家評分員之間的嚴厲度均有顯著的差異。17]陸俊花(2022)以英語學習者故事復述評分為例,比較了人工智能背景下智能評分與專家評分的效度,結果表明人工評閱得分均值和機器評閱得分高度一致且無顯著差異。[18]王偉和趙英華(2023)基于多次CET-SET模擬考試智能評分技術實驗數據,探討了智能評分技術與專家評分相結合的人機協同評分質量控制方法的可行性。研究發現,不同定標方式下,計算機評分結果穩定、可靠;整卷評分方式下,計算機智能評分可作為一評或第三評質檢;在不同任務維度上,對不同題型任務可靈活選擇不同評分方式。[19]

為了提高智能評分的效度,研究者們不斷探索新的技術和方法。楊麗萍和辛濤(2021)從能力測量視角出發,探討了寫作自動化評分研究的核心問題。他們認為,寫作自動化評分體系的建構需要以寫作評價標準為依據,建立具備解釋性的特征體系,突破擬合專家評分的局限,從分數預測模型拓展到能力測量模型,探索寫作各能力維度的評估模型。[20]肖國亮等(2023)提出了智能評分的研究和應用框架,在文獻分析和實踐經驗基礎上提出面向機器學習專家和面向領域評分專家的評價指標,形成一套智能評分應用效果綜合評價方案。[21]

綜上所述,智能評分作為一種新興的教育評價手段,具有廣闊的應用前景和巨大的發展潛力。然而,智能評分在實際應用中仍然面臨諸多挑戰,例如如何提高評分的準確性和可靠性,如何應對智能評分在應用過程中可能出現的倫理和社會問題等。因此,需要對智能評分的效度、信度和可行性進行系統而深入的研究,為智能評分在教育領域的應用提供科學的依據和指導。

三、研究設計

(一)研究方法

本研究主要采用量化研究方法,側重于對評分數據進行精確測量和統計分析。我們將運用相關性分析、t檢驗、分位數比較等統計方法,采用SPSS28.0統計軟件進行數據分析,量化DeepSeek評分與專家評分之間的關聯程度和差異程度。這種量化分析的手段有助于我們更準確地評估DeepSeek的評分表現。

為了充分發揮智能評分在教育評價中的積極作用,并最大限度地減少其潛在風險,需要對智能評分的效度、信度和可行性進行系統而深人的研究。效度是衡量智能評分是否能夠準確反映被評價對象真實水平的關鍵指標。信度則關注智能評分結果的穩定性和一致性。可行性則需要綜合考慮智能評分在實際應用中的效率、成本、公平性等因素。只有在充分了解智能評分的效度、信度和可行性的基礎上,才能合理地將其應用于教育評價實踐,從而提升教育評價的整體質量和效率。

(二)研究樣本

研究選取了某高校教學創新大賽中提交的240份創新報告(以下簡稱“報告”)作為研究樣本,覆蓋醫藥( 42% 、理工( 33% )、人文社科( 25% )的不同教學主題,具有一定的代表性和多樣性。該賽事對報告有非常規范嚴格的要求,并附有成熟科學的評價指標,具有標準、穩定的特征,作為研究對象是非常理想的研究材料。

為了確保研究的客觀性和公正性,所有報告均已匿名處理,以避免任何潛在的偏見。報告文本以電子文檔的形式保存,并按照統一的命名規則進行管理,以便后續的數據處理和分析。報告文本的內容質量直接影響DeepSeek模型的評分效果,同時,為了方便DeepSeek模型進行學習和評分,需要對報告文本進行預處理,仔細檢查和校對每一份報告,例如去除格式標記、糾正拼寫錯誤、確保其內容完整、表達清晰等。

(三)數據收集

本研究進行了全面而嚴謹的數據收集與整理工作。數據來源于兩個方面:專家評審的分數和DeepSeek評審的分數。

本研究的報告分為三組,每組邀請了七位全國高校遴選的具有豐富教學經驗和評審經驗的專家進行線上評分。專家熟悉大賽的評分標準,獨立閱讀和評估每一份報告,給出相應的分數。為了減少主觀因素的影響,研究采用了“去除最高分和最低分后取平均值”的方法,計算每份報告的專家平均分。這種方法可以有效降低個別專家評分偏差對最終結果的影響,提高評分的客觀性和準確性。

本研究采用DeepSeek提供的應用程序編程接口(API)實現對報告的自動評分。首先,需要注冊并獲取DeepSeekAPI的訪問密鑰。然后,編寫Python腳本,利用requests庫構建HTTP請求,將大賽的通知、評價指標和240份報告作為請求參數發送至DeepSeekAPI端點。程序將循環遍歷所有報告,并解析 API返回的 JSON 格式數據,從中提取 Deep-Seek給出的評分結果,并將評分結果與對應的報告編號存儲,以便后續的數據分析。

獲得兩組分數后,研究者認真檢查了數據,并將兩組數據以表格的形式保存,內容報告:編號、報告名稱、評分、排名等,可以確保本研究的數據具有較高的質量和可靠性。

四、研究結果

(一)效度分析

效度指的是測量工具是否準確地測量了它應測量的內容,換句話說,它反映了測量的結果與實際目標之間的吻合程度。在這組數據中,以下指標與效度相關:

1.相關系數(r):相關系數反映了專家評分和智能評分之間的關系。它衡量了兩者之間的線性相關程度,因此可以用來評估智能評分系統是否能夠有效地模仿專家評分系統。根據對數據進行的統計分析,得到專家評分和智能評分兩組的描述性統計

數據。

經過計算,本研究的相關系數 r=0.848 ,該值表示智能評分和專家評分之間有較強的正相關關系,表明智能評分在一定程度上具有較高的效度。

2.評分差異的分布:評分差異的分析也可以部分反映效度。如果智能評分和專家評分之間的差異較小(接近零),這意味著智能評分系統能夠準確地反映專家評分的標準,進一步支持智能評分的效度。

圖1智能評分與專家評分的差異分布直方圖

圖1展示了智能評分與專家評分之間的差異分布:評分差異在0到1區間內的柱子較高,這表示大多數評分的差異值都落在這個區間,表明智能評分與專家評分非常接近。評分差異的絕大部分在-4到3范圍內,差異較大的情況較少。這種分布表明智能評分和專家評分之間具有很高的一致性,差異較小,且沒有顯著的偏倚。

3.評分一致性。按比賽規定,本研究將組內排名前 30% 的報告標記為優秀報告。專家評分識別出優秀作品70件,智能評分識別出優秀作品65件,其中兩者一致評為優秀作品的有58件。那么,智能評分與專家評分在優秀作品識別上的準確率達到了(58/65)=89% 。這意味著,智能評分系統在識別優秀作品時,有 89% 的準確率與專家評分一致。

(二)信度分析

信度指的是測量工具在重復測量時的一致性或穩定性。信度高的測量工具能夠在不同時間、地點或不同評估者之間得到一致的結果。在這組數據中,以下指標與信度相關:

表2專家評分與智能評分分位數對比表

從表2看,在所有分位數( 25% 、 50% 、 75% ))上智能評分和專家評分之間的差異是負值,表示智能評分普遍高于專家評分。一致為負的評分差異可能表明智能評分系統中存在系統性偏差,即它傾向于略微高估評分。而且智能評分和專家評分的差異在 50% 和 75% 的分位數下,差異進一步減小,表示對于較高質量或表現較好的項目(即位于較高分位數段的項目),智能評分更接近專家評分。這進一步說明智能評分和專家評分之間的差異較為微小,且不會對總體評分分布產生顯著影響。

2.t值與p值:配對樣本t檢驗的結果(例如t值和p值)主要用于評估評分差異是否顯著。如果p值較大(如 p= 0.035 ),說明智能評分與專家評分之間存在一定的顯著差異,可能意味著智能評分的信度較低。若t值接近零且 p 值較大,則表明評分系統在不同時間或不同評估者間的一致性較高。

本研究 t=0.57 , p=0.23 ,且 pgt;0.05 ,意味著智能評分和專家評分之間不存在統計學意義上的顯著差異。

3.重測信度:本研究對DeepSeek進行了重測信度評估,以檢驗其評分結果的穩定性。研究者間隔一周后,使用同一DeepSeek 模型再次對240份文本進行評分,并計算兩次評分間的相關系數。結果顯示,重測信度 r=0.893 ,這表明DeepSeek的評分結果具有較高的穩定性,不受時間因素的顯著影響。

(三)可行性分析

本研究對DeepSeek自動評分系統的可行性進行了多維度評估,主要考察了其在效率、成本、公平性及用戶反饋等方面的表現。通過深人分析這些關鍵要素,旨在全面評估該系統在實際應用中的潛力和優勢。

1.效率分析。比較DeepSeek自動評分系統與專家評分所需的時間差異是至關重要的。結果表明,專家完成全部的評審任務用了10天時間(因其中兩位專家在規定的7天內未能完成評審任務,故延長3天完成),DeepSeek完成一輪評審的時間不到兩個小時,表明其在處理評分任務時具有更高的效率和顯著的時間節約優勢。這種效率優勢使其適用于需要快速批量評分的場景,例如大規模教育考試或內容審核。

2.成本分析。DeepSeek自動評分系統的使用能夠顯著降低評分成本。傳統的專家評分不僅需要支付專家的勞動報酬,還需要考慮到專家的時間消耗和勞動強度,而DeepSeek的評分系統則需要支付計算資源、算法開發及維護成本。但一旦系統投入運行,它能夠通過大規模的自動化評分降低整體評分成本,且隨著使用次數的增加,單次評分成本顯著低于專家評分。因此,從長遠來看,DeepSeek不僅提高了評分效率,還能夠節省人力成本,是一個經濟高效的評分解決方案。

3.公平性分析。公平性是評估評分系統可行性的重要維度,尤其是在多樣化背景下。為考察DeepSeek的評分公正性,本研究設計了專門的測試,重點檢查系統是否存在對不同類型報告或作者的系統性偏差。結果顯示,DeepSeek在多個類別報告上的評分標準一致,未表現出顯著偏倚。這表明 Deep-Seek在評分過程中能夠保持較高的公正性,有效避免人工評分中可能存在的主觀偏差。

4.專家反饋。我們通過對參與評審的專家進行問卷調查,收集了他們對DeepSeek評分系統的看法和意見。調查結果表明,大多數專家對DeepSeek的評分效果表示認可,認為其能夠減輕他們的工作負擔,提高評分效率,使得他們能夠將更多的時間投入到其他關鍵任務中,并且肯定評分結果與專家評分相近。此外,專家們也普遍支持以后使用Deep-Seek協助開展評審。然而,也有部分專家提出了一些技術上的建議,主要集中在系統的易用性和某些特殊情況下的評分準確度問題。這些反饋為我們進一步改進系統提供了寶貴的參考。

5.技術易用性。技術易用性是評估DeepSeek系統實際可操作性的關鍵因素。盡管DeepSeek系統的開發和運行依賴于人工智能、自然語言處理及大數據分析等領域的專業知識,但隨著技術成熟,系統已提供簡化的用戶界面,降低了非專業用戶的操作難度。同時,DeepSeek的部署和使用過程相對簡便,用戶可通過網絡平臺直接訪問評分功能,無需復雜的技術安裝和維護。

綜上所述,通過對效率、成本、可行性的全面分析,DeepSeek自動評分系統在多個維度上展現了較強的可行性。其不僅能夠提高評分效率,降低成本,還能確保評分的公平性和準確性。同時,通過專家反饋,我們能夠發現并改進其在實際應用中的問題,從而進一步提升系統的實用性和可靠性。

五、結論與展望

(一)結論

本研究旨在評估基于DeepSeek的智能評分系統在文本評價中的應用效果,重點分析其效度、信度與可行性。通過與專家評分進行對比,本研究發現DeepSeek系統在評分的準確性和一致性方面表現出較高的效度,并且在評分過程中的信度也得到了較好的驗證。具體而言,DeepSeek的評分結果與專家評分之間呈現出較高的相關性,評分差異較小,且識別優秀作品的準確率達到了 89% 。特別是在中國高校教學創新這一特定語境下,DeepSeek表現出優秀的領域適應性和文化敏感性,能夠準確理解中國教育背景下的創新理念和教學實踐。評分結果在學科多樣化背景下表現出較高的公平性,有效避免了人為偏倚。此外,該系統顯著提高了評分效率,為大規模評估節省了大量時間,并大幅降低了評分成本,經濟效益顯著。專家反饋也證實,DeepSeek能夠有效減輕評審工作負擔。這表明,DeepSeek作為國產大語言模型在模擬專家評分方面具有較強的能力,為教育評價提供一種更客觀、高效的輔助手段,同時在支持國產大模型應用創新方面具有示范意義。

(二)展望

盡管DeepSeek表現良好,但在實際應用中仍然存在一些局限性。首先,DeepSeek系統的本地部署投入成本較高,尤其是在開發與維護階段。其次,DeepSeek在面對特殊情況或復雜文本時的表現可能會受到一定的限制,如無法推理圖片的內容并做出判斷,且難以捕捉評分標準的細微差異,表明系統在某些任務或文本類型的評分上可能存在一定的誤差。最后,對于組織者和評審者而言,無差別熟練掌握人工智能技術本身也是一個挑戰。

未來研究應致力于以下幾個方向:一是優化DeepSeek的評分算法,提高其對復雜文本和特殊情境的識別能力,特別是加強多模態理解能力,使其能夠綜合分析文本與圖表內容;二是開發更加友好的用戶界面和操作流程,降低技術使用門檻,使教育工作者能夠便捷地應用智能評分工具;三是探索DeepSeek在更多元化教育評價場景的適應性,如實驗報告、創新設計、跨學科項目等領域;四是建立健全的人機協同評價機制,充分發揮人工專家與智能系統各自優勢,實現評價質量與效率的雙重提升;五是加強數據安全與倫理規范研究,確保在推進智能評價普及過程中保護學生隱私和維護評價公平。通過這些努力,將有助于推動“人工智能 + ”在教育評價領域的深度融合與創新發展,為構建更加科學、高效的教育評價體系提供有力支持。

參考文獻:

[1]SADLER D R. Indigestion and Regulation: AssigningMarks in Degree-Level Assessment[J].Assessmentamp; Evaluationin Higher Education,2009(5):481-497.

[2]石秀選,李均.生成式人工智能技術賦能大 學學術評價:機遇、挑戰及應對[J].高教探索,2024 (4):5-13.

[3][9]PAGE EB.The Imminence ofGradingEssaysby Computer[J].The Phi Delta Kappan,1966 (6):238-243.

[4][1O]SHERMIS M D,BURSTEIN J.Automated Essay Scoring:A Meta-Analysis and Synthesis of Recent Research[J].Journal of Educational Measurement,2016(3) :249-274.

[5]https://www. gov. cn/yaowen/liebiao/202503/ content_7010168.htm.

[6][8]GUOD,YANGD,ZHANGH,etal. Deepseek -rl: Incentivizing Reasoning Capability in Llms Via Reinforcement Learning[J].Arxiv Preprint Arxiv:2501.12948,2025.

[7]GIBNEY E.What are the Best AI Tools forResearch? Nature’s Guide.Nature.2025 Feb 17.doi:10. 1038/d41586-025 -00437-0. Epub ahead of print. PMID:39962251.

[11]ZHAI N,MA X. The Effectiveness of AutomatedWritingEvaluation on WritingQuality:A Meta-Analysis[J]. Journal of Educational Computing Research, 2023(4):875-900.

[12]江進林,陳丹丹.主觀題自動評分研究:回顧、反思與展望[J].中國外語,2021,18(6):58-64.

[13]王冠,魏蘭.人工智能大模型技術在教育考試全題型閱卷中的應用[J].教育測量與評價,2024,(3):3-18.

[14]宛平,顧小清.生成式人工智能支持的人機協同評價:實踐模式與解釋案例[J].現代遠距離教育,2024(2):33-41.

[15]白麗芳,王建.人工和機器評分差異比較及成因分析[J].外語測試與教學,2018(3):44-54.

[16]何屹松,孫媛媛,汪張龍,竺博.人工智能評測技術在大規模中英文作文閱卷中的應用探索[J].中國考試,2018(6):63-71.

[17]孫海洋,張敏.英語口語機器評分和人工評分的對比研究[J].外語研究,2020,37(4):57-62.

[18]陸俊花.人工智能背景下機器評分與人工評分的效度比較:以英語學習者故事復述評分為例[J].成都師范學院學報,2022,38(3):84-92.

[19]王偉,趙英華.人機協同評分質量控制方法[J].外語學刊,2023(4):97-104.

[20]楊麗萍,辛濤.人工智能輔助能力測量:寫作自動化評分研究的核心問題[J].現代遠程教育研究,2021,33(4):51-62.

[21]胡國平,竺博,盛志超,嚴峻.人工智能在教育評測領域的實踐[J].信息技術與標準化,2017,(11) :27-29.

(責任編輯 劉第紅)

猜你喜歡
人工智能智能差異
相似與差異
音樂探索(2022年2期)2022-05-30 21:01:37
找句子差異
2019:人工智能
商界(2019年12期)2019-01-03 06:59:05
智能前沿
文苑(2018年23期)2018-12-14 01:06:06
智能前沿
文苑(2018年19期)2018-11-09 01:30:14
智能前沿
文苑(2018年17期)2018-11-09 01:29:26
智能前沿
文苑(2018年21期)2018-11-09 01:22:32
人工智能與就業
IT經理世界(2018年20期)2018-10-24 02:38:24
生物為什么會有差異?
數讀人工智能
小康(2017年16期)2017-06-07 09:00:59
主站蜘蛛池模板: 成人福利在线观看| 99精品国产电影| 99999久久久久久亚洲| 伊人久久精品亚洲午夜| 国产精品成人免费视频99| 在线免费亚洲无码视频| 69视频国产| 日韩欧美国产综合| 久热99这里只有精品视频6| 国产亚洲欧美日本一二三本道| 91精品aⅴ无码中文字字幕蜜桃| 精品中文字幕一区在线| 亚洲一区二区约美女探花| 热re99久久精品国99热| 日韩国产黄色网站| 91最新精品视频发布页| 无码av免费不卡在线观看| 亚洲欧美在线看片AI| 91久久青青草原精品国产| 又黄又湿又爽的视频| 欧美亚洲国产精品久久蜜芽| 香蕉视频在线观看www| 中文字幕va| 99视频在线免费| 91国内在线观看| 国产精品无码制服丝袜| 欧美日韩高清在线| 奇米影视狠狠精品7777| 波多野结衣无码AV在线| 亚洲 欧美 中文 AⅤ在线视频| 欧美成人一级| 久久久国产精品免费视频| 91丨九色丨首页在线播放 | 亚洲国产精品日韩av专区| 国产原创自拍不卡第一页| 欧美亚洲欧美| 久久不卡精品| 四虎亚洲精品| 欧美成人午夜在线全部免费| 尤物视频一区| 国模沟沟一区二区三区| 人妻一本久道久久综合久久鬼色| 本亚洲精品网站| 国内精品视频| 午夜毛片福利| 亚洲无线一二三四区男男| 国产欧美高清| 欧洲亚洲欧美国产日本高清| av一区二区无码在线| 日韩天堂网| 奇米影视狠狠精品7777| 19国产精品麻豆免费观看| 免费国产高清精品一区在线| 国产91精品最新在线播放| 国产精品一区二区不卡的视频| 亚洲国产欧美自拍| 人禽伦免费交视频网页播放| 欧美 国产 人人视频| 精品久久久久久中文字幕女| 色综合天天娱乐综合网| 色综合久久久久8天国| 国产成人欧美| 美女无遮挡免费视频网站| 99视频在线观看免费| 天堂成人在线视频| 成人精品视频一区二区在线| 国产又大又粗又猛又爽的视频| 久久6免费视频| 国产后式a一视频| 99精品这里只有精品高清视频| 97se亚洲| 亚洲激情99| 天天色天天综合网| 国产乱子伦视频在线播放| 日韩欧美中文字幕在线韩免费| 人妻精品久久无码区| 女人18毛片一级毛片在线 | 91免费精品国偷自产在线在线| 91在线播放免费不卡无毒| 又猛又黄又爽无遮挡的视频网站| 久久99蜜桃精品久久久久小说| 国产91成人|