999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

教育評價中的信息技術應用:賦能、挑戰與對策

2021-04-02 03:40:06張志禎齊文鑫
中國遠程教育 2021年3期
關鍵詞:信息技術評價教育

張志禎 齊文鑫

【摘要】教育評價事關教育事業發展方向。中共中央、國務院印發的《深化新時代教育評價改革總體方案》對新時代教育評價改革做出了全面部署,指出應充分利用信息技術,創新評價工具。作為教育活動的“指揮棒”,教育評價中信息技術應用不能僅處于自發水平,需要達到自覺理性的水平。通過分析教育評價一般過程與信息技術特點可以看到,信息技術賦能教育評價主要體現在“增強”評價工具、“創新”評價工具、優化評價管理、提升評價質量和拓展評價結果等方面。同時,在教育評價中利用信息技術也存在挑戰與風險,主要是評價主體應用能力不足、信息技術自身不穩定不可靠、易流于“數據驅動”、易形成“算法霸權”及易濫用過程性數據等。為此,可采取的對策包括:提升評價主體教育評價信息技術應用能力、研制教育評價數據規范與建立公開測試數據集、建立評價迭代更新機制、發展評價對象自評能力、提高全社會教育評價素養等。

【關鍵詞】? 教育評價;信息技術應用;評價過程;評價質量;數據驅動;算法霸權;再評價;信息化

2020年10月,中共中央、國務院印發了《深化新時代教育評價改革總體方案》(以下簡稱“《方案》”),對新時代教育評價改革做出了全面部署。《方案》打開了教育系統“黑箱”,明確了教育系統內、外的重點評價對象,即學校、教師與學生三類教育系統主體,黨委與政府、選人用人社會機構兩類與教育系統直接相關的社會子系統;明確了結果評價、過程評價、增值評價、綜合評價、綜合素質評價、德育評價、選拔評價等評價任務。

《方案》指出教育評價應充分利用信息技術,創新評價工具。教育評價活動類型多樣,都是數據與知識“密集型”實踐,高度依賴客觀數據與對數據的分析處理,因此教育評價領域歷來對信息技術的新進展十分敏感,往往新技術一經出現,很快就有相關研究探索其在教育評價中的運用,如柯林斯(2013, p.114)、蘆詠莉等(2012, p.27)。

但是,這并不意味著不需要對信息技術在教育評價中的應用做系統探討。理由如下:一是教育評價中信息技術應用存在不同水平,可以是用新技術按照已有方式行事,也可以是創造新的行事方式;二是正式教育評價多為自上而下的任務,學校、教師被“裹挾”到教育評價活動中,或許對信息技術應用有體驗,但難以有系統理性的認識;三是教育評價是教育活動的“指揮棒”,對教育活動的影響廣泛、深遠、持久,信息技術應用不能只停留在自發水平,需要達到自覺理性的水平,只有明確信息技術的優勢與問題,才能充分發揮信息技術的預期作用,避免濫用誤用;四是信息技術在其他領域的廣泛應用已產生了未預料到的社會后果,與“信息迷”的樂觀聲稱背道而馳。例如,充滿不同聲音的互聯網讓很多人變得更加狹隘偏激(尼科爾斯, 2019, p.128),解放勞動力的自動化改變了工作性質(卡爾, 2015, p.78),互聯網新聞推送讓傳統新聞業哀鴻遍野、獨立思想日漸式微(福爾, 2019, pp.156-157),掠奪式廣告讓窮人陷入更深的窘境(奧尼爾, 2018, pp.72-73),MOOC不但并未顛覆傳統高等機構,反而被逐漸吸收整合(Reich, 2020, p.43),等等。教育評價事關國家教育事業發展方向與個體命運,因此有必要對信息技術應用的可能影響做系統分析。

一、作為特殊知識生產實踐的教育評價

教育評價是對教育主體、活動或現象的價值評定,是一種特殊的“知識生產”實踐。Gronlund提出“評價=測量(定量研究)或非測量(定性描述)+價值判斷”,這抓住了評價活動的本質(陳玉琨, 2019, p.13)。在實踐中教育評價人員大量運用研究設計、測量工具、數據分析技術等教育研究方法,因此也常常將評價活動稱為評價研究。教育評價與教育研究的區別不在于方法與方法論,而在于目的與追求(高爾等, 2002, p.558):評價的目的通常是改進或支持決策、評定績效,而教育研究的目的則是增進對教育現象的理解。這導致研究結果與評價結果的概括程度不同:教育研究結果更概括,追求對“某類現象”(that)或者關系的普遍理解,希望產生的知識是超越情境的;評價結果則非常具體,明確指向“某個對象”(that one),希望產生的知識是特定情境中準確、可靠和有用的,即基于某對象的知識能夠做出有效可信的價值判斷。

正如生產工具只能作用于具體的生產過程,信息技術也只能在教育評價的微觀活動過程中起作用。為了更深入地探討教育評價中如何充分利用信息技術,需要明確教育評價活動的微觀過程。基于陳玉琨(2019, p.38)、吳鋼(2018, p.46)、希爾倫斯等(2017, p.21)和高爾等(2002, pp.559-566)的教育評價過程模式,可概括出教育評價的一般過程(見圖1)。

教育評價的評價主體包括評價者和評價實施者,前者是評價的發起者,如政府、用人單位等;后者是具有實施評價能力的專業人員或機構。評價對象是學校、教師、學生等教育系統主體。教育評價的一般過程為:①確定目的,即評價者確定評價目的、被評價者、評價實施者,組織安排評價活動資源;②制定方案,即確定評價的具體目標、指標體系與標準、評價工具(數據收集和分析方法工具)、數據來源、評價結果使用方式與呈現形式、評價過程安排等,大規模評價還需要明確分工合作機制、數據標準、數據管理平臺等;③收集數據,包括定量數據和定性數據、專門收集的數據和日常運作產生的數據(伴隨式收集數據);④分析數據,即整合不同來源的數據,開展定量與定性分析;⑤價值判斷,即匯總分析結果,對照評價目的、指標體系和標準,做出價值判斷,形成評價結果;⑥反饋應用,即向評價者、被評價者和公眾反饋評價結果,利用評價結果進行選拔鑒定、問責或者改進教學。總之,在評價中“收集數據”“分析數據”是為了獲得有關評價對象的知識,是情境性很強的本地知識;價值判斷以前面的步驟獲得的知識為基礎;評價結果的“反饋應用”特別重要,且具有直接的社會后果,例如高校專業的級別、考生是否被錄取、應聘者是否被錄用等。

有研究者(吳鋼, 2018, p.179; 陶西平, 2012, pp.164-166)強調應對評價進行評價,即“再評價”。鑒于“再評價”以評價活動為評價對象,是新的、獨立的“元”評價活動,其過程也符合圖1中的一般過程,故未在圖中體現。

二、信息技術賦能教育評價

信息技術已經成為日常工作、生活、學習中的普遍技術。為了使分析基礎更加牢靠,仍有必要進一步明確對于信息技術的認識。

(一)對信息技術特點的再認識

這里的信息技術特點指現代信息技術,即以電子數字計算機系統為核心的信息獲取、處理、存儲、傳輸、呈現與管理的系列技術,是一個多層次多樣化的技術體系。圖2是與教育評價應用直接相關的信息技術三層次結構與特點示意圖。

在最“底層”,數字化是數據與信息進入信息技術營造的“比特世界”的前提條件。數字化后信息就脫離了原子的束縛,可以自由穿梭于數字世界(尼葛洛龐帝, 1997, pp.22-23)。自由是有代價的:經過采樣量化,信息通常會失去“上下文(context)”,導致其意義難以自明,完整性難以保證,易被曲解、篡改(布朗等, 2003, p.116)。在早期,數字化需要人來完成,即人工用紙帶打孔、鍵盤等方式為計算機輸入數據;聲卡、數碼相機、二維碼掃描器等多媒體設備,能夠自動實現比特層次的數字化;“傳感器+人工智能技術”則實現了具有人類感知特點的數字化,如人臉識別、拍照翻譯、語言識別等。

中間層是通用的計算、存儲與交互基本服務。計算不僅是數值計算,還包括文本查找、邏輯判斷等非數值計算,高速、準確是計算機計算的突出特點。計算機存儲的基本特點是容量大、讀寫速度快,且數據與處理程序的存儲機制相同。交互指通過鍵盤、鼠標、顯示器等輸入輸出設備實現與計算機的“人機交互”。

最上層是專門技術,和教育評價密切相關的是統計技術、多媒體技術、通信技術和智能技術。“統計技術”指計算機實現定量與定性數據統計分析的軟硬件技術,集中體現在R、SPSS、Excel等軟件包中。統計技術是信息技術用于評價的切入點,極大提高了數據分析的效率與準確性,在“分析數據”中普遍應用。“多媒體技術”指語音、圖像等視聽信息的輸入、處理與輸出技術,是真實社會場景與活動的捕獲、分析與呈現的有效手段。多媒體技術包括虛擬現實技術,通過它可以創建沉浸式體驗(張志禎, 2016),在“收集數據”“分析數據”“反饋應用”中應用廣泛。“通信技術”包括實現人際通信的互聯網服務與實現“物體間通信”的傳感器與物聯網技術。前者使大規模的教育評價合作成為可能,也為數據管理、傳遞提供了新的平臺;后者為新的測評工具研發開辟了道路。通信技術在“收集數據”“分析數據”“反饋應用”中應用廣泛。“智能技術”指與實現人類個體特有的感知、推理與行動的“智能行為”相關的計算機技術,如圖像識別、自然語言處理、知識推理等(周志華, 2018; Russell, 等, 2013),大致上可以分為自上而下賦予計算機知識的知識工程技術(如專家系統)和自下而上從大量數據中自動發現“模式”以做出預測的機器學習(如圖像識別深度神經網絡)。有經濟學家認為智能技術的基本特點是使預測變得廉價(阿格拉沃爾, 等, 2018, p.19)。智能技術對于教育評價的影響正在逐步顯現,這一影響將是全過程、全方位的。

總體上看,上述多層次的信息技術表現出如下特點①:①去情境化,這是“采樣量化”數字化過程的結果,這一處理有得有失,具體請參見前文“數字化”相關分析;②易重用重組,數字世界的數據資料與軟件程序功能多姿多彩,但由于其底層都是比特,因此易于重新利用,借助超文本超鏈接技術,不同來源的信息很容易就能并置、整合在一起(重組),方便了跨越時空、情境的比較分析;③高開放性,主要表現在可進一步做編碼、加工、轉換和通過網絡進行不受時空限制的訪問;④不穩定(instability),指信息技術軟硬件總是處于發展過程中,硬件設備的使用壽命不長,軟件則受制于操作系統的頻繁更新,一款軟件可能幾年之后就難以找到適合的運行環境,這導致信息技術應用需要持續的經費與人力投入;⑤不可靠(unreliability),指計算機軟硬件可能包含錯誤,糾正錯誤的“補丁”常常會引入新的錯誤,若功能依賴互聯網在線服務,則互聯網連接、網絡速度與服務器的不可控與不確定,進一步增加了信息技術的不可靠。

(二)信息技術“增強”教育評價工具

教育評價工具通常指對評價對象進行測定時所采取的方式和手段,如論文考試、標準化測驗、行動觀察記錄、作品分析等(顧明遠, 1998, p.767)。由于數據分析處理與數據收集方法密切關聯,本文擴展“教育評價工具”的外延,將數據分析處理方式與手段也包括進來。

本部分的“增強”指穿新鞋走“老路”,即用信息技術完成了之前需人工完成的工作。信息技術增強使教育評價工作更快速準確、更規范、更大規模。

“更快速準確”突出表現在數據收集與分析環節,尤其是定量數據的統計分析上。以考試評分與成績統計為例,借助數據處理軟件,教師可以實時對成百上千學生的成績做交互式統計分析、可視化呈現、多角度對比,快捷、準確。自動閱卷技術提高了閱卷速度和準確率,極大節省了人力。在線調查網站使采用問卷、量表、測驗等方式收集數據變得更加高效。對于教育評價而言,數據收集與分析的“快速準確”可縮短評價周期,降低評價成本,使反饋應用更及時,有利于提高實踐改進所需的時效性,更好地落實評價促進發展的功能。

“更規范”指在利用計算機收集與分析數據時,能夠標準化數據測量、存儲、傳輸與分析方法,嚴格控制數據收集流程與時間,使數據處理方法標準化、規范化。例如,在2018年寧夏普通高等學校招生體育專業術科測試中采用信息技術測量儀器與設備,測試過程更加科學、規范、準確(賈海生, 2019)。

“更大規模”指即使采用同樣的評價工具,由于信息技術增強了數據收集能力和數據處理能力,使得可以在更大規模開展評價。如利用計算機網絡匯總分析數據,5個人的小團隊就可以在有限的時間內高質量地完成涉及1,816個高職專業的全國項目的績效評價與報告撰寫(張志禎, 等, 2015, p.473)。

信息技術工具將部分數據收集、統計工作自動化,大大簡化了某些評價活動,使這些評價活動能夠整合到日常教學中。例如,用Excel做成績分析,用“問卷星”收集數據,使用課堂教學互動系統、QQ群的投票功能等,這些都有助于教師在教學中開展形成性與診斷性教學評價。也就是說,信息技術的“增強”作用,有時體現在降低評價活動技術門檻與時間成本的“簡單化”上,這對于評價活動的“日常化”至關重要,對于日常教育實踐非常有價值。

(三)信息技術“創新”教育評價工具

信息技術不僅能使已有工具與方法更加高效,還能夠創造出新的工具與方法,實現穿新鞋走“新路”。信息技術的創新應用使教育評價有了新數據、新工具、新模式。

“新數據”,信息技術大大拓寬了評價數據來源。例如,有關真實社會場景與活動的多媒體信息(如視頻)、活動過程中伴隨式采集的實時生理與心理數據(如腦電波、情緒、注意力等)、在線學習行為數據、機構運作過程中自然產生的數據記錄等。新型數據已運用于各種教育評價研究與實踐,例如課堂教學視頻已在美國NBPTS專家教師的認證中長期使用(袁銳鍔, 等, 2004)。

“新工具”,信息技術催生了很多新型“評價工具”,典型的如適應性測試、游戲測評、虛擬現實仿真場景測試以及合作問題解決測試等。適應性測試能夠根據考生的表現,動態選擇下一道題目,“每道題都被看作是一項獨立的迷你測試……(考生)回答會不斷改變我們對其真實分值的推測”(Thorndike, 等, 2018, pp.165-166)。基于項目反應理論的適應性測試能夠縮短測試時間,提高測試信度和效度,已大規模用于GRE考試,也用于Knewton等大型適應性學習系統(Reich, 2020, p.53)。適應性測試的實現依賴高強度的實時計算,只能在計算機上實現。電子游戲測評提高了測試任務真實性,能夠動態檢測任務監控等復雜能力,是更為真實的表現性測試(孫鑫, 等, 2018)。PISA測驗采用的合作問題解決也在計算機、互聯網環境中開展(檀慧玲, 等, 2018)。此外,《方案》強調的綜合素質評價,需要處理大量的非結構化數據,其分析與綜合評價有賴于新的智能分析技術。

“新模式”,簡單而言,對于信息化比較成熟的機構,由于日常運作能夠產生大量的過程性數據,為更好地利用這些數據,提高評價效果與效益,需轉變評價思路,探索采用“伴隨式數據收集—確定目的—制定方案—數據選擇與分析—價值判斷—反饋應用” 這一新的過程模式。

(四)信息技術優化教育評價管理

在計算機時代開啟之際,維納就預言了計算機的生產、社會控制潛力(維納, 1978, pp.138-139)。大規模教育評價是涉及面很廣的復雜活動,需要有效管理才能有序可控,保證質量。對于這類評價而言,信息技術已經不是可選項,而是不可或缺的。

信息技術增強了大規模、高利害教育評價的管理與控制。我國的高考是個典型例子。高考的考務管理包括報名、投檔、錄取、身份識別等,早已實現全程信息化,信息技術為高考保駕護航,推動了高考現代化改革(游忠惠, 2013)。

信息技術使大型教育評價項目合作開發與實施成為可能。例如,經合組織(OECD)的PISA測試、國際教育成就評價協會(IEA)的TIMSS研究、我國的基礎教育質量監測、美國的國家教育進步評價(NEAP)等都依托互聯網實現大范圍合作式評價開發、施測、過程與數據管理。

信息技術使對于教育機構的增值評價具備可操作性。增值評價涉及復雜的數據收集與統計,尤其是分層次、分塊以及歷史數據的對比分析(辛濤, 2020),若沒有信息技術數據管理與統計分析的支撐,增值評價的時間與人力成本會極其高昂。

信息技術還開辟了課程教學資源有效性評價的新方式。基于互聯網的智能教學系統可以作為被試分配、資源傳遞與展示、學習過程開展、評價數據收集、評價結果報告的新型教學實驗平臺,實現了對大規模、高生態效度的教學實驗的全過程自動化管理(Heffernan, et al., 2014)。

(五)信息技術提升教育評價質量

陶西平(2012, p.166)認為評價具有雙重性,好的評價促使教學工作變得更好,不好的評價可能使教學工作的方向更偏。這個判斷也適用于其他類型的教育評價。《方案》將“充分利用信息技術,提高教育評價的科學性、客觀性與專業性”作為改革的原則之一,明確了教育評價的質量標準、信息技術應用的目標和價值。

對于教育評價而言,“科學性”主要表現為評價的高信度、高效度①(吳鋼, 2016, p.180);“客觀性”是信度的一種,即評分者一致性信度(梅耶, 2016, pp.96-97);“專業性”主要表現在評價實踐的倫理性、高效性和規范性,即高質量的教育評價應該是高信度、高效度、合乎倫理、高效、規范。對于運用信息技術為何能夠提高評價質量,“高效、規范”前文已多有涉及,含義也較為明確,限于篇幅,不再討論。下面分析信息技術對于信度、效度、倫理性的促進作用。

“信度”指教育評價指標和工具的準確性和精確度,表示通過某一特定測量程序得出的分值的一致性和可復制性的程度(Thorndike, 等, 2018, p.130)。在評價過程中產生誤差、影響信度的因素很多,如評價對象與評價者狀態、評價工具、評價實施環境、評價過程等(吳鋼, 2015, p.195)。信息技術通過測試過程與任務呈現的標準化、數據統計分析的準確性以及利用項目反應理論模型動態計算等方式提高評價信度。在互聯網在線數據收集中,如在線問卷填寫或者在線測驗時,計算機可以通過強制作答、自動呈現/跳過題目、檢測回答有效性等方式,減少答題誤差,提高評價信度。此外,配備特定的硬件后,計算機還可以實時檢測被試的注意力、情緒狀態是否異常等,從而進一步提高評價信度。

“效度”指教育評價在多大程度上測量了所要測量的。教育評價的效度主要取決于指標體系的合理性和所用測量工具(如測驗)的效度。測驗效度指在運用測驗時對于測驗分數的解讀可以得到證據和理論支持的程度(Thorndike, 等, 2018, p.172)。具有一定效度的評價結果才是有決策參考價值的。具有一定的信度是高效度的前提,但高信度不能保證高效度。例如,學生頭圍的測量信度很高,但用其測量學生閱讀能力則效度很低,而用來決定買多大的帽子則效度很高。效度取決于解釋與使用評價結果達到特定目的的程度。教育評價至少應具備內容效度、結構效度與效標關聯效度。內容效度的鑒定主要采用邏輯分析的方法,常用專家判斷的方式(吳鋼, 2015, p.184),信息技術的作用不大。結構效度的鑒定多采用因子分析法,計算量很大,需要借助計算機完成(吳鋼, 2015, p.184)。效標關聯效度是看評價結果與外部效標(如:在研發新型測試時,其他成熟的等價測驗;在招聘中,被錄取人員在工作中的實際績效可作為外部效標),評價系統若能與其他系統對接,關聯相關數據,對于未來考察評價的效標關聯效度將是很有益的。影響評價度的因素和影響信度的因素很多是重合的(吳鋼, 2015, pp.187-188),因此“信度”部分所提到的信息技術作用也有利于效度的提高。此外,由于計算機多媒體技術,尤其是虛擬現實技術能夠構建交互式虛擬仿真環境,且能夠跟蹤環境中問題解決的步驟,對于問題解決能力、認知與動作技能、認知策略的測評可能是效度更高的測評方法(孫鑫, 等, 2018)。

“倫理性”指教育評價不應歧視任何評價對象,應公平公正,重視隱私保護,維護評價對象利益。對于教育評價而言這應該是第一位的。信息技術在這方面的應用空間很大。例如,通過合理設計測試系統,保證學生匿名及評分閱卷過程的身份隱藏;借助視覺、聽覺輔助技術,使特殊需要學生也能夠參加測試;根據學生情況,生成文化公平的測試,等等。

(六)信息技術拓展教育評價結果應用

信息技術的信息重組重用能力以及開放性,為評價過程與結果信息的重用提供了更多的可能,主要可用于改進教學、改進評價、促進相關者實踐反思。

改進教學指教師或者計算機根據對學生表現做出的形成性評價,調整學習內容或方法,實現教學個性化。智能輔導系統(如Cognitive Tutor)是用“算法”調整教學的典型,其調整教學所依據的學生模型就是在監控學生問題解決的過程中實時評價數據的匯總(Anderson, et al., 1995)。對于學生的在線測試,系統能夠實現自動統計與可視化呈現,幫助教師客觀、全面地把握學生學習情況,輔助教師的教學決策,比如高中物理精準教學(祝令健, 等, 2020)和ASSISTments系統在教學中的使用方式(Heffernan, et al., 2014)。

改進評價指利用評價過程與結果的信息,對評價全過程進行“再評價”,以提升評價質量。若能在評價活動中注意利用信息技術收集整理過程性數據,就可以完整、真實地再現評價過程,使再評價過程“基于真實數據”,提高客觀性與準確性。

促進相關者實踐反思指信息技術為評價結果提供了新的傳播展示途徑。互聯網與移動互聯網是評價結果傳播的有效平臺。例如,視頻網站、微信公眾號、微信群等,不但可以把評價結果精準推送給特定人群,還可以提供閱讀量、轉發量等統計數據,而且具有互動功能,有利于基于評價結果形成實踐改進共同體,更好地發揮評價的實踐改進作用。

三、教育評價中利用信息技術的挑戰與風險

教育評價是價值導向的活動,信息技術應該只在工具層面起作用,但是工具會改變主體的實踐方式,會潛移默化地改變主體的認知方式與主體間的相互作用方式。對組織機構來說,信息系統有時像打入機構內部的“木馬”,可能會打破組織的邊界與平衡。工具性信息技術應用也會產生社會后果。鑒于教育評價影響的滯后性和自我強化性①,必須警惕信息技術應用帶來的挑戰與可能風險。

(一)評價主體評價信息應用能力不足,影響信息技術應用效果

李政濤(2020)認為《方案》的落實關鍵在于“落實主體”,即教育局局長、校長和教師對方案具有足夠的“理解能力、運用能力,以及運用之后的反思能力與重建能力”,落實過程充滿挑戰。

在教育評價中有效運用信息技術,對評價主體提出了更高要求。在認識層面,需要對教育評價改革理念和運作方式有深刻理解,需要明確信息技術的微觀作用方式,中觀層面上對于組織行為的影響,以及對組織和個體信息技術條件、能力的要求;能夠開闊視野,了解社會系統中可以憑借的信息化力量;能夠充分估計到信息技術應用的預期作用和副作用。在實踐層面,能夠設計開放靈活的機制,整合資源,充分利用社會專業力量補齊能力短板,創造條件,保障評價順利實施,確保善用評價結果,控制總體成本與潛在風險。這些要求與前面的挑戰相疊加,一方面凸顯信息技術賦能評價的潛力,另一方面讓評價過程更加復雜動態,若支持與管理跟不上、方法設計不合理,可能反而會增加評價成本,降低評價質量。

(二)信息技術自身不穩定、不可靠,增加評價成本

對于評價者而言,信息技術的不穩定,尤其是硬件、平臺類軟件技術(如操作系統、瀏覽器、Flash②、Java、Python、辦公套件等)的更新,可能會導致已有“投資”成為沉沒成本。所謂“投資”,不僅包括硬件和操作系統,可能還包括評價應用系統、人員的知識經驗與技能、培訓資料等。若軟硬件升級導致歷史數據無法使用,可能會造成更嚴重的后果。因此,對于常規性的評價工作,信息技術的不穩定所造成的成本增加,是必須要充分考慮的。

信息技術的不可靠性很隱蔽,給教育評價質量造成的影響可能很大,可能會導致數據收集失敗,或者數據分析出現難以察覺的錯誤。為應對這種不可靠、不確定,在正式數據收集之前應進行全流程的充分測試,而且要制定備用計劃,如利用本地服務器、預留備用數據收集時間、保持備份服務器同時運行等,這都會增加組織、時間、人力成本。

(三)易流于“數據驅動”,不利于評價的價值導向與問題驅動

“數據驅動”是當前教育信息化領域的“日常”用語。和所有教育術語一樣,數據驅動并沒有其字面意思所暗示的那樣客觀、中立、直截了當。就“數據”一詞而言,盡管人們仔細厘清了現象、數據、信息、知識等相關術語的含義,也達成了一些共識,但在實踐或研究中數據指代的東西非常多樣化。例如,以下都被稱為“數據”:學生的身高、一節微課的觀看次數、一節數學課的視頻、學生期末考試的排名、用回歸方程預測的學生高考分數、學生志愿活動的記錄單……,但它們的確定性以及所包含的加工處理、推斷程度,代表的意義、價值(信息量)存在很大差異。也就是說,“數據”自身就是多樣多層次的。最基礎的原始數據只是“原油”,量大、龐雜、價值稀疏,需要“精煉”才能使用。在“數據驅動”過程中,選擇什么樣的數據,如何分析數據,如何呈現分析結果,分析結果和預期有出入,尤其是數據對于目標產生懷疑時該如何處理沖突,這些問題的解決有賴于隱含在背后的價值導向與問題定位。若望文生義,僅從字面上看容易忽略這些問題。具體到教育評價,在利用信息技術獲取大量數據后,一味強調“數據驅動”存在如下風險:

第一,過分關注指標操作定義的便利性,降低評價效度,影響價值導向。在確定評價指標體系與指標的操作定義時,不應僅考慮數據易獲取性,更要注重價值導向與問題邏輯,否則會降低評價效度。例如,在高校學科排名中,指標“課程教學質量”的操作定義就不盡合理(石中英, 2019)。

第二,滿足于相關關系,不去探究因果機制,降低評價結果的發展作用。評價結果要改變實踐,就需要提供明確的操作建議,在不清楚因果機制和作用路徑的情況下,僅靠相關(調查同一現象的多側面數據,數據之間很容易相關,樣本量足夠大,也很容易在統計上顯著)實踐建議是否有效是隨機的,長此以往會弱化評價的發展作用。

第三,在教育研究領域,“數據驅動”研究取向的結果令人失望,這給同樣是知識生產的評價領域敲響了警鐘。MOOC讓教育研究領域興奮不已的原因之一是可以獲取大規模真實的學習行為數據,有望極大推動教育規律的探索。但是,2013年充滿希望的預期(李曼麗, 等, 2013, pp.176-177)并沒有成為現實;七年后,Reich梳理了相關研究,發出“海量大數據,微量新洞見(terabytes of data, little new insight)”的慨嘆;即便有一些發現,也只是類似“學習行為越多,學習成績越好”的常識性結論(Reich, 2020, p.37)。

(四)易形成“算法霸權”,降低評價結果的可解釋性

《算法霸權》是奧尼爾(2018)著作的中文譯名。書名直譯應為《殺傷性數學武器——大數據是如何擴大不平等和威脅民主的》。“算法霸權”生動地表達出某些控制數據和算法的機構對個體泰山壓頂式、不容置疑的威權性,故在此直接借用。

數據驅動這一術語簡短有力,但其背后有復雜的數據處理過程。如前文所述,原始數據復雜多樣、意義不彰,難以驅動決策;由于其量大且形式多樣,處理復雜,個體難以在有限的時間內進行有效分析處理進而把握其意義,因此需要借助計算機計算分析。借助算法從數據中提煉出“模型”,基于算法和模型所得出的“結論”才是真正能夠驅動決策與行動的。

在商業、體育、金融、娛樂、招聘等領域,算法模型已得到廣泛應用。算法在為資本賺取高額利潤的同時,惡化了處境不利群體的生存狀況(奧尼爾,2018, p.172)。奧尼爾(2018, p.17)認為信息技術不僅能夠造就好的模型,更容易造就不好的模型(殺傷性數學武器)。前者如棒球隊模型,使用者(教練和球員)清楚模型的原理、能夠用最新的真實數據調整模型、模型使用直接變量(如隊員的比賽得分),而不是間接、替代變量(如隊員的胡子長短)做預測;后者如營利性大學招生廣告投放算法、招聘簡歷篩選模型,與棒球隊模型相反,不透明(學生不了解其運作機制)、大量使用替代變量(種族、居住地等與學術表現無直接關系的變量)、模型更新不及時(模型訓練出來后持續運行,不會根據最新數據更新),使迫切需要教育機會的不利人群為教育花費更多,背負上沉重的貸款負擔,處境更糟。

教育評價應具備權威性。因某些評價的高利害性,公平公正的權威性有時會給評價對象造成很大的心理壓力。信息技術尤其是互聯網和以數據為基礎的智能技術,會大規模擴大專業權威的作用面,可能加劇其不透明性傾向,使其成為更具社會壓迫性的力量。

可以預期,在未來評價中算法自動做出的判斷會越來越多。“算法霸權”因判斷過程的不同特點,存在很大差異。具體來說,第一類是人類個體能夠達成高度一致、能夠解釋判斷過程的,在這種情況下算法的危害不大,即使有問題也能很快調整。比如,閱卷時的題目切分、單詞拼寫、自動推薦的學習材料的適切性等。第二類是人類個體能夠基本達成共識,但不容易解釋清楚評價過程和依據的,在這種情況下算法如果有問題會造成混亂和不公平,雖然模型能調整,但是代價很高。比如,作文質量判斷、一節課的教學效果、英語口語水平測試等。以英語口語自動評價為例,用東南沿海地區初中生的英語口語語料訓練出來的模型,在全國使用或者用于西部地區就可能存在公平性問題。第三類是對于個體未來表現的預測性評價,其影響因素眾多,且效果驗證具有滯后性,人類專家有時也難以達成共識,在這種情況下算法霸權的危害可能會極大。例如招生考試、企業招聘等。預測正是智能技術的特長,但這也是智能算法最受詬病的地方。目前企業招聘部門普遍利用智能算法篩選簡歷,其結果是,很多應聘者因為相關變量,如性別、居住地、第一學歷學校級別等就被刷掉,根本沒有展示與崗位相關能力的機會(奧尼爾, 2018, p.126)。這樣一來,短期是對特定群體中的個體利益的侵害,長期將降低社會的垂直流動性,助長階層固化。這是評價缺乏效度的典型案例。這警示我們利用信息技術并不一定能夠提高評價質量。

當智能技術大規模應用于評價,尤其要警惕這種現象的出現,要警惕不可解釋、不透明的算法所做出的評價判斷。這里的不可解釋指技術上的不可解釋,如深度神經網絡訓練出的模型;不透明,指人為設置制度障礙來阻止利益相關者理解算法決策原理,比如以商業機密為由拒絕公開算法細節,不透明算法的倫理風險更高。不管哪種情況,都需要逐步糾正改進。教育評價發展功能的實現,需要評價對象理解評價標準和過程,需要算法具有可解釋性、透明性。

(五)易濫用過程性數據,混淆形成性評價與過程評價

《方案》將“強化過程評價”作為改革的主要原則之一。鑒于信息技術極其擅長過程跟蹤、數據整合(重組重用)、數據管理,再加上目前對教育大數據、學習分析的普遍關注,這些因素與對過程評價創新的熱望與壓力重疊,可以想象在未來幾年,用信息技術創新過程評價一定是研究與實踐的熱點。信息技術會在過程評價變革中起到重要作用,甚至會成為過程評價創新的基礎。但也需要注意一些可以預見的挑戰與風險:

第一,對于過程評價的認識不統一,容易導致實踐偏差。過程評價不是新鮮事物,在研究與實踐中已長期存在。但即使在學界,對其也存在多種認識。雷新勇(2020)列舉了三種理解,即對學生發展的過程性評價(如檔案袋)、對學生知識技能習得過程的評價以及對教師教學過程的評價。邊新燦(2016)探討了高考中的過程評價,認為它是為了緩解結果評價獨大、“一考定終身”的不良影響而設計的,其實現路徑包括把高中學業水平考試納入高考評價體系、部分科目實行一年多考等。就學生評價而言,雷新勇(2020)的第一種理解和邊新燦(2016)的理解是一致的,也是合理的,即過程評價與結果評價相對,強調在為選拔、問責而評價時,要綜合某一時間段的多次表現信息(過程評價)和最后某一時間點的表現信息(結果評價),而不僅僅靠最后一次結果進行評價決策。

第二,易混淆形成性評價與過程評價,濫用過程性數據,造成外部總結性評價泛化。形成性評價以為正在進行的教育活動提供反饋為目的,旨在改進課程設計、教學實施和學生學習;它與總結性評價相對(陳玉琨, 2019, p.18)。形成性評價是課程與教學的有機組成部分,是教師教學工作的重要方面,應該在教師專業自主權范圍之內。例如,單元測試是很常用的形成性評價手段,幫助教師了解教學效果,幫助學生查漏補缺。這類測試成績一旦變為總結性評價(如初中學業水平考試、中考、高考)的一部分,它就不再是形成性評價,而是過程評價(陶西平, 2012, p173)。由于信息技術在學校教學中的廣泛應用,使學習過程數據極易收集,盡管過程評價改革的壓力很大,教育局、學校一定要抑制將形成性評價轉變為過程評價的沖動,這有很高的倫理風險,同時可能會鎖定學生成長,增加學生學業負擔,還可能導致家庭對學生學習產生更大的影響力。

第三,區分評價對象與評價類型,合理設定過程評價與結果評價的比重。對處于成長中的兒童和青少年個體,過程評價存在鎖定效應與可信性風險,應充分尊重個體生命成長的不確定性、非線性與獨特性,慎用過程評價,防止過程評價限制、鎖定學生發展,導致“浪子”無法“回頭”。對于教育機構(如學校),過程評價有助于提升教育供給質量,提高日常教學、服務、管理質量,故宜增加過程評價占比。

四、教育評價中信息技術可持續

應用的對策建議

基于以上分析,為促進教育評價中信息技術的可持續應用,使之切實為教育評價服務,進一步提高教育評價的科學性、客觀性與專業性,建議如下:

(一)開展評價主體的教育評價信息技術應用能力建設,提升教育評價質量

學校和教育局是教育評價信息技術應用能力建設最重要的主體,其能力建設主要體現在人才儲備和體制機制建設兩個層面。信息技術只有通過專業技術人才方能實現“賦能”。《方案》也將“培養教育評價專門人才”作為組織實施的保障性舉措。具體建議:第一,變革教育評價、教育測量等相關專業課程設置,在常規統計學、測量學課程之外適當增加線性代數、計算機編程和數據科學等相關課程,提高學生的信息技術素養、數據素養;第二,對于在職的教育評價專業人員,鑒于MOOC在在職/專業碩士教育中的有效應用(Reich, 2020, p.20),可以通過由專業機構(如統計與測量專業相關協會)開設網絡直播講座、MOOC課程等方式,提供課程學分認證,促進其專業發展;第三,在國家或區域層面,建設教育評價信息技術應用案例庫,以傳播先進經驗;第四,倡導科教、產教融合,鼓勵引導專業評價機構與信息技術行業企業探索整合力量的開放機制。

(二)研制教育評價數據規范,保證數據向后兼容,緩解信息技術不穩定帶來的影響

數據規范的作用主要體現在以下幾個方面:一是在信息技術快速更新(不穩定)仍會持續的情況下保證數據的向后兼容性①,保護最重要的資產“數據”在未來的可用性。二是在鼓勵利用信息技術創新評價工具的情況下,為了降低創新成本,“數據孤島”現象在所難免,關鍵是這些系統之間在必要的時候能夠交換、集成數據,這時數據規范就能夠起到作用。例如,目前各省的高中生綜合素質評價數據不兼容、難以整合的現實問題,是招生高校在操作層面面臨的難題,即評價數據規范已有現實需求。三是好的規范能夠起到引導發展、幫助評價主體提高數據意識的作用。四是對于國家省部級立項的課題或行動計劃,可以強制其遵循數據規范,逐步規范數據采集、存儲,在這些項目的引導與示范下,數據規范有望更好地落地。

另外,在研制數據規范的同時,為促進規范落地,也為了更大規模的研究與人才培養,還應同時建立符合規范的、經過匿名化處理的、由真實數據構成的公共測試數據集。一方面是為了實際測試教育評價數據規范的可行性,另一方面也是希望起到ImageNet對于人工智能計算機視覺領域的作用②,促進教育評價行業的健康發展。

(三)建立評價迭代更新機制,落實價值導向與問題驅動,規范“數據驅動”

教育評價改革不可能一蹴而就,教育評價中的信息技術應用也是如此。教育評價的“再評價”能夠提高教育評價信度、效度和效益,但再評價的實踐還不普遍(吳鋼, 2015, p.180)。可以以信息技術應用為契機,建立鼓勵再評價的機制,逐步完善評價迭代更新的機制。在再評價過程中,為避免過分強調數據而忽略價值導向,應重點核查評價的效度,尤其是指標體系操作化涉及的數據與評價目的、內容的直接相關性。應實現評價指標和操作方法的公開透明,向評價對象說明評價各項指標的意義,以及指標數據對于實踐活動的促進作用。以此逐漸杜絕為了方便而進入評價指標的數據,并規范、約束和引導“數據驅動”。

(四)發展評價對象自評能力,探索評價決策知情與算法透明機制,對抗“算法霸權”

為對抗“算法霸權”,提高算法與模型的可解釋,建議采取兩方面的舉措:

第一,建立關鍵算法與模型的公共審查機制。為防止“算法霸權”,應要求產品研發機構向公眾或者利益相關者說明算法和模型原理,將其作為教育產品準入或者認證的基本要求。例如,在消費領域大數據殺熟等現象已引起普遍關注,中國消費者協會于2021年1月召開座談會呼吁加強網絡消費領域算法規制,保障消費者知情權、選擇權和公平交易權①。

第二,激發評價對象知情權意識,發展利用信息技術的自評價能力。教育評價的“初心”是為了提高教育質量。正如王策三(2005, p.305)所指出的,在教學過程中的評價,最有效的是發展“自評價”能力。在個體對抗“算法霸權”時,個體知情權意識的覺醒、對于評價本身的批判分析能力是最根本的。互聯網與人工智能在這方面作用空間很大,一方面提供了評價對象共同體,可以匯聚發現的問題,另一方面也提供了公共數據、算力和工具(涂子沛, 2014, p.272),因此有沒有意識與能力運用這些工具就非常關鍵,而這有賴于個體評價素養的提升。

(五)提升全社會教育評價素養,確保教育評價的發展功能落實

《方案》落實是需要全社會參與的系統工程。由于教育評價的專業性與綜合性,教育評價的直接利益相關者——教師、學生和家長,都需要提升教育評價素養(評價意識、知識、技能與能力)。

教師是核心,而且要起到引導和輻射的作用。應為教師提供系統的培訓,幫助教師認識到教育評價對于自身、學生以及課程教學的影響,尤其要明確形成性評價與過程評價的區別,尊重學生發展的規律,明確信息技術自動評價的問題與風險。

學生往往是大規模評價的直接對象,但因年齡段的差異,對評價的認識深淺不同。對于初中及以上的學生,需要教師在教學中明確培養學生的“自評價”能力。同時,對于各種正式評價的目的、方式、后果,要幫助學生對此有日益清晰的認識。

對于學生的正式評價,尤其是在基礎教育階段,真正感興趣的可能是家長,而不是學生。對于家長的教育評價素養提升,可借助兩個途徑:一是依托學區學校的家長學校,通過專題講座等方式系統地幫助家長改變觀念、提升認識水平;二是依托我國的科學普及體系,通過科協的科普活動在科技場館、網站、電視等各種平臺上增加有關心理測量、考試、大數據與機器學習基本原理等知識。畢竟基于證據進行審慎判斷與決策,也是科學素養的應有之義。

五、小結

本文一開始就強調教育評價是特殊的知識生產實踐,是為了更突出評價也是對于未知的探索。對于教育評價,最根本的對象恰恰是充滿可能性與不確定性的人類個體的身心成長與發展狀態。評價者只能依靠數據去推測其真實狀態。由于我們價值觀念與認識能力的局限,推測是有可能與客觀事實不相符的。因此,應對評價對象始終抱有認知上的謙卑與謹慎。評價的特殊性在于評價所產生的知識是針對特定對象的,情境性很強,而且具有直接的行動意蘊,會對特定的人類個體命運產生直接影響。在這個意義上,與其他教育研究相比,評價要求更高的知識與倫理標準。

在信息與智能時代,信息技術之于評價活動,正如技術之于人類的現代生活,“技術搭建起了我們居住的這所房屋……與早先的人類相比,我們幾乎已沒有生活在房屋之外的機會”(富蘭克林, 2019, p.9)。教育評價也已很難走到信息技術搭建的“房屋”之外。因此,在教育評價中用不用信息技術已經是偽問題,如何用好信息技術才是真問題。《方案》對教育評價應充分利用信息技術的強調和要求,能夠推動信息技術應用的實踐創新,推動其進一步規范化與規模化,也能夠提高研究的自覺性、前瞻性與系統性。

信息技術,尤其是新興的智能與網絡技術,讓教育評價者有了強大的數據收集、分析與應用工具。評價者對于數據收集過程的控制力,數據分析可用的數據規模、計算資源,評價可能影響的個體范圍,都有了很大的擴展。智能技術的廣泛采用更有可能大大加強評價的自動化、泛在性與影響力。但是,需要認識到,對于教育評價,即使全過程都利用了信息技術,有所謂全過程的“大數據”,也并不會改變評價的取樣與推測本質,即評價本質上依然是利用證據推測“未知”特質的研究性活動。信息技術支撐的評價活動,其推測推理成分并未減少,價值導向與問題驅動反而前所未有地重要。

[參考文獻]

[美]阿杰伊·阿格拉沃爾,喬舒亞·甘斯,阿維·戈徳法布. 2018. AI極簡經濟學[M]. 長沙:湖南科學技術出版社.

[美]阿蘭·柯林斯,理查德·哈爾弗森. 2013. 技術時代重新思考教育:數字革命與美國的學校教育[M]. 陳家剛,程佳銘,譯. 上海:華東師范大學出版社.

邊新燦. 2016. 過程評價:高考改革和高中課程改革的共同探索——兼論高中學考、綜合素質評價納入高考評價體系的內在邏輯和現實途徑[J]. 考試研究(5):37-43.

陳玉琨. 2019. 教育評價學[M]. 北京:人民教育出版社.

[加]厄休拉 M. 富蘭克林. 2019. 技術的真相[M]. 田奧,譯. 南京:南京大學出版社.

[美]富蘭克林·福爾. 2019. 沒有思想的世界:科技巨頭對獨立思考的威脅[M]. 舍其,譯. 北京:中信出版集團.

顧明遠. 1998. 教育大辭典[M]. 上海:上海教育出版社.

賈海生. 2019. 高考體育術科測試信息化的實踐與思考[J]. 寧夏大學學報(人文社會科學版)(3):198-200.

[美]凱西·奧尼爾. 2018. 算法霸權:數學殺傷性武器的威脅[M]. 馬青玲,譯. 北京:中信出版集團.

雷新勇. 2020. 關于教育評價改革的若干思考[J]. 中國考試(9):10-14.

李曼麗,張羽,葉賦桂. 2013. 解碼MOOC:大規模在線開放課程的教育學考察[M]. 北京:清華大學出版社.

李政濤. 2020. 把新時代教育評價改革深化到“評價能力”的提升那里去[J]. 中國教育學刊(12):8.

[美]理查德·E. 梅耶. 2016. 應用學習科學:心理學大師給教師的建議[M]. 盛群力,丁旭,鐘麗佳,譯. 北京:中國輕工業出版社.

蘆詠莉,申繼亮. 2012. 教師評價[M]. 北京:北京師范大學出版社.

[美]梅雷迪斯-D. 高爾,沃爾特-R. 博格,喬伊斯-P. 高爾. 2002. 教育研究方法導論[M]. 許慶豫,等,譯. 南京:江蘇教育出版社.

[美]尼葛洛龐帝. 1997. 數字化生存[M]. 海口:海南出版社.

[美]尼古拉斯·卡爾. 2015. 玻璃籠子:自動化時代和我們的未來[M]. 楊柳,譯. 北京:中信出版社.

石中英. 2019. 學科排名的幾點認識[M]//朱永新,袁振國,馬國川. 重構教育評價體系. 太原:山西教育出版社,99-106.

孫鑫,黎堅,符植煜. 2018. 利用游戲log-file預測學生推理能力和數學成績——機器學習的應用[J]. 心理學報(7):761-770.

檀慧玲,李文燕,萬興睿. 2018. 國際教育評價項目合作問題解決能力測評:指標框架、評價標準及技術分析[J]. 電化教育研究(9):123-128.

陶西平. 2012. 在反思中創新[M]. 北京:教育科學出版社.

涂子沛. 2014. 數據之巔——大數據革命,歷史、現實與未來[M]. 北京:中信出版集團.

[美]托馬斯·M. 尼科爾斯. 2019. 專家之死:反智主義的盛行及其影響[M]. 舒琦,譯. 北京:中信出版集團.

王策三. 2005. 教學論稿[M]. 第3版. 北京:人民教育出版社.

吳鋼. 2015. 現代教育評價教程[M]. 北京:北京大學出版社.

辛濤. 2020. “探索增值評價”的幾個關鍵問題[J]. 中小學管理(10):1.

[荷]雅普·希爾倫斯,賽斯·格拉斯,薩利·M. 托馬斯. 2017. 教育評價與監測——一種系統的方法[M]. 北京:教育科學出版社.

游忠惠. 2013. 高考全面進入信息化時代[N]. 中國教育報,06-10(7).

袁銳鍔,易軼. 2004. 試析NBPTS優秀教師認定的標準與程序[J]. 比較教育研究(12):71-75.

[美]約翰·希利·布朗,保羅·杜奎德. 2003. 信息的社會層面[M]. 北京:商務印書館.

張志禎,童衛軍,王博. 2015. “支持高等職業學校提升專業服務產業發展能力”項目——績效評價報告[M]. 北京:機械工業出版社.

張志禎. 2016. 虛擬現實教育應用:追求身心一體的教育——從北京師范大學“智慧學習與VR教育應用學術周”說起[J]. 中國遠程教育(6):5-15,79.

周洪宇. 2020. 以科學的教育評價推動新時代教育學發展[J]. 中國教育學刊(12):1-2.

周志華. 2018. 創辦一流大學人工智能教育的思考[J]. 中國高等教育(9):52-53.

祝令健,沈旭東. 2020. 大數據技術下基于精準預習的高中物理精準教學探討——以“向心加速度”為例[J]. 物理通報(2):40-44.

[美]N. 維納. 1978. 人有人的用途:控制論和社會[M]. 陳步,譯. 北京:商務印書館.

[美]Russell, S. J. & Norvig, P. 2013. 人工智能:一種現代的方法[M]. 第3版. 殷建平,祝恩,劉越,陳躍新,王挺,譯. 北京:清華大學出版社.

[美]Thorndike, R M. & Thorndike-Christ, T. 2018. 教育評價:教育和心理學中的測量與評估[M]. 方群,等,譯. 北京:商務印書館.

Heffernan, N. T. , & Heffernan, C. L. . (2014). The ASSISTments ecosystem: building a platform that brings scientists and teachers together for minimally invasive research on human learning and teaching. International Journal of Artificial Intelligence in Education, 24(4), 470-497.

Reich, J. (2020). Failure to disrupt: why technology alone can't transform education. Cambridge: Harvard University Press. (Kindle edition).

收稿日期:2021-01-05

定稿日期:2021-01-15

作者簡介:張志禎,博士,副教授,碩士生導師,北京師范大學教育學部教育技術學院(100875)。

齊文鑫,碩士,助理研究員,副部長,國家開放大學教務部(100039)。

責任編輯 劉 莉

猜你喜歡
信息技術評價教育
國外教育奇趣
華人時刊(2022年13期)2022-10-27 08:55:52
題解教育『三問』
當代陜西(2022年4期)2022-04-19 12:08:52
新一代信息技術征稿啟示
SBR改性瀝青的穩定性評價
石油瀝青(2021年4期)2021-10-14 08:50:44
新一代信息技術征稿啟示
新一代信息技術征稿啟示
信息技術在幼兒教育中的有效應用
甘肅教育(2020年2期)2020-09-11 08:00:44
教育有道——關于閩派教育的一點思考
辦好人民滿意的首都教育
基于Moodle的學習評價
主站蜘蛛池模板: 免费播放毛片| 91久久青青草原精品国产| 欧亚日韩Av| 欧美.成人.综合在线| 色九九视频| 天天综合色网| 精品少妇人妻一区二区| 好吊妞欧美视频免费| 国产成人h在线观看网站站| 都市激情亚洲综合久久| 久久国产精品无码hdav| 亚洲最大在线观看| 久久香蕉国产线看观看亚洲片| 狠狠躁天天躁夜夜躁婷婷| 亚洲女同一区二区| 99在线视频免费| 国产无吗一区二区三区在线欢| 亚洲Va中文字幕久久一区| 超碰色了色| 国产精品永久免费嫩草研究院| 国产精品九九视频| 国产网站一区二区三区| av色爱 天堂网| 美女黄网十八禁免费看| jizz在线免费播放| 免费高清a毛片| 一本久道久综合久久鬼色| 亚洲码在线中文在线观看| 一区二区三区四区精品视频| 色综合久久88色综合天天提莫| 国产午夜人做人免费视频| 亚洲国产成人精品青青草原| 亚洲天堂网在线播放| 午夜免费视频网站| 国产成人综合在线观看| 午夜福利无码一区二区| 2022国产无码在线| 亚洲综合香蕉| 动漫精品啪啪一区二区三区| 欧美区在线播放| 亚洲自拍另类| 久久精品最新免费国产成人| 免费无码AV片在线观看国产| 人妻免费无码不卡视频| 欧美啪啪网| 在线看国产精品| 亚洲黄色网站视频| 波多野结衣视频一区二区 | 国产91色| 色综合网址| 免费国产黄线在线观看| 国产无码性爱一区二区三区| 国产爽妇精品| 欧美三级视频网站| 亚洲一区二区三区香蕉| 97狠狠操| 国产精品无码AV片在线观看播放| 国产福利大秀91| 国产你懂得| 国产成人资源| 久久久久久午夜精品| 国产亚洲高清在线精品99| 香蕉综合在线视频91| 无码区日韩专区免费系列| 国产玖玖视频| 欧美成人免费一区在线播放| 国产91精品久久| AV网站中文| 在线精品视频成人网| 91美女在线| 五月天综合网亚洲综合天堂网| 日本在线欧美在线| 久久综合九色综合97婷婷| 任我操在线视频| 999国产精品| 六月婷婷综合| 亚洲无码高清视频在线观看| 午夜精品久久久久久久无码软件| 亚洲第七页| 在线播放真实国产乱子伦| 无码福利视频| 国产乱子精品一区二区在线观看|