劉博佳
(國家開放大學,北京 100039)
人工智能AI技術是用人工的方法在機器(計算機)上實現的智能技術,或者說人們智能在機械上的模仿技術,即人們使機械產生了相似于人的智能。這是在神經生理學、語言哲學、控制論、信息論、計算機技術等課程的基石上進一步發展出來的又一個課程。現在,對人工智能的科學研究通常采取以下三種途徑:一是通過生物學的研究方式,弄清人類智慧的實質;二是應用計算機科學方法研究問題,如使用以網絡為首的連接機制,或使用人工神經網絡,模擬人的形象思維,該方式能夠處理無法用符號描述的東西,三是應用生理學的研究方法。運用人工智能技術的研究方式能夠進行試題的自動化處理,提升考試的效能并減少應試的成本。
隨著現代科學技術的飛速發展,在新課程改革理念的指導下,人工智能技術已成為世界潮流并廣泛應用于各行各業。人工智能技術已逐步融入我國教育領域,不斷推動我國學校教育教學的發展與改革[1]。
人工智能技術的發展對考試測評也將形成影響,命題、考核實施、評卷方式等都將形成重大變革。
題庫是命題的輔佐用具,它不但要求同時具備試卷管理工作和組卷的功用,而且更主要的是搜集試驗數據信息并對這部分數據信息加以計算與解析,以便于據此發掘試卷制作中的實際問題、老師教學中的實際問題,以至學生過程中的實際問題。題庫的建立不但會產生命題模式和老師工作方式的變化,同時也將逐步促使學生進行教育考試的規范化,有助于促進學校學生能力評估模型的重大變革,從而促進教學考核的變革。所以,從長遠發展的視角,題庫建立可以推動當前教師專業技術水平考試中命題理論與技能的發展提升[2]。
題庫建立過程包含了許多主要問題,這部分問題主要包含:對成為題庫基礎單位的提問的命制、過濾、分級和管理工作;以提問形成考試的過程、措施、打分和評價;試題庫體系的設計和研究、硬件和軟件方面的特征設計和管理工作以及測試題庫應用與保護的基本原則等[3]。伴隨著人工智能技術的進展,人工智能技術在試驗難度預測和等值管理方面也能夠起到很大作用。
難度預測的技術路線一般有兩個分支:人工特征工程方法和深入學習方法。人工特征方法一般是運用人工方法設計與難度相關特征的計算規則,讓機械按照規律從考卷中獲得這種特性,進而通過對復雜性做出重新回歸,并以此估計考卷的難易系數;而深入學習方法則不要求機械運用人工方法設計特性提取規則,因為機械只能運用更深入的神經網絡,自發地在試卷中提取與難易系數有關的特性,從而直接做出難易預報。兩類方案都各有優劣,但由于深入學習方法要求大規模的考試數據分析,當資料總量相對較小的時期,人工特性方法所能夠獲得的性能比深入學習方法要好一點,而且深入學習方法的特性能力隨著資料總量的增長可以有固定且顯著的提高,甚至明顯地超越了人工特性方法。以下著重介紹了深度學習方法的技術路徑。
自2014年起,在很多領域,影響深度學習的最主要因素并不僅僅是更深入的神經網絡,還是更強的模式語言表達技巧。一項特別關鍵的因素就是深度學習中遞歸神經網絡的注意建模機制與計算。學習中的注意力建模機制計算給出了神經網絡系統中一種巨大的能力,就是神經網絡系統中可以在每個決策階段對當前的輸入信息,一致地選擇有助于決定的信息內容,而忽視了在此時對于決定來說毫無意義的信息內容。這種能力十分類似于我們在聽、說、讀、寫的過程中集中注意力的能力。在運用神經網絡進行文章難易預估時,要求神經網絡在預估文章每道題的難易程度時,都可以很精確地從文章全文中找出所有與該題目有關的內容,這樣的功能也恰好可以通過注意力機制來實現,不過要使神經網絡精確地把注意力機制掌握好,不但需要相當高的大數據分析能力,還必須設計精密巧妙的網絡結構。
以英語試題為例,運用深度學習方法實現英文難易預測技術的大致基本思路為:首先通過較深入的神經網絡,先提取出被測試文章的最深層基本語義特性表示;然后通過神經網絡獲取某篇文章問題的基本語義表達特性信息;再利用特定的網絡注意力模式確定問題的文本深層語義特征表與對應回答的信息;最后利用神經網絡抽象出本問題的所有選擇回答的語義特征表數據并設計用中樞神經網絡度量所有選擇回答與語義特征區間的距離關系,以此確定該問題的難易系數。實驗研究結果表明,人工專家之間對試卷難易預測的相關系數分析僅有0.4~0.5,而通過計算機的輔助難度預估后,人工專家之間對試卷難易預估的相關系數分析可能超過了0.7~0.8,但未來由于信息量的擴大,效率還將有更進一步的提高。
聽說能力考試是外語教學中不能缺少的測試形式。傳統的英語聽說考試一般采取人工面授授課、電腦錄音和人工打分的方式。但是,由于測試實施較難且運行成本高,易對測試結論形成主觀影響,因此不利于大面積推行。
聽說智能評估是學校計算機課堂上通過人機對話和智能評估的一種新型評估方式。據稱,智能評估系統可以整合考試前、中、后的各種工作,從而有效減少人工工作量,不僅節約了人力資源的生產成本,還提高了評估的準確性和一致性。這是考核體系組織方式的重大創新,聽說智能考試系統如圖1所示。

圖1 聽說智能考試系統
聽說智能考試系統的內核就是人工智能技術。人工智能技術在考場應用的考核子系統以及在考核后應用的智能評價子系統中充分發揮了關鍵作用。
評分子系統的目標是在錯綜復雜的考場自然環境中對學生的答卷過程做出最清晰、最全面的記錄并解決各種緊急情況,如斷開、死機、噪音過大等。所以,在控制系統方案設計中,不但要充分考慮各類異常情況的出現以滿足考試的順利進行,而且還要運用智能音頻質量監測技術實時監視各類音頻數據以及在考場內實時監測各類語音數據并參與考場,以保證從監視器接收到的語音數據的物理參數(如音量、信噪比等)符合規定。如果檢查到試卷的話音數據結果不完全或是音質很差,系統將進行警告并由監考教師及時做出處置,在必要時也可設置到下一數重試,以防止到了評分階段后才出現數據不能用。
智能評估子系統的主要任務是完成利用計算機技術手段對朗讀題、問答題、話題表達題等非完全的開放性題目實施智能化評估,其中核心內容的項目便是智能口語評估科技。智能口語評估技術將首先從測試口語訓練數據中收集反映在口語訓練的標準化、速度、準確性、語調等主要方面的身體特征;然后,通過系統分析噪聲對實際環境中不同聲物理特性的影響因素,通過累積分布函數匹配等正則化過程逐步形成從帶噪音物理特征到干凈噪音物理特征區間的反饋,以此達到對噪音影響因素在噪音打分特性層次上的補償,最后使噪音評估體系達到較好的抗噪特性;最后,經過收集大量的噪音數據,讓人工專家對數值特性做出更精確的標注,用標注結果培訓計算機逐步形成噪音物理特征與人工專家相對評價和檢錯結果間的精確反饋模式,然后完成了計算機自主評價。
目前,計算機智能口語評分技術已在我國許多大、小考場得到應用。例如,自2013年起,廣東省高考英語聽說試卷采用了科大訊飛的智能口語評分技術,每年大約有70萬名學生接受評估,計算機可以在兩天內給所有學生打分,并且編制了若干人工專家對計算機打分結論予以復核,從而確保了打分結論的客觀公正性,大幅度降低了試卷的編制復雜度,大大提升了效果。另外,計算機的智能口語評價技術也在江蘇、杭州、重慶、山東、遼寧等地的中考英語聽說試卷中也得到使用。
智能口語評分技術不僅可以在大型正式考場中使用,而且對學校模擬考試和一般教學都有廣泛的影響。在日常教學中使用計算機不僅可以實現自動評分,有效減輕教師的壓力,還可以為每個學習者提供詳細的診斷分析報告,提示學習者當前存在的主要問題,自動生成有針對性的教學資源。在教學過程中,計算機還可以實時評價學習者的發音,伴隨著學習者的整體教學流程,從而提升教學興趣與效果[4]。
此外,最近幾年由于現代微電子科技的蓬勃發展,考試專門耳麥也開始逐漸打破了原來單純的耳機加話筒的架構,向著更加專業性、智能方面迅速發展。有些較新型號的備考專門耳麥通過現代微電子機械體系(MicroElectromechanical System,MEMS)話筒陣列,并輔以較優秀的降噪計算,能夠在喧鬧的聽說試卷考場中收集到較為純正的錄音。另外有些比較智能的耳機則內部有微處理器設計和儲存芯片設計,能夠把考試中的話音數據信息直接保存到耳機中。雖然關于智能耳機的發展趨勢在此處不再展開,但是能夠肯定的是,創新硬件的應用將會給聽說智能考試的舉辦提供很大的方便。
由于信息技術的不斷進步,人工智能近年來已成為一種普遍探討的議題。人工智能技術以深度學習為基石,呈現出很高的發展趨勢。例如,AI圍棋大師"阿爾法狗"席卷圍棋領域的所有專家,讓人們意識到AI的發展已經超出了人們的想象。社會各界逐步引入人工智能技術,為其發展注入了新的活力。人工智能在考試中的應用是促進考試向專業化和高效化轉變的一項措施[5]。
20世紀80年代以前,中國的各種考試和評分基本都是手工的。但由于學生數量的增多,人工評卷工作所花費的時間、精力也大大提高,因此評卷完成后的計算分數工作也就顯得十分艱苦。1991年,中國自主研發光標閱讀器(又稱“OMR技術”),考試答題卡直接用掃描儀掃描成圖片,并在掃描操作流程中對客觀試題自動判分。1999年,使用OMR科技的電腦網絡評卷系統在廣西的高考考試中率先進行使用。相比常規的手工評卷,該種方法具有多評機制、答卷保存、流程監控等多種優點,科學化程度明顯提升,對考試的評卷工作具有很大保障意義。
隨著超高精確度的手寫文本辨識、自然語言理解、智能評估等科技的進展,用電腦評閱主觀題已變成可能。從20世紀60年代開始,中國海外就開始有不少專業人員和研究者致力于新型的人工智能技術在主觀題評卷范疇的應用研究,從而產生了多個截然不同的自主評卷體系,例如美國的管理類研究生考試(GMAT)、托福考試等先后于2000年和2010年就使用了E-rater體系,中國的英語教學和研究機構以及其他專業也對語言能力等級評定量表進行了相關研究。國內外也有個體科技企業從20世紀90年代末開始研究和開發口語智能評分技術,并逐步擴展到主題問題的智能評分,在中英文學科試題智能標注方面取得了較為完善的人工智能科技成果。將新一代人工智能的語音識別、手寫文本識別、自然語言理解等關鍵核心技術應用于試題評估,已具備了科技應用的先進性,有著重要的技術突破意義。
主觀題的智能評卷技術通過對各個科目、各個類別試卷專家學者評判準則的掌握、調節和程序式設計工作,使打分準則能夠在更大規模內被“具有專家學者打分水準”的計算機系統規范化地操作和執行。另外,具有專家學者打分水準的智能打分體系能夠被系統設計為類專家學者評判準則來應用,以全面合理地提升人工打分的品質;此外,在以客觀驗證為最合理的前提和規范要求下,它還能夠用作對特定試卷或特定分值段的一個打分,以逐漸取代在多評情形下的人工打分或最終打分,以合理地節約人力資源并減輕評卷工作人員在短時內強烈的壓力。類似于這種人機融合的智能評卷方式能夠合理優化配置人員所投入的成本,從而確保了評價效果提高。而主觀題智能評卷的工作流程如圖2所示。

圖2 主觀題計算機智能評卷流程圖
智能評卷技術采用了精準的圖文識別和文本檢索等高新技術,可以精準地在大量的學生樣品中甄選出與目標文本內容相似的回答片段,以有效提高對學生回答規范化測試問題的準確度。針對特殊作答、可疑套作、疑似雷同等樣品可以迅速獲取和標記,可以輔助提高人工評卷打分的準確度和公正性。智能評卷科技通過對空白答卷、非正常答卷的檢出,創造了一個全新的質檢校核打分合理性的評價機制。
2016年3月,教育部考試中心與科大訊飛集團組建了共同研究室,聯合進行智能評卷的關鍵核心技術研發工作并已獲得了階段性進展。從全國大學英語專業四、六級、高考、中考等各種科目的數據上加以測試,結果顯示,計算機在中文和英文試卷主觀題(包含寫作)評估上已超過了現場評卷師的水準,已經能夠適應大規模考試的現實要求。
而且,計算機不但可以實現智能打分,還可以在語言、詞匯、內容表現等各個層面提供檢測分析報表,進行智能化作文批改,適應學生平時練習與提升的需求。
人工智能技術作為一門先進技術,對于改變傳統的教育形式以及促進中國教育現代化與發展都有著巨大的意義。特別是隨著國家素質教育改革的不斷深入與實施,對我國學生的考核要求將會愈來愈高,而在試卷中運用人工智能技術可以更有效地協助老師對考卷進行命題與評審工作,讓學生的考核得以順利開展,從而幫助學生在考核中取得進步。