周建設 張凱 羅茵 娜仁圖雅 張躍 劉小力
提 要 近些年,語言智能評測技術取得了重要突破并得到應用推廣,拓展了中國語言產業發展的新領域。本文基于大數據背景,分析語言評測技術發展及相關理論模型,結合2017年“英語百萬同題英語寫作”數據,對比分析用戶行為、效果提升等情況,印證評測技術的有效性和發展語言智能評測產業的重要性。
關鍵詞 英語作文評測;評測技術;語言智能;語言產業;人工智能
Abstract In recent years, the technology for language intelligent evaluation has made a significant breakthrough and has thus opened up a new area in the development of Chinas language industry. The paper first reviewed the development of language testing technology and related theoretical models in the context of big data. Furthermore, utilizing the English database containing millions of topics, it conducted comparative analysis of user behavior and effect promotion, etc. and verified the validity of the evaluation technology and the significance of developing language intelligent industry.
Key words English Automated Essay Scoring; Automated Essay Testing Techniques; language intelligence; language industry;
artificial intelligence
一、引 言
人工智能是引領未來的戰略性技術,世界主要發達國家把發展人工智能作為提升國家競爭力、維護國家安全的重大戰略,加緊出臺規劃和政策,圍繞核心技術、頂尖人才、標準規范等強化部署,力圖在新一輪國際科技競爭中掌握主導權。語言智能“是人工智能皇冠上的明珠,如果語言智能能實現突破,跟它同屬認知智能的知識和推理就會得到
長足的發展,就能推動整個人工智能體系,有更多的場景可以落地”①。語言問題是人工智能研究需集中攻關的一大屏障,語言智能基礎理論與關鍵技術研究的突破對于實施人工智能國家戰略具有重大意義。
(一)語言智能發展的必然性
作為專門術語,“語言智能”是語言信息的智能化,是運用計算機信息技術模仿人類的智能、分析和處理人類語言的科學(周建設等 2017)。
人類已經進入智力集成時代,人機交互必將成為常態。語言智能將大幅度代替人類自然語言,實時進行人機交流。這是人類社會科技進步的重大標志,也是人類科技發展的必然結果。
中國語言智能概念的提出雖然不算早,但是實質性的語言智能研究卻具有明顯優勢。清華大學、北京大學、中國科學院、哈爾濱工業大學、北京理工大學、科大訊飛等科研院所和企業已經取得了輝煌業績,諸多項目處于世界領先水平。國家、行業和地方相繼建立了語言智能研究平臺。2015年,北京市將語言智能納入高精尖創新中心建設;2016年,國家語委批準建立了首都師范大學中國語言智能研究中心,中國人工智能學會批準成立了語言智能專業委員會,教育部批準在首都師范大學設立語言智能二級學科博士點;2017年,中國人工智能學會與中國語言智能研究中心召開了第四屆中國語言智能大會,中國計算機學會與中文信息學會聯合召開第二屆語言與智能高峰論壇。這標志著中國語言智能研究與學科建設具備了一定的基礎。
(二)大數據為語言智能評測創造條件
大數據時代給社會帶來三大變革:思維變革、商業變革、管理變革。各行業將大數據納入日常配置已成必然之勢。大數據包括結構化、半結構化和非結構化數據,且非結構化數據越來越成為數據的主要部分。IDC的調查報告顯示:企業中80%的數據都是非結構化數據,這些數據每年都按指數增
長60%②。
大數據為語言智能化發展創造了前提條件,這是因為大數據具有三個重要特征。一是“基因”的存儲性。每個數據都是事物屬性的記錄。考試成績存儲著知識或技能的“基因”等。二是規律的蘊含性。當數據積累到一定數量級后,其事物變化規律則可以從數據變化中顯示出來。長期記錄一個人的語言數據,可以按其聲音分貝發現其聲高與情感表達的關系。三是趨勢的預測性。大數據存儲的事物“基因”反映事物的變化規律。因此,根據基因變化規律,可以預測事物未來的發展趨勢。大數據的特性使語言智能評測得以成為現實(周建設等 2015)。
二、語言智能評測基礎理論
人工智能范疇內語言智能術語的提出,跟研究者長期關注人腦語言的運行機制密切相關③。這一思想醞釀、術語提出與概念形成大致經歷了三個階段:(1)語言來源認識階段,探究語言與思維的關系,從思維活動的基本元素入手,認識語言組織單位產生的根源及其在思維活動中的依存地位;(2)語言結構認知階段,探索漢語詞項與言語生成的基本規律,構擬漢語詞項生成模型與語句生成模型,揭示漢語表達結構的組織原理;(3)語言智能實現階段,探討機器表達漢語的智能模型、全信息評測模型和情感分析四維模型,實現從言語智能生成到文章智能評測的計算機全自動操作。
(一)語言智能評測研究現狀
語言智能評測指利用計算機評測文章(作文)。目前的基本思路是通過各種自然語言處理技術,從待評測文章中提取文本特征,讓機器對文本特征與分數之間的關系進行學習,通過所得文本特征與分數之間的關系進行自動評分。這種方式采用一個整體回歸公式得到最終的評分結果。這樣得到的評分結果,往往存在與人工評分結果擬合度不高的問題,要給出詳細的批改建議也很不容易。
語句相似度是評測的重點,它研究如何制定語句之間相似度的衡量機制,根據不同的分類原則,可以按匹配單元分類、按分析深度分類(穗志方 1998),或者按動態規劃的相似度計算方法分類(高思丹、袁春風 2004)。計算相似度時,基本上可分為相似程度計算和距離程度計算兩類。代表性的方法有:“切塊 + 匹配 + 重組”方法(Nirenburg et al. 1993)和同時依據句子的表層結構和內容計算相似度的方法(Lambros et al. 1994)。
(二)全信息語言智能評測模型
全信息語言智能評測模型基于文本語義離散度表示和多知識融合方法,構建包含詞匯、句法、語義、篇章等多維度的全信息語言評測模型,實現詞匯級、句子級、段落級和篇章級等不同粒度的點評、建議和綜合評分,解決機器評測與人工評測擬合度不高的難題。
該模型首先對待評作文進行詞匯分析、句子分析、篇章結構分析和內容分析,得到關于詞匯、句子、篇章結構和內容的子維度。每個維度與作文的最終評分結果具有線性相關性、單調性、獨立性、牽制性和平衡性。然后根據每一個維度,對待評分作文進行評分計算,得到多個評分結果。接著對多個評分結果進行加權處理,獲得待評分作文的最終評分結果。從每一個句子中提取語言點,將這些語言點與語料庫中的語言點進行匹配,給出針對句子中該語言點的點評,根據多個句子的點評給出所屬段落的點評,根據多個段落的點評給出整篇作文的點評。其中,語言點為作文中的一些相對穩定的元素,如搭配、詞塊、句型模式等。通過這些相對穩定的元素歸納出錯誤語言點的基本類型,如單詞誤用、詞組模塊誤用、搭配不當、固定搭配模式誤用等。語料庫中包括了所有文章的語言點和句段庫,語料庫可以實時持續更新。當給出最終評分結果時,給出的相關點評(包括句評、段評和總評)也實時持續更新,學習者可據此點評提高語言能力。
(三)主題聚合度計算理論
智能評測理論所說的主題,主要是從外延意義上界定的。主題就是篇章指稱的對象。篇章涉及的對象有具體對象,也有抽象對象。具體對象,可以是個體對象,也可以是個體對象組成的類(集合)。當一篇文章僅僅涉及一個對象時,這個對象就是文章的主題;當文章涉及一類對象時,這個類就構成文章論域(domain),這個論域實際上就是該類中諸多個體的上位概念,這個類、論域或上位概念,就是該篇文章的主題。抽象對象是指事物的屬性,包括事物的性質、事物之間的關系。思想是抽象概念,可以成為篇章的對象,即篇章的主題。愛好是抽象概念,表示事物之間的關系,也可以成為篇章的對象,即篇章的主題。
主題聚合度理論是通過設計一種算法來綜合評價行文與文章主題之間關聯程度的理論。主題聚合度計算是北京語言智能協同研究院研究人員于2015年取得的機器評測作文的一項重大理論突破和關鍵技術突破。經過60億字規模語料的檢測,證實評測效果顯著,獲得國內外同行高度評價。目前,篇章主題聚合度計算作為中國語言智能研究中心語言智能領域的一項核心產品已經廣泛用于作文評測。
三、英語作文智能評測系統發展及規模
自20世紀60年代以來,國外已開發出多個作文自動評分系統,并應用于 GRE、GMAT 等大型考試中(Dikli 2006;Quellmalz & Pellegrino 2009;Williamson 2009)。國內,梁茂成(2011)和北京語言智能協同研究院分別研制了適合中國英語學習者的作文自動評分系統并取得了良好的效果,其中首都師范大學主導研發的英語作文批改系統得到廣泛應用。在翻譯領域,一些研究機構也對學生漢譯英的自動評分進行了有益嘗試(王金銓、文秋芳 2009;王金銓 2010)。目前,針對英語作文的自動評分研究已有一定的積累,相關產品也日趨成熟。
(一)同類型評測產品對比分析
歷史上第一個作文自動評分系統是1966年研制的PEG(Page 2003)。20世紀90年代以后,IEA、E-rater、IntelliMetric、MY Access等系統相繼出現(Burstein 2003)。本文在江進林(2013)研究的基礎上,進一步豐富各類系統的特點形成表1,以對比并反映各類型自動評測系統的相關情況。現有作文自動評分系統在評分步驟、主要技術和變量挖掘方面對機器自動評分研究具有重要啟示作用。
(二)英語作文智能評測系統助力語言產業發展
促進語言事業的發展,包括促進語言產業的發展(賀宏志 2012)。廣州大學屈哨兵教授提出“語言產業、職業、行業、基業:語言服務四業并論”。2010年,語言智能評測系統批改網上線試用,實現了英語作文在線快速批改。目前,批改網日均批改作文30余萬篇,已經積累形成了60億例句的地道英語大數據、3.42億篇中國學生作文語料庫,并且定期更新美國英語作文、SCI摘要等17種英文類型庫,形成了國內最大的英語學習語料庫,為中國語言產業拓展了新領域。
作文批改由智能化向教學過程的滲透,也觸動了傳統教學模式,不少名校競相與批改網合作,探討信息化時代教學模式的改革創新。2016年3月,中國人民大學附中主動聯系批改網,與其共同開展英語寫作創新教學活動;2017年3月,湖南省長沙市教育科學研究院、長郡中學主動邀請批改網聯合舉辦長沙市普通高中課堂教學改革優秀課例展示研討活動。此類“智能課堂”活動在全國各地相繼展開,受到師生和教育主管部門的廣泛好評。
以2016年1月為例。北京市朝陽區有52所中學使用批改網,當月教師布置作文題713個,學生提交作文22 460篇,累計修改160 599次,平均每人每篇修改7.1次,63%的學生至少提交了2次作文,修改5次以上的學生約占25%,1.2%的學生修改次數超過50次。據統計,使用批改網的朝陽區農村薄弱校,中考英語作文均分超過了朝陽區均分。
(三)產業規模及效益分析
目前,英語批改網已服務2000多所高校、4000多所中小學,其中清華大學、北京大學、南京大學等多數985高校已經使用該服務。系統現已服務教師逾15萬人、學生逾1700萬人,基本覆蓋國內英語作文智能評測市場。作文批改主要是公益服務,若以批改作文的普通標準價格20元/篇計算,其惠民經濟效益逾68億元。
中國港澳臺地區和日本、韓國、新加坡等國家已有部分大學付費使用批改網,顯示出國際市場拓展優勢。計算機輔助的在線學習模式,打破了傳統課堂模式,實現隨處是課堂、隨時可學習。語言智能評測可快速找出學生薄弱點,提高學習效率。清華大學給出如下評價:(1)批改網的“形成性評估”模式可以提高學生自主學習能力;(2)輔助英語教學,提高教師工作效率,充分體現教師價值;(3)傳統教育與現代技術結合,創新教學形式。南京大學的反饋報告說:近年來國外的自動評分系統取得了實質性的進步,比如美國ETS的E-rater系統就應用于GMAT等考試。但是國外的系統對于中國學生來說有兩個缺點:(1)主要側重于評分,沒有具體語言和內容上的反饋;(2)主要針對英語本族語學習者,對外語學習者的寫作特點照顧不周。而批改網考慮并切實解決了上述難題。
四、大數據的產業數據挖掘
2014年開始的“百萬同題英文寫作”活動,至今累計吸引全國9000多所學校,學段覆蓋大學、高職、高中、初中和小學高年級,師生參與量累計超過450萬人次,為中國英語教學與研究提供了大量真實語料數據①。
(一)用戶自主學習行為分析
在2017年“百萬同題英文寫作”活動中,全國32個省市地區提交了1 408 626篇作文,參與人數前三名的地區分別為四川省(140 840人)、廣東省(112 455人)和山東省(107 301人)。不同學段的參與人數中,本科學生最多,占比達到89.61%。作文自動評測技術不僅極大解放了教師的人工評閱壓力,也極大激發了學生自我學習的內驅力。2017年的同題作文寫作,從數據反饋可以看出學生的自主學習行為改善主要表現在以下幾個方面:
1.修改行為
學生共提交作文1 408 626篇,累計修改提交作文11 222 309次,平均每人每篇作文修改7.97次,約75%的學生都對自己的文章進行了多次修正,超過10%的學生修改作文達20次以上(詳見圖1),學生整體修改表現良好。
圖1和圖2反映了各類院校作文修改次數的分布情況。其中,985和211院校學生的自主修改比例最高,80.2%的學生都在寫作過程中進行了自主修改;高職學生在未修改及修改20次以上區間內占比較高,修改次數分布相對分散;而高中學生修改10次以上的占比在各類院校中最小,學生修改次數普遍相對集中。整體上來看,約75%的學生都對自己的作文進行了自主學習及修正。
2. 分數變化
從圖3我們可以看到學生作文在修改過程中有較為顯著的分數提升。通過平均每人7.97次的修改,學生作文分數在整體上由初版作文的74.59分上升到終版作文的79.07分,分數提升了4.48分。在各類院校中,985及211院校學生在修改中分數提升幅度最大,達到4.79分;其他各類院校也完成了有效的自主學習,分數有所提升。
3. 錯誤修正
圖4顯示各類院校學生作文語法錯誤修正率情況(不計書寫錯誤)。學生累計修改錯誤超過40%,各類院校作文錯誤均有20%至60%的修正,其中985和211院校修正率最高,達到52.76%。
4.修改過程
這里從五個類型的學校各抽取10 000篇作文為樣本,對作文的第一版、第二版、中間版本、倒數第二版以及最終版進行分析。通過版本間的數據變化,從中可以看出學生自主修改過程中的一些特點。
從表2可知,學生的修正大多集中在前半段修改過程中,特別是拼寫類錯誤,前半段的修正率均高出后半段15%以上。部分院校對成分缺失、詞性誤用、搭配錯誤的修正更多集中于修改過程的后半部分,大概與這幾類錯誤修改難度相對較大有關系。985和211院校以及高中學生對于錯誤的修正較明顯集中于前半段,語法自我修正的進度較快,高職院校及初中對部分高頻錯誤的修正相對集中于后半段,語法自我修正的進度相對慢一些。綜上所述,可以得知,學生自學過程的前半段修改更為高效。學生修改過程前期主要進行基礎語法錯誤修正;修改過程后期,學生會對修改難度相對較大的句子結構類錯誤給予更多關注和修正;對詞匯與句型的調整會在整個自學過程中循序漸進地進行。
(二)語言寫作技能提升分析
自主修改過程中分數出現一定提升的作文可稱有效修改作文。對有效修改作文進行分析,有助于了解學生在英語人機互動寫作中有效修改行為的特點。這里選取的數據樣本為各類院校隨機抽取的10 000篇作文中提升分數達到5分以上的作文。
完成一篇作文需要30分鐘,修改一篇作文需要20分鐘,參與活動的學生,平均一篇作文花了近3個小時,作文分數提升了約4.5分。
圖5和表3表明,各類院校學生有效修改作文的修改次數基本在20次以上,分數提升基本在10分左右,修改行為較為頻繁且效果顯著。相較于整體作文的普遍修改情況,有效修改作文的初版作文分數普遍較低。這說明,基礎較差的學生也能夠通過人機互動在自主學習過程中實現自我提升。從修改效果上看,中學生及高職學生有效修改效果與整體修改效果的差異較大,說明該學段的學生通過人機互動學習,自我提升的空間更大。
五、未來發展趨勢及影響
(一)語言智能評測產業的未來發展趨勢
語言智能評測是教育產業對人工智能技術的必然要求。該評測領域未來發展將呈現如下趨勢:
1. 應用普及化
語言智能評測將成為一種常規的語言評測技術輔助手段并被應用和普及。一方面,使用人群不再局限于在校全日制學生,也可以應用到繼續教育領域,直至終身自我學習;另一方面,評測內容不再僅限于學校教學中的命題作文,還將應用于所有篇章語言評測中。
2. 人機擬合同質化
目前,精度最高的英語智能評測(批改網)的人機擬合度超過90%,隨著技術進步,擬合度將進一步提高,甚至達到與人工評閱的準確度基本一致。
3. 語種多樣化
國內語言智能評測率先在英語測試中得到應用并且已經商業化,下一步將攻破漢語作為第二語言,甚至漢語為母語的評測,以及國家重點戰略部署需要的其他語言,比如日語、法語以及“一帶一路”沿線國家的語言評測等。
4. 產業國際化
語言智能評測技術不僅僅服務于國內需要,也可以進一步服務于國際需要。目前批改網已經在新加坡、馬來西亞、中國臺灣等國家和地區初步投放使用,國際合作有著更廣闊的空間。
(二)語言智能評測系統對教育領域的重要影響
語言智能評測系統以其評測擬合度高、反饋速度快且教育成本低等優勢在母語學習和二語學習過程中對語言技能訓練和語言能力提升起到重要作用,因而必然有廣闊的應用前景。作為教育輔助技術手段,智能評測順應時代要求,滿足省力、快速和精準評測語言的需要,從而推動教學內容、教學方法、學習方法以及教育研究等一系列教育改革的深入。以“批改網”為關鍵詞搜索,2012年有6篇論文,到2017年7月已經有201篇相關文獻,遞增趨勢超乎想象。語言智能測評通過信息技術與教學服務、教學管理的融合,使優質教學資源和教師資源得到系統整合和深度開發,促使教育質量的最大提升,實現優質教育的均衡發展。
參考文獻
高思丹 袁春風 2004 《語句相似度計算在主觀題自動批改技術中的初步應用》,《計算機工程與應用》第14期。
賀宏志 2012 《發展語言產業,創造語言紅利——語言產業研究綜述》,《語言文字應用》第3期。
江進林 2013 《近五十年來自動評分研究綜述——兼論中國學生英譯漢機器評分系統的新探索》,《現代教育技術》第6期。
梁茂成 2011 《中國學生英語作文自動評分模型的構建》,北京:外語教學與研究出版社。
穗志方 1998 《語句相似度研究中的骨架依存分析法及應用》,北京大學博士學位論文。
王金銓 2010 《中國學生漢譯英機助評分模型的研究與構建》,北京:外語教學與研究出版社。
王金銓 文秋芳 2009 《中國學生大規模漢譯英測試機助評分模型的研究與構建》,《現代外語》第4期。
周建設 呂學強 史金生 張 凱 2017 《語言智能研究漸成熱點2016年取得矚目成就》,《中國社會科學報》2月7日。
周建設 彭 琰 張 躍 2015 《基于大數據的漢語表達智能模型及其理論基礎》,《新華文摘》第1期。
Burstein, Jill. 2003. The E-rater Scoring Engine: Automated Essay Scoring with Natural Language Processing. In Mark D. Shermis and Jill Burstein (eds.), Automated Essay Scoring: A Cross-Disciplinary Perspective. London: Lawrence Erlbaum Associates Publishers.
Dikli, Semire. 2006. An Overview of Automated Scoring of
Essays. Journal of Technology, Learning, and Assessment 5 (1), 1-36.
Lambros, Cranias, Harris Papageorgiou, and Stelios Piperidis. 1994. A Matching Technique in Example-Based Machine Translation. In Proceedings of the Fifteenth International Conference on Computational Linguistics, 100-104.
Nirenburg, Sergei, Constantine Domashnev, and Dean J. Grannes. 1993. Two Approaches to Matching in Example-
Based Machine Translation. In Proceedings of the Fifth
International Conference on Theoretical and Methodological in Machine Translation of Natural Languages, 47-57.
Page, E. B. 2003 Automated Essay Scoring: A Cross-Dis?ciplinary Perspective. New Jersey: Lawrence Erlbaum Associates.
Quellmalz, Edys S. and James W. Pellegrino. 2009. Technology and Testing. Science 323, 75-79.
Williamson, David M. 2009. A Framework for Implementing Automated Scoring. Paper presented at the Annual Meeting of the American Educational Research Association and the National Council on Measurement in Education. San Diego, 13-17 Apr. 2009.
責任編輯:戴 燃