景 然 駱力明,* 劉 杰, 周建設
1(首都師范大學信息工程學院 北京 100048) 2(首都師范大學高精尖創新中心 北京 100048)
?
基于自適應學習的小學英語本體構建方法研究
景 然1駱力明1,2*劉 杰1,2周建設2
1(首都師范大學信息工程學院 北京 100048)2(首都師范大學高精尖創新中心 北京 100048)
目前中國的小學英語學習資源非常豐富,學習者想要找到適合自身的學習資源的難度也明顯提升。自適應學習系統可以依據不同的學習者特征和學習路徑,推送出符合學習者的學習資源和測試題目,因此自適應學習系統的數據組織結構是非常重要的。而關系數據庫無法體現出知識之間的內在關聯,所以本研究提出使用本體技術將小學英語教材的相關知識有機關聯的方法,為項目提供數據支持,以實現學習者的自適應學習,且希望對其他自適應系統的知識庫構建起到借鑒作用。
自適應學習 本體構建 小學英語
傳統課堂中的學習者只能看到同一種教材中的知識以及相同的資源,但實際上同一知識點可能會在不同年級和版本教材中的不同語境下出現。因此紙質教材的知識點相對獨立,知識點之間的關聯較少,一些關聯往往是由教師根據以往的教學經驗進行搭建的。而在層出不窮的電子教材中,學習資源豐富類型多樣,但是大多數個性化課程設計主要是以教師為中心,針對其需求把紙質教材電子化,并沒有真正做到適應學習者的課程制定[1-2]。因此,為學習者解決資源自適應推送問題尤為重要,需要對不同教材中相同知識點進行邏輯聚合,對不同知識點進行關聯建立,這些可以通過構建具有概念化和共享性特征的本體知識庫來解決[3],使學習者能夠進行多維度學習。
目前本體技術已經在教育領域得到了一定的應用。如鄭藝等以“計算機科學與技術”學科為例提出并實現了面向交叉融合學科知識組織的本體構建方法[4],魏順平提出了一種基于術語部件的領域本體自動構建方法,構建了教育技術學領域本體[5]等。但在中小學教育領域的研究依然較少[6],其中一些學者在教育領域本體構建方面進行了一定的探討和研究。趙呈領等參考《義務教育物理課程標準(2011年版)》、人教版《初中物理》教材、《初中物理知識清單》,以及從權威網站上獲取的有關初中物理學科的教學資源,構建了初中物理學科的領域本體庫[7],王冰潔構建了小學英語學科本體[8],丁國柱等構建了學習元語文本體架構[9]等。
上述研究中,大部分中小學學科領域本體庫都是根據課標,從教學角度出發,根據某一版本教材,按照一定的教學環節順序構建本體庫,其優勢在于可以為教師或學習者推薦最適合這節課教學環節的所需要的資源,但其缺點在于忽略了學習者自身的能力等級。其中王冰潔構建的本體同樣涉及到了小學英語學科,其研究站在教師角度,解決支持教師快速準確定位所需資源的知識本體構建問題,但無法根據學習者特征推送資源。本研究站在學習者角度,解決支持小學英語自適應學習的知識本體庫構建問題。
資源本體庫需滿足小學英語學習自適應系統中各個模塊的需求進行開發,提取多個紙質教材的知識點,整理并標注關聯關系,并創建批量導入方式進行實例填充,最終形成滿足自適應學習的小學英語資源本體庫。
本文是根據學習者的角度來解決如何構建本體,它支持在小學英語自適應學習的一個問題。知識之間的關系可以通過本體比關系型數據庫中反映更清晰,使學習者可以形成自己的知識網絡。不同系統需要構建不同結構的本體知識庫,本文構建的小學英語的本體知識庫跟其他英語知識庫相比,面向的自適應英語學習系統的結構更合理、功能更全面,需要本體知識庫完美支持該系統的結構和功能,進而滿足小學英語自適應學習系統的各個模塊的具體要求。這需要我們從多個教科書中提取知識,整理和注釋的關系,使用批處理模式導入實例,最終形成符合小學英語自適應學習的本體。
本研究涉及的小學英語自適應學習系統需要根據不同學習者的學習情況進行個性化推薦,動態地調整學習內容和測試內容,這就要求系統中的各個模塊在相互配合和調用時滿足自適應學習要求。該系統中的數據層由資源本體庫模塊和學習模塊組成,服務層由用戶本體模塊、測試模塊以及機器人模塊構成,如圖1所示。

圖1 需求與本體結構對應關系圖
評測模塊會根據用戶本體庫中的信息找出用戶最擅長與最不擅長的題型來得出測試題類型,測試內容來自學習模塊中的學習內容,而學習內容調用的是資源本體庫中的具體學習資源,機器人模塊頁調用資源本體庫來應對用戶提出的問題。
資源本體庫需要滿足與其交互的所有功能模塊的調用以及查詢需求,具體模塊功能描述如下:
1.1 學習模塊
需要根據用戶本體中不同學習者的學習特征展示出內容偏愛的且符合其自身程度與資源類型的知識點。知識點包括單詞和句子以及相關資源,即需要知識點對應的每一個學習資源有不同的類型和不同的難度。
1.2 機器人模塊
機器人模塊在與學習者對話時需在本體庫中查找與提問句子相似度最高的問題并返回回答結果。在查找某單詞及其相應資源時,若該單詞不在本體庫中,需要在HowNet[10]語義詞典中查找該單詞的父類,根據父類查找到其下層的單詞實例,對比出在本體庫中相似度最高的單詞,并把該單詞及其資源推送給學習者。考慮到小學生會在提問的過程中輸入中文,我們利用HowNet語義詞典可以把中文翻譯成英文,之后再進行上述查找操作。在進行資源推薦時,需要根據學習者自身能力選擇推薦適合難度的相關知識點,以及在其他版本出現的相同知識點。
1.3 評測模塊
需調用用戶本體得到用戶學習特征,再從知識本體庫中調取適合此學習偏好的資源,處理成題目和選項,組成測試題。
根據以上對其他模塊的功能和需求分析,需把資源本體庫分為單詞本體、句子本體、教材版本本體以及資源庫四個部分。其中單詞本體中的父類結構為HowNet的父類結構,在滿足查找需求的同時保證了單詞結構的穩定性。由于機器人模塊的語句相似度算法是按照疑問詞查找的,所以句子本體的父類則由疑問詞組成,但這可能導致遺漏掉意思相近但疑問詞不同的句子。例如How about you?和What about you?的疑問詞分別是How和What,但意思均為“你呢?”,這就需要人工找出所有特例句子,建立一個特例句子庫,以滿足問答的需求。資源自適應推薦時需要根據學習者程度推送,因此單詞本體和句子本體中要有對難度控制和教材版本的描述。要構造支持自適應的資源本體庫,必須符合小學生的思維特點和認知規律,并且以隱形教學方法為主,通過情景和聯系展開學習,因此每個知識點都有對應的情景分類。系統在自適應推薦資源時針對該學習者偏好進行資源展示,因此資源庫中的資源需區分為不同類型,類型分為文字類型、圖片類型、音頻類型、視頻類型、繪本類型等。
2.1 本體構建思路框架
本體結構確定后,需要人工提取本體術語和本體術語關系。其中本體術語即本體中的內容,本體術語關系即本體術語之間的關聯關系,將這兩個部分鏈接在一起即本體術語關系標注。由于本體術語以及本體術語關系數量較大,所以選擇使用代碼代替人工進行關系標注,從而形成完整的本體。本體構建思路框架如圖2所示。

圖2 本體構建思路框架圖
2.2 本體術語提取
2.2.1 小學英語學科領域本體構建基礎
1) 確認本體構建的目的
形式化地描述小學英語知識點及其相關資源和關系,以根據不同學習者各自的學習需求,為其推薦相應不同類型和內容的學習資源,即支持學習者自適應學習。
2) 資源的抽取與整理
為了符合一線教學要求,并且可以更加全面地覆蓋小學英語的知識點,本研究參考了以下內容:《義務教育英語課程標準(2011)版》,北師大版、北京版、外研社新標準、外研社(一年級起點)教育部審定2013版、人教版、朗文版這6本紙質教材,以及課外讀本《全腦思維圖解英漢詞典》。
3) 本體術語的分類
小學英語學科領域的本體結構確定為單詞本體、句子本體、教材版本本體以及資源庫四個部分之后,即可抽取本體術語,需要抽取本體術語的本體包括單詞本體、句子本體和教材版本本體。本體術語可以從上述8個部分中抽取出來,并且提取出的術語可以分成兩個類型:知識本體術語和教材組織本體術語。知識本體術語是指描述小學英語領域相關知識點及其資源的本體術語;教材組織本體術語是指描述小學英語學科教材結構的本體術語。
2.2.2 義務教育英語課程標準(2011)版中的本體術語
要對資源進行整理與抽取,就需要對課標和教材進行分析。由于《義務教育英語課程標準(2011)版》(以下簡稱課標)是我國國家教育部統一制定的針對小學英語學科基本規范和質量的基本綱領性文件,所以本資源庫的構建首先應該符合課標標準。課標課程總目標中的語言知識[11]是英語知識內容的直接體現,它包括語音知識、詞匯知識、語法知識、功能意念知識、話題知識這5個部分。對應這5個方面,需要抽取單詞發音音頻、拼寫與相關圖片、詞性與詞性屬性(對應不同詞性各自的屬性)、主題-功能意念以及主題-話題這5種本體術語。課標規定的九級目標體系中,二級目標是6年級結束時應達到的基本要求,但是不同版本的紙質教材也會選擇200~300個的五級單詞,因此也要抽取出“難度”標準。
2.2.3 教材中的本體術語
教材是一線教學以及學習者獲得知識的重要參考內容,目前我國小學英語學科教材有很多版本,本研究選擇北京市小學常用的上述6個版本的教材,從中抽取本體術語。教材中的本體術語包括教材內容與教材結構兩個方面。
1) 教材內容中的本體術語
小學英語的知識主要包括單詞和句子兩個方面。本研究以四年級為例,針對單詞本體提取出6本教材中所有的單詞,以及與單詞相關的課文原句和情景段落;針對句子本體提取出問句與其回答,以及相應情景對話、疑問詞、句型以及相關單詞。這樣單詞本體與句子本體的內容是對應的,在學習單詞的同時可以進一步學習如何在對話中使用該單詞,反之亦然。教材中還包含一些靜態資源,如圖片、音頻、視頻等,在豐富了學習資源的同時,也保證了資源來源的權威性。
2) 教材結構中的本體術語
教材結構中的本體術語分為三層。第一層為教材版本,包含北師大版、北京版、外研社新標準、外研社(一年級起點)教育部審定2013、人教版、朗文版這6本紙質教材。第二層為教材冊數,描述教材所涉及的學期,小學階段一共6個年級,12個學期,所以使用1至12來表示教材冊數。第三層為知識點所屬單元,同樣用整數表示。
2.2.4 課外讀本中的本體術語
本研究參考外研社出版的《全腦思維圖解英漢詞典(小學點讀筆版)》[12],它使用思維導圖展示了單詞之間清晰的關系,非常符合本體的知識組織形式,可以作為本體構建的結構參考依據[13]。該書的內容豐富了每個單詞的資源,從而從中抽取出現有單詞的聯想、同義詞、反義詞、拓展、百科、用法、延伸例句、常用用法這8類內容,讓學習者可以從多方位學習同一個知識點,加深印象,建立自己的知識網絡,從而提高學習績效。
2.2.5 小學英語學科各類本體術語數量匯總
通過上述三方面對本體術語的抽取,小學英語學科的本體術語數量匯總如表1所示。本研究的本體術語從課標、北師大版、北京版、外研社新標準、外研社(一年級起點)教育部審定2013、人教版、朗文版紙質教材,以及課外讀本《全腦思維圖解英漢詞典》這8個角度進行抽取。

表1 小學英語學科各類本體術語數量匯總表
2.3 本體術語關系提取與標注
本體術語提取過后還需要提取本體術語之間的關系,本體術語與本體關系的建立即搭建了一個網狀關系知識庫,以便計算機可以進行推理推導出本體之間的語義關系。
2.3.1 小學英語學科領域本體構建基礎
針對小學英語學科的特征,本研究涉及到了23種本體關系。綜合這些本體關系的特點,本研究將這23種本體關系分為三大類,分別為層級關系、屬性關系以及關聯關系,如表2所示。

表2 小學英語學科本體關系類別表
1) 層級關系
層級關系即兩個本體術語之間明顯的層次結構關系,是有向關系,本體中使用rdfs:subClassOf和rdf:type表示。本研究中的層級關系包括上下位關系、成員關系以及前后繼關系。上下位關系是指本體術語中父節點與子節點之間的關系,主要存在于知識本體中,本研究參考HowNet中Taxonomy的層級關系進行層次構建。成員關系表示本體術語A是本體術語B的一個組成部分,主要存在于資源庫中,如圖片、音頻、視頻、繪本分別為資源庫的成員。前后繼關系表示學期和單元之前的前驅與后繼關系,一般存在于教材組織本體中。例如第二學期為第一學期的后繼節點,反之為前驅節點,單元關系與學期關系類似。
2) 屬性關系
屬性關系是指本體術語A為本體術語B的一個特征性質,是有向關系,在本體中用數據類型屬性(Data Property)表示,本研究所涉及的屬性如表3所示。每個知識本體術語都具有表3中所呈現的屬性,這些屬性值共同描述了一個具體的本體術語。

表3 小學英語學科本體屬性表

續表3
3) 關聯關系
關聯關系是指兩個本體術語之間具有語義相關或相似的關系,在本體中用數據類型屬性表示,所有關聯關系如表4所示。

表4 關聯關系表
這3種關聯關系涉及4種特征,具體描述如下:
(1) Transitive(傳遞性)
若該關系具有傳遞屬性,那么對于任意x、y和z,則P(x,y)與P(y,z)蘊含P(x,z),例如trip是journey的同義詞,journey是tour的同義詞,那么trip也是tour的同義詞。
(2) Symmetric(對稱性)
若該關系被聲明為對稱屬性,那么對任意x和y,則P(x,y)當且僅當P(y,x),例如white是black的反義詞,那么black也是white的反義詞。
(3) Reflexive(自反性)
若該關系是自反的,則存在P(x,x),例如white是自身的同義詞。
(4) Irreflexive(反自反性)
若該關系是反自反的,則不存在P(x,x),例如white不是自身的反義詞。
2.3.2 本體術語關系標注
對本體術語和本體關系進行抽取之后,就要實現把本體關系搭建在本體術語之間,即本體術語關系的標注。目前本體術語關系標注的方法有自動標注法和人工標注法,由于本研究的本體術語和本體屬性數量較多,若使用人工標注所需的人力精力較大,所以本研究選擇自動標注法完成本體術語關系標注。在使用Protégé軟件對本體進行構建的過程中,其自身的樹形結構層次已經自動標注生成了層級關系寫入RDF文件中,使用Jena框架可以直接讀取層級關系信息,實現本體術語關系的自動標注。因此,先使用Protégé軟件構建具有樹形結構的類結構、對象屬性與數據屬性結構的類。每個實例的類都是基于HowNet的Taxonomy結構的,計算機需從HowNet中查找到該單詞的父類,之后用Jena框架自動標注每個實例的與類的上下位關系。這樣就減少了大量人工工作量,提高了工作效率。
本研究中的實例填充使用批量導入方式,可以先用Excel整理好所有屬性,避免使用Protégé軟件人工填充的復雜操作。并且若本體大小超過JDK的內存限制,則導致內存溢出,無法繼續在Protégé軟件中運行。因此本研究使用更加易操作的批量填充實例法,程序流程圖如圖3所示。

圖3 批量添加實例程序流程圖
2.3.3 本體知識庫構建
經過上述所有操作之后,本研究的知識庫結構如圖4所示。

圖4 本研究知識本體結構圖
本研究的知識本體分為3部分:知識本體、教材組織本體和資源庫。知識本體由單詞本體和句子本體構成,具有上述不同的屬性。每個單詞和句子都對應不同的資源,資源中包括圖片、音頻、視頻、繪本等資源,以應對不同學習者的不同需求。由于本系統中計算句子相似度模塊的算法是在相同的疑問詞中查找相似度最高的句子,這就會遺漏不同疑問詞中語義相似度高的句子,所以建立一個特例句子本體庫,鏈接此類句子,以提高查找精度。單詞教材組織本體和句子教材組織本體都繼承教材組織本體,包含教材特征的所有屬性。該本體作為知識本體中的一個屬性呈現,即每一個單詞和句子都有的那個獨一無二的ID,表現形式為教材版本/學期/單元/ID,例如:backpack的教材本體為1/10/7/1,代表該單詞出現在北師大版教材中第10冊第7單元中。
2.4 本體術語的形式化編碼
Fuseki數據庫中的三元組部分截圖如圖5所示。

圖5 Fuseki數據庫中的三元組部分截圖
在對本體術語的抽取與本體關系的提取與標注之后,需要將這些存儲在計算機中,方便計算機對本體進行計算和處理,以實現資源聚合。由于本研究的數據量較大,若選擇文本存儲,會導致低效的數據處理。因此本研究選擇使用數據庫存儲方式。數據庫存儲方式包括關系數據庫存儲和非關系數據庫存儲,雖然關系數據庫存儲技術較為成熟,但其對語義的兼容性不是很好,所以本研究選擇語義數據庫——Fuseki數據庫[14]。Fuseki是一個提供訪問SPARQL1.1標準的服務器,增強了計算機對數據的理解力和處理程度,可以通過HTTP使用SPARQL語句對數據庫中的三元組進行增加、刪除、修改、查找等操作。
2.5 確認與評估

圖6 用Protégé軟件展示的本體部分截圖
經過上述的本體構建步驟后,構建出了初步的小學英語學科領域本體,由于所構建的本體并非是靜態的。它會根據學習者學習的過程不斷修改和完善本體術語和關系的識別以及本體關系的標注,所以在這個過程中要保證本體的正確性、一致性和有效性。本研究中的知識本體術語和教材本體術語都是從課標以及一線教材中抽取出來的,課標是教育部頒發的針對課程質量的指導性文件,而一線教材則是根據課標編纂的;資源庫中的內容一部分來源于一線教材中的靜態資源,另一部分通過對內容分析得出,這部分由三位一線教師共同整理和抽取,因此這部分本體術語具有較強的權威性和正確性。本體關系標注的過程中,除了計算機自動標注出的本體層級關系以外,其余的屬性關系和相似關系都是通過計算機讀取教師整理好的Excel文件,使用Jena框架批量添加處理的。在未來本體庫的不斷修改和完善的過程中,依然是由教師把關進行,以確保本體的正確性、一致性。為了知識推理操作,還需把Fuseki中的所有三元組重新寫回.owl文件中,寫回的.owl文件用Protégé軟件打開部分截圖如圖6所示。
本研究的小學英語學科本體庫作為底層數據庫為iOS端與Android端APP提供數據支持,根據學習者的認知水平和學習偏好,為知識學習模塊提供知識點資源展示數據,為評測模塊提供題目和選項數據,為機器人模塊提供問題相應回答數據。各個模塊滿足小學英語自適應學習系統的需求,本研究本體庫能滿足各個模塊提出的需求,保證本體的有效性。
本研究中將本體技術運用在小學英語領域中,作為自適應學習系統中的底層數據庫可以加強系統自適應推薦的性能,促使學習者形成符合其自身的知識網絡結構。本研究基于小學英語學科,在滿足學生和廣大一線教師需求的基礎上,設計了針對該領域的本體庫構建方案。其中重點描述了有機融合多版本教材的本體術語抽取與本體關系的提取和標注,對知識進行多維度描述,并使用計算機自動標注本體關系,將生成的OWL文件以三元組的形式存儲于Fuseki數據庫中,并使用計算機批量添加實例,最終完成知識本體庫的構建。
本研究中僅以四年級為例進行本體知識庫的構建,將在以后的研究中不斷添加更新。在后續研究中,可以將一個知識點中某個類型資源標注出不同難度等級,以適應不同學習者能力需求。
目前中國的英語學習資源十分豐富,但是如何讓學習者快速準確地查找到適合自身的資源是困難的。本文開發了支持小學英語自適應學習系統的本體庫,使用本體可以加強系統自適應推薦的性能,促使學習者形成符合其自身的知識網絡結構。旨在為小學英語學科自適應學習系統的資源庫構建提供一個可借鑒的案例。目前該本體庫已經應用于自適應系統中,并正在針對試用進行最后的調試。
[1] 曹雙雙,王移芝.泛在學習中自適應學習系統模型研究[J].現代教育技術,2012,22(7):101-104.
[2] 姜強,趙蔚.自適應學習系統述評及其優化機制研究[J].現代遠距離教育,2011(6):57-63.
[3] 胡瑛,賈積有.學習對象內容本體描述框架研究[J].開放教育研究,2009,15(2):102-106.
[4] 鄭藝,應時,陳旭.面向交叉融合學科知識組織的本體構建方法[J].情報雜志,2014(3):143-149.
[5] 魏順平.基于術語部件的領域本體自動構建方法研究——以教育技術學領域本體構建為例[J].電化教育研究,2013(5):62-67.
[6] 馬捷,劉小樂,黃嵐,等.教育領域本體構建研究[J].情報理論與實踐,2012,35(7):104-108.
[7] 趙呈領,黃志芳,萬力勇,等.基于初中物理課程的學科領域本體庫構建研究[J].電化教育研究,2014(8):64-70.
[8] 王冰潔.基于語義網的小學英語資源動態聚合系統設計與開發研究[D].北京:北京師范大學,2013.
[9] 丁國柱,余勝泉.基于本體學習算法的學科本體輔助構建研究——以學習元平臺語文學科知識本體的構建為例[J].中國電化教育,2015(3):81-89.
[10] 董振東,董強.HowNet[OL].2016-03-22.http://www.keenage.com/.
[11] 中華人民共和國教育部.義務教育英語課程標準:2011年版[M].北京師范大學出版社,2011.
[12] 章思英.全腦思維圖解英漢詞典:小學點讀筆版= Mind MapPrimary English-Chinese Dictionary:Primary E-pen Edition[M].外語教學與研究出版社,2011.
[13] 邱聃.基于思維導圖的小學教育語義本體庫構建[J].電子設計工程,2016,24(3):53-56.
[14] Jena A.Apache Jena Fuseki[Z].The Apache Software Foundation,2014.
RESEARCHONTHECONSTRUCTIONALMETHODOFONTOLOGYFORPRIMARYSTUDENTS’EFLADAPTIVELEARNING
Jing Ran1Luo Liming1,2*Liu Jie1,2Zhou Jianshe2
1(CollegeofInformationEngineering,CapitalNormalUniversity,Beijing100048,China)2(BeijingAdvancedInnovationCenterforImagingTechnology,CapitalNormalUniversity,Beijing100048,China)
The learning resources of primary English of China are currently very abundant. It leads to difficulty for learners to find appropriate learning resources which is significantly increased as well. Adaptive learning systems can match the recommended learning resources and evaluation questions based on learning characteristics and learning paths of different learners, thus, the data organization structure of adaptive learning system plays a key role. Relational databases hardly reflect the intrinsic correlation between knowledge of specific subject. Therefore, this study proposed a constructional method by using ontology to connect relatively knowledge, and developed adaptive learning system for the fourth-grade students of China to learn English from multiple perspectives. The method can be used as a reference for other adaptive systems.
Adaptive learning Ontology construction Primary english
2016-10-14。國家自然科學基金項目(61371194,61672361);北京市自然科學基金項目(4152012);本成果得到北京成像技術高精尖創新中心資助。景然,碩士生,主研領域:智能教育軟件與知識工程。駱力明,教授。劉杰,副教授。周建設,教授。
TP311
A
10.3969/j.issn.1000-386x.2017.08.004