范 洪,陸宇程
(1.中國地質大學(北京)外國語學院,北京 100086;2.北京郵電大學 國際學院,北京 100876)
在大學英語教學中,同一門課程的學生其基礎知識、認知能力和學習興趣等方面各不相同,因此,他們對外語知識結構和學習成果的掌握程度存在差異。通常情況下,學生可以自行發現不同知識之間的聯系,并將新舊知識進行整合。但是,有些學生由于知識結構不完整或缺乏知識的系統性積累,導致他們學習能力下降,從而影響個性化教學的實施效果。因此,傳統大學課堂教學和網上數字化教學都需要深入分析課程知識點的屬性和關系。知識圖譜技術恰好能夠滿足這一需求,它可以展示大學英語課程中知識點的分布狀態和相互關系,幫助學生系統理解相關知識點,并建立它們之間的聯系。除此之外,在互聯網教育中,知識圖譜技術還可以為個性化推薦學習提供支持。[1]因此,在教育領域,建立知識圖譜具有十分必要的意義。
當前互聯網+教育是時代的潮流,基于知識圖譜的特點它可以為大學英語教學提供有力的工具和手段。知識圖譜(Knowledge Graph)是一種基于圖形數據結構的語義網絡,由節點(Point)和邊(Edge)組成。在知識圖譜中,每個節點代表現實世界中的“實體”,每條邊表示實體之間的“關系”。[2]知識圖譜可以描述現實世界,也可以具體到大學英語教學這樣的行業領域。利用知識圖譜,我們可以從“關系”的角度來分析學生的學習方式、學習技能、學習資源等問題,更好地理解各實體之間的聯系,進而深入挖掘知識與信息。[2]
知識圖譜的架構,包括知識圖譜自身的邏輯結構以及構建知識圖譜所采用的技術結構。知識圖譜從邏輯架構上可以分為兩個層次:數據層和模式層,如圖1所示。
知識圖譜的數據層以“實體—屬性—值”三元組作為事實的表達存儲在圖數據庫。本體知識庫是知識圖譜的抽象概念框架,具體到大學英語則可以對相關知識抽象分類,例如,英語教學可分為聽力、口語、閱讀、寫作和翻譯。而底層數據庫保存實體關系和實體屬性值。
模式層建立在數據層之上,是知識圖譜的核心,在模式層存儲的是經過提煉的知識,通常采用本體庫來管理知識圖譜的模式層,借助本體庫對公理、規則和約束條件的支持能力來規范實體、關系以及實體的類型和屬性等對象之間的聯系。[3]
構建知識圖譜就是利用信息化技術將知識元素從原始數據中提取出來,將這些知識元素存儲在知識庫的數據層面和模式層面的過程。這是一個持續迭代更新的過程,根據知識獲取的邏輯,每個迭代包含三個階段:信息抽取、知識融合和知識處理。
信息抽取階段從原始文本數據中識別出實體、關系和屬性等知識元素。這些元素構成知識圖譜的節點和關系邊。知識融合階段將來自不同數據源的知識元素融合在一起,消除沖突和重復,生成關聯起來的知識路徑和圖譜片段。知識加工階段對生成的知識路徑或圖譜片段進行修飾、調整和修正,使其符合一定的知識表示模型或本體,從而生成結構完善、語義準確的知識圖譜。
整個過程依賴于自然語言處理、關系抽取、知識表示、機器學習等技術,最終構建出一個節點豐富、關系完備的知識圖譜。該知識圖譜編碼了特定領域的知識元素及其之間的關聯和結構,為下一步的知識推理、問答和學習等應用提供了基礎。
知識圖譜為教學模式優化提供信息基礎。通過分析知識圖譜中的知識結構和學習者的數據,可以發現學習者的知識缺陷與需求,這有助于調整教學進度與側重,實現精準教學。同時,知識圖譜還可以根據學習者的知識狀況推薦個性化的學習路徑,指導學習者進行自主學習。
知識圖譜中知識的持續更新有助于教學內容的及時升級。當知識圖譜通過新信息的添加或完善得到擴展時,教學內容也需要相應調整以保證時效性。這需要教師持續關注知識圖譜的更新,并在教學中及時體現。
基于知識圖譜的學習分析和推薦可以實現學習方式的個性轉變。不同的學習者會得到不同的知識補充或練習,有的側重于聽力、有的側重于口語等,這有助于學習者在個人興趣與需求的指引下進行個性化學習。
知識圖譜為教育評價提供了更加全面與準確的依據。教育評價不應局限于幾次測試,更應考察學習者與知識圖譜間的交互記錄,如學習者提出的問題、得到的學習推薦以及自主學習的足跡等。這可以讓教師從更廣泛的角度理解學習者的知識狀況與發展軌跡。
知識圖譜的構建依賴于不同數據源的數據提取,這是后續應用的基礎。對大學英語知識圖譜來說,數據主要來自兩種渠道:一種是學校自身的數據,通常包含學校購買的電子化數據和以圖文形式存儲的非結構化數據,其中學生的測試成績以結構化表格形式存儲。另一種是公開的外文文章網絡數據,通常以網頁形式存儲的非結構化數據。
前者通常只需要簡單預處理就可以作為后續系統的輸入,但后者通常需要利用自然語言處理等技術來提取非結構化的信息。學校數據提供了學習者的知識水平和學習記錄等結構化信息,這些信息用于構建學習者畫像,為個性化學習和推薦提供基礎。非結構化的網絡語料存有豐富的知識,要利用技術工具提取實體、關系和屬性構建知識圖譜。
兩個數據源提供的信息有助于構建學習者畫像和知識圖譜,為基于知識圖譜的大學外語個性化學習系統奠定基礎。系統通過分析學習者的數據采集學習者的知識狀況,結合知識圖譜為學習者推薦個性化學習路徑和內容。這需要對兩個數據源的數據進行預處理、清洗、抽取、融合和標注,最終建立起知識圖譜和學習者用戶畫像。[4]
知識圖譜構建的關鍵在于理解業務和設計知識圖譜本身。互聯網上的海量資源是系統的重要信息來源。如圖2所示,我們通常可以按照自然語言中的主語、謂語、賓語的語法進行知識的抽取。知識抽取分為實體抽取、關系抽取、屬性抽取和事件抽取。[5]

圖2 知識圖譜的數據庫結構設計

圖3 本體庫的設計
信息源中的知識通過以上抽取手段轉化為知識圖譜中的實體、關系和屬性等知識單元。這些單元構成初始知識圖譜,隨著新信息的不斷獲得,豐富知識圖譜,使其更加準確和詳盡。
知識融合是從概念層和數據層兩方面,通過知識庫的對齊、關聯和合并等方式,將多個知識圖譜或信息源中的本體與實體進行鏈接,形成一個更加統一和稠密的新知識圖譜,這是實現知識共享的重要方法。[5]
在概念層面,不同知識圖譜或信息源的本體可能存在差異,需要對其中的概念、類別和屬性進行匹配、映射或整合,形成一個統一的本體框架,以此指導數據層面的知識融合。這通常需要人工完成,但也可以借助本體匹配工具實現半自動化。
在數據層面,系統需要檢測不同知識圖譜或信息源中的相同或相關實體,通過實體消解、實體鏈接等技術將其鏈接在一起,或者合并為同一個實體,從而豐富實體的數據描述和關系網絡。此外,系統還需要關聯不同源的屬性、關系與事件等,構建更加全面和準確的知識網絡。
知識融合需要同時在概念和數據兩個層面開展,才能實現真正意義上的知識整合與共享。這有助于緩解信息孤島,豐富單個知識圖譜的知識,提高其準確性與完備性。采用自動化技術可以在一定程度上實現知識融合的規模化,但人工干預和評估也同樣重要。
知識處理包括本體創建、知識推理和質量評估三個部分。本體主要通過人工創建和數據驅動自動創建的方式構建,根據當前的大學英語教學現狀,核心本體庫從實體、服務、方式和用戶四個方面開始創建本體庫。知識推理主要使用語義分析的方法,通過對存儲的三元組進行分析,可以獲取新的知識或者結論。知識推理是獲取新知識的重要手段。質量評估是生成正確知識的關鍵所在,質量評估的過程就是對上面產生的知識數據進行打分評價的過程,并將符合要求的數據存入知識圖譜。[5]
用戶畫像是“千人千面”推薦算法的基礎,[6]用戶畫像的構建需要多種信息的支持,數據采集的具體工作流程如下:
1.用戶屬性采集:如年齡、性別、學籍、興趣愛好等,可以通過用戶注冊或問卷調查獲取。這些屬性可以構成用戶屬性畫像。
2.用戶行為采集:如用戶的瀏覽歷史、點贊行為、學習時間、學習習慣等。這需要通過對用戶的網站、產品或應用使用進行跟蹤采集。這些數據可以構成用戶行為畫像。
3.用戶知識水平評估:例如通過測試的方式對用戶的某些技能或知識進行評定,可以判斷用戶的知識結構和掌握情況,用于構建用戶知識能力畫像。
4.用戶學習經歷采集:通過對用戶在學校學習數據、學習平臺上的發帖、評論等進行分析,可以挖掘出用戶的興趣偏好、價值觀、性格特征等,構建用戶經歷畫像。
5.多源數據融合:從不同渠道采集到用戶屬性、行為、知識、經歷等多維數據,對這些數據進行融合可以形成較為全面準確的用戶畫像。
用戶畫像的采集是一項綜合性工作,需要收集用戶屬性、行為、知識、經歷等不同類型的數據,并將這些數據進行綜合分析和融合,這樣才能構建出較為準確和全面的用戶畫像。這有助于為用戶提供個性化推薦和服務。
學習路徑推薦往往僅根據用戶有興趣學習的知識實體為出發點,按知識點進行推薦。個性化學習推薦算法需要做好以下幾個方面的工作:
1.分析用戶需求:根據用戶畫像分析用戶的知識缺口、學習習慣和興趣需求,這有助于精準推薦用戶需要的學習內容。
2.構建推薦模型:選用與學習場景匹配的推薦算法和技術,構建可以根據用戶需求為用戶推薦個性化學習內容的推薦模型。常用的有協同過濾、內容推薦等。
3.構建學習資源:提供豐富而全面的學習內容,包括視頻、文字、音頻、圖片、習題等多種形式,滿足不同學習者的需求。
4.個性化推薦:根據用戶數據和推薦模型,為每個用戶推薦符合其學習需求的個性化學習內容,如推薦Learning Path。
5.優化和迭代:分析用戶對推薦結果的響應和評價,不斷優化用戶畫像、推薦模型和學習資源,實現個性化推薦的持續優化。
6.互動和交互:提供用戶交互界面,可以實現推薦結果的顯示、用戶管理和互動,以及學習記錄跟蹤等功能。
做好個性化推薦學習需要全面收集和應用用戶數據,選擇合適算法構建推薦模型,提供豐富學習資源,并持續優化。在此需要強調數據采集、模型構建、資源建設和不斷迭代四個要素。
知識問答平臺可以根據用戶的自然語言輸入,基于歷史的學習風格,依照學習路徑推薦算法,給出相應的回答結果。如圖4所示,具體工作流程如下:

圖4 知識問答界面
1.通過超越關鍵字匹配技術,基于語義理解與知識圖譜實現搜索與互動問答。
2.利用知識圖譜將多模態的課程(文本,音頻,視頻)與題目,競賽等結合,自動化生產課件與學習計劃。
3.基于知識圖譜化的學習內容,實現免人工干預的智能題目生產。
4.對用戶行為進行分析,基于用戶個性化習慣、學習記錄及考核成績等,智能推薦課程學習。
本文闡釋了基于知識圖譜的大學英語個性化智能學習系統,介紹大學英語相關知識圖譜的構建過程,該系統可根據用戶畫像提供個性化的英語學習課件和學習計劃,并實現免人工干預的智能題目測試。該系統需要繼續完善自然語言處理、用戶畫像的準確度和數據質量的評價機制,以便為用戶提供更加豐富和準確的個性化推薦內容。