方 哲 徐朝軍
教育資源共享平臺主要服務(wù)于基礎(chǔ)教育階段的教師與學(xué)生,用于教學(xué)資源的共享與使用。與其他資源平臺相比,該平臺以關(guān)注個人、集體資源共享和使用行為為基點(diǎn),翔實(shí)地記錄個人、集體共享、查看、搜索、下載資源等諸多活動,從而生成個性化的資源推薦列表,使用戶更容易獲取滿意的資源。教師個人、學(xué)校及教育主管部門可以上傳共享教育資源,打破資源壟斷,通過資源交流促進(jìn)教師的專業(yè)成長。
本平臺所使用的知識圖譜以課程標(biāo)準(zhǔn)、教案文檔、試卷習(xí)題、閱讀材料作為源數(shù)據(jù),采用TFIDF、TextRank等關(guān)鍵詞抽取技術(shù)抽取文本數(shù)據(jù)中的知識點(diǎn),綜合字符串相似度、知識點(diǎn)貢獻(xiàn)等算法抽取知識點(diǎn)之間的聯(lián)系。對抽取到的知識點(diǎn)及關(guān)系采用機(jī)器與人工相結(jié)合的方式進(jìn)行過濾,構(gòu)建基礎(chǔ)教育知識圖譜。考慮到知識圖譜存在大量關(guān)系數(shù)據(jù),故采用Neo4j數(shù)據(jù)庫對基礎(chǔ)教育知識圖譜進(jìn)行存儲。
平臺上線后,政府部門、企業(yè)單位、學(xué)校以及教師個人均可以通過API接口上傳資源,平臺自動對資源進(jìn)行標(biāo)注、編碼處理后將資源并入共享庫,并與知識圖譜中的知識點(diǎn)進(jìn)行關(guān)聯(lián),同時系統(tǒng)會對上傳的資源質(zhì)量、知識點(diǎn)覆蓋面等指標(biāo)進(jìn)行評估。使用者可以根據(jù)知識點(diǎn)搜索、知識圖譜瀏覽、目錄導(dǎo)航、用戶個性化推薦等多種方式訪問資源,建立個性化資源包,也可以下載資源包進(jìn)行二次開發(fā)設(shè)計。
在實(shí)現(xiàn)基于知識圖譜導(dǎo)航的教學(xué)資源系統(tǒng)的基礎(chǔ)上,實(shí)現(xiàn)對用戶教學(xué)資源的個性化推薦。平臺首頁有三列資源,分別為熱門資源、最新資源和推薦資源。資源采用了協(xié)同過濾算法和知識圖譜輔助推薦相結(jié)合的融合推薦方式。這種方式不僅加入了知識圖譜輔助推薦,還在原來的用戶和瀏覽資源記錄二維數(shù)據(jù)的基礎(chǔ)上,增加了資源本身的語義和資源間的聯(lián)系,大大緩解了冷啟動和數(shù)據(jù)稀疏問題,實(shí)現(xiàn)了精準(zhǔn)推薦,促進(jìn)了資源的有效利用。
師生在教學(xué)過程中會需要整理符合當(dāng)前進(jìn)度的資源的情況,比如單元復(fù)習(xí)、薄弱點(diǎn)突擊、重點(diǎn)整理等。平臺為這一需求提供了資源包這一功能,用戶可以自行創(chuàng)建資源包,可以添加平臺中所有類型的資源以及知識點(diǎn)、學(xué)習(xí)目標(biāo)、學(xué)習(xí)重難點(diǎn)等條目,還可以創(chuàng)建簡介作為學(xué)習(xí)筆記或記錄其中的重要內(nèi)容。資源包也可以一鍵打包下載,資源將會整合在壓縮包中,其他條目則會以文本形式進(jìn)行存儲。
知識圖譜的構(gòu)建主要分知識抽取、知識加工和知識融合3個步驟。知識抽取包括實(shí)體抽取、關(guān)系抽取以及屬性抽取。實(shí)體抽取采用基于規(guī)則和詞典的方法、傳統(tǒng)機(jī)器學(xué)習(xí)的方法以及基于深度學(xué)習(xí)的方法,從語料中識別出知識實(shí)體。關(guān)系抽取的目的在于抽取文本中的實(shí)體對以及識別實(shí)體對之間的語義關(guān)系。根據(jù)對人工標(biāo)注的依賴程度,抽取方法可以分為有監(jiān)督的關(guān)系抽取方法、半監(jiān)督的關(guān)系抽取方法以及無監(jiān)督的關(guān)系抽取方法。知識屬性抽取可以豐富對知識本身的認(rèn)識,由于屬性值結(jié)構(gòu)是不完全確定的,因此采用了基于規(guī)則的抽取方式。
知識加工的主要目的是獲得結(jié)構(gòu)化的體系,經(jīng)過實(shí)體對齊,能夠獲得初步的本體以及大量的基本事實(shí)描述,但同時還必須經(jīng)過知識加工過程才能夠獲得更高質(zhì)量的認(rèn)識實(shí)體,在層次上建立一種更大規(guī)模的認(rèn)識系統(tǒng),從而完成對認(rèn)識體系的整合與管理。而認(rèn)識加工主要分為本體構(gòu)建、知識推理以及質(zhì)量評估3個階段。本體構(gòu)建過程通常分為縱向概念之間的并列計算、實(shí)體上下位關(guān)聯(lián)抽取和本體生成3個過程。知識推理則是在已有的認(rèn)識基礎(chǔ)上獲取新的事實(shí),或者經(jīng)過對知識的歸納實(shí)現(xiàn)個體知識到一般知識的推廣。最后通過質(zhì)量評估對知識進(jìn)行評估測量,留高去低,從而保證知識的質(zhì)量和圖譜的質(zhì)量。
知識融合是將不同知識庫中的同一實(shí)體融合在一起,主要包括實(shí)體對齊和實(shí)體消歧兩個環(huán)節(jié)。通過與實(shí)體對齊將出現(xiàn)在不同知識圖譜或數(shù)據(jù)庫中的但帶有同一意義的知識實(shí)體對齊,再通過實(shí)體消歧將存在歧義的實(shí)體根據(jù)上下文來消除一詞多義的現(xiàn)象。
經(jīng)過知識提取、知識加工、知識融合3個過程即可形成本平臺所要求的知識點(diǎn)圖譜。
目前教學(xué)資源個性化推薦側(cè)重于對學(xué)習(xí)者興趣進(jìn)行建模分析。該類推薦方法是使用與學(xué)習(xí)者之間的各種交互行為數(shù)據(jù)信息以及基于學(xué)習(xí)者興趣的元數(shù)據(jù)信息來為每個學(xué)習(xí)者分別建模,進(jìn)而根據(jù)推薦算法為每個學(xué)習(xí)者推薦其可能會感興趣的資源。這種方法更多偏重于與學(xué)習(xí)者的偏好相近的學(xué)習(xí)資源,但容易忽視資源間的內(nèi)在邏輯關(guān)系。因此在改善協(xié)同過濾推薦算法以更適用于教學(xué)資源推薦的同時,還要考慮資源之間的聯(lián)系。