徐 雷 秦翠玉
(武漢大學語義出版與知識服務重點實驗室,武漢,430072)
在國家教育信息化的政策指引以及大數據、人工智能、5G等數字技術驅動下,我國數字教育資源建設已經形成了由各級教育信息化領導機構和學校、互聯網公司、在線教育機構、智能科技公司、教育出版機構等多元主體構成的體系,各類數字教育產品和在線教育平臺不斷涌現,數字教育市場呈現良好的發展勢頭。然而,教育出版機構在教育信息化資源建設與應用中相較于其他主體而言參與度不高[1]。同時,從當前科學研究視角看,相關研究多集中于電化教育、開放教育等教育技術學科領域,以及向教育行業提供各類智能化技術的計算機學科等相關領域,教育出版領域視角下的相關探索尚未形成研究規模。此外,就當前已上線的各類數字教育出版產品、在線教育平臺而言,對其依托的數字教育資源的開發利用仍存在如下問題:各類數字教育平臺分散運行、海量數字教育資源零散分布,數據整合不到位、知識缺乏關聯,數字教育資源重復開發,導致信息超載、資源冗余、利用率不高[2]。即使是2022年上線的國家智慧教育公共服務平臺,雖然起到了匯聚精品教學內容的目的,但在知識的呈現與體驗方面仍以視頻、PDF等為載體,缺乏知識之間的交互性以及知識再利用的靈活性。
教育出版機構擁有優質的教育資源、資深的作者隊伍和專業的編輯團隊,熟悉教育資源的特征形態,同時肩負著傳播知識、傳承文化的歷史使命,理應在解決上述問題中發揮主導作用。這符合國家教育信息化政策導向,契合教育部等6部委于2021年發布的《關于推進教育新型基礎設施建設構建高質量教育支撐體系的指導意見》,是傳統教育出版在數字時代提升自身市場競爭力的必然要求。語義技術在解決數字資源表征、組織、關聯、發布、共享等方面具有成熟的國際標準和技術體系優勢,可用于教育資源的語義組織,解決當前教育資源開發利用過程中面臨的問題,并支持智能化的教育產品開發與智慧化的教育知識服務。本文以教育出版中的數字資源為核心,從語義技術視角出發,分析語義技術在數字教育資源開發利用過程中的成功經驗與解決方案,構建基于語義技術的數字教育出版實踐路徑及知識服務場景,并探討語義技術應用于數字教育出版領域的挑戰與對策,為數字教育出版領域語義技術的應用提供思路。
1998年蒂姆·伯納斯·李(Tim Berners-Lee)提出了語義網[3]技術構想,簡稱語義技術。相對于傳統的以超鏈接為基礎的互聯網,語義技術強調對資源的結構化與語義化組織,以本體、關聯數據、知識圖譜等為主要技術特征,用于提升計算機對數字資源的理解程度。語義技術可以對諸如數字教材教輔、教學方法、教學工具、音視頻課程等不同形態的教育資源以XML/RDF等語言進行統一描述,使用統一資源標識符(Uniform Resource Identifier,URI)來標識并進行廣泛鏈接,實現數字教育資源不同粒度的語義組織與多維度關聯,保證數字教育資源的高質量共享與重用,支持不同數字教育資源之間的互操作,支撐與用戶個人知識地圖之間的映射。同時,面對海量、多模態的數字教育資源,文本分析、自然語言處理、機器學習等技術也常常用于資源的語義組織與分析,這些技術通過對數字教育資源中知識的自動化識別與處理,以提高教育數據集、增強型數字教材、富語義出版物等數字教育產品的開發設計效率。
教育出版的本質是教材、教輔、教具、教學方法、教學資料和教學過程的組織、序化[4]。語義技術可以對傳統的數字教育資源組織發布方式進行語義化、關聯并化及可視化呈現,在教育出版領域具有廣闊的應用前景與技術優勢,主要體現在以下幾個方面。
一是對機構內部數字教育資源的組織與序化。利用自然語言處理、文本分析等技術對出版機構內部數字教育資源語義化處理,通過語義標引的方式對知識點進行關聯編排,構建教育領域本體庫與知識圖譜,有利于實現機構內存量資源的序化與關聯,構建清晰的教育知識結構體系,幫助用戶深入理解所學內容中蘊含的知識點、知識規律、知識關聯等細粒度知識。
二是對機構外部增量數字教育資源的開發與關聯。語義技術致力于對數字資源尤其是網絡資源進行語義化表達、組織、存儲。目前網絡上存在海量的數字教育資源,如數字教輔、課件、試卷等文本型的學習資料,圖片、音頻、視頻等多媒體格式的學習資源,以及互動游戲、電子書、教育問答知識庫、學習型社交平臺等多元形式的教育產品,語義技術可以實現這些教育資源之間的深度鏈接,促進出版機構內部存量資源與外部教育資源的關聯與豐富,從而構建完整的教育資源知識體系。
三是對教育出版服務場景的拓展與智慧化。語義技術可以根據用戶基本信息、使用過程的行為數據構建用戶模型、進行用戶畫像,建立用戶與知識點、教育服務平臺之間精準的連接,為開展學習路徑規劃、知識點智能檢索、個性化學習資源推薦等智慧知識服務提供基礎。同時基于語義技術的數字教育資源的“按需重組”也有助于拓展數字教育出版服務場景、創新服務模式,實現傳統教育出版向智慧教育出版的轉型。
隨著數字教育行業的發展與市場需求的激增,各級學校、互聯網公司、智能科技公司、傳統教育出版機構等多方主體也紛紛嘗試利用語義技術對數字教育資源進行開發建設,拓展數字教育業務版圖。如清華大學知識工程研究室聯合互聯網教育智能技術及應用國家工程實驗室共同建設了中國基礎教育知識服務平臺OpenEDUKG ,根據K12教育9門學科的教材教輔資源構建基礎教育本體概念模型,并通過知識抽取、本體映射、知識融合等技術實現海量教育資源的關聯,構建基礎教育全學科知識圖譜,為學習者提供知識搜索、知識梳理與可視化、知識問答等應用服務[5];科大訊飛依托自身較強的科技能力推出了智慧教育應用,借助大數據與人工智能技術,分析學生常態化學情,幫助教師預設教學重點,同時利用語義技術與自適應推薦引擎為學生構建線上線下可視化的自主學習場景[6];文泉學堂以清華大學出版社的特色內容為基礎,引入知識圖譜體系根據學科知識點關聯內容資源,為用戶提供知識內容的個性化搜索、訂閱、推薦、閱讀、學習等服務[7]。
在科學研究層面,尤其是教育技術、電化教育、開放教育等領域也展開了深入探索,主要圍繞以下3個方面開展:一是基于本體等數據模型的數字教育資源語義表示,主要借助本體、敘詞表、元數據等數據模型實現學習資源、教育者、學習者等教育領域實體及其之間關系的形式化描述,消除教育領域相關概念、術語、知識的歧義,精準表征教育場景、專業知識[8][9][10];二是基于關聯數據技術的數字教育資源語義關聯,多集中于教育關聯數據的發布[11]、教育數據的互聯與聚合[12][13][14]、開放教育資源構建[15]等方面;三是基于知識圖譜的數字教育資源智能應用,主要涉及教育知識圖譜的構建[16]、學習資源的個性化推薦[17][18]等方面。當前的相關研究實踐為教育出版領域進行教育資源的組織利用與教育知識服務場景的開發提供了參考經驗和思路,但在技術應用的規范性、教育資源的數據規模、應用場景的深度開發等方面仍存在不足。主要體現在教育資源的語義化、標準化、開放化仍沒有達到全面共享與再利用的程度,支撐教育知識服務場景的平臺功能單一、智能化不足、用戶采納率不高,科學研究層面所提供的數據模型與技術在不同學科領域之間移植難,所構建的教育數據集或知識圖譜數據規模小,語義技術在當前的實踐中仍未完全發掘出海量教育資源中蘊含的價值。
通過分析當前語義技術在數字教育出版領域的研究實踐,結合語義技術的應用特點,本文歸納設計了語義技術在該領域的應用框架,如圖1所示。整個框架包含資源層、資源加工層、技術融合層、應用層4個層面。教育出版機構內部紙質教材、教輔、試題冊等資源的收集與數字化,現有數字教育資源的集成,外部開放教育資源的采集,以及內外部教育資源預處理形成教育資源庫是資源層的基礎工作;資源加工層則對資源層中的教育資源進行知識抽取、知識表示、知識融合、知識推理,形成教育知識圖譜,這是語義技術應用框架的核心部分。具體而言,教育出版機構可結合手動和自動化的方式從現有教育資源庫中抽取編輯結構化知識,利用XML/RDF等語言進行符號化、形式化的知識表示與編排,再通過知識融合操作消除知識概念的歧義、剔除錯誤和冗余的知識,進行知識校對,同時通過知識推理進一步挖掘教育資源概念、關系、屬性中的隱含知識,最終形成教育知識圖譜為應用層中實現教育資源與用戶需求場景的關聯映射提供支撐;語義技術是數字教育出版領域應用的核心技術,但不是全部,因此需要在技術融合層結合人工智能、用戶體驗等技術來實現更為豐富的應用層功能,諸如深度學習、區塊鏈、5G、VR/AR等技術目前都有在教育領域中的實踐探索,通過融合技術開發數字教育平臺與產品為用戶提供不同場景下的教育知識服務;應用層中,針對教育教學過程中各類用戶,包括師生、家長、教育管理者等群體,從學習時間與空間兩個維度設計智慧教育知識服務場景。其中師生是數字教育出版產品的直接使用者,是教育出版機構的主要用戶,在教與學的過程中會形成大量的用戶生產內容(User Generated Content,UGC)數據,如教師的教案制作、教學設計、學生輔導、作業批改等數據,學生的學習偏好、學習效果、社區討論等數據,需格外重視這兩類用戶的行為數據并通過語義技術進行精準表示和用戶畫像,從而與教育知識資源關聯匹配,為智能化的教育知識服務開發提供支撐。

圖1 語義技術在數字教育出版領域的應用框架
數字教育資源的語義表征與傳統數字形態教育資源的主要區別,是提供智慧教育服務的基礎。敘詞表、元數據、本體等數據模型是對數據特征的抽象表示,以規范的形式揭示數據的本質特征。敘詞表和元數據作為信息描述和信息組織的工具已有悠久的歷史,本體是對領域知識的歸納和形式化,目的在于共享和重用,很適合對教育資源中的知識體系進行描述、表達和呈現[19]。目前國內外學者提出了許多教育資源數據模型,如AIISO[20]、XCRI[21]、LOM[22]、LRMI[23]、ONIX[24]、SCORM[25]、CELTS[26]等,這些數據模型可以實現學習資源、知識內容、教育者、學習者及其之間關系的形式化描述,其中本體還可用于消除教育領域相關概念與術語的歧義,更好地表征教育領域知識。知識內容根據粒度大小可劃分為知識點、知識塊、知識體系,知識點是學習內容的最小單元,如公式、定理、命題、知識概念等,不同的知識點可以根據知識之間的關系組成知識塊,各個知識塊依據特定關系可以構成知識體系。教育出版機構可以依靠自有的資深作者隊伍與專業編輯團隊依據教學大綱與課程標準對不同學科的教育概念體系進行分類與梳理,厘清知識點與知識點之間的關系,定義知識概念、屬性、關系及相關約束條件,再由本體工程師按照本體構建的原則進行迭代操作形成知識本體模型。在教育本體構建過程中,知識點之間的關系主要包括:上下位關系,即兩個知識點具有屬種關系;包含關系,某一知識點表述中包含了另一個知識點;同義關系,兩個知識點表示的內容具有相同或近似的含義;兄弟關系,兩個知識點具有相同父類上位概念關系詞;前驅關系,兩個知識點具有嚴格的時序關系,具有明顯的先后傳遞性,需要學習完前面的知識,才能掌握后面的知識。在實際操作中需要作者、教師、學科編輯、本體工程師一起協作進行縝密的分析與論證,保證知識生產的正確性和知識編排的邏輯性。此外,為了加快教育本體知識體系的構建,可以借助自動或半自動化的本體構建技術來完成,例如可使用分詞、詞性標注、依存句法分析等文本分析技術來處理高中物理教材,自動構建物理教育本體,解決傳統人工手動構建本體低效、耗時等問題[27]。
數字教育資源的廣泛與深度互聯是鏈接用戶個人知識地圖、激發用戶知識發現興趣、促進用戶問題解決和知識構建的有效手段。關聯數據具有一套完善的數據發布原則和促進網絡級數據互操作性的標準,可利用維基百科、開放教育資源(Open Education Resource,OER)、鏈接開放數據云(Linked Open Data,LOD)等外部數據來豐富內部教育數據。比如,可通過創建具體語法樹和抽象語法樹來識別C語言源代碼的不同元素和關鍵概念,并借助關聯數據技術用DBpedia、MOOCs、鏈接開放數據云等外部數據豐富內部教育資源,實現教育資源的互操作[28]。廣義上的教育資源不僅包括教材、課本、習題冊等學習資源,還包括在線學習課程、知識問答社區以及用戶在學習過程中的行為數據,而關聯數據技術支持不同類型的教育數據之間的重用、共享,實現知識與人的連接,可以進一步擴大并豐富教育知識庫。比如,可以從網絡上分布的多個信息源中收集醫學數據,利用SNOMED-CT等生物醫學本體進行描述,并通過關聯數據技術將其鏈接到鏈接教育醫學對象(Linked Educational Medical Objects,LEMO)數據集中,形成包括從PubMed Library,YouTube和Blogging中收集的10000多個資源的數據集,實現網絡教育資源的聚合與豐富[29]。還可通過重用SIOC、FOAF、Schema.org詞匯將用戶學習過程中的社交活動(Share,Rate,Tag,Comment)作為關聯數據公開[30],這不僅可以成為出版機構獲取教育資源的來源,而且通過知識實現了用戶之間的連接。教育數據的關聯操作不像教育知識體系設計需要教育領域專家重度參與,在實踐中,本體對齊、知識圖譜補全等自動化技術常用于教育關聯數據的構建與完善,教育出版機構可采用不同的技術嵌入途徑來提升教育關聯數據的構建效率。
知識圖譜可看作由本體作為模式層與RDF數據模型兼容的結構化數據集,從知識表示的角度看知識圖譜本質上是一種大型的語義網絡,知識圖譜可以將各種線性的、離散的、非結構化的知識用圖這種形式組織起來,以網絡化的方式呈現知識。這種知識組織結構和用戶的知識體系具有天然的相似性,通過鏈接多源多模態的教育資源,實際上關聯起了多類型多粒度的知識,構建教育知識圖譜的流程如圖2所示。首先,從各類教育資源庫中抽取知識單元,也就是知識點,涉及實體抽取、關系抽取與屬性抽取等知識抽取步驟,可借助機器學習等自動化方法從教材、教輔、課件等資源庫中抽取實體、關系、屬性等知識要素;第二步,對維基百科、開放教育資源、鏈接開放數據云等外部教育資源與內部教育資源進行數據整合。通過上一步知識抽取得到的教育知識中可能包含大量的冗余與錯誤信息,比如在關于古代詩人這一學習主題中,“青蓮居士”“謫仙人”都對應于唐代詩人李白這一實體。“李杜”既可以指李白與杜甫又可以是李商隱和杜牧的合稱,如若不做區分將出現知識錯誤,因此需要進行共指消解、實體消歧等知識融合操作消除知識的歧義,剔除冗余和錯誤知識,確保知識表征與編排的質量。同時,通過知識推理進一步挖掘隱含的知識,豐富擴展教育知識圖譜。最后,由于數字教育產品具有高精準性、高質量等要求,因此需要通過知識圖譜更新與補全以及嚴格的質量控制與多次迭代優化形成最終的教育知識圖譜,以為后續提供智慧教育知識服務奠定基礎。在這方面,清華大學出版社利用知識自動抽取、語義分析、文本分類、數據挖掘等技術對理工、計算機、經管等專業學科領域的教育資源進行知識點自動標引與知識關系自動識別,形成高等教育知識圖譜,從而實現知識的按需重組以支撐用戶智能搜索、學習資源個性化推薦等服務場景。

圖2 教育知識圖譜構建流程
在利用語義技術實現數字教育資源的細粒度組織與多維度關聯的基礎上,可以從時間與空間兩個維度來構建基于語義技術的教育知識服務場景,如圖3所示。

圖3 基于語義技術的教育知識服務場景
學生的學習過程可簡單劃分為課前的自主學習、課中的課堂教學與課后的自我反思與學習效果評估,其中學生與學習同伴、教師之間的交流是貫穿整個學習過程的,學習資源是整個與教學過程中不可或缺的。出版機構可以借助語義技術結合每個階段師生的具體需求從融合了內外部教育資源的教育知識圖譜中重組知識及教育資源,提供適應性學習資源配送、個性化學習內容推薦等服務。通過語義技術知識關聯與知識推理的功能幫助用戶主動獲取知識,根據用戶使用數字教育產品過程中的檢索、瀏覽、點擊等學習記錄,為用戶關聯更多相關的學習資源,從而滿足用戶學習資源獲取的需求。知識不僅源于與學習內容的連接,也可源于與學習內容背后的人的連接,出版機構可以根據不同學習階段的具體場景提供社交互動服務,借助語義技術通過知識實現人與人之間的關聯,滿足用戶交流、分享、互動的需求。
課前:學習路徑規劃與智能備課。在學生自主學習的課前階段,可以采用本體與知識圖譜技術對用戶的基本信息、學習興趣、學習問題、學習情況等數據進行記錄分析并進行用戶畫像,根據用戶畫像模型結合智能算法規劃學習者學習路徑,為學生設計適宜的學習目標、設置合適的學習任務。如松鼠AI開發了以高級算法為核心的智能適應學習系統,通過納米級的知識點拆分和學習前的測試檢測學生的學習水平,自動化地規劃學生的學習路徑,引導學生合理地進行課前自主學習活動。在課前環節,還可以為教師提供智能備課服務。課程體系中涵蓋了各種類別的課程,各個課程內容上存在交叉,并且不同的教師對各個課程的重點與課程屬性可能有不同的理解與表達,這為課程設計、課程安排帶來了困難。出版機構可以借助語義技術對課程知識進行統一表征,利用語義技術實現教學目標、教育技術、教學工具、學習者、學習資源、教育環境等教育實體的關聯,對教學體系中隱性知識進行自動推理,幫助教師設計教學體系、進行課程開發、設置培養方案,從而支撐教師課前備課場景。
課中:個性化教學與智能答疑。在課前的自主學習中學生會產生各類學習問題,在課中學生將通過教師的教學解決個人困惑、拓展個人知識體系。在這一環節需要分析學生的學習水平、學習進度、知識接受程度提供適應性的學習資源,輔助教師開展個性化教學活動,為學生答疑解惑。如基于知識圖譜技術構建的C語言在線課程平臺[31]提供了個性化教學設計服務,使教師能夠根據學生特點與學習問題自主構建C語言領域知識庫,并根據學生學習情況與進度及時調整、修改、添加滿足學生個性化需求的課程,以達到良好的教學效果。以自然語言理解、語義相似度計算等技術為支撐的智能問答系統可以理解用戶以自然語言提出的問題并從教育知識圖譜中找到最貼切的答案,實現“問題-知識”的精準匹配,解決學生的疑難問題。因此,可以借助智能問答系統為用戶提供精準的語義檢索與答疑服務,并通過語義技術呈現的學習知識的前后順序關系結合智能聊天機器人技術,以提問的方式引導學生由淺入深地理解與消化知識,從而解決自主學習過程中遇到的問題。
課后:學情評估。在課后學習過程中,學生通過測試題、練習題等方式鞏固所學知識以及檢測知識掌握的程度,同時根據教師評價以及學習同伴之間的相互評價與交流,進行自我反思、延伸學習內容、完善個人知識結構、形成個人知識地圖。一方面,教育出版機構可以根據教學大綱與課程標準中考察的知識點與維度提供個性化的測試題庫,為每個試題貼上語義標簽以便根據學生所學內容、學習問題等學習情況靈活、高效地組卷。比如被麥格勞—希爾(Mcgrawhill)收入旗下的知識空間的評估和學習系統(Assessment and Learning in Knowledge Spaces,ALEKS) 公司[32]基于認知科學的“知識空間”理論對特定知識建模與描述,為學習者提供多元題目測試、學習進度檢測、實時反饋、學習建議等服務,評估學生的學習效果與知識掌握的程度,從而幫助學生查漏補缺以及輔助教師分析學情以更有針對性地開展后續教學活動。另一方面,借助語義技術為學生提供課后知識梳理與知識可視化服務,幫助學生構建個人知識地圖,并利用關聯數據技術將學生個人學習過程中生成的知識圖譜發布到學習社區以供教師、學習同伴之間相互評論與交流。這不僅建立起了用戶之間的連接,而且學習社區中的互動、不同認知的交互也促進了用戶新知識的生成、個人知識體系的延伸。
隨著移動互聯網技術與智能移動終端設備的發展,泛在學習、碎片化學習成為人們非正式學習的主要方式。教育出版機構可以按照學科知識的規則,根據用戶的需求以及用戶所處的學習環境、位置、空間、所使用的學習軟件、學習終端設備等情境因素,從已構建的教育知識圖譜中抽取相應的學習資料與知識單元進行再開發與整合,提供泛在學習服務滿足用戶具體情境中的學習需求。例如,當用戶在某一地點學習A知識時,可以借助語義技術結合情景感知技術提供與該地點和A知識相適應的學習資源,同時還可以借助基于知識圖譜的推薦系統主動為學習者匯聚相關聯的學習資源并精準推送,以實現任何用戶可以在任何地方使用任何設備獲取所需的任何知識。當前碎片化學習已成為一種流行的學習方式,但存在知識分散、信息泛濫、教育資源組織無序、質量良莠不齊等問題,教育出版機構可以基于自有的優質內容資源以及教育知識圖譜提供專業的碎片化、泛在化學習服務。根據學科知識的內在邏輯采用語義技術對學習內容進行碎片化分割,形成知識結構清晰、知識容量合理、學習重點與難點聚焦的“精”而“微”的知識塊推送給用戶。這個過程不僅需要全方面地考慮用戶的認知負荷與認知心理,還需要根據不同的學科內容、專業知識特點采取不同的知識分割策略并保證知識劃分與重組的完整性。同時,對分割的知識塊進行標簽化處理,為用戶提供個性化資源檢索服務,提高用戶檢索與獲取教育資源的效率。比如清華大學出版社建設了以知識點為錨點的學習內容,根據學科知識的內在邏輯構建專業知識圖譜,使得用戶可以根據學習資源的標題、簡介、目錄、全文等進行智能搜索,便于用戶獲取個性化的教育資源。此外,語義技術在教育數據語義建模、鏈接、發布等方面具有顯著優勢,可以為智慧校園建設提供底層技術支撐,為教師、教育管理者等用戶提供教育管理服務,提高校園事務處理的工作效率。比如將本體技術用于智能環境建模以促進智慧校園中異構知識與信息源之間的信息集成與知識共享,同時結合智能代理技術來支持學生與教師出勤率檢測、教學計劃制定、教學評估等學校管理活動,推動教育管理模式的創新,實現良好的教學管理效果[33]。教育出版機構可以對學校教職工、學生、家長等數據精準表示并和教育知識圖譜鏈接,建立多源異構教育數據之間的關聯,為教育管理者開展教學管理工作、建設智慧校園提供支持。
雖然當前語義技術在數字教育出版領域已有不少應用研究與實踐,呈現巨大的發展潛力與廣闊的應用前景,但是在教育數據質量與組織標準、教育資源知識產權與數據隱私、技術應用門檻與成本等方面仍面臨著挑戰,需要進一步地研究與探索。
教育數據質量與組織標準問題。關聯數據與知識圖譜技術雖可以匯聚海量多源教育數據,但在保證教育關聯數據與教育知識圖譜的質量和完整性方面面臨著挑戰。出版機構向用戶提供的數字教材、在線課程等產品與服務是動態的,需要隨時向用戶顯示相關聯的數據資源,如何及時更新數字教育資源、如何保持高水平的教育數據質量是需要持續關注的問題。同時,外部教育數據存在“不是機器可讀的格式”“缺乏開放許可和標識符”等問題,我國的開放教育數據還處于“重開放、輕質量”的階段,教育數據中普遍存在完整性、時效性、規范性和準確性等質量問題[34]。實踐中各類教育數據標準建設的滯后是形成“數據孤島”和“數據碎片化”的主要原因,如各類教育數據集、教育知識圖譜是由不同機構發布的,使用了不同的詞匯表、建模規則與設計原則,不利于應用程序跨平臺獲取數據并進行整合。
教育資源知識產權與數據隱私問題。數字教育資源的開發利用、語義出版物的制作、教育數據集的發布,前提是對學習資源、教學工具、軟件設備等教育資源擁有足夠的版權。出版機構在利用語義技術實現大規模教育資源互聯互通、內外部教育資源關聯豐富的過程中,必須要解決知識產權問題。而當前知識產權的相關法律與規章不夠完善,開放教育數據存在將有價值的信息泄露給競爭對手的風險[35]。同時,數字教育出版產品的市場投入需要對用戶的基本信息、行為偏好、社交活動、瀏覽記錄等數據進行分析與挖掘,這存在侵犯用戶隱私權的風險,如何合法合規地獲取用戶數據、保證用戶信息不被濫用也是教育出版機構面臨的一大難題。
語義技術門檻與制作成本問題。語義技術作為一項新型技術相對于傳統的數據庫技術而言在工程實踐上存在技術門檻,這可能會在一定程度上限制教育資源的語義開發與利用。出版機構面臨著語料庫的使用、教育本體庫的建設、多學科教育知識圖譜的構建、自然語言處理、機器學習等復雜技術的運用,以及與傳統出版技術的融合等一系列問題。同時,技術的應用需要持續的資金和人力投入,這也就意味著出版機構在前期教育資源語義組織與關聯方面需要投入大量成本,而高昂的資金與人力的投入可能導致語義出版物項目啟動困難。此外,教育數據集、增強型數字教材、富語義出版物等數字教育產品及智慧教育知識服務的盈利模式尚不明晰,數字教育出版的商業模式仍需進一步探索。
加強數字教育出版標準體系建設,提高數字教育資源質量。在利用語義技術組織教育資源、建設數字教育平臺時,應盡可能重用已建立的成熟的術語標準,并根據具體應用需求開發相適應的教育領域本體,實現不同學科內外部教育資源的有效鏈接。同時,根據國內教育教學的特點,還應加強教育資源的元數據標準及數據模式標準的建設、應用和推廣,從而實現數字教育內部資源與外部開放教育資源的語義集成、整合、共享和重用。此外,學術出版領域為科學數據分配唯一標識符以促進科學數據管理與共享的實踐也為教育數據的出版提供了借鑒。同時,還可以考慮基于關聯數據技術的五星原則來促進開放教育資源的檢索與重用,使之成為中國教育領域的基礎設施,推動國家“十四五”期間的教育新基建。
探索數字教育出版知識產權與用戶隱私權保護路徑。出版機構在進行內部資源開發以及利用外部資源豐富教育數據的過程中,可以通過買斷圖書版權、組建專業的知識產權管理團隊、引入區塊鏈技術,借助其可追溯、去中心化的特點構建可信的教育出版智慧數據等方式解決數字教育作品版權歸屬、利益糾紛等問題。在倡導教育出版機構遵循知識產權相關規定的同時,也應加強用戶的知識產權教育,培養廣大用戶的版權保護意識。國家層面上,還應該完善數字教育出版知識產權保護機制,明確數字教育作品的版權歸屬、侵權責任承擔主體,嚴厲打擊侵權行為。此外,出版機構還需要格外注意用戶隱私的保護,確保用戶數據合法合規地使用。
重視技術創新與人才培養,探索教育出版盈利模式。語義技術涉及本體、關聯數據、知識圖譜、自然語言處理、文本分析、機器學習等技術,技術壁壘比較高,出版機構需要重視復合型出版人才的培養,組建既懂語義技術又精通編輯業務的人才隊伍。由于對數字教育資源進行多維度、細粒度的語義組織與關聯是后續提供不同場景下智慧教育知識服務的前提與基礎,出版機構需要重視語義技術的研發與應用,并探索語義技術與人工智能、大數據、VR/AR等技術的融合,優化數字教育出版流程,建設智慧教育資源池,研發基于智慧教育數據的產品,挖掘用戶智能學習場景,創新教育出版知識服務模式,提升用戶智慧教育體驗,從而實現數字教育出版盈利模式與商業模式的突破。
注 釋
[1]梁小建.教育出版服務主導數字化轉型與營銷策略研究[J].出版科學,2017,25(4):28-34+39
[2]曹艷.基于知識管理的網絡學習資源管理模式設計[J].中國教育技術裝備,2011(24):96-97.
[3]Berners-Lee T,Hendler J,Lassila O.The Semantic Web[J].Scientific American,2001,284(5):34-43
[4]許潔,汪琨禹,馬青青.基于三大出版領域的出版學基礎理論構建探索[J].科技與出版,2019(10):104-111
[5]OpenEDUKG[EB/OL].[2021-08-29].http://open.edukg.cn/home
[6]科大訊飛[EB/OL].[2021-05-08].https://www.i flytek.com/edu
[7]文泉學堂[EB/OL].[2021-05-08].https://www.wqxuetang.com/about
[8]Cheng B Y,Zhang Y,Shi D X. Ontology-based personalized learning path recommenda-tion for course learning[C]//2018 9th International Conference on Information Technology in Medicine and Education(ITME).IEEE,2018:531-535
[9]Kusuma S F,Siahaan D O,Fatichah C. Automatic Question Generation In Education Domain Based On Ontology[C]//2020 International Conference on Computer Engineering,Network,and Intelligent Multimedia(CENIM).IEEE,2020:251-256
[10]Nurjanah D. LifeOn, a ubiquitous lifelong learner model ontology supporting adaptive learning[C]//2018 IEEE Global Engineering Education Conference (EDUCON). IEEE, 2018: 866-871
[11]Rajabi E, Sanchez-Alonso S, Sicilia M A, et al. A linked and open dataset from a network of learning repositories on organic agriculture[J]. British journal of educational technology, 2017, 48(1):71-82
[12]Carbonaro A. Enabling smart learning systems within smart cities using open data[J]. Journal of e-Learning and Knowledge Society, 2020, 16(1): 72-77
[13]Rajabi E, Greller W. Exposing social data as linked data in education[J]. International Journal on Semantic Web and Information Systems (IJSWIS), 2019, 15(2): 92-106
[14]Dhekne C, Bansal S K. Linking and maintaining quality of data about MOOCs using Semantic Computing[C]//2017 IEEE 11th International Conference on Semantic Computing (ICSC). IEEE,2017: 81-84
[15]d’Aquin M. Putting Linked Data to Use in a Large Higher-Education Organisation[C]//Proceedings of the Workshop on Interacting with Linked Data.Greece:CEUR-WS, 2012: 9-21
[16]呂品,賀云艷,許嘉,等.面向教育的中文知識圖譜自動構建技術[J].中國教育信息化,2021(4):86-92
[17]Chen P ,Lu Y,Zheng V W, et al. KnowEdu : A System to Construct Knowledge Graph for Education[J]. IEEE Access,2018,6:31553-31563
[18]邱玥. 知識圖譜增強的在線課程推薦方法研究[D].武漢:華中師范大學,2020:20-22
[19]李金定.敘詞表、元數據與本體之間關系探究[J].圖書館學研究,2007(8):61-64
[20]Academic Institution Internal Structure Ontology[EB/OL].[2021-04-30].https://vocab.org/aiiso/schema
[21]eXchanging Course Related Information[EB/OL].[2021-04-30].https://core.ac.uk/download/pdf/55533856.pdf
[22]Learning Object Metadata[EB/OL].[2021-04-30].http://edutechwiki.unige.ch/en/Learning_Object_Metadata_Standard
[23]Learning Resource Metadata Initiative[EB/OL].[2021-04-30].https://dublincore.org/about/lrmi
[24]喻乒乒.ONIX元數據標準2.1版與2.0版對比研究[J].現代情報,2006(1):88-91
[25]Sharable Content Object Reference Mode[EB/OL].[2021-04-30].https://scorm.com/scormexplained
[26]CELTSC標準清單[EB/OL].[2021-04-30].http://www.celtsc.org/channel/bzlist.html
[27]陳繼智.教育本體自動構建關鍵技術研究[D].上海:華東師范大學,2020:27-29
[28]Carbonaro A. Enabling smart learning systems within smart cities using open data[J]. Journal of e-Learning and Knowledge Society, 2020, 16(1): 72-77
[29]Al Fayez R Q, Joy M. Using Linked Data for Integrating Educational Medical Web Data-bases Based on BioMedical Ontologies[J]. The Computer Journal, 2017, 60(3): 369-388
[30]Rajabi E, Greller W. Exposing social data as linked data in education[J]. International Journal on Semantic Web and Information Systems (IJSWIS), 2019, 15(2): 92-106
[31]和青芳,賀玲芳,李紅豫. 構建C語言在線課程平臺[C]//中國計算機用戶協會網絡應用分會2020年第二十四屆網絡新技術與應用年會論文集.2020:317-321
[32]Research Behind ALEKS[EB/OL].[2021-05-08].https://www.aleks.com/about_aleks/research_behind
[33]Samia Z,Khaled R,Warda Z.Multi-agent systems and ontology for supporting management system in smart school[C]//2018 3rd International Conference on Pattern Analysis and Intelligent Systems(PAIS).IEEE,2018 :1-8
[34]劉鳳紅,彭琳.FAIR原則背景下國際出版集團的數據政策和實踐[J].中國科技期刊研究,2021,32(2):173-179
[35]Perkmann M,Schildt H.Open data partnerships between firms and universities:The role of boundary organizations[J]. Research Policy,2015,44(5):1133-1143