張義兵 徐朝軍




摘 要:知識建構理論(KB)及其技術環境知識論壇(KF)是當今國際學習科學界具有代表性的知識創新學習理論與技術,代表著21世紀“教與學”的變革方向。從理論研究與實踐需求看,知識建構研究的一個瓶頸問題是在持續的知識建構過程中,社區成員在KF平臺里形成了海量的“非結構化”“半結構化”數據碎片,KF平臺目前只能做淺層次的可視化表達,而難以對其進行結構化的深度分析。本研究圍繞知識建構學習社區知識圖譜自動構建的關鍵問題,力圖通過建構“人—活動—知識”之間的理論模型,提出借助自然語言處理、語義分析、實體關系發現等知識圖譜技術,研發知識圖譜構建引擎的方案,進而結合教學實踐過程,展示實際應用的路徑。
關鍵詞:知識建構學習社區;社區知識圖譜;知識論壇;語義分析;實體關系發現
一、問題提出的背景
知識建構理論(Knowledge Building,KB)及其技術環境知識論壇(Knowledge Forum,KF)是國際學習科學(Learning Science)界極具代表性的知識創新學習理論與技術,代表著21世紀“教與學”的變革方向。該理論在歐美、東亞等區域的前瞻性研究中具有很大影響力,一直是學術研究最活躍的課題。在全面深化教育改革的大背景下,該理論也吸引了一些中國的學者開展初步的教學實驗,但是總體上,中國的研究尚難以跟上國際發展前沿。[1][2]
知識建構理論的獨特之處是強調學生像科學家一樣探究真實問題,形成以“觀點”(Idea)為中心的多樣化知識表征,并且可視化表達在KF平臺上,但也由此形成了類型多樣、交錯復雜的“半結構化”“非結構化”的數據碎片。[3]目前,KF平臺能夠進行一般社會網絡分析,但無法分析復雜互動行為(如反駁、批判、抗辯等);KF也能夠做一般的詞匯及其增量分析,但是不能分辨含糊的語義、概念的發展跟蹤等;KF還能夠統計社區成員的參與量、貢獻量等基礎數據,但不能診斷教學問題,預測教學走向,難以比較社區理論構建與學科課程目標之間的差異等,這些問題也一直極大地困擾著國際知識建構學術共同體。
針對KF 中的“半結構化”“非結構化”數據碎片,近年日漸成熟的知識圖譜(Knowledge Graph)技術是解決該問題的最好選擇之一。若應用好該技術,就能夠理清知識建構學習社區中復雜的人、活動與知識之間的結構關系,能夠跟蹤與分析人、活動與知識的發展過程,把握個體、群組等的發展變化及差異等。[4]因此,基于KF平臺構建知識建構學習社區知識圖譜的意義在于:
(1)能夠自動挖掘人、活動與知識間的聯系,以可視化方式向知識建構學習社區成員反饋結構化的知識,輔助教師與學生進行知識管理。
(2)能夠通過構建多層次用戶、多樣化活動、多類型知識的知識圖譜,支持知識建構學習社區的學習分析。
(3)能夠通過基于時間線的、與知識建構過程同步的動態數據分析,預測知識建構社區知識的發展走向,輔助社區成員“教與學”的設計。
二、已有研究述評
(一)知識圖譜自動構建的相關研究
20世紀60年代末,奎廉(M. R. Quillian)和 西蒙斯(R. F. Simmons)等提出語義網絡,提出概念提取和概念之間關系的建模等。隨著互聯網的發展,網絡中愈發豐富的超文本鏈接和應用鏈接將互聯網上豐富的信息形成巨大的信息網絡,給用戶信息搜索帶來了很大的障礙。[5]2012年,谷歌為增強搜索結果,建立了語義網知識庫,并稱之為知識圖譜。隨之,這一概念得到業內的迅速認可和應用。[6]
知識圖譜構建的關鍵技術,包括實體及關系抽取技術、知識融合技術、實體鏈接技術和知識推理技術;知識圖譜構建包含從數據來源到應用等各個環節的相關技術:最初實體關系識別任務在1998年信息理解會議(Message Understanding Conference,MUC)中以MUC-7任務被引入,目的是通過填充關系模板槽的方式抽去文本中特定的關系;1998年后,在自動內容抽取(Automatic Content Extraction,ACE)中被定義為關系檢測和識別的任務;2009年ACE并入文本分析會議(Text Analysis Conference,TAC),關系抽取被并入到KBP(Knowledge Base Population)領域的槽填充任務。[7]
基于機器學習的命名實體發現方法,劃分為四類:監督、半監督、無監督和混合方法。從實體關系發現任務看,可以分為限定領域(Close Domain)和開放領域(Open IE);從實體關系發現方法上看,經歷了從流水線識別方法逐漸過渡到端到端的識別方法。[8]而在知識表示方面,典型的模型有距離模型、單層神經網絡模型、雙線性模型、神經張量模型、矩陣分解模型、翻譯模型以及TranesH、TransR、TransD、TransG、KG2E等各種復雜關系模型和多原組合模型。在知識融合、知識推理等方面,同樣也有非常豐富的研究和積淀值得參考和學習。[9][10][11]
(二)知識建構教學平臺對知識的結構化處理及不足
知識建構教學平臺是以發展社區知識為核心的知識論壇。[12]從哲學層面說,知識論壇是用于支持“世界3”的顯性化表達;[13]KF也是以Applet的形式嵌入一些基于統計的評價工具,如Contribution Tool(貢獻量分析工具)、Semantic Overlap Tool(語義重疊工具)、Social Network Tool(社會網絡分析工具)、Vocabulary Growth Tool(詞匯量增長評價工具)等。這些工具從社區成員活動關系、互動用語關鍵詞等角度進行了量化統計,極大地支持了學生知識可視化表征與發展。[14][15]
知識建構學術共同體一直受到困擾的是KF平臺上日益增多的人與人、人與知識、知識與知識、知識與活動等多對象間的復雜數據關系,研究者也在不斷尋求更多、更好的技術方法對這些數據進行梳理、表征,以更好地支持社區知識的各個環節,促進學生對知識理解加深,縮短知識建構、達成共識的周期。[16]美國明尼蘇達大學的陳伯棟通過基于設計的研究探索了有前景的觀點工具(Promising Idea Tool),該工具的主要功能是學生自發選擇,按照次數排名統計,判斷有前景的觀點,但是其無法對社區大規模的“觀點”進行判斷。[17]美國紐約大學張建偉團隊開發了觀點線程貼圖(Idea Thread Mapper,ITM)工具,該工具通過幫助學生回顧那些以互動交流為主題的富有成果的探究性話題,并找出隨著時間推移而產生的重要思想,以解決每一個焦點問題,[18]但也只是一般網絡行為跟蹤,并未涉及深度的語義的分析。日本歐希瑪(Oshima)教授團隊開發了KBDeX篩選關鍵詞,但是該工具不能進行自動化的處理,需要研究者先手工抽取關鍵詞,再進行數據轉換后,利用第三方KBDex才能處理。
從現有研究和實踐看,知識建構社區教學工具還有很大的進一步研究和開發的空間。首先,從知識建構主體看,有成員、小組、班級、學校等不同的規模;其次,從知識建構活動過程看,不同的活動形式有不同的環節;再從課程的角度看,不同的教學主題也有不同的知識結構。在這些諸多主體、活動、知識等復雜關系下,都有必要提供合適的工具以支持社區知識建構活動。
(三)知識圖譜的自動構建對學習社區的教學支持及其發展動態
知識圖譜技術以可視化的方式提供了結構化的知識表征形式,在教育中有廣泛的應用。塞加拉(Zegarra E)設計了一種以知識圖譜為主要展示形式的學習系統,學生可對圖譜中的知識節點進行瀏覽和學習,并對感興趣的話題進行深入討論。研究表明這種形式的學習有助于加強學生對知識的理解和認識,掌握知識點之間的聯系以及形成新的知識鏈接。另外,該系統還對學生話題討論的結果、進程和熱度進行知識圖譜形式的可視化展示,以提高學生的同伴學習效率。馬丁(Martin S)等針對K12的數學教育設計了名為Better Marks的平臺,該平臺使用了結合知識圖譜的集成分類器來預測在線網絡學習中學習者的學習行為。平臺摒棄了嚴格的課程結構,而將所有的學習目標使用知識圖譜的形式進行展示,以更好地呈現學習目標的先驗知識點,通過記錄學生自由的學習行為來分析和提取相應的特征以構建分類器。研究證明,基于知識圖譜的集成分類器可以更好地預測學生行為和把握學生的個體差異行為。楊亦鳴使用知識圖譜來鏈接MOOC課程,以課程為節點,體現課程之間相應的關系和先驗知識,幫助學生在不同學校開設的課程之間進行更好的選擇。[19]岡田(Okada A)的研究表明基于知識圖譜建立的開放教育資源更有利于促進意義學習。[20]郝佳等提出運用知識圖譜的方式可以幫助學習者更快地鎖定學習目標與路徑,更高效地進行領域知識的學習。[21]國外有學者提出使用基于語義網絡的知識表示模型來組織學習者的知識,認為這種模型可以幫助在線學習者提高顯性知識和隱性知識之間的聯系,幫助學習者進行有效的知識管理。[22]還有人認為社區中對于某一知識的重用率和討論率可以體現該社區內對該知識點的認知深度,他們歸納和提取社區成員所有感興趣的領域,并生成一個以關鍵詞為節點的語義網,每當社區成員提出一個新的觀點或問題,就在語義網中查找相關的節點,以此來判斷社區中知識的認知深度。[23]
三、需要解決的關鍵問題
知識圖譜技術是一種基于語義網的知識結構化表征技術,其研究在教育方面的應用已經涉入了社區討論、學生行為預測、知識結構關系分析等多個方面。基于其四個關鍵技術及基本流程,本研究力圖基于KF社區活動數據,首先要建立“人—活動—知識”等數據關系模型,明確知識建構活動形式、流程、社區成員組成等需求,進行劃分、重組成員社區活動數據;采用迭代的工程思想,研發知識圖譜實時構建引擎;通過教學實踐,驗證知識圖譜工具在知識建構活動中的教學效果,進而優化知識圖譜構建引擎的精度和性能,為多形式的知識建構活動提供工具支持。研究技術路線如圖1所示。
(一)關鍵問題之一:知識建構學習社區“人—活動—知識”建模方案
針對知識建構學習社區成員在KF平臺里的活動及其產出,活動建模主要包括:
(1)KF社區平臺所支持的成員關系,包括教師與學生、學生與學生、個體與小組、小組與小組、個體與班級、小組與班級、班級與班級。
(2)知識建構活動類型與過程,包括基礎性活動,如閱讀、評論、發展、增建、提升等;討論活動,如闡述、批判、反駁、抗辯等;生成性活動,如調查、訪談、實驗、展示等。
(3)知識類型及其發展過程,包括持續提出的問題,特別是劣構問題、概念、觀點、方案、理論等認知制品(Epistemic Artifacts)。
通過對上述的成員活動數據等進行梳理,構建人與人、人與知識、人與活動、知識與知識、知識與活動、活動與活動等方面的理論模型,為下一步知識圖譜構建提供相匹配的數據集。
本研究將根據社區成員觀點的語義分析以及活動的類型重新編碼,形成構建模型的基礎數據、統計頻次、類型,建立獨立的成員關系建模、活動建模、知識建模及復合的“人—活動—知識”模型。
例如,角色關系的建模,先對人及其活動的表現及其相應的用語特征進行分析與編碼,如表1所示;在此基礎上,進一步歸納出角色歸類,如表2所示。
(二)關鍵問題之二:知識建構活動特征語料庫建構
KF中的知識建構活動有基礎活動、討論活動、生成性活動等多種形式,每種活動形式則有多種環節,但是社區成員在知識構建活動中每個環節的語言表達有一定的規律可循。研究者通過查找文獻、調查及組織專家討論,形成初步的特征分析表,如表3所示,通過用戶試用等進行信度與效度檢測,進而形成初步的語料庫原型,后期的系統使用中,還需要運用機器學習相關算法對語料庫持續優化。
(三)關鍵問題之三:知識圖譜自動構建引擎研發方案
為了滿足社區互動交流文本長度短、需求實時性高、差異性比較等需求,研發涉及如下關鍵技術。
1.小數據知識圖譜構建
在構建知識圖譜時,面臨著文本短、數據規模較小等問題。在技術上,應能夠從短文本、小數據集中抽取實體及實體間的關系,提高短文本概念抽取的準確性。本研究擬采用如下方案提升知識圖譜建構過程中的準確性:
(1)采用知識建構活動特征語料庫,協助進行知識建構活動數據預分類。
(2)采用短文本分析技術,減少短文本分析過程中語義信息的損失。
知識圖譜構建中,實體及實體發現的流程設計如圖2(a、b)所示:
2.相似知識圖譜相似度計算
在教學應用中,比較兩個同學、教學的不同階段、教學班級社區活動的知識圖譜,有助于評價學生學習情況、教學過程等,這就需要對同質的知識圖譜進行比較。兩個同類知識圖譜(G1、G2)之間可能存在如下三種情況,如圖3(a、b、c)所示。
從圖的節點、邊、權重構成看,本選題擬采用知識節點圖譜映射、權重加權的方法,計算同質圖譜間的相似度,相似度的量化涉及的因素是研究的重點之一。其求解流程思考如表4所示:
3.實時高性能計算
社區成員的知識建構活動是隨時發生的,社區活動中的數據是一個不斷集聚的過程。知識圖譜應該能夠支持實時的更新,以動態反映個體、小組及班級的學習變化情況。為提升知識圖譜構建引擎的計算性能,本研究擬采取如下技術措施:
(1)累積式知識圖譜構建,從知識建構活動進展、過程數據的增進,以累積式、可擴展的策略,動態調整知識圖譜中的節點、邊及關系權重等。
(2)在軟件架構選型上,采用高性能的計算框架,采用業內較為流行的基于內存的流計算,主要平臺有Hadoop體系中的Spark Streaming等。
四、知識建構社區知識圖譜的教學應用路徑
知識建構學習社區的知識圖譜應用路徑,可以貫穿整個知識建構教育與研究的全過程。其基本應用可以從知識建構教學的基本流程展開。在知識建構初期,知識圖譜可以主要用于促進學生問題提出;在知識建構中期,主要在于促進學生觀點發表與改進;在知識建構后期,主要用于促進知識建構學習社區理論的協同建構。
知識圖譜的可視化表征,首先是建立在對學生的觀點表達的基礎上可視化處理,比如運用相關算法自動篩選KF社區中的高頻詞、對KF學習平臺中的學習支架使用頻次的自動統計……進而熱詞分析、支架使用雷達圖等可視化工具。其次是勾畫關鍵詞相關性聯結,比如,以初中物理為例,挖掘并搭建初中物理語料庫,根據語義相關與文本相似性形成學科全面的概念知識圖譜,作為本研究知識圖譜自動構建的初步概念原型。再次,針對KF學習平臺中學生間的關系強弱、互動頻次、交互內容及價值傾向等提出自動量化評價模型,構建多類型知識、多層次用戶、多樣化活動的知識圖譜,提供分析與評價的依據。
參考文獻:
[1]滿其峰,張義兵,劉瑤,等.小學知識建構社區中的批判性思維研究?[J].電化教育研究,2014,(2):113-120.
[2]趙建華.知識建構的原理與方法[J].電化教育研究,2007(5):9-15.
[3]CHEN B,HONG H Y.Schools as Knowledge-Building Orga-nizations:Thirty Years of Design Research[J].Educational Psych-ologist(S0046-1520),2016,51(2):266-288.
[4]BENGIO Y.Learning Deep Architectures for AI[J].Foundations & Trends in Machine Learning(S1935-8245),2009,2(1):1-127.
[5]DONG X L,GABRILOVICH E,HEITZ G,et al.From Data Fusion to Knowledge Fusion[J].Proceedings of the Vldb Endowment(S2150-8097),2015,7(10):881-892.
[6]史樹明.自動和半自動知識提取[J].中國計算機學會通訊,2013, 9(8):65-73.
[7]漆桂林,高桓,吳天星.知識圖譜研究進展[J].情報工程,2017, 3(1):4-25.
[8]孫鎮,王惠臨.命名實體識別研究進展綜述[J].現代圖書情報技術, 2010,26(6):42-47.
[9]LIU X,ZHANG S,WEI F,et al.Recognizing Named Entities in Tweets[C]//Meeting of the Association for Computational Linguistics:Human Language Technologies.Association for Computational Linguistics,2011:359-367.
[10]劉知遠,孫茂松,林衍凱,等.知識表示學習研究進展[J].計算機研究與發展,2016,53(2):1-16.
[11]莊嚴,李國良,馮建華.知識庫實體對齊技術綜述[J].計算機研究與發展,2016,(01):165-192.
[12]BEREITER C.Education and Mind in the Knowledge Age[J]. Computer-Mediated Communication Magazine(S1076-027X), 2002,(5):11-27.
[13]卡爾.波普爾.客觀知識:一個進化論的研究[M].舒煒光,卓如飛,周柏喬,等譯.上海:上海譯文出版社,2015.
[14]Marlene Scardamalia,張建偉,孫燕青.知識建構共同體及其支撐環境[J].現代教育技術,2005,15(3):5-13.
[15]LEE E Y C,CHAN C K K,AALST J V.Students Assess-ing Their Own Collaborative Knowledge Building[J].International Journal of Computer-Supported Collaborative Learning(S1556-1615),2006, 1(2):277-307.
[16]JENATTION R,ROUX N L,BORDES A,et al.A Latent Factor Model for Highly Multi-relational Data[C]//Proc of? NIPS.Cambridge, MA:MIT Press,2012:3167-3175.
[17]CHEN B ZHANG J.Analytics for Knowledge Creation: Towards Epistemic Agency and Design-Mode Thinking[J]. Journal of Learning Analytics(S1929-7750),2016,3(2):139-163.
[18]Jianwei Zhang,Marlene Scardamalia,Richard Reeve,et al.Designs for Collective Cognitive Responsibility in Knowledge-Building Communities[J].Journal of the Learning Sciences(S1050-8406),2009,18(1):7-44.
[19]YANG Y,LIU H,CARBONELL J,et al.Concept Graph Learn-ing from Educational Data[C]//Eighth ACM International Conference on Web Search and Data Mining.ACM,2015:159-168.
[20]OKADA A,CONNOLLY T.Designing Open Educational Resou-rces through Knowledge Maps to Enhance Meaningful Learning?[J]. International Journal of Learning(S1447-9494),2008,15(7):526-532.
[21]HAO J,YAN Y,GONG L,et al.Knowledge Map-based Method for Domain Knowledge Browsing[J].Decision Support Systems(S0167-9236),2014,61(1):106-114.
[22]ZABLITH F,FARAJ S,AZAD B.Organizational Knowledge Generation:Lessons from Online Communities[J].Business Process Management Journal(S1463-7154),2015,22(1):89-101.
[23]CHERGUI O,BEGDOURI A,GROUX-LECLET D.Keyword-Based Similarity Using Automatically Generated Semantic Graph in an Online Community of Practice[M]//Emerging Technologies for Education.2017.