王萍
(上海大學 計算中心,上海 200444)
《國家中長期教育改革和發展規劃綱要(2010-2020年)》提出:信息技術對教育發展具有革命性影響,必須予以高度重視;要加強優質教育資源開發與應用。虛擬學習社區(VLC)是一種基于網絡而形成的學習型組織,是由計算機、互聯網和人所組成的人——機系統,融合了媒體信息、用戶行為和網絡關系結構三大要素,是一種復雜的媒體形態。
隨著Web技術的發展,虛擬學習社區的應用形式和應用范圍不斷發展和豐富。在當前環境下,虛擬學習社區呈現出新的特點:大規模虛擬學習社區發展成為一個異構的信息網絡,其要素類型、互動過程及網絡關系變得日益復雜;同時,虛擬學習社區中蘊含了豐富的知識,是一個覆蓋面廣,擴展性好,實時性強的知識庫,這些知識隱含在社區中文本、學習者之間的互動和學習者與資源之間的交互中。
虛擬學習社區的發展和特點,要求從學習角度和技術角度對虛擬學習社區做深入研究,同時關注教育學、社會學和技術科學的研究方法。對模型構建的研究是虛擬學習社區研究中的重要環節,有助于幫助我們認識、分析大規模虛擬學習社區的要素、結構與關系,更好地設計和優化虛擬學習社區,指導虛擬學習社區的學習實踐。
虛擬學習社區模型用于描述社區的要素、結構與關系,已有的模型構建研究可以劃分為理論模型構建和結構模型構建兩個層面。
在理論模型的構建研究上,Tu和Corry提出了一個三角形理論模型,認為虛擬學習社區由教學的、技術的和社會互動的三個維度組成,為開展VLC研究提供了指導。[1]Garrison等提出的COI模型提出了在線學習社區的社會存在、認知存在和教學存在三個要素,認為這三種要素將影響到網絡學習的效果。[2]馬鳳娟等構建了Web2.0環境下虛擬學習社區的理論模型,描述了虛擬學習社區的組織結構以及知識的流動與存儲。[3]
在結構模型研究上,當前研究主要有社會網絡分析法和復雜網絡建模法。近年虛擬學習社區社會網絡關系的重要性受到廣泛認同,主要使用社會網絡分析方法定量尋找虛擬學習社區中各角色之間的關系及其在社區中的位置。[4]王陸教授對虛擬學習社區的社會網絡結構進行了深入研究,證明了虛擬學習社區具有的社會網絡結構特征,提出虛擬學習社區社會網絡結構與網絡教育效果的因果模型。[5]陳向東等以東行記為案例,從網絡密度、小團體、中心性等角度探討了Blog虛擬學習社區的社會網絡結構。[6]
相對于社會網絡分析法,復雜網絡建模側重于對網絡動態學的研究,強調社區結構的拓撲性質與演化、對社區的人員和關系演化過程進行很好的建模分析。我們前期研究構建了E-learning標簽網絡,分析了其所具備的小世界現象和無標度特征的復雜網絡性質。[7]
從虛擬學習社區的研究方法角度分析,當前我國對于虛擬學習社區的研究方法相對單一,應注重方法的多樣性和先進性,豐富虛擬學習社區研究方法。由于VLC是在技術的基礎上建設的社區,因此在關注社會學研究方法的同時,還需要關注技術科學的研究方法。
社會網絡分析和復雜網絡建模側重對社區的關系結構分析,其分析方法在分析大規模網絡時對社區要素內在的語義信息和要素間的語義關系反映不足。主題模型是復雜隨機系統建模的有力工具,其優點在于可以有效描述要素的語義信息和要素間的語義關系,并且可以利用高效的推斷算法進行計算,更適合處理大規模數據。
主題模型是一種生成式模型,借鑒了概率圖模型理論和方法,以Latent Dirichlet Allocation(LDA)模型為代表,最初用于文檔分析,主要通過引入隱含語義主題,用來捕捉各種要素之間的隱含語義聯系。[8]主題模型的主要思想是:認為一篇文檔可以理解成是由若干個隱含主題組合形成的,而這些主題由文本中特定詞匯體現,如圖1左所示。如一篇關于“虛擬環境下的泛在學習”的Blog文檔,當描述主題“虛擬環境”時,可能使用“virtual”、“reality”、“3D”、“space”等詞,而“mobile”、“ubiquitous”、“wireless”、“handheld”等詞匯則描述了主題“泛在學習”,如圖1右所示。因此可將隱含主題看作是詞的一種概率分布,單個文檔則表示為這些隱含主題特定比例的隨機混合。

圖1 主題模型的基本思想
主題模型的最初思想是對文本進行建模,它給出了一種建模和推理的范式。對主題模型中的參數賦予相關的含義,可以將其推廣到多種應用需求中,并通過對文本和其他要素信息進行聯合建模,如作者信息、時間信息等,進行模型構建。
主題模型的建模思想為社會網絡建模提供了重要思路,基于語義主題,可以實現不同網絡對象的語義關聯。如科研網絡社區建模將科研人員、科研論文、科研會議等要素進行聯合建模,社會化標簽網絡建模將標簽——用戶——資源、用戶興趣等要素進行建模,博客、微博社區建模對話題、位置等的建模。
虛擬學習社區作為一種異構的復雜知識網絡,其要素類型、互動過程及網絡關系具有自身的特點,分析其要素與要素關聯,使用主題模型進行建模研究,將是一種有效的方法。
由于虛擬學習社區的復雜性,模型構建需要能夠準確表達虛擬學習社區復雜系統中的要素與關系。這一方面要求對虛擬學習社區中各種關鍵要素和關系做出準確的理論分析,另一方面要求將這種關系以數學描述的方式體現在模型中,包括模型要素間的網絡結構、參數的設置等。
我們首先從虛擬學習社區的發展和演進角度,對不同階段虛擬學習社區的類型進行了梳理。虛擬學習社區的應用形式隨著Web技術的發展而演進,從傳統的萬維網、到社會化萬維網(Web2.0)和語義網,每次技術革新都改變著人類的信息環境,構建著新型的虛擬社會空間。虛擬學習社區的主要類型包括了Web1.0(傳統互聯網)環境下以學習管理系統和論壇為主要形式的VLC、Web2.0(社會化萬維網)環境下以博客、標簽、微博等為主要形式的VLC、Web3.0(社會化語義網)環境下以語義本體描述的VLC。
基于對不同類型虛擬學習社區及特征的分析,抽取核心要素,歸納模型構建的關鍵要素與關系。包括虛擬學習社區人的要素(學習者和教師)、內容要素(學習資源)、網絡要素(各種要素之間顯性和隱性的關系)、時序要素(時間信息)、組織要素(所屬院?;蛘n程),并分析虛擬學習社區要素之間的基本依賴關系。
模型構建的核心是引入虛擬學習社區的隱含知識主題,以知識主題為橋梁來表達虛擬學習社區中基于網絡化依賴關系。通過主題分布來表達和挖掘各種要素之間的隱含語義聯系,將學習者、學習資源、網絡關系、組織信息等社區核心要素進行聯合建模。模型的概念描述如圖2所示。

圖2 虛擬學習社區模型的概念描述
使用概率圖方法對模型進行形式化描述,圖3是所構建虛擬學習社區模型的概率圖。

圖3 虛擬學習社區模型的概率圖描述
模型的實證分析包括模型的實現、數據資源庫的建設和模型的實證分析。其中,數據資源庫的建設策略為:選擇國內外典型的虛擬學習社區(論壇型、博客型、微博型),使用網絡爬蟲、相關的應用程序接口(API)和Web服務等信息抓取技術進行數據集的獲取。實證分析的模型驗證從兩個層面進行:一方面從技術分析角度評價模型的性能與建模效果,另一方面使用問卷調查方式,對模型分析結果進行人工評測。通過模型的實證分析,對模型進行修正與完善。
在虛擬學習社區數據量規?;祿炊鄻踊鸵仃P系復雜化的環境下,知識發現研究越來越得到研究者的關注。VLC知識發現研究的目標是通過規模化的自動分析方法獲取顯式和隱含的領域知識,為學習者提供知識應用服務。知識發現應用研究有助于幫助學習者更加有效地獲取學習內容,理解學習者的行為模式,挖掘學習資源,構建語義本體,進行學習資源個性化推薦等。
基于主題模型的虛擬學習社區建模方法能夠有效分析與揭示大規模虛擬學習社區的要素與關系結構,可以得到主題——學習者分布,社區——主題分布等?;谀P头治鼋Y果,可以從多角度對虛擬學習社區進行分析,挖掘知識,探索虛擬學習社區知識發現的新方法,進行知識發現應用的具體研究。
下一步研究將進行模型的程序實現與實證分析,并基于模型進行知識發現應用的具體研究,首先進行學習資源的個性化推薦研究與知識研究。學習資源的個性化推薦的目標是為不同背景和不同偏好學習者的資源需求提供個性化服務,在推薦方法上可以使用基于模型分析的知識主題分布確定學習者對于學習資源的偏好值。知識演進研究的目標是探尋社區知識在時間維度上的動態性和發展性,我們擬采用后驗分析方法,基于模型所得到的主題,計算每個時間段中社區知識主題發生的概率,分析主題在不同時間段的特點。
[1]C.Tu&M.Corry E-learning communities[J].Quarterly Review of Distance Education,2002(2):207-218.
[2]D.R.Garrison.OnlineCommunityofInquiryReview:Social,Cognitive,and Teaching Presence Issues[J].Journal of Asynchronous Learning Networks,2007(11):61-72.
[3]馬鳳娟.Web2.0環境下虛擬學習社區模型的構建[D].山東師范大學碩士學位論文,2008.
[4]高長俊,胡世清.我國虛擬學習社區研究現狀及趨勢分析[J].遠程教育雜志,2011(4):65-70.
[5]王陸.虛擬學習社區的社會網絡結構研究[D].西北師范大學,2009.
[6]陳向東,方群,唐輝云.Blog虛擬學習社區的社會網絡研究——以“東行記”為例[J].電化教育研究,2008(1):40-44.
[6]王萍.基于自由分類法的e-Learning共現標簽網絡分析[J].中國電化教育,2008(11):99-104.
[7]D.M.Blei,A.Y.Ng,M.I.Jordan.Latent Dirichlet Allocation[J].Journal of Machine Learning Research,2003,(3):993-1022.