李菲 路陽 馬強
摘? ?要:隨著教育信息化的迅速發展,以及高等教材具有的專業性、開放性、公開性等特性,高校課程教材的種類和數量不斷增加。由此帶來了諸如同一學科課程教材內容相互交叉、重疊、低水平重復等現象日益突顯,以及個性化教材編制缺少有效參考等問題。文章基于文本挖掘技術對高等教材內容進行分析,即借助統計方法識別教材中的術語之后,使用自然語言處理技術對文本內容進行分詞處理,進而統計并截取出高頻詞匯,構建“高頻詞—課程教材”矩陣,對高頻詞匯在同一學科課程教材知識內容中的分布情況進行聚類分析,挖掘出課程教材某一知識點研究中的熱點。最后實現知識點的量化,以期幫助課程教材編制人員篩選、評價教材,為個性化課程教材編制提供輔助。
關鍵詞:內容分析;文本挖掘;術語識別;層次聚類;熱點分析
中圖分類號:G434 文獻標志碼:A 文章編號:1673-8454(2021)05-0054-07
一、研究背景
在教育信息化的推進過程中,高等教育的教學資源越來越多[1]。通過檢索《讀秀》數據庫中書籍名為《教育心理學》的圖書,分別采用“精確匹配”的方式搜索到4332本圖書和采用“模糊匹配”的方式共搜索到20235本。分析每年《教育心理學》教材的出版數量,發現課程教材每年的出版增長量基本呈現平穩趨勢。
傳統的教材分析方式主要依據教材評價指標體系及專家評議,針對不同學科類別,從多個方面對課程教材進行專家評分,通過專家評分得到教材的量化結果[2]。這種教材評價方式具有使用簡單、直觀性強的特點,但其評價體系設計復雜、繁瑣、主觀性強,在靈活性、準確性和客觀性上尚存在欠缺[3]。
隨著高等課程教材數量的不斷增長,采用傳統的課程教材評價方式,顯然存在任務量大、耗時費力等問題。文本挖掘借助于數據挖掘、自然語言處理、AI、機器學習等技術,意在挖掘半結構化、非結構化文本材料中隱含的規則、規律、模式、約束等能夠幫助人們做出決策的有用知識的技術[4-6]。近年來,一些研究者對文本挖掘領域研究不斷深入。例如:李尚昊、朝樂門通過檢索知網中有關“文本挖掘”和“信息分析”的期刊、學位與會議論文,從期刊來源、學位論文來源及所屬專業、基金來源等多角度進行分析,并將期刊和論文中的關鍵詞進行統計和聚類分析,得出文本挖掘在中文信息分析應用中的三方面研究,包括文本挖掘基本理論和方法研究、在Web中文信息處理中的研究、結合具體領域的研究[7]。施萱軒等人通過將文本挖掘技術應用到電力行業中,結合文本挖掘的流程,提取出電力部門反饋信息中的關鍵詞,并對投訴信息進行情感分析[8],從而為客戶提供了更好的服務。程志、黃榮懷在文本挖掘定義、過程和實現途徑分析研究的基礎上,重點探討了文本挖掘在教育中的應用,歸納出文本挖掘在學生檢索信息(有效性和高效性)、個性化服務、教學文檔資料管理、信息保護和安全(垃圾郵件過濾)等方面發揮的重要作用[9]。
基于教材存在的問題和文本挖掘相關研究、應用領域的深入,筆者提出一種借助于文本挖掘技術的高等教材內容分析方法。通過學校圖書館和教育教材相關網站下載1995—2015年間的《教育心理學》高等課程教材24本,隨機抽取課程教材中的某一知識點文本內容為實驗樣本。該方法首先對數據化后的文本內容進一步加工處理,統計出文本內容中的詞頻,構建“高頻詞—課程教材”矩陣,然后采用凝聚層次聚類算法按照高頻詞在同一門課程教材知識內容中的分布情況劃分類簇,并評價聚類效果,最后挖掘出《教育心理學》課程教材中學習動機知識點研究的三個方面和三十個知識點主題。從而為高等課程教材內容分析提供一種新的思路和方法。
二、數據來源和文本挖掘方法
DIKW金字塔(DIKW Pyramind)模型解釋了數據(Data)與信息(Information)、知識(Knowledge)、智慧(Wisdom)之間的區別和聯系,如圖1所示。從“數據”到“智慧”,不但是人們認識程度的提升過程,而且也是“從認識部分到理解整體、從描述過去(或現在)到預測未來”的過程[10]。
數據:是用來記錄現實世界中的事物所使用的數字、文字、視頻等多種形式的符號。
信息:通常被認為是對事物狀態和特征的描述,數據處于不同環境或場景之下具有不同的含義。
知識:人們從數據、信息中發現的,在數據或信息中存在的共性規律、認識、經驗與常識等。依據知識能否清晰表述和有效轉移,可將其分為顯性知識(Explicit knowledge)和隱性知識(Tacit Knowledge)[11]。
智慧:與人類頭腦相關的,在頭腦中形成的感知、理解、記憶、遷移、文化等超出知識的多種能力。
相比于數據庫中結構明確、存儲規范的數據形式,文本由于其不存在或難以發現統一結構,也無法按照預先定義好的結構(一般是數據庫直接存儲)進行文本數據的捕獲、存儲、計算和管理等特性,所以歸屬于非結構化數據[12]。
為了對非結構化文本數據進行挖掘和分析,從而進一步幫助管理者做出決策。本文設計了一種基于文本挖掘的高等課程教材內容分析方法,融入數據科學的思想,實現文本挖掘過程,具體過程如圖2所示。數據來源為校圖書館數據庫中的《教育心理學》電子書籍,采用文字識別和轉換工具,完成對課程教材(pdz、pdf、caj格式文本)的統一格式轉化和存儲。為了進一步保證數據的準確性,筆者對轉化后的文本內容進行了逐一校對。隨機從校對后的《教育心理學》教材中抽取學習動機知識點[13]文本內容作為實驗樣本(共1.26MB),進行文本內容知識的挖掘。
數據化:本質是從現實世界中采集信息,并對采集到的信息進行計量和記錄之后,形成原始數據,即零次數據。在課程教材中,人們將頭腦中的知識、認識,借助于語言、文字等工具,形成可以實際存儲、傳播的物質載體,其過程完成的是將一種抽象的事物借助載體進行數據化的過程。
數據加工與數據整齊化:兩者本質上都是將低層次數據向高層次數據進行轉化的過程,包括解決數據中存在的問題。具體包括:對數據質量存在缺陷的臟數據[14]進行“清洗”,形成干凈數據;數據形態不符合計算要求的亂數據進行“整齊化”,形成整齊數據。在文本挖掘領域中,計算機無法直接對文本內容進行處理,需要對原始數據進行一定的加工處理,進一步將數據轉化成“整齊數據”(Tidy Data),滿足層次聚類分析算法所需要的數據框或向量的格式要求。
探索性分析(Exploratory Data Analysis,EDA):是在盡可能少的先驗知識指導下進行的數據探索,通過可視化或其他分析方式挖掘隱含在數據中的知識,通過不斷地試誤和糾正,最終達到對數據理解的目的。
三、實驗過程與分析
文本是將頭腦中的知識進行數據化的一種方式。通過分析文本內容,可以更好地幫助理解和掌握知識。此外,詞語是組成文本內容的最基本單位[15],需要在數據加工階段,將文本內容進行分詞處理,以達到文本內容量化和文本數據轉化的目的,從而為自動化挖掘文本內容提供合適的基礎數據。
1.術語識別
不同領域中存在著不同的術語。南京理工大學的周浪[16]對專業術語(規范的領域專有詞語)的結構進行了統計分析,發現領域專業術語的70%往往都是由2個或3個詞(單字是單字詞)組合而成,因此專業術語以復合詞(多是4~6個字組成的詞語)形式出現的概率較大。
而在計算機語言學模型中,常以內聚性作為組合詞語的一項標準。其理論基礎依據如下假設:若某個詞條x與另一個詞條y同時出現的概率越高,與兩者之外的其他詞條z、m等同時出現的概率越低,則詞條x與詞條y組成復合詞的幾率就越高。其中,互信息[17]可以衡量兩個事物之間的相關性,其值越大,說明兩事物之間結合越緊密,內聚性越高,反之,結合越疏松,內聚性越小。因此,互信息能夠較好地反映詞語之間的聯合強度。
為了挖掘文本內容中的術語,筆者計算單字詞S1,S2的互信息,并用互信息值衡量兩者之間凝結的程度,計算方法如公式(1)所示。
其中,p(S1,S2)是單字詞S1,S2在給定文本數據中同時出現的概率,采用 進行計算,f(S1,S2)代表詞S1,S2在一起同時出現的頻次,F表示總的詞數。p(S1)和p(S2)表示字符串S1和S2單獨在文本中出現的概率,即 和 ,f(S1),f(S2)指的是S1,S2出現在文本數據中各自的頻次。
互信息能夠判斷詞語之間的緊密程度,卻無法判定聚合程度大的字詞一定是專有詞語或新詞,需要一個能夠衡量候選詞語與上下文之間依賴程度的參考——耦合性。信息熵是信息論中衡量信息不確定性的重要方法,可以用于衡量候選組成詞與其上下文信息之間的不確定性大小,熵值越大,不確定性越大,說明候選組成詞越獨立于所處的上下文環境,成為專有詞語和新詞的可能性就越高。公式(2)是左信息熵的計算公式。
其中S表示候選專有組成詞,l是候選詞左邊鄰接的單字詞集合,且a∈l,p(a)表示詞a在集合l中出現的頻率,使用p(a)= ,f(a)表示詞語a出現的次數,∑a∈lf(a)表示候選組成詞的左邊鄰近單字詞的總個數。公式(3)是右信息熵的計算公式。
其中,S表示候選專有組成詞, r是候選詞右邊鄰接的單字詞集合,且a∈r,p(a)表示詞a在集合r中出現的頻率,使用p(a)= ,f(a)表示詞語a出現的次數,∑a∈rf(a)表示候選組成詞右邊鄰近單字詞的總個數。
筆者將“學習動機”知識點文本內容作為原始語料進行存儲,形成語料庫。并在實驗中,按照最長詞為6個漢字的形式,互信息閾值為4、信息熵閾值為0.001、最低單字詞頻為2進行候選組成詞的識別時效果較好。表1是候選組成詞統計中,詞頻大于13的結果。
然后,對候選組成詞按照詞頻降序、信息熵值升序和互信息值降序的綜合排序方式進行排序,去除其中由數字、字母組成的無意義詞語,并排除組織、機構、人員等名稱,篩選出有關學習動機知識文本內容的術語。抽取結果如表 2所示。
2.數據加工與處理
筆者將識別出的術語加入到《教育大辭典》中,將其編纂成用戶自定義詞典,用來指導漢語詞法分析系統 ICTCLAS對原始語料的分詞過程。具體實現流程如圖3所示。
通過分析文本中重要的屬性——關鍵詞,可以衡量研究領域中的重點和熱點[18]。文章為了強調某一主題或內容,關鍵內容一般會在文本內容中反復出現。因此,筆者對組成文本內容的基本單元——詞語,進行出現頻次的統計,篩選出頻次較高的詞匯,可以發現文本內容中的關鍵詞,幫助進一步把握文章主旨。
為了有效地統計出高頻詞匯,筆者在分詞結果上進行去除停用詞的預處理[19]。所謂停用詞就是一些虛詞、嘆詞、標點符號等,去掉它們,對整個句子的意思幾乎不造成影響[20]。如“中”“了”“的”“僅僅”,以及逗號、句號、分號等都是停用詞。
對預處理后的詞語,取頻次大于13的詞語,即高頻詞匯,按照頻次信息降序排列,結果如表3所示。
為了進一步觀察高頻詞匯的分布情況,生成了高頻詞匯散點分布圖,如圖4所示。
從圖4可以看出,頻次較高的高頻詞出現在密集區外圍,并且比較分散,而較多的高頻詞聚集在頻次較低的地方。因此可知,在《教育心理學》課程教材中,關于學習動機知識點的核心關鍵詞是“學生、學習、學習動機、動機、行為、需要、興趣”,剩余較多的關鍵詞頻次信息基本相同或相近。這也從側面說明,在同一知識點核心內容或基礎內容的描述上具有一致性,并且同一知識點的描述遵從多樣性原則,符合高等教材的個性化、專業性、針對性編寫要求。
通過分析高頻詞匯,可以更好地把握同一領域內的關鍵內容,找到公認的知識點。為了進一步挖掘文本內容中隱含的主題,可以通過對所有高頻詞匯做進一步處理,統計高頻詞匯在課程教材中的出現情況,形成“高頻詞—課程教材”矩陣,采用無監督聚類的方式挖掘學習動機知識點文本內容中隱含的主題。
為了提高聚類結果的收斂速度和精度,對“高頻詞—課程教材”矩陣進行歸一化處理。即采用離差標準化,對原始數據線性變換,使數值落在[0,1]區間,計算方法如公式(4)所示。
其中,xij表示的是高頻詞i在文檔j中出現的頻次,統計出文檔j中詞頻最高的高頻詞和出現頻次最少的高頻詞,分別作為公式4中的max(yj)和 min(yj),從而得到歸一化后的矩陣,如表4所示。
3.層次凝聚聚類分析
為了分析《教育心理學》學習動機知識點文本內容中隱含的主題,使用gCLUTO軟件對歸一化后的“高頻詞—課程教材”矩陣進行聚類分析。采用的聚類方法是層次凝聚聚類算法,可視化結果如圖5所示。其中橫坐標代表《教育心理學》中包含學習動機知識點的教材,縱軸代表進行聚類的高頻詞匯。
其中,相似度的衡量采用計算余弦夾角值的方法,假定待比較高頻詞匯的特征向量 =(wi1,wi2,wi3,…,win)和 =(wj1,wj2,wj3,…,wjn)。其相似度度量方法如公式(5)所示。
sim(? , )為兩向量的相似值,cosθ是兩向量之間的余弦夾角值,wiK,wjK表示為高頻詞i和高頻詞j在第K個教材中分別對應的權值[21]信息(歸一化后的值)。
在可視化聚類結果中,帶有深淺顏色的小方格代表矩陣原始數據的值。白色代表逼近0,顏色的深淺代表詞匯出現頻次的高低。同一類簇的行列聚在一起,黑色的水平線隔開不同類別,右側對應的行聚類代表同一類的高頻詞匯,聚集到一起的高頻詞匯說明之間的距離短,圍繞著同一個主題聚集的可能性較高。最底層的列聚類表示的是對應課程教材的聚類。
為了驗證聚類結果的合理性、有效性,將層次凝聚聚類的結果,通過計算其類內相似度和類間相似度的值來評價聚類的效果。其中,相似度還是使用余弦夾角值,計算出類簇類內相似度ISim、類內相似度均值ISdev、類間相似度ESim和類間相似度均值ESdev。聚類評價結果如表 5所示。
當類內相似度的值越高,說明兩者之間的距離越短,兩者圍繞同一主題的可能性越高。類間相似度的值越低,說明類簇之間距離越遠,區分度越高,兩者歸屬不同主題的可能性越高。
通過對實驗樣本中的高頻詞匯進行層次聚類分析,去除掉聚類結果中高頻詞匯里的形容詞和副詞,保留名詞、動詞之后,分析該領域的研究熱點,歸納出以下三個方面熱點,共30個主題。
(1)有關學習動機領域專家理論、思想的介紹
分析聚類結果可知,圍繞領域專家核心理論的介紹主要分為兩個方面:一方面是學習動機知識點研究中主要的領域專家觀點和理論概述;另一方面是同一現象下,對領域專家各自觀點和理論的比較。從兩個方面對相關理論和觀點進行歸納分析,得到相關理論或專家闡述觀點9個,分別是:弗洛伊德的本能論、驅力論、層次論;阿特金森的先天無關理論、潛能理論、失調論和強化論;麥克里蘭的成就動機理論;奧蘇貝爾的動機理論;赫洛克效應;耶基斯—多德森定律;卡芬頓價值論;馬斯洛人本主義;桑代克準備律等。
(2)有關學習動機知識點的實驗(案例)分析
分析聚類結果可知,主要包含7個相關實驗。包括:獎賞與效能實驗、榜樣作用、課堂教學與年齡特征、學生的課外閱讀和活動、有關動機作用選定控制組和表揚組、研究者的誘因實驗、獎勵與懲罰等。
(3)有關學習動機知識點的相關概念定義和理解
在《教育心理學》課程教材上,學習動機知識點包含多個概念。由聚類結果分析,約有14個相關概念。包括:動機和好奇心、強化物、自我概念、教學方法、刺激物、近景性、成就動機、學習動機、內驅力、行為主義和人本主義、內源性、效能感、動機等。
四、結語
本文提出一種基于文本挖掘的課程教材內容分析方法,為課程教材內容分析提供了一種自動化的統計分析方法。該方法可以為課程教材專家、教師或學習者提供一種量化的評價方式,幫助其分析課程教材內容中的核心知識點,把握課程教材內容主題,從而進一步為課程教材的建設提供指導。
參考文獻:
[1]教高[2001]1號.教育部關于印發《關于“十五”期間普通高等教育教材建設與改革的意見》的通知[Z].
[2]佚名.普通高等教育本科教材評價指標體系及專家評議表[EB/OL].http://www.doc88.com/p-3337505848859.html.
[3]李輝.高等職業教育教材建設與評價體系研究[D].咸陽:西北農林科技大學,2007.
[4]Feldman R.&Dagan,I,Knowledge discovery in textual databases(KDT).In proceedings of the First International Conference on Knowledge Discovery and Data Mining(KDD-95), Montreal,Canada, August 20-21,AAAI Press.112-117,1995.
[5]Feldman R. eds. Poreeedings of the Sixteenth International Joint Conference on Artificial Intelligence(IJCAI-99)Works on Text Mining: Foundations, Techniques and APPlications.1999.
[6]Shehata S, Karray F, Kamel M. A Concept –Based Model for Enhancing Text Categorization[C].Proc. 13th Intl Conf. knowledge Discovery and Data Mining (KDD07).2007:629-637.
[7]李尚昊,朝樂門.文本挖掘在中文信息分析中的應用研究述評[J].情報科學,2016(8):153-159.
[8]施萱軒,姜紅紅,梁浩等.文本挖掘技術研究及其在電力行業的應用[J].機電信息,2017(30):14-19.
[9]程志,黃榮懷.文本挖掘及其教育應用[J].現代遠距離教育,2008(2):71-73.
[10]朝樂門.數據科學理論與實踐[M].北京:清華大學出版社,2017:2.
[11]周城雄.隱性知識與顯性知識的概念辨析[J].情報理論與實踐,2004(2):127-129.
[12]顧云鋒,吳鐘鳴,管兆昶等.基于教育大數據的學習分析研究綜述[J].中國教育信息化,2018(7):5-10.
[13]Haijian C ,Dongmei H,Yonghui D,et al.Design of Automatic Extraction Algorithm of Knowledge Points for MOOCs[J].Computational Intelligence &Neuroence,2015:2.
[14]劉麗敏等.大數據采集與預處理技術[M].長沙:中南大學出版社,2018.12.
[15]李浩.詞語相似度計算及其在問答系統中的應用研究[D].鄭州:鄭州大學,2017.
[16]周浪.中文術語抽取若干問題研究[D].南京:南京理工大學,2010.
[17]Patrick Pantel,Dekang Lin. A Statistical Corpus-Based Term Extractor[J].Stroulia E, Matwin S. lecture notes in artificial intelligence. London,2001:36-46.
[18]譚章祿,彭勝男,王兆剛.基于聚類分析的國內文本挖掘熱點與趨勢研究[J].情報學報,2019,38(6):578-585.
[19]Bienkowski,M.,Feng,M.,Means,B.Enhancing Teaching and Learning through Educational Data Mining and Learning Analytics:An Issue Brief[R].Washington, D.C.:U.S. Department of Education, Office of Educational Technology,2012.
[20]李臻賢.中文問答系統知識庫的自動構建問題研究[D].濟南:山東財經大學,2015.
[21]Salton G,Buckley C.Term--weighting approaches in automatic retrieva[J].Information Processing Management,1988,24(5):513-523.
(編輯:王曉明)