





【摘要】利用CNKI中國優秀碩士學位論文全文數據庫,以教育技術學專業為例,利用其中3465篇教育技術學碩士學位論文的6593個關鍵詞為研究對象,對詞頻g指數和齊普夫第二定律選取的高頻詞進行共詞聚類比較,基于詞頻g指數選取的關鍵詞得到了良好的聚類結果,為以后共詞聚類的關鍵詞選取研究提供了理論依據。
【關鍵詞】共詞聚類;詞頻g指數;齊普夫定律;教育技術學
引言
共詞分析方法是一種重要的信息計量學研究方法,也屬于內容分析法的常用方法之一。它的主要原理是:利用文獻集中詞匯對或名詞短語共同出現的情況,來確定該文獻集所代表學科中各主題之間的關系,詞匯對在同一篇文獻中出現的次數越多,則代表這兩個主題的關系越緊密。由此,統計一組文獻的主題詞兩兩之間在同一篇文獻出現的頻率,便可形成一個由這些詞對關聯所組成的共詞網絡,網絡內節點之間的遠近便可以反映主題內容的親疏關系。
共詞分析以反映文獻主題內容的高頻關鍵詞為研究對象進行統計分析,通過查閱大量的文獻和著作發現,對于高頻詞的選取即高頻詞閾值沒有統一的說法,一種方法是結合研究者自身的經驗在選詞個數和詞頻高度上平衡,即按照關鍵詞頻數分布情況選取詞頻大于某個特定值的關鍵詞作為高頻詞,這種方法由于缺乏理論指導具有一定的主觀性。另一種使用相對普遍的方法是結合齊普夫第二定律輔助判定高頻詞的界限。為更加合理選取高頻詞,本文以教育技術學碩士學位論文為例,結合齊普夫第二定律和詞頻g指數,比較二者在共詞聚類中確定高頻詞閾值的合理性。
一、概念
1 詞頻g指數
Hirsch提出用作者h指數衡量學者個人的論文產出數量和質量,引起了學界廣泛關注。Egghe利用g指數對h指數進行了修正。g指數的計算過程為:將源項論文按被引次數降序排列,找出g值,使得前g篇論文被引次數的總和大于或等于g2,而前g+1篇論文的被引次數小于(g+1)2。可以看出g指數反映的是高質量論文對某個科學家的貢獻值。
楊愛青等根據g指數的計算方法,提出了詞頻g指數的定義,即:某一個研究主題關鍵詞的數量分值為g,當且僅當此研究主題的關鍵詞總量N中,有g個關鍵詞其累計出現頻次不少于g2次,而g+1個關鍵詞其累計出現頻次少于(g+1)2次。并歸納出詞頻g指數的計算過程如表1所示:其中i為關鍵詞總量,按詞頻降序排列后每個關鍵詞所得序號。序號i為1,表明對應的關鍵詞出現頻次最多。N為源項論文總數:Fi為對應序號為i的關鍵詞的出現次數,對于所有i,有Fi-1≥Fi。共詞聚類正是通過選擇高頻詞來反映某個研究領域的知識結構,高頻詞代表了該詞在所有關鍵詞中出現頻次的貢獻值。
2 齊普夫第二定律
美國語言學家齊普夫提出了文獻計量學的一個重要定律——齊普夫定律,布什(B.Booth)首先推導出基于齊普夫第二定律關于低頻詞分布的計算公式:
ln表示文中出現的次數為n的關鍵詞數量,該公式與文獻長度無關,僅僅與關鍵詞出現的頻率有關。Donohue根據齊普夫第二定律提出了高頻詞與低頻詞的臨界值分界公式,即:
二、數據來源與研究流程
1 數據來源
本研究以CNKI為數據源,選取《中國優秀碩士學位論文全文數據庫》,簡稱為CMFD,它是國內內容最全、質量最高、出版周期最短、數據最規范、最實用的碩士學位論文全文數據庫。于2013年3月2日檢索,以“學科專業名稱”為檢索條件,以“教育技術學”為檢索詞,學位年度限定在2008年到2012年,共檢索到3465篇文獻。
2 研究流程
(1)以教育技術學領域為研究對象。
(2)選擇中國優秀碩士學位論文全文數據庫,檢索2008-2012年的文獻數據,統計其關鍵詞頻。
(3)根據詞頻g指數計算方法,計算詞頻g指數,即共詞聚類的高頻關鍵詞。
(4)根據齊普夫第二定律的公式,計算出高頻詞和低頻詞的臨界值n,得出高頻關鍵詞。
(5)根據詞頻g指數和齊普夫第二定律選取的高頻關鍵詞進行共詞聚類分析,檢驗二者選取高頻詞上的合理性。
三、數據統計與分析
1 選取高頻關鍵詞
對檢索到的3465篇文獻進行關鍵詞統計,得到原始關鍵詞6593個。刪除對研究主題沒有影響的甘肅省、日本、應用、評價、發展、對策、模式、開發等關鍵詞,合并具有相同或相近含義的關鍵詞,經過反復的人工校對,最終確定了5022個關鍵詞,將這些關鍵詞按照出現的頻次由高到低進行排序。
通過詞頻g指數的計算方法,得到高頻詞的閾值為50,即出現頻次大于24的前50個關鍵詞作為高頻詞,如表2。
根據齊普夫第二定律計算高頻詞和低頻詞的分界線,得到高低頻詞的臨界值為81,如把頻數在81次及以上的關鍵詞作為高頻詞,則本研究中共有5個關鍵詞符合要求。從選詞數量上來看,齊普夫第二定律顯然不適合作為選取高頻關鍵詞的標準。下面通過二者選取的高頻詞進行聚類結果比較,以進一步明確它們在選取關鍵詞上的區別。
2 建立高頻詞共詞矩陣
兩兩統計不同關鍵詞在同一篇文章中共同出現的次數,形成一個50X50的共詞對稱矩陣(齊普夫第二定律選取的高頻詞共詞矩陣為前5個詞形成的矩陣,以下類同),如表3所示。
3 構造相關矩陣、相異矩陣
為了消除頻次間的差距對分析結果造成影響,必須對共詞矩陣的數據做出相應處理。本文引入Ochiia相似系數法進行計算,將共詞矩陣轉換成相關矩陣。具體計算公式為:
Oehiia系數=Nij/(Ni*Nj)1/2
其中Ni和Nj分別代表關鍵詞i和j出現的次數,Nij指關鍵詞i和i共現的次數。經計算得到高頻詞的相關矩陣如表4。
在所得的相關矩陣中由于0值過多,利用它進行統計分析時易造成較大的誤差,為方便處理,用“1”減去相關矩陣中的每個數據,得到表示兩詞間相異程度的相異矩陣,如表5。
四、高頻詞共詞聚類分析
采用詞頻g指數和齊普夫第二定律兩種方法選取高頻詞及處理得到的矩陣分別進行層次聚類分析(Hierarchical Cluster),檢驗二者在共詞聚類分析中高頻詞選取的合理性。聚類的目的是將數據聚集成類,使得不同類間的相似性最小,而同一類中的相似性盡可能的大。本文利用SPSS16.0進行共詞聚類分析,選擇“組間連接法(Between-groups linkage)”,聚類結果分別如圖1、圖2所示。
從圖1可以看出,高頻詞聚類數目只有3類,聚類效果很不理想,不能如實反映教育技術學學科知識點的構成。只能通過詞頻數目大體判斷近幾年出現較多的熱點詞,其結果不能有效地用于共詞分析中。因此,齊普夫第二定律只能選擇關鍵詞中部分超高頻的詞,對于次高頻的關鍵詞并不起作用。因為共詞分析主要探討的是詞和主題之間的關系,超高頻詞不能體現出知識之間的聯系,只能從一定程度上反映出研究的趨勢。
相反,詞頻g指數就能同時選擇超高頻和部分次高頻的關鍵詞。次高頻詞能夠貼切地表達出研究主題的內容,它們之間的關系更能深層地揭示主題之間的相關性。圖2表明由詞頻g指數選擇的50個高頻詞聚類效果比較理想,體現了50個關鍵詞之間的關聯程度,其分成的類別大體符合教育技術學碩士學位論文的研究前沿,代表了教育技術學的研究方向及學科和主題的結構變化。
圖2可以看出近幾年教育技術學碩士學位論文的研究主題主要集中在以下幾方面:
(1)教師教育技術能力培訓。通過培訓,采取一定的教學策略提高中小學教師的教育技術能力,優化師資,并且培訓過程中運用績效技術提高培訓效果。同時農村地區的教師對信息技術的掌握并不理想,因此教師培訓的狀況與農遠工程的實施緊密相關。
(2)信息技術與課程整合。教育信息化的背景下隨著新課改的深入,對信息素養提出了更高的要求,在課程學習活動中使用信息技術完成教學目標,從而實現信息技術與課程內容的深層次整合。
(3)網絡教育與遠程教育。近幾年網絡與遠程教育的發展改變人們的學習方式和學習環境,如在建構主義學習理論的指導下的協作學習,混合學習的產生,遠程教育中的教學模式和教學資源的變化,網絡教育中精品課程的應用等等。
(4)基于網絡環境的研究性學習。如虛擬實驗、PBL、行動研究、網絡課程,從聚類情況可以看出教學設計的重要性。
(5)學習共同體。隨著Web2.0時代的到來,網絡環境下非正式學習更加方便快捷,具有相同愛好的學習者形成了學習共同體,如虛擬學習社區的發展,促進教師專業發展的網絡學習共同體也應運而生。
(6)新技術支持的教與學。移動通訊技術和網絡技術的發展促使教學與學習的方式發生變革,如移動學習,教育游戲等對教與學產生重大影響,成為教育技術學碩士學位論文的研究熱點。
五、結論
本文的目的是將詞頻g指數和齊普夫第二定律分別應用到教育技術學碩士學位論文的共詞聚類關鍵詞選取研究中,通過對聚類分析結果的比較,進一步明確在共詞聚類研究中選取關鍵詞的科學方法。結合以上的研究和分析,我們可以概括出以下結論:
(1)齊普夫第二定律不適合做共詞聚類的高頻詞選取,它是針對以低頻詞(詞頻為1)作為高低頻詞分界的依據;詞頻g指數在共詞聚類關鍵詞選取中具有科學性、簡便性、有效性和合理性,它所關注的是高頻詞對所有詞的貢獻值,比傳統研究中人為主觀確定關鍵詞更為客觀。從本研究中可以看出由于所選關鍵詞的多少會導致共詞聚類的結果有所不同,因此通過科學方法合理選取關鍵詞在學科可視化研究中具有極其重要的地位。
(2)本研究中選取的數據來源于CNKI中的教育技術學專業優秀碩士學位論文數據庫,盡管其具有很高的權威性,但難免存在數據的遺漏或錯誤。詞頻g指數的應用與選取的學科主題、數據源和數據質量等都有一定的關系,不同的數據源和數據質量,其結果也存在差異。因此,在接下來的研究中需要選取不同數據源并將其應用到更多領域來進行檢驗和論證。