辛瑞昊,董哲原**,苗馮博**,王甜甜**,李英瑞**,馮 欣
(1.吉林化工學(xué)院 信息與控制工程學(xué)院,吉林 吉林 132022;2.吉林化工學(xué)院 理學(xué)院,吉林 吉林 132022)
當(dāng)今時(shí)代正是各行各業(yè)發(fā)展的時(shí)代,也是革新的時(shí)代。伴隨改革開放的不斷深化,我國高等教育實(shí)施全面性的改革,作為人才培養(yǎng)基地,各大高校面臨的改革任務(wù)越來越重[1]。利用現(xiàn)有高等教育改革文獻(xiàn),厘清高等教育改革的現(xiàn)狀和發(fā)展,才可能有的放矢促進(jìn)高等教育的發(fā)展[2-4]。鑒于此,本文提出一種文本挖掘和知識(shí)圖譜相結(jié)合的文獻(xiàn)分析方法,利用文本挖掘技術(shù)挖掘高等教育改革文獻(xiàn)信息,為文本分析提供數(shù)據(jù)支撐;利用高頻詞共詞分析構(gòu)建詞頻矩陣,挖掘關(guān)鍵詞間的相互關(guān)聯(lián),有效確定高等教育研究熱點(diǎn);利用文本聚類對(duì)主題詞間距離進(jìn)行計(jì)算,劃分不同研究主題,明確高等教育主要研究主題;借助可視化結(jié)果直觀展示,為后續(xù)學(xué)者的研究提供思路。
自然語言處理是計(jì)算機(jī)科學(xué)與人工智能學(xué)科中的一個(gè)交叉方向[5],利用NLP技術(shù)可以使機(jī)器自動(dòng)化對(duì)語言進(jìn)行處理。為了能夠獲得更多研究方向下的重要信息,利用自然語言處理對(duì)摘要中主題詞進(jìn)行抽取,用于對(duì)研究的相關(guān)數(shù)據(jù)擴(kuò)充[6],利用jieba分詞對(duì)摘要中信息進(jìn)行分割[7],提取出能準(zhǔn)確表達(dá)文本信息的詞項(xiàng)單元,這些關(guān)鍵詞能表明文獻(xiàn)的中心觀點(diǎn)[8]。為了深入分析高等教育改革內(nèi)容,本文通過引用文獻(xiàn)、規(guī)則判斷和專家審核方法,將主題詞分為研究對(duì)象(O)、研究?jī)?nèi)容(T)和研究方法(M)[9]。
目前對(duì)文本的特征提取大多使用詞頻統(tǒng)計(jì)方法。由于本文研究的主題詞主要分為研究對(duì)象、研究?jī)?nèi)容、研究方法,所以在計(jì)算特征頻率的過程中,通過詞頻特征提取計(jì)算某個(gè)特征詞的特征頻率。采用TF-IDF(Term Frequency-Inverse Document Frequency)方法對(duì)文獻(xiàn)特征進(jìn)行提取。通過計(jì)算TF-IDF值對(duì)數(shù)據(jù)集特征進(jìn)行分類訓(xùn)練,TF-IDF計(jì)算值越大,說明該詞與文本的相關(guān)性越大。
以人才培養(yǎng)詞頻統(tǒng)計(jì)為例,首先統(tǒng)計(jì)文獻(xiàn)中不同關(guān)鍵詞出現(xiàn)的次數(shù),例如人才培養(yǎng)出現(xiàn)過X次,文本共有N個(gè)詞,可得人才培養(yǎng)出現(xiàn)的詞頻為X/N;隨后計(jì)算逆文本頻率指數(shù)IDF,計(jì)算方法為log(DA/D),其中D為出現(xiàn)人才培養(yǎng)的文本的具體數(shù)量,DA為全部文獻(xiàn)樣本數(shù)量;最后進(jìn)行TF-IDF具體數(shù)值的計(jì)算,計(jì)算公式如下:
(1)
采用TF-IDF特征提取法計(jì)算出文本中每個(gè)特征詞的TF-IDF權(quán)重值,并對(duì)其進(jìn)行降序排序,然后根據(jù)預(yù)先設(shè)定的篩選條件選出滿足要求的特征詞,從而實(shí)現(xiàn)了對(duì)原特征空間的降維。
為了更深層次剖析高等教育改革文獻(xiàn)研究?jī)?nèi)容中的主要研究方向,運(yùn)用K-means算法結(jié)合余弦距離函數(shù)對(duì)研究?jī)?nèi)容主題詞進(jìn)行聚類[10-12]。K-means算法是一種通過多次迭代求解的聚類分析算法,是基于劃分式方法的一種聚類方法,它有線性的時(shí)間和空間復(fù)雜度。K-means算法流程如下:
1)上傳高等教育改革文獻(xiàn)數(shù)據(jù)集DS,設(shè)置隨機(jī)種子數(shù)(Seed值)及目標(biāo)簇K值;
2)隨機(jī)從數(shù)據(jù)集中,選取K個(gè)文本{S1,S2…,SK}作為文本集初始聚類中心點(diǎn);
3)通過計(jì)算每個(gè)對(duì)象與初始聚類中心的距離dis(DS,Sk);
4)對(duì)文獻(xiàn)和距離最近中心點(diǎn)進(jìn)行匹配,將其分配給距離最近的聚類中心;
5)重新計(jì)算簇的中心,重復(fù)上述步驟1~4,直到簇心穩(wěn)定。
在進(jìn)行聚類時(shí),需要選擇合適的聚類距離衡量尺度。考慮到使用歐式距離來度量樣本之間的相似度會(huì)造成很大的誤差,本文利用K-means算法和余弦距離相結(jié)合的方法對(duì)研究?jī)?nèi)容主題詞進(jìn)行聚類,余弦公式相似度計(jì)算公式如下:
(2)
式中:si和cj表示兩個(gè)數(shù)據(jù)點(diǎn);‖·‖表示為向量,若其值等于1,則兩向量相等;若等于零,則兩向量共同點(diǎn)。兩個(gè)主題詞之間的余弦相似度越高,這兩個(gè)主題詞之間的相似度越大。
為了定量化分析高等教育改革趨勢(shì),本文采用文本挖掘與知識(shí)圖譜相結(jié)合的文獻(xiàn)智能分析方法,如圖1所示。

圖1 文獻(xiàn)智能分析框架
第一階段為數(shù)據(jù)收集。以“高等教育”和“改革”為主題,設(shè)置檢索時(shí)間為“2010—2020年”,邏輯關(guān)系為“與”,期刊來源為CSSCI、EI、SCI、北大核心,利用網(wǎng)絡(luò)爬蟲從選定的內(nèi)容中獲取文獻(xiàn)文本數(shù)據(jù)。
第二階段為數(shù)據(jù)預(yù)處理階段。在對(duì)重要信息提取后,將獲取到網(wǎng)頁加載存在問題的文獻(xiàn)進(jìn)行篩選,將清洗后數(shù)據(jù)進(jìn)行存儲(chǔ)。
第三階段是數(shù)據(jù)分析階段。利用處理后的文本數(shù)據(jù),對(duì)數(shù)據(jù)進(jìn)行知識(shí)圖譜分析。通過高頻詞共現(xiàn)分析、文本聚類分析和可視化分析方法,揭示高等教育改革領(lǐng)域的核心主題和研究熱點(diǎn)。
本文數(shù)據(jù)來源于“中國知網(wǎng)(CNKI)”的期刊數(shù)據(jù)庫,研究文獻(xiàn)類型選擇“期刊”,以“高等教育”和“改革”為主題詞進(jìn)行精確檢索,設(shè)置檢索時(shí)間為“2010—2020年”,邏輯關(guān)系為“與”,選擇期刊來源為CSSCI、EI、SCI、北大核心,共檢索出論文10 642篇,將這些文獻(xiàn)作為本文統(tǒng)計(jì)分析的數(shù)據(jù)源。采取定向爬蟲的方法,爬取知網(wǎng)有關(guān)“高等教育+改革”為主題的數(shù)據(jù)信息,作為本文分析的數(shù)據(jù)基礎(chǔ)。
中介中心度是衡量作者影響力的重要因素。一個(gè)結(jié)點(diǎn)充當(dāng)“中介”的次數(shù)越高,它的中介中心度就越大[13]。高等教育改革研究領(lǐng)域核心作者發(fā)文量統(tǒng)計(jì)見表1。

表1 高等教育改革研究領(lǐng)域核心作者發(fā)文量統(tǒng)計(jì)
其中,鐘秉林的發(fā)文量最多(60篇),其次是馬陸亭(44篇),別敦榮以39篇的發(fā)文量位列第三。從作者的中介中心度來看,鐘秉林、馬陸亭也位于前列。此外,張應(yīng)強(qiáng)、瞿振元中介中心度也較高,表明他們?cè)诟叩冉逃母镅芯款I(lǐng)域有著較高的影響力。鐘秉林、馬陸亭、張應(yīng)強(qiáng)等都從事高等教育工作,在高等教育改革中提出了很多鮮明的觀點(diǎn)。由此可知,在當(dāng)下的高等教育改革中,從事教育的工作者,是高等教育改革過程中的主力軍。
關(guān)鍵詞通常指一組詞或者短語可以表達(dá)一個(gè)文檔核心主題,它能夠?qū)ξ谋緝?nèi)容進(jìn)行提取和凝練,幫助人們篩選信息從而定位到所需文檔。本文通過對(duì)樣本文獻(xiàn)提取高頻關(guān)鍵詞,可以從整體上呈現(xiàn)近十年間高等教育改革領(lǐng)域存在的研究熱點(diǎn)。目前確定高頻詞的方法主要以下三種:①平均TF-IDF排序。利用計(jì)算主題詞在所有文獻(xiàn)出現(xiàn)的平均TF-IDF,構(gòu)建高頻詞矩陣,來確定高頻關(guān)鍵詞。平均TF-IDF值越接近1,說明該詞在總文獻(xiàn)出現(xiàn)的頻率越高。②主觀選定法,依據(jù)研究者的經(jīng)驗(yàn)在詞頻閾值和選詞個(gè)數(shù)之間進(jìn)行平衡選定。③利用齊普夫定律確定高頻詞頻值。本文采取第一種方法來確定高頻主題詞。
由于研究文獻(xiàn)數(shù)目大,在剔除無法明確定義類型的主題詞后,表2中可以看出排名前10主題詞的頻數(shù)、類型和平均TF-IDF權(quán)數(shù),其中“O”表示研究對(duì)象、“T”表示研究?jī)?nèi)容。

表2 “高等教育”加“改革”研究高頻主題詞
共詞聚類分析法(Co-word Cluster Analysis)是文本聚類分析中的一種。它通過對(duì)期刊研究的關(guān)鍵詞進(jìn)行聚類分析,對(duì)共詞網(wǎng)絡(luò)中各關(guān)鍵詞間的聯(lián)系強(qiáng)度進(jìn)行運(yùn)算,把相互間聯(lián)系相對(duì)緊密的主題聚集起來形成概念相對(duì)獨(dú)立的團(tuán)體,可以直觀展現(xiàn)關(guān)鍵詞之間的關(guān)系。其結(jié)果如圖2所示。圓形節(jié)點(diǎn)越大,表示該關(guān)鍵詞的共現(xiàn)次數(shù)越多,連線越多,表明該關(guān)鍵詞與其他關(guān)鍵詞的共現(xiàn)次數(shù)越多。直觀地發(fā)現(xiàn),“高等教育”聚類面積最大,其次是“高校”“人才培養(yǎng)”“培養(yǎng)”,學(xué)者們密切關(guān)注這幾個(gè)層面。

圖2 主題關(guān)鍵詞聚類
研究?jī)?nèi)容表征了高等教育中重點(diǎn)關(guān)注的問題和現(xiàn)象。本文利用余弦距離相似度對(duì)研究主題詞進(jìn)行K-means聚類,將研究主題詞聚類成3個(gè)區(qū)域,聚類中心分別為人才培養(yǎng)、教學(xué)改革及治理,這3個(gè)主題詞所代表的主題形成了文本聚類研究領(lǐng)域的3個(gè)方面,如圖3所示。

年份/年圖3 研究主題年限統(tǒng)計(jì)分布圖
從研究主題年限統(tǒng)計(jì)分布能發(fā)現(xiàn),2010—2018年是我國高等教育改革研究的萌芽階段,學(xué)者們開始了高等教育探索,3個(gè)主題每年發(fā)文量在60篇以內(nèi)。在這個(gè)階段,高等教育改革引起學(xué)術(shù)界的廣泛重視。2018—2020年間是我國高等教育改革升溫階段,三個(gè)主題發(fā)文量呈逐年上升趨勢(shì)。2020年“人才培養(yǎng)”主題文獻(xiàn)發(fā)文量接近700篇,“教學(xué)改革”和“治理”主題文獻(xiàn)發(fā)文量接近300篇,這個(gè)階段學(xué)者們聚焦于高等教育改革研究。同時(shí),根據(jù)研究主題年限統(tǒng)計(jì)分布圖,結(jié)合“十四五”建設(shè)高質(zhì)量教學(xué)改革內(nèi)容,預(yù)示著相關(guān)主題增長(zhǎng)趨勢(shì)還將持續(xù)下去。
為了清晰呈現(xiàn)研究?jī)?nèi)容(O)和研究對(duì)象(T)的關(guān)系,探究其內(nèi)在關(guān)聯(lián),通過計(jì)算二者相關(guān)性進(jìn)行熱點(diǎn)領(lǐng)域分析,如表3所示。通過相關(guān)性結(jié)果與高等教育研究主題相結(jié)合能夠得出,除“教育”“改革”“發(fā)展”等過于寬泛的熱點(diǎn)外,緊隨其后的就是“人才培養(yǎng)”;此外,在后續(xù)中主要熱點(diǎn)還有“教學(xué)改革”“治理”等。“十四五”建設(shè)高質(zhì)量教學(xué)體系指出,高校建設(shè)改革體系要堅(jiān)持圍繞學(xué)生、關(guān)愛學(xué)生,真正把學(xué)生放在主體地位,研究學(xué)生的思想動(dòng)態(tài)、成長(zhǎng)規(guī)律,注重學(xué)生的全面發(fā)展,利用科技教學(xué)手段,培養(yǎng)新時(shí)代高層次人才;同時(shí),將嚴(yán)格管理與人性管理結(jié)合起來,統(tǒng)籌教育體系和治理能力之間的關(guān)系,深化高等教育改革的總目標(biāo)。“高等教育+改革”主題主要圍繞“人才培養(yǎng)”“教學(xué)改革”“治理”這3個(gè)方面,這也與“十四五”高質(zhì)量教育改革要求相契合。

表3 “高等教育+改革”研究對(duì)象和研究?jī)?nèi)容相關(guān)性
本文提出一種文本挖掘和知識(shí)圖譜相結(jié)合的方法,對(duì)國內(nèi)的高等教育改革相關(guān)文獻(xiàn)進(jìn)行數(shù)據(jù)挖掘和分析。通過作者產(chǎn)出與共現(xiàn)分析、高頻詞進(jìn)行共現(xiàn)分析、主題詞文本聚類和可視化分析方法,揭示高等教育改革領(lǐng)域的核心主題和研究熱點(diǎn)。根據(jù)主題詞頻矩陣統(tǒng)計(jì),高等教育(0.54)、教育(0.42)和高校(0.44)所對(duì)應(yīng)的平均TF-IDF值高于知識(shí)圖譜構(gòu)建規(guī)定的標(biāo)準(zhǔn),在一定程度反映了高等教育改革較為集中于對(duì)高等教育、教育和高校的研究。文本聚類和熱點(diǎn)相關(guān)性分析結(jié)果表明,未來該領(lǐng)域的研究應(yīng)該仍集中在人才培養(yǎng)、教學(xué)方式、治理體系及治理能力改革上。通過本文的研究,可以為我國高等教育改革的現(xiàn)狀研究及新研究方向的開拓,提供一定的依據(jù)和借鑒。