陸陽琪
(南京工程學院圖書館,江蘇南京 211167)
為了推動工程教育改革的創新,2017 年教育部正式啟動了“新工科”計劃,并就新工科的內涵特征、發展路徑、建設指南等方面的內容形成了新工科建設的“三部曲”——復旦共識、天大行動和北京指南。在新工科不斷發展建設的背景下,高校圖書館作為學校教學和科研服務的保障支撐部門要積極應對,以滿足高校新工科建設的要求。本文嘗試以南京工程學院工科類科研文獻為數據源,利用隱含狄利克雷分布(Latent Dirichlet Allocation,LDA)模型提取研究主題,幫助科研人員快速了解研究領域的熱點主題,為圖書館助力高??蒲泄ぷ?,完善精準知識服務探索新的路徑。
從科研成果中挖掘研究熱點和主題一直都是圖書情報領域的重要研究方向,研究者們利用各種方法和工具對此進行研究,主要有共詞分析法、詞頻分析法、共被引分析法、內容分析法、社會網絡、LDA 模型等。趙蓉英等[1]利用CiteSpaceⅡ對文獻進行共引分析和聚類分析,揭示了文獻計量學的研究熱點和發展趨勢。李亞員[2]利用研究文獻的高頻關鍵詞進行共詞分析,梳理了我國慕課研究現狀與熱點??缕降龋?]利用社會網絡分析方法,借助UCINET 等工具對國外信息管理相關文獻的關鍵詞進行統計和聚類分析,挖掘研究熱點。李永忠等[4]利用LDA 模型抽樣獲得電子政務相關文獻的主題,總結分析了目前國內電子商務研究的熱點。吳查科等[5]利用LDA 方法建立了國內圖書館學研究的主題模型,挖掘圖書館學領域主題及其演變情況。
對于高校圖書館而言,如何從海量動態的文獻數據中精準獲取信息,幫助科研人員了解研究領域的發展趨勢和前沿熱點,找出創新突破點已成為高校圖書館精準知識服務面臨的一項挑戰[6]。LDA 是在機器學習和自然語言處理等領域用來在一系列文檔中發現抽象主題的一種統計模型,它可以將文檔集中每篇文檔的主題按照概率分布的形式給出。LDA 在文本主題識別、文本分類以及文本相似度計算等方面有著良好的效果,因此廣泛被研究者們應用到各學科領域,如計算機領域、圖書情報學領域、經濟學領域等等[7-9]。但LDA模型目前在高校圖書館服務方面的實踐探索還較少,因此,本文利用LDA 模型分析了南京工程學院近10 年工科科研成果的研究熱點,探索高校圖書館利用數據科學技術更好地服務科研的可能性。
本文以中國知網期刊全文數據庫收錄的文獻為數據來源,以作者單位=“南京工程學院”為檢索表達式,匹配方式為“模糊”,并將文獻發表時間限定為2010—2019 年,共檢索到8 783 條結果。本研究主要基于工科類科研成果,因此進一步將作者單位限定在電力工程學院、機械工程學院、材料科學與工程學院、能源與動力工程學院等工科院系。同時,人工核查剔除字段不全和不相關的文獻,得到有效數據4 437條。本文提取4 437 條篇目數據中的摘要字段,建立語料庫。檢索時間為2020年5月19日。
在自然語言處理工程中,文本預處理通常包括分詞、文本清洗、標準化、特征提取等步驟。對于中文分詞,jieba 分詞是目前最常用的分詞系統,本文利用Python 程序安裝jieba 庫,對每篇文獻的摘要字段進行分詞處理,文獻摘要中可能會包含一些常見的、與主題無關的詞語和特殊符號,因此需要進行停用詞和特殊符號處理,接著利用scikit-learn 向量化工具CounterVectorizer 對文本特征進行處理,以上文本處理完成后即可獲得LDA主題建模的訓練樣本。
文本預處理完成后,利用python的sklearn庫來實現南京工程學院近10年工科科研成果的LDA主題建模。構建LDA模型首先需要確定一個合適的主題數量,本文選用困惑度(Perplexity)指標作為確定最佳主題數量的參考指標,經過計算發現當主題數為15時,困惑度最小,因此確定主題數為15。
根據LDA 模型的初步訓練結果,獲得15 個主題的詞項分布和4 437篇文獻的主題分布。主題詞項分布如表1 所示,由于篇幅所限,每個主題展示10 個與主題相關的高頻詞。本文對15個主題的概率詞項進行推理,對每個主題名稱進行命名,例如從主題14中的“模擬、有限元、分布、數值、計算”推理出該主題關于“數值分析”,說明LDA模型的提取效果較好。
根據文獻主題分布結果,對每篇文檔的主題概率排序,選擇每篇文檔的最大概率進行主題歸類,每篇文檔都被賦予最能代表該文檔的主題詞,表2 為每個主題對應的文獻篇數的統計及占比情況,從表中可以看出“教育教學”“系統設計”和“檢測算法”是占比前三位的主題詞,表明在南京工程學院工科專業中高等教育與教學以及自動化系統和算法的應用較為普遍。
為了更好地解釋研究主題,更直觀地了解研究主題如何相互關聯,本文利用pyLDAvis 庫創建了生成LDA模型的交互式可視化結果,如圖1所示。LDA的可視化結果包括兩個部分,左側展示了主題模型的完整視圖,圓圈的大小代表了每個研究主題的文獻數量,并按照文獻數量的遞減順序對研究主題進行排序,圖1 中的研究主題1 即為“教育教學”。圓心之間的距離表示研究主題之間的相互關系,即兩個圓心間的距離越近,兩個研究主題間的相關性越高,例如數值分析在機器人算法代碼研究中有一定應用,因此,主題10“機器人”和主題14“數值分析”的圓圈就有重疊。右側展示的是左側突出顯示的研究主題中出現的前30 個最相關單詞的直方圖,比如左側選中研究主題1“教育教學”,右側展示的是與“教育教學”最相關的前30 個詞語,如教學、學生、學習、本科、工程等。
LDA 的可視化結果還可以用來探索主題詞之間的關系,具體來說,當右側的單詞“傳感器”突出顯示時,左側顯示了它在各個研究主題中分布的情況,如圖2所示?!皞鞲衅鳌币辉~可以在主題2“系統設計”、主題5“鎂合金”和主題10“機器人”中找到。
利用LDA 建模方法,本文確定了南京工程學院工科學科近10 年CNKI 收錄的中文期刊論文共15 個研究主題。研究發現,不同的工科學科,存在一些共性研究主題,比如高等教育、數據挖掘等。另外一些研究主題之間有著鮮明的學科特性,比如電力系統、數控機床、繼電保護、復合材料等等。實驗表明,LDA建模結果有助于快速了解教師的研究需求,高校圖書館館員可以利用數據科學技術更好地為廣大讀者服務。本文重點關注工科學科的研究需求,但LDA建模方法也可以應用到解決其他學科的教學科研需求甚至是分析圖書館館藏數據、用戶數據等方面的問題上。

表1 南京工程學院近10年工科科研成果主題分布

表2 主題文獻數量及占比統計
本文利用LDA 模型分析南京工程學院近10 年CNKI 收錄的工科科研成果的研究熱點,初步探索了圖書館利用數據和數據科學技術服務科研的可能性,未來數據科學技術的應用還可以延伸到館藏管理、參考咨詢和教學決策等。
本研究還存在一些局限。首先,利用中國知網期刊全文數據庫來提取教師的科研成果,數量可能會偏少,因為對于理工類學科來說,教師可能還有一些成果被SCI、EI 等收錄;其次,由于學科交融越來越多,一些重疊主題解釋起來比較困難。后續研究可以進一步深入探索基于LDA的圖書館知識服務。

圖1 研究主題可視化結果

圖2 “傳感器”在多個研究主題上的分布情況