高校典禮致辭的關鍵詞抽取方法研究

2025-03-30 00:00:00賈隆嘉周婉婷成宇歌李博軒張邦佐

中國管理信息化 2025年5期

［摘要］面向高校典禮教育價值探究的問題，引入自然語言處理技術中的關鍵詞抽取方法，進而達到精準高效分析的目的。通過對131所“雙一流”高校的439篇開學典禮致辭文稿結構和寫作特點的分析，總結發現了7點規律，結合建立的6項統計特征提出了基于多特征融合的關鍵詞抽取方法。相較傳統關鍵詞抽取方法，本文提出方法的關鍵詞抽取效果，在精確率、召回率以及F1值三方面均有不同程度提升，最高F1值達75.51%，性能提升超20%。

［關鍵詞］高校典禮致辭；關鍵詞抽取；多特征融合；教育信息化

doi：10.3969/j.issn.1673-0194.2025.05.063

［中圖分類號］TP391 ［文獻標識碼］A ［文章編號］1673-0194（2025）05-0201-08

0" " "引言

傳統對教育數據研究中，研究人員主要關注結構化數據。據IBM公司研究，一個組織的海量數據中，結構化數據僅占20%，非結構化數據和半結構化數據占比高達80%[1]。在非結構化數據中，文本數據是最主要的組成部分。對教育文本進行深入分析和研究將有助于挖掘出更多有價值的內容。高校開學典禮致辭作為教育文本中備受關注的部分，體現了一所大學的傳統和精神。2010年華中科技大學畢業典禮上，李培根校長的《記憶》致辭贏得了30余次掌聲，引發了媒體和網絡的強烈關注。自此，典禮致辭逐漸成為網絡熱點，進入大眾視野。近些年，西安交大王樹國校長的典禮致辭同樣引起了強烈反響。與科技論文不同，典禮致辭通常沒有關鍵詞或主題詞，因篇幅較長，使得人工添加關鍵詞成為耗時且具有挑戰性的任務。針對該問題，本文提出了一種基于多特征融合的無監督關鍵詞抽取方法（Keyword Extraction for opening ceremony Speech of University，KESU），相比于傳統方法，KESU作為一種輕量級無監督算法，不需要標簽數據、不需要對數據集整體進行訓練，僅需統計單篇文檔中的特征。

本文貢獻可概括為三點：一是應用創新（學科交叉），將關鍵詞抽取方法從人工智能領域引入高等教育研究中。二是提出新方法，該方法不僅可以避免因特定領域數據難以獲取、訓練數據不足而導致的分類性能差的問題，還具有輕量化和易部署的優點。三是為該領域建立數據集，構建了包含439篇高校開學典禮致辭的數據集（University Opening Ceremony Speech Data Set-Version 1.0，OCS-V1.0）。

1" " "相關研究概述

翟云秋等[2]為揭示新時期高等教育的主流價值觀和功能定位，選取了144篇“雙一流”建設高校開學典禮致辭作為研究對象，通過詞頻統計提取近四年致辭的核心高頻詞，從高等教育的社會功能、政治功能、文化功能和個體功能四個角度切入，進行了描述分析。陸一[3]為使大學文化在一定程度上可測量，選取了41篇開學和畢業典禮致辭，構建了6個觀測指標，通過對致辭文稿的逐一閱讀、識別以及計分，進行了人工統計分析。李甜甜等[4]為挖掘國內頂尖高校共同價值觀和文化內涵，運用詞云分析工具對C9高校開學典禮致辭進行了分析。于祥成等[5]選取了50篇“雙一流”建設高校開學典禮致辭作為研究對象，通過內容分析法，從詞頻和內涵兩個維度進行分析，挖掘其中的教育價值。王為民等[6]選取了200篇開學典禮致辭作為研究對象，通過文獻法和分析法，提煉出39個關鍵描述點，構建了當代大學生核心素養圖譜。

傳統研究主要集中在基于詞頻統計的方法，這類方法存在以下弊端：一是統計過程緩慢、易出錯，可處理的數據量有限；二是方法具有局限性，關鍵詞的決定因素不僅僅是詞頻，同時還包含其他多項因素。對于此類大規模、有規律可循的數據分析任務，應引入機器學習方法，不僅可以節約資源、降低人工成本，還可以挖掘出更深層次的內容。

2" " "研究方法

本研究以高校典禮致辭為研究對象，從機器學習角度出發，提出了一種基于多特征融合的無監督關鍵詞抽取方法。研究框架如圖1所示。

2.1" "候選關鍵詞重要性分析

關鍵詞抽取與特征加權相似，目標都是選取有代表性的特征詞。兩者也存在一定差異，關鍵詞抽取的目標是選擇能夠概括文章內容的特征詞，特征加權是為有區分能力的詞賦予更高權重。通過查詢相關資料并結合對致辭結構和特點的分析，我們總結了七點規律。

規律（1）：Luhn等[7]在研究中指出，“詞頻可以作為度量特征詞重要性的有效依據”。通常情況下，致辭中經常出現的詞被視為具有代表性的關鍵詞，即候選詞的詞頻與其重要性具有一定相關性。但也存在特殊情況，如“同學們”“大學”等高頻詞并非關鍵詞。因此，詞頻可作為篩選條件，但不是決定因素。

規律（2）：Ricardo Campos等[8]在研究中指出，“出現在多個不同句子中的特征詞更有可能成為關鍵詞”。與科技文章類似，致辭稿的核心觀點會在多個位置反復闡述，關鍵詞將出現在不同句子中。如2020年西安交通大學校長王樹國的開學典禮致辭中，有2段4處提到了“家國情懷”，因此，句子頻率應與詞頻一樣作為抽取關鍵詞的篩選條件。

規律（3）：C Florescu等[9]在研究中指出，“相比不考慮特征詞位置的模型，那些結合特征詞位置模型的效果普遍較好”。典禮致辭類似新聞稿，通常采用前置重點的結構，即將重要信息置于開頭部分。因此，應特別關注致辭開頭部分頻繁出現的特征詞匯。

規律（4）：在439篇致辭稿中，403篇出現了引號，占比91.80%。引號用于突出重點并進一步闡釋核心觀點，起到解釋和強調的作用。如2021年南開大學校長曹雪濤在開學典禮致辭中寫道：希望你們以雄飛躍進之姿，“與境遇奮斗，與時代奮斗，與經驗奮斗”，成為新時代的南開“志士”。這里的“時代”和“奮斗”都是關鍵詞，因此，針對引號內的內容，應給予重點關注。

規律（5）：在439篇致辭稿中，有63篇包含小標題，占比14.35%。小標題起到段落引導作用，也是對段落內容的總結和凝練，列入其中的內容大多是關鍵核心內容。如2021年北京工業大學校長聶祚仁的開學典禮致辭中有小標題：“二是牢記使命，時代揚帆立潮頭”。這里的“牢記使命”就是關鍵詞。因此，針對小標題中的內容，也需要重點關注。

規律（6）：在大部分致辭稿中，段首句作為段落的統領句，類似新聞稿采取開門見山的方式，將重點內容歸納提煉到其中，起到點明概括的作用。如2019年時任武漢大學校長竇賢康的開學典禮致辭中，第三段開頭寫道：“這種擔當在于她深厚的家國情懷”。這里的“擔當”“家國情懷”都是關鍵詞。因此，針對各段落段首句中的內容，也應采取類似小標題的處理方式，給予重點關注。

規律（7）：一般來說，特征在文檔中出現的次數越多越好，但也存在特殊情況，如停用詞表作為靜態表，不會因數據集的改變而更新，導致一些與文檔無關的高頻詞被遺漏。David Machado等[10]在研究中指出，“對于某個候選特征詞，如果出現在它兩側的特征詞數量越多，則該特征的重要性就越低”。基于以上考慮，我們提出假設：特征的重要性與出現在它兩側的特征詞數量呈負相關。

2.2" "基于多特征融合的無監督關鍵詞抽取方法

2.2.1" "文本預處理

根據處理內容不同，可分為篇章級顆粒度和單詞級顆粒度。篇章級顆粒度文本處理包括文本標準化、句子分割以及分詞等。文本標準化過程主要是將大寫字母轉換為小寫字母，中文簡體和繁體進行統一處理，這里采用Python中的upper2lower方法和chinese_standard方法。句子分割是將致辭文本拆分為多個句子，以便后續度量特征的相關屬性，這里采用Python中的segtok包。分詞采用基于Python的jieba分詞包。下一節中將重點討論單詞級顆粒度文本處理。

2.2.2" "候選特征詞重要性度量

（1）特征詞頻度量。針對規律（1），提出termFrequencynormal （t）用以度量特征的詞頻，度量方法如下：

直觀考慮是將特征詞頻直接用于信息度量，為降低長文檔中高頻詞影響，這里采用正規化形式。其中，termFrequency（t）代表特征詞t在文檔中出現的總次數，termFrequencyMeanValue（t）代表文檔中所有特征詞出現次數的平均值，standardDeviation代表非停用詞詞頻的標準差。

（2）句子頻率度量。針對規律（2），提出termSentenceFrequencynormal （t）用以度量特征詞的句子頻率，度量方法如下：

其中，termSentenceFrequency（t）代表在文檔中包含特征t的句子數量，sentenceNumber代表當前文檔包含的句子總數。

（3）重要位置信息度量。針對規律（3），提出termPositon（t）用以度量特征詞的位置屬性，度量方法如下：

其中，sentenceSet（t）代表特征t所出現句子的位置集合，paragraphSet（t）代表特征t所出現段落的位置集合，paragraphNumber代表文檔的段落數量。Median函數的作用是取集合中位數，這里通過特征詞所在句子和段落兩個位置進行綜合度量。同時，應用雙對數是為了對數據進行平滑處理，即利用對數的數值越小變化越敏感，數值越大越平滑的特點。

（4）引號標記信息度量。針對規律（4），提出termQuoteScore（t）用以度量特征的引號標記屬性，度量方法如下：

其中，termQuoteFrequency（t）代表特征t在引號內出現的次數。這里采用對數同樣也是為了對數據進行平滑處理。

（5）標題和段首信息度量。針對規律（5）和規律（6），分別提出termTitleScore（t）和termSubjectScore（t）用以度量特征詞的小標題屬性和段首屬性，度量方法如下：

其中，termTitleFrequency（t）代表特征t在小標題中出現的次數，termSubjectFrequency（t）代表特征t在段首句中出現的次數；weightTitle代表為標題信息賦予的權重，weightSubject代表為段首句信息賦予的權重。需要注意的是，小標題中的段首信息按照小標題規則度量后，將不再對段首信息進行重復統計；針對在小標題或段首句中出現引號的情況，將給予重點關注，上述度量方法更新為如下形式：

其中，termQuoteInTitle（t）代表特征t出現在小標題引號中的次數，termQuoteInSubject（t）代表特征t出現在段首句引號中的次數；weightQuoteInTitle和weightQuoteInSubject代表相應的權重。

（6）上下文相關性度量。針對規律（7），提出termCooccurrence（t）用以度量特征與其上下文特征的相關性，度量方法如下：

其中，|termFrequency（t，w）|代表指定窗口寬度w，出現在特征t周圍的特征詞數量，|Cooccurrence（t，k）|代表特征t和特征k共同出現的次數。這里提出termIrrelevance（t）用以度量特征詞的無關性，度量方法如下：

其中，maxtermFrequency為當前文檔中出現次數最多特征詞的詞頻。

接下來，將對度量信息進行整合，計算特征詞的綜合得分，度量方法如下：

termImportanceSort越小，代表相應特征詞越重要。

這里將termFrequencynormal （t）和termSentenceFrequency（t）

與termIrrelevance（t）作比值，即某個特征詞的詞頻和句子頻率確定后，上下文相關性越高，這個特征詞越重要。實際上，有些特征詞會在多個句子中頻繁出現，即詞頻和句子頻率都較高，卻沒有實際意義，這些特征詞應被賦予低權重。因此，有代表性特征詞的標準是termFrequencynormal （t）和termSentenceFrequency（t）較高，而termIrrelevance（t）較低。同樣地，特征詞在文檔中的位置也是重要信息，通過termIrrelevance（t）×term

Positon（t）度量；此外，小標題和段首信息也作為重要參數，給予了同樣關注。

2.2.3" "候選關鍵詞重要性度量

為形成關鍵詞列表，通過設置滑動窗口生成n元模型，整體構成候選關鍵詞集合。通過keywordImportanceSort（t）

表示候選關鍵詞的重要性，度量方法如下：

其中，kw代表候選關鍵詞，keywordImportanceSort（kw）

越小表示相關性越強。這里通過與termImportanceSort（t）作比值，目的是消除關鍵詞長度對結果的影響，避免結果傾向于由多個特征詞構成的關鍵詞。表1列出了北京師范大學2017年二元模型的關鍵詞結果，可以觀察到，部分結果存在相似情況，我們將在下一節提出候選關鍵詞去重方法。

2.2.4" "候選關鍵詞去重

算法1展示了關鍵詞去重過程。首先建立keywords，

用于保存關鍵詞結果；然后采用keywordImportanceSort

最低的候選關鍵詞作為初值，初始化keywords列表。通過逐一計算余下候選關鍵詞與列表中元素的相似度，結果高于閾值θ則刪除；反之則加入keywords中。表1結果經過去重后，如表2所示。

3" " "實驗分析

3.1" "對照方法

實驗選取了8個有代表性的無監督方法（YAKE[8]、TF×IDF[11]、KP-Miner[12]、SingleRank[13]、TopicRank[14]、TextRank[15]、PositionRank[9]和MultipartiteRank[16]）和2個有監督方法（Kea[17]和WINGNUS[18]）與KESU進行比較，表3對相關方法進行了總結，實驗中將采取精確率（Precision）、召回率（Recall）和F1值（F1-Score）進行評估。

3.2" "實驗結果

為確保實驗結果的可重復性，實驗中的對比方法均采用基于Python的開源工具包PKE[19]，結果詳見表4至表8。

在實驗結果中，精確率和召回率相互影響，理想情況是兩者都取得較高結果，但實際情況中它們相互制約。追求高精確率，召回率就會降低；追求高召回率，精確率就會受到影響[20]。在上述結果中可以看到，多數方法的召回率都高于精確率，主要原因是實驗輸出結果有20個，而標準關鍵詞通常不足20個，因此導致召回率高、精確率低。性能方面，KESU方法在精確率、召回率和F1值三方面均取得了較好結果；相比之下YAKE方法沒有取得較好結果，這也與Ricardo Campos[8]的描述相符：“YAKE方法更適用于印歐語系”。

圖2展示了關鍵詞分布的詞云圖。根據關鍵詞出現的規律和特點，可以發現盡管各高校致辭內容各具特色，但都體現了新時代的共同價值取向，既展示了高校的個體功能，又突出了社會功能。同時，將學生培養與國家需求相結合，體現了高校的時代性、政治性以及深厚的家國情懷。

4" " "總結與展望

高校開學典禮致辭不僅承載著具有儀式性質的傳統作用，還具備教育活動、教育引導和教育啟示的多重功能。在實際分析典禮致辭的過程中，傳統方法主要依賴詞頻統計，鑒于此類方法存在一定局限性，本研究借鑒人工智能領域中的關鍵詞抽取相關技術，提出KESU方法，同時建立了在線應用平臺。該方法能夠自動抽取典禮致辭中的關鍵詞，相比傳統分析方法，更加科學、精細和高效。

主要參考文獻

［1］劉清堂，賀黎鳴，吳林靜，等.智能時代的教育文本挖掘模型與應用［J］.現代遠程教育研究，2020，32（5）：95-103.

［2］翟云秋，程晉寬.大學校長開學典禮致辭的教育價值：基于36所“世界一流大學”建設高校校長致辭的詞頻分析［J］.江蘇高教，2021（6）：42-50.

［3］陸一.大學文化：固有傳統與新思想的均衡取舍——近五年四所大學校長典禮講話的文本解析［J］.教育學術月刊，2012（1）：7-13.

［4］李甜甜，李天培.從高頻詞看當前我國頂尖高校的關注熱點：基于2020年C9高校開學典禮校長講話的分析［J］.教育觀察，2021，10（17）：130-136.

［5］于祥成，鄭如瑩.大學開學典禮校長致辭的教育價值探賾［J］.大學教育科學，2019（5）：28-33.

［6］王為民，趙國祥.當代中國大學生核心素養的基本內涵：基于普通本科院校開學典禮寄語文本分析［J］.大學教育科學，2018（4）：18-26.

［7］LUHN H P. The automatic creation of literature abstracts［J］. IBM Journal of Research and Development，1958，2（2）：159-165.

［8］CAMPOS R，MANGARAVITE V，PASQUALI A，et al. YAKE！ Keyword extraction from single documents using multiple local features［J］. Information Sciences，2020（509）：257-289.

［9］FLORESCU C，CARAGEA C. Positionrank：An unsupervised approach to keyphrase extraction from scholarly documents［C］//Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics. 2017：1105-1115.

［10］MACHADO D，BARBOSA T，PAIS S，et al. Universal mobile information retrieval［C］//Universal Access in Human-Computer Interaction. Intelligent and Ubiquitous Interaction Environments：5th International Conference，UAHCI. 2009：345-354.

［11］SPARCK JONES K. A statistical interpretation of term specificity and its application in retrieval［J］. Journal of Documentation，1972，28（1）：11-21.

［12］SAMHAA R，EL-BELTAGY A，AHMED RAFEA B. KP-Miner：A keyphrase extraction system for English and Arabic documents［J］. Information Systems，2009（1）：132-144.

［13］WAN X，XIAO J. Single document keyphrase extraction using neighborhood knowledge［C］//AAAI. 2008：855-860.

［14］BOUGOUIN A，BOUDIN F，DAILLE B. Topicrank：Graph-based topic ranking for keyphrase extraction［C］//International Joint Conference on Natural Language Processing（IJCNLP）. 2013：543-551.

［15］MIHALCEA R，TARAU P. Textrank：Bringing order into text［C］//Proceedings of the 2004 Conference on Empirical Methods in Natural Language Processing. 2004：404-411.

［16］BOUDIN F. Unsupervised keyphrase extraction with multipartite graphs［J］. Proceedings of NAACL-HLT，2018：667-672.

［17］WITTEN I H，PAYNTER G W，FRANK E，et al. KEA：Practical automatic keyphrase extraction［C］//Proceedings of the Fourth ACM Conference on Digital Libraries. 1999：254-255.

［18］NGUYEN T D，LUONG M T. WINGNUS：Keyphrase extraction utilizing document logical structure［C］//Proceedings of the 5th International Workshop on Semantic Evaluation. 2010：166-169.

［19］BOUDIN F. PKE：An open source python-based keyphrase extraction toolkit［C］//Proceedings of COLING 2016，the 26th International Conference on Computational Linguistics：System Demonstrations. 2016：69-73.

［20］曾子明，張瑜，李婷婷.多特征融合的突發公共衛生事件潛在謠言傳播者識別［J］.圖書情報工作，2022，66（13）：80-90.