

















[摘 要]面向高校典禮教育價值探究的問題,引入自然語言處理技術中的關鍵詞抽取方法,進而達到精準高效分析的目的。通過對131所“雙一流”高校的439篇開學典禮致辭文稿結構和寫作特點的分析,總結發現了7點規律,結合建立的6項統計特征提出了基于多特征融合的關鍵詞抽取方法。相較傳統關鍵詞抽取方法,本文提出方法的關鍵詞抽取效果,在精確率、召回率以及F1值三方面均有不同程度提升,最高F1值達75.51%,性能提升超20%。
[關鍵詞]高校典禮致辭;關鍵詞抽取;多特征融合;教育信息化
doi:10.3969/j.issn.1673-0194.2025.05.063
[中圖分類號]TP391 [文獻標識碼]A [文章編號]1673-0194(2025)05-0201-08
0" " "引 言
傳統對教育數據研究中,研究人員主要關注結構化數據。據IBM公司研究,一個組織的海量數據中,結構化數據僅占20%,非結構化數據和半結構化數據占比高達80%[1]。在非結構化數據中,文本數據是最主要的組成部分。對教育文本進行深入分析和研究將有助于挖掘出更多有價值的內容。高校開學典禮致辭作為教育文本中備受關注的部分,體現了一所大學的傳統和精神。2010年華中科技大學畢業典禮上,李培根校長的《記憶》致辭贏得了30余次掌聲,引發了媒體和網絡的強烈關注。自此,典禮致辭逐漸成為網絡熱點,進入大眾視野。近些年,西安交大王樹國校長的典禮致辭同樣引起了強烈反響。與科技論文不同,典禮致辭通常沒有關鍵詞或主題詞,因篇幅較長,使得人工添加關鍵詞成為耗時且具有挑戰性的任務。針對該問題,本文提出了一種基于多特征融合的無監督關鍵詞抽取方法(Keyword Extraction for opening ceremony Speech of University,KESU),相比于傳統方法,KESU作為一種輕量級無監督算法,不需要標簽數據、不需要對數據集整體進行訓練,僅需統計單篇文檔中的特征。
本文貢獻可概括為三點:一是應用創新(學科交叉),將關鍵詞抽取方法從人工智能領域引入高等教育研究中。二是提出新方法,該方法不僅可以避免因特定領域數據難以獲取、訓練數據不足而導致的分類性能差的問題,還具有輕量化和易部署的優點。三是為該領域建立數據集,構建了包含439篇高校開學典禮致辭的數據集(University Opening Ceremony Speech Data Set-Version 1.0,OCS-V1.0)。
1" " "相關研究概述
翟云秋等[2]為揭示新時期高等教育的主流價值觀和功能定位,選取了144篇“雙一流”建設高校開學典禮致辭作為研究對象,通過詞頻統計提取近四年致辭的核心高頻詞,從高等教育的社會功能、政治功能、文化功能和個體功能四個角度切入,進行了描述分析。陸一[3]為使大學文化在一定程度上可測量,選取了41篇開學和畢業典禮致辭,構建了6個觀測指標,通過對致辭文稿的逐一閱讀、識別以及計分,進行了人工統計分析。李甜甜等[4]為挖掘國內頂尖高校共同價值觀和文化內涵,運用詞云分析工具對C9高校開學典禮致辭進行了分析。于祥成等[5]選取了50篇“雙一流”建設高校開學典禮致辭作為研究對象,通過內容分析法,從詞頻和內涵兩個維度進行分析,挖掘其中的教育價值。王為民等[6]選取了200篇開學典禮致辭作為研究對象,通過文獻法和分析法,提煉出39個關鍵描述點,構建了當代大學生核心素養圖譜。
傳統研究主要集中在基于詞頻統計的方法,這類方法存在以下弊端:一是統計過程緩慢、易出錯,可處理的數據量有限;二是方法具有局限性,關鍵詞的決定因素不僅僅是詞頻,同時還包含其他多項因素。對于此類大規模、有規律可循的數據分析任務,應引入機器學習方法,不僅可以節約資源、降低人工成本,還可以挖掘出更深層次的內容。
2" " "研究方法
本研究以高校典禮致辭為研究對象,從機器學習角度出發,提出了一種基于多特征融合的無監督關鍵詞抽取方法。研究框架如圖1所示。
2.1" "候選關鍵詞重要性分析
關鍵詞抽取與特征加權相似,目標都是選取有代表性的特征詞。兩者也存在一定差異,關鍵詞抽取的目標是選擇能夠概括文章內容的特征詞,特征加權是為有區分能力的詞賦予更高權重。通過查詢相關資料并結合對致辭結構和特點的分析,我們總結了七點規律。
規律(1):Luhn等[7]在研究中指出,“詞頻可以作為度量特征詞重要性的有效依據”。通常情況下,致辭中經常出現的詞被視為具有代表性的關鍵詞,即候選詞的詞頻與其重要性具有一定相關性。但也存在特殊情況,如“同學們”“大學”等高頻詞并非關鍵詞。因此,詞頻可作為篩選條件,但不是決定因素。
規律(2):Ricardo Campos等[8]在研究中指出,“出現在多個不同句子中的特征詞更有可能成為關鍵詞”。與科技文章類似,致辭稿的核心觀點會在多個位置反復闡述,關鍵詞將出現在不同句子中。如2020年西安交通大學校長王樹國的開學典禮致辭中,有2段4處提到了“家國情懷”,因此,句子頻率應與詞頻一樣作為抽取關鍵詞的篩選條件。
規律(3):C Florescu等[9]在研究中指出,“相比不考慮特征詞位置的模型,那些結合特征詞位置模型的效果普遍較好”。典禮致辭類似新聞稿,通常采用前置重點的結構,即將重要信息置于開頭部分。因此,應特別關注致辭開頭部分頻繁出現的特征詞匯。
規律(4):在439篇致辭稿中,403篇出現了引號,占比91.80%。引號用于突出重點并進一步闡釋核心觀點,起到解釋和強調的作用。如2021年南開大學校長曹雪濤在開學典禮致辭中寫道:希望你們以雄飛躍進之姿,“與境遇奮斗,與時代奮斗,與經驗奮斗”,成為新時代的南開“志士”。這里的“時代”和“奮斗”都是關鍵詞,因此,針對引號內的內容,應給予重點關注。
規律(5):在439篇致辭稿中,有63篇包含小標題,占比14.35%。小標題起到段落引導作用,也是對段落內容的總結和凝練,列入其中的內容大多是關鍵核心內容。如2021年北京工業大學校長聶祚仁的開學典禮致辭中有小標題:“二是牢記使命,時代揚帆立潮頭”。這里的“牢記使命”就是關鍵詞。因此,針對小標題中的內容,也需要重點關注。
規律(6):在大部分致辭稿中,段首句作為段落的統領句,類似新聞稿采取開門見山的方式,將重點內容歸納提煉到其中,起到點明概括的作用。如2019年時任武漢大學校長竇賢康的開學典禮致辭中,第三段開頭寫道:“這種擔當在于她深厚的家國情懷”。這里的“擔當”“家國情懷”都是關鍵詞。因此,針對各段落段首句中的內容,也應采取類似小標題的處理方式,給予重點關注。
規律(7):一般來說,特征在文檔中出現的次數越多越好,但也存在特殊情況,如停用詞表作為靜態表,不會因數據集的改變而更新,導致一些與文檔無關的高頻詞被遺漏。David Machado等[10]在研究中指出,“對于某個候選特征詞,如果出現在它兩側的特征詞數量越多,則該特征的重要性就越低”。基于以上考慮,我們提出假設:特征的重要性與出現在它兩側的特征詞數量呈負相關。
2.2" "基于多特征融合的無監督關鍵詞抽取方法
2.2.1" "文本預處理
根據處理內容不同,可分為篇章級顆粒度和單詞級顆粒度。篇章級顆粒度文本處理包括文本標準化、句子分割以及分詞等。文本標準化過程主要是將大寫字母轉換為小寫字母,中文簡體和繁體進行統一處理,這里采用Python中的upper2lower方法和chinese_standard方法。句子分割是將致辭文本拆分為多個句子,以便后續度量特征的相關屬性,這里采用Python中的segtok包。分詞采用基于Python的jieba分詞包。下一節中將重點討論單詞級顆粒度文本處理。
2.2.2" "候選特征詞重要性度量
(1)特征詞頻度量。針對規律(1),提出termFrequencynormal (t)用以度量特征的詞頻,度量方法如下:
直觀考慮是將特征詞頻直接用于信息度量,為降低長文檔中高頻詞影響,這里采用正規化形式。其中,termFrequency(t)代表特征詞t在文檔中出現的總次數,termFrequencyMeanValue(t)代表文檔中所有特征詞出現次數的平均值,standardDeviation代表非停用詞詞頻的標準差。
(2)句子頻率度量。針對規律(2),提出termSentenceFrequencynormal (t)用以度量特征詞的句子頻率,度量方法如下:
其中,termSentenceFrequency(t)代表在文檔中包含特征t的句子數量,sentenceNumber代表當前文檔包含的句子總數。
(3)重要位置信息度量。針對規律(3),提出termPositon(t)用以度量特征詞的位置屬性,度量方法如下:
其中,sentenceSet(t)代表特征t所出現句子的位置集合,paragraphSet(t)代表特征t所出現段落的位置集合,paragraphNumber代表文檔的段落數量。Median函數的作用是取集合中位數,這里通過特征詞所在句子和段落兩個位置進行綜合度量。同時,應用雙對數是為了對數據進行平滑處理,即利用對數的數值越小變化越敏感,數值越大越平滑的特點。
(4)引號標記信息度量。針對規律(4),提出termQuoteScore(t)用以度量特征的引號標記屬性,度量方法如下:
其中,termQuoteFrequency(t)代表特征t在引號內出現的次數。這里采用對數同樣也是為了對數據進行平滑處理。
(5)標題和段首信息度量。針對規律(5)和規律(6),分別提出termTitleScore(t)和termSubjectScore(t)用以度量特征詞的小標題屬性和段首屬性,度量方法如下:
其中,termTitleFrequency(t)代表特征t在小標題中出現的次數,termSubjectFrequency(t)代表特征t在段首句中出現的次數;weightTitle代表為標題信息賦予的權重,weightSubject代表為段首句信息賦予的權重。需要注意的是,小標題中的段首信息按照小標題規則度量后,將不再對段首信息進行重復統計;針對在小標題或段首句中出現引號的情況,將給予重點關注,上述度量方法更新為如下形式:
其中,termQuoteInTitle(t)代表特征t出現在小標題引號中的次數,termQuoteInSubject(t)代表特征t出現在段首句引號中的次數;weightQuoteInTitle和weightQuoteInSubject代表相應的權重。
(6)上下文相關性度量。針對規律(7),提出termCooccurrence(t)用以度量特征與其上下文特征的相關性,度量方法如下:
其中,|termFrequency(t,w)|代表指定窗口寬度w,出現在特征t周圍的特征詞數量,|Cooccurrence(t,k)|代表特征t和特征k共同出現的次數。這里提出termIrrelevance(t)用以度量特征詞的無關性,度量方法如下:
其中,maxtermFrequency為當前文檔中出現次數最多特征詞的詞頻。
接下來,將對度量信息進行整合,計算特征詞的綜合得分,度量方法如下:
termImportanceSort越小,代表相應特征詞越重要。
這里將termFrequencynormal (t)和termSentenceFrequency(t)
與termIrrelevance(t)作比值,即某個特征詞的詞頻和句子頻率確定后,上下文相關性越高,這個特征詞越重要。實際上,有些特征詞會在多個句子中頻繁出現,即詞頻和句子頻率都較高,卻沒有實際意義,這些特征詞應被賦予低權重。因此,有代表性特征詞的標準是termFrequencynormal (t)和termSentenceFrequency(t)較高,而termIrrelevance(t)較低。同樣地,特征詞在文檔中的位置也是重要信息,通過termIrrelevance(t)×term
Positon(t)度量;此外,小標題和段首信息也作為重要參數,給予了同樣關注。
2.2.3" "候選關鍵詞重要性度量
為形成關鍵詞列表,通過設置滑動窗口生成n元模型,整體構成候選關鍵詞集合。通過keywordImportanceSort(t)
表示候選關鍵詞的重要性,度量方法如下:
其中,kw代表候選關鍵詞,keywordImportanceSort(kw)
越小表示相關性越強。這里通過與termImportanceSort(t)作比值,目的是消除關鍵詞長度對結果的影響,避免結果傾向于由多個特征詞構成的關鍵詞。表1列出了北京師范大學2017年二元模型的關鍵詞結果,可以觀察到,部分結果存在相似情況,我們將在下一節提出候選關鍵詞去重方法。
2.2.4" "候選關鍵詞去重
算法1展示了關鍵詞去重過程。首先建立keywords,
用于保存關鍵詞結果;然后采用keywordImportanceSort
最低的候選關鍵詞作為初值,初始化keywords列表。通過逐一計算余下候選關鍵詞與列表中元素的相似度,結果高于閾值θ則刪除;反之則加入keywords中。表1結果經過去重后,如表2所示。
3" " "實驗分析
3.1" "對照方法
實驗選取了8個有代表性的無監督方法(YAKE[8]、TF×IDF[11]、KP-Miner[12]、SingleRank[13]、TopicRank[14]、TextRank[15]、PositionRank[9]和MultipartiteRank[16])和2個有監督方法(Kea[17]和WINGNUS[18])與KESU進行比較,表3對相關方法進行了總結,實驗中將采取精確率(Precision)、召回率(Recall)和F1值(F1-Score)進行評估。
3.2" "實驗結果
為確保實驗結果的可重復性,實驗中的對比方法均采用基于Python的開源工具包PKE[19],結果詳見表4至表8。
在實驗結果中,精確率和召回率相互影響,理想情況是兩者都取得較高結果,但實際情況中它們相互制約。追求高精確率,召回率就會降低;追求高召回率,精確率就會受到影響[20]。在上述結果中可以看到,多數方法的召回率都高于精確率,主要原因是實驗輸出結果有20個,而標準關鍵詞通常不足20個,因此導致召回率高、精確率低。性能方面,KESU方法在精確率、召回率和F1值三方面均取得了較好結果;相比之下YAKE方法沒有取得較好結果,這也與Ricardo Campos[8]的描述相符:“YAKE方法更適用于印歐語系”。
圖2展示了關鍵詞分布的詞云圖。根據關鍵詞出現的規律和特點,可以發現盡管各高校致辭內容各具特色,但都體現了新時代的共同價值取向,既展示了高校的個體功能,又突出了社會功能。同時,將學生培養與國家需求相結合,體現了高校的時代性、政治性以及深厚的家國情懷。
4" " "總結與展望
高校開學典禮致辭不僅承載著具有儀式性質的傳統作用,還具備教育活動、教育引導和教育啟示的多重功能。在實際分析典禮致辭的過程中,傳統方法主要依賴詞頻統計,鑒于此類方法存在一定局限性,本研究借鑒人工智能領域中的關鍵詞抽取相關技術,提出KESU方法,同時建立了在線應用平臺。該方法能夠自動抽取典禮致辭中的關鍵詞,相比傳統分析方法,更加科學、精細和高效。
主要參考文獻
[1]劉清堂,賀黎鳴,吳林靜,等.智能時代的教育文本挖掘模型與應用[J].現代遠程教育研究,2020,32(5):95-103.
[2]翟云秋,程晉寬.大學校長開學典禮致辭的教育價值:基于36所“世界一流大學”建設高校校長致辭的詞頻分析[J].江蘇高教,2021(6):42-50.
[3]陸一.大學文化:固有傳統與新思想的均衡取舍——近五年四所大學校長典禮講話的文本解析[J].教育學術月刊,2012(1):7-13.
[4]李甜甜,李天培.從高頻詞看當前我國頂尖高校的關注熱點:基于2020年C9高校開學典禮校長講話的分析[J].教育觀察,2021,10(17):130-136.
[5]于祥成,鄭如瑩.大學開學典禮校長致辭的教育價值探賾[J].大學教育科學,2019(5):28-33.
[6]王為民,趙國祥.當代中國大學生核心素養的基本內涵:基于普通本科院校開學典禮寄語文本分析[J].大學教育科學,2018(4):18-26.
[7]LUHN H P. The automatic creation of literature abstracts[J]. IBM Journal of Research and Development,1958,2(2):159-165.
[8]CAMPOS R,MANGARAVITE V,PASQUALI A,et al. YAKE! Keyword extraction from single documents using multiple local features[J]. Information Sciences,2020(509):257-289.
[9]FLORESCU C,CARAGEA C. Positionrank:An unsupervised approach to keyphrase extraction from scholarly documents[C]//Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics. 2017:1105-1115.
[10]MACHADO D,BARBOSA T,PAIS S,et al. Universal mobile information retrieval[C]//Universal Access in Human-Computer Interaction. Intelligent and Ubiquitous Interaction Environments:5th International Conference,UAHCI. 2009:345-354.
[11]SPARCK JONES K. A statistical interpretation of term specificity and its application in retrieval[J]. Journal of Documentation,1972,28(1):11-21.
[12]SAMHAA R,EL-BELTAGY A,AHMED RAFEA B. KP-Miner:A keyphrase extraction system for English and Arabic documents[J]. Information Systems,2009(1):132-144.
[13]WAN X,XIAO J. Single document keyphrase extraction using neighborhood knowledge[C]//AAAI. 2008:855-860.
[14]BOUGOUIN A,BOUDIN F,DAILLE B. Topicrank:Graph-based topic ranking for keyphrase extraction[C]//International Joint Conference on Natural Language Processing(IJCNLP). 2013:543-551.
[15]MIHALCEA R,TARAU P. Textrank:Bringing order into text[C]//Proceedings of the 2004 Conference on Empirical Methods in Natural Language Processing. 2004:404-411.
[16]BOUDIN F. Unsupervised keyphrase extraction with multipartite graphs[J]. Proceedings of NAACL-HLT,2018:667-672.
[17]WITTEN I H,PAYNTER G W,FRANK E,et al. KEA:Practical automatic keyphrase extraction[C]//Proceedings of the Fourth ACM Conference on Digital Libraries. 1999:254-255.
[18]NGUYEN T D,LUONG M T. WINGNUS:Keyphrase extraction utilizing document logical structure[C]//Proceedings of the 5th International Workshop on Semantic Evaluation. 2010:166-169.
[19]BOUDIN F. PKE:An open source python-based keyphrase extraction toolkit[C]//Proceedings of COLING 2016,the 26th International Conference on Computational Linguistics:System Demonstrations. 2016:69-73.
[20]曾子明,張瑜,李婷婷.多特征融合的突發公共衛生事件潛在謠言傳播者識別[J].圖書情報工作,2022,66(13):80-90.