999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

高校典禮致辭的關鍵詞抽取方法研究

2025-03-30 00:00:00賈隆嘉周婉婷成宇歌李博軒張邦佐
中國管理信息化 2025年5期
關鍵詞:特征方法

[摘 要]面向高校典禮教育價值探究的問題,引入自然語言處理技術中的關鍵詞抽取方法,進而達到精準高效分析的目的。通過對131所“雙一流”高校的439篇開學典禮致辭文稿結構和寫作特點的分析,總結發現了7點規律,結合建立的6項統計特征提出了基于多特征融合的關鍵詞抽取方法。相較傳統關鍵詞抽取方法,本文提出方法的關鍵詞抽取效果,在精確率、召回率以及F1值三方面均有不同程度提升,最高F1值達75.51%,性能提升超20%。

[關鍵詞]高校典禮致辭;關鍵詞抽取;多特征融合;教育信息化

doi:10.3969/j.issn.1673-0194.2025.05.063

[中圖分類號]TP391 [文獻標識碼]A [文章編號]1673-0194(2025)05-0201-08

0" " "引 言

傳統對教育數據研究中,研究人員主要關注結構化數據。據IBM公司研究,一個組織的海量數據中,結構化數據僅占20%,非結構化數據和半結構化數據占比高達80%[1]。在非結構化數據中,文本數據是最主要的組成部分。對教育文本進行深入分析和研究將有助于挖掘出更多有價值的內容。高校開學典禮致辭作為教育文本中備受關注的部分,體現了一所大學的傳統和精神。2010年華中科技大學畢業典禮上,李培根校長的《記憶》致辭贏得了30余次掌聲,引發了媒體和網絡的強烈關注。自此,典禮致辭逐漸成為網絡熱點,進入大眾視野。近些年,西安交大王樹國校長的典禮致辭同樣引起了強烈反響。與科技論文不同,典禮致辭通常沒有關鍵詞或主題詞,因篇幅較長,使得人工添加關鍵詞成為耗時且具有挑戰性的任務。針對該問題,本文提出了一種基于多特征融合的無監督關鍵詞抽取方法(Keyword Extraction for opening ceremony Speech of University,KESU),相比于傳統方法,KESU作為一種輕量級無監督算法,不需要標簽數據、不需要對數據集整體進行訓練,僅需統計單篇文檔中的特征。

本文貢獻可概括為三點:一是應用創新(學科交叉),將關鍵詞抽取方法從人工智能領域引入高等教育研究中。二是提出新方法,該方法不僅可以避免因特定領域數據難以獲取、訓練數據不足而導致的分類性能差的問題,還具有輕量化和易部署的優點。三是為該領域建立數據集,構建了包含439篇高校開學典禮致辭的數據集(University Opening Ceremony Speech Data Set-Version 1.0,OCS-V1.0)。

1" " "相關研究概述

翟云秋等[2]為揭示新時期高等教育的主流價值觀和功能定位,選取了144篇“雙一流”建設高校開學典禮致辭作為研究對象,通過詞頻統計提取近四年致辭的核心高頻詞,從高等教育的社會功能、政治功能、文化功能和個體功能四個角度切入,進行了描述分析。陸一[3]為使大學文化在一定程度上可測量,選取了41篇開學和畢業典禮致辭,構建了6個觀測指標,通過對致辭文稿的逐一閱讀、識別以及計分,進行了人工統計分析。李甜甜等[4]為挖掘國內頂尖高校共同價值觀和文化內涵,運用詞云分析工具對C9高校開學典禮致辭進行了分析。于祥成等[5]選取了50篇“雙一流”建設高校開學典禮致辭作為研究對象,通過內容分析法,從詞頻和內涵兩個維度進行分析,挖掘其中的教育價值。王為民等[6]選取了200篇開學典禮致辭作為研究對象,通過文獻法和分析法,提煉出39個關鍵描述點,構建了當代大學生核心素養圖譜。

傳統研究主要集中在基于詞頻統計的方法,這類方法存在以下弊端:一是統計過程緩慢、易出錯,可處理的數據量有限;二是方法具有局限性,關鍵詞的決定因素不僅僅是詞頻,同時還包含其他多項因素。對于此類大規模、有規律可循的數據分析任務,應引入機器學習方法,不僅可以節約資源、降低人工成本,還可以挖掘出更深層次的內容。

2" " "研究方法

本研究以高校典禮致辭為研究對象,從機器學習角度出發,提出了一種基于多特征融合的無監督關鍵詞抽取方法。研究框架如圖1所示。

2.1" "候選關鍵詞重要性分析

關鍵詞抽取與特征加權相似,目標都是選取有代表性的特征詞。兩者也存在一定差異,關鍵詞抽取的目標是選擇能夠概括文章內容的特征詞,特征加權是為有區分能力的詞賦予更高權重。通過查詢相關資料并結合對致辭結構和特點的分析,我們總結了七點規律。

規律(1):Luhn等[7]在研究中指出,“詞頻可以作為度量特征詞重要性的有效依據”。通常情況下,致辭中經常出現的詞被視為具有代表性的關鍵詞,即候選詞的詞頻與其重要性具有一定相關性。但也存在特殊情況,如“同學們”“大學”等高頻詞并非關鍵詞。因此,詞頻可作為篩選條件,但不是決定因素。

規律(2):Ricardo Campos等[8]在研究中指出,“出現在多個不同句子中的特征詞更有可能成為關鍵詞”。與科技文章類似,致辭稿的核心觀點會在多個位置反復闡述,關鍵詞將出現在不同句子中。如2020年西安交通大學校長王樹國的開學典禮致辭中,有2段4處提到了“家國情懷”,因此,句子頻率應與詞頻一樣作為抽取關鍵詞的篩選條件。

規律(3):C Florescu等[9]在研究中指出,“相比不考慮特征詞位置的模型,那些結合特征詞位置模型的效果普遍較好”。典禮致辭類似新聞稿,通常采用前置重點的結構,即將重要信息置于開頭部分。因此,應特別關注致辭開頭部分頻繁出現的特征詞匯。

規律(4):在439篇致辭稿中,403篇出現了引號,占比91.80%。引號用于突出重點并進一步闡釋核心觀點,起到解釋和強調的作用。如2021年南開大學校長曹雪濤在開學典禮致辭中寫道:希望你們以雄飛躍進之姿,“與境遇奮斗,與時代奮斗,與經驗奮斗”,成為新時代的南開“志士”。這里的“時代”和“奮斗”都是關鍵詞,因此,針對引號內的內容,應給予重點關注。

規律(5):在439篇致辭稿中,有63篇包含小標題,占比14.35%。小標題起到段落引導作用,也是對段落內容的總結和凝練,列入其中的內容大多是關鍵核心內容。如2021年北京工業大學校長聶祚仁的開學典禮致辭中有小標題:“二是牢記使命,時代揚帆立潮頭”。這里的“牢記使命”就是關鍵詞。因此,針對小標題中的內容,也需要重點關注。

規律(6):在大部分致辭稿中,段首句作為段落的統領句,類似新聞稿采取開門見山的方式,將重點內容歸納提煉到其中,起到點明概括的作用。如2019年時任武漢大學校長竇賢康的開學典禮致辭中,第三段開頭寫道:“這種擔當在于她深厚的家國情懷”。這里的“擔當”“家國情懷”都是關鍵詞。因此,針對各段落段首句中的內容,也應采取類似小標題的處理方式,給予重點關注。

規律(7):一般來說,特征在文檔中出現的次數越多越好,但也存在特殊情況,如停用詞表作為靜態表,不會因數據集的改變而更新,導致一些與文檔無關的高頻詞被遺漏。David Machado等[10]在研究中指出,“對于某個候選特征詞,如果出現在它兩側的特征詞數量越多,則該特征的重要性就越低”。基于以上考慮,我們提出假設:特征的重要性與出現在它兩側的特征詞數量呈負相關。

2.2" "基于多特征融合的無監督關鍵詞抽取方法

2.2.1" "文本預處理

根據處理內容不同,可分為篇章級顆粒度和單詞級顆粒度。篇章級顆粒度文本處理包括文本標準化、句子分割以及分詞等。文本標準化過程主要是將大寫字母轉換為小寫字母,中文簡體和繁體進行統一處理,這里采用Python中的upper2lower方法和chinese_standard方法。句子分割是將致辭文本拆分為多個句子,以便后續度量特征的相關屬性,這里采用Python中的segtok包。分詞采用基于Python的jieba分詞包。下一節中將重點討論單詞級顆粒度文本處理。

2.2.2" "候選特征詞重要性度量

(1)特征詞頻度量。針對規律(1),提出termFrequencynormal (t)用以度量特征的詞頻,度量方法如下:

直觀考慮是將特征詞頻直接用于信息度量,為降低長文檔中高頻詞影響,這里采用正規化形式。其中,termFrequency(t)代表特征詞t在文檔中出現的總次數,termFrequencyMeanValue(t)代表文檔中所有特征詞出現次數的平均值,standardDeviation代表非停用詞詞頻的標準差。

(2)句子頻率度量。針對規律(2),提出termSentenceFrequencynormal (t)用以度量特征詞的句子頻率,度量方法如下:

其中,termSentenceFrequency(t)代表在文檔中包含特征t的句子數量,sentenceNumber代表當前文檔包含的句子總數。

(3)重要位置信息度量。針對規律(3),提出termPositon(t)用以度量特征詞的位置屬性,度量方法如下:

其中,sentenceSet(t)代表特征t所出現句子的位置集合,paragraphSet(t)代表特征t所出現段落的位置集合,paragraphNumber代表文檔的段落數量。Median函數的作用是取集合中位數,這里通過特征詞所在句子和段落兩個位置進行綜合度量。同時,應用雙對數是為了對數據進行平滑處理,即利用對數的數值越小變化越敏感,數值越大越平滑的特點。

(4)引號標記信息度量。針對規律(4),提出termQuoteScore(t)用以度量特征的引號標記屬性,度量方法如下:

其中,termQuoteFrequency(t)代表特征t在引號內出現的次數。這里采用對數同樣也是為了對數據進行平滑處理。

(5)標題和段首信息度量。針對規律(5)和規律(6),分別提出termTitleScore(t)和termSubjectScore(t)用以度量特征詞的小標題屬性和段首屬性,度量方法如下:

其中,termTitleFrequency(t)代表特征t在小標題中出現的次數,termSubjectFrequency(t)代表特征t在段首句中出現的次數;weightTitle代表為標題信息賦予的權重,weightSubject代表為段首句信息賦予的權重。需要注意的是,小標題中的段首信息按照小標題規則度量后,將不再對段首信息進行重復統計;針對在小標題或段首句中出現引號的情況,將給予重點關注,上述度量方法更新為如下形式:

其中,termQuoteInTitle(t)代表特征t出現在小標題引號中的次數,termQuoteInSubject(t)代表特征t出現在段首句引號中的次數;weightQuoteInTitle和weightQuoteInSubject代表相應的權重。

(6)上下文相關性度量。針對規律(7),提出termCooccurrence(t)用以度量特征與其上下文特征的相關性,度量方法如下:

其中,|termFrequency(t,w)|代表指定窗口寬度w,出現在特征t周圍的特征詞數量,|Cooccurrence(t,k)|代表特征t和特征k共同出現的次數。這里提出termIrrelevance(t)用以度量特征詞的無關性,度量方法如下:

其中,maxtermFrequency為當前文檔中出現次數最多特征詞的詞頻。

接下來,將對度量信息進行整合,計算特征詞的綜合得分,度量方法如下:

termImportanceSort越小,代表相應特征詞越重要。

這里將termFrequencynormal (t)和termSentenceFrequency(t)

與termIrrelevance(t)作比值,即某個特征詞的詞頻和句子頻率確定后,上下文相關性越高,這個特征詞越重要。實際上,有些特征詞會在多個句子中頻繁出現,即詞頻和句子頻率都較高,卻沒有實際意義,這些特征詞應被賦予低權重。因此,有代表性特征詞的標準是termFrequencynormal (t)和termSentenceFrequency(t)較高,而termIrrelevance(t)較低。同樣地,特征詞在文檔中的位置也是重要信息,通過termIrrelevance(t)×term

Positon(t)度量;此外,小標題和段首信息也作為重要參數,給予了同樣關注。

2.2.3" "候選關鍵詞重要性度量

為形成關鍵詞列表,通過設置滑動窗口生成n元模型,整體構成候選關鍵詞集合。通過keywordImportanceSort(t)

表示候選關鍵詞的重要性,度量方法如下:

其中,kw代表候選關鍵詞,keywordImportanceSort(kw)

越小表示相關性越強。這里通過與termImportanceSort(t)作比值,目的是消除關鍵詞長度對結果的影響,避免結果傾向于由多個特征詞構成的關鍵詞。表1列出了北京師范大學2017年二元模型的關鍵詞結果,可以觀察到,部分結果存在相似情況,我們將在下一節提出候選關鍵詞去重方法。

2.2.4" "候選關鍵詞去重

算法1展示了關鍵詞去重過程。首先建立keywords,

用于保存關鍵詞結果;然后采用keywordImportanceSort

最低的候選關鍵詞作為初值,初始化keywords列表。通過逐一計算余下候選關鍵詞與列表中元素的相似度,結果高于閾值θ則刪除;反之則加入keywords中。表1結果經過去重后,如表2所示。

3" " "實驗分析

3.1" "對照方法

實驗選取了8個有代表性的無監督方法(YAKE[8]、TF×IDF[11]、KP-Miner[12]、SingleRank[13]、TopicRank[14]、TextRank[15]、PositionRank[9]和MultipartiteRank[16])和2個有監督方法(Kea[17]和WINGNUS[18])與KESU進行比較,表3對相關方法進行了總結,實驗中將采取精確率(Precision)、召回率(Recall)和F1值(F1-Score)進行評估。

3.2" "實驗結果

為確保實驗結果的可重復性,實驗中的對比方法均采用基于Python的開源工具包PKE[19],結果詳見表4至表8。

在實驗結果中,精確率和召回率相互影響,理想情況是兩者都取得較高結果,但實際情況中它們相互制約。追求高精確率,召回率就會降低;追求高召回率,精確率就會受到影響[20]。在上述結果中可以看到,多數方法的召回率都高于精確率,主要原因是實驗輸出結果有20個,而標準關鍵詞通常不足20個,因此導致召回率高、精確率低。性能方面,KESU方法在精確率、召回率和F1值三方面均取得了較好結果;相比之下YAKE方法沒有取得較好結果,這也與Ricardo Campos[8]的描述相符:“YAKE方法更適用于印歐語系”。

圖2展示了關鍵詞分布的詞云圖。根據關鍵詞出現的規律和特點,可以發現盡管各高校致辭內容各具特色,但都體現了新時代的共同價值取向,既展示了高校的個體功能,又突出了社會功能。同時,將學生培養與國家需求相結合,體現了高校的時代性、政治性以及深厚的家國情懷。

4" " "總結與展望

高校開學典禮致辭不僅承載著具有儀式性質的傳統作用,還具備教育活動、教育引導和教育啟示的多重功能。在實際分析典禮致辭的過程中,傳統方法主要依賴詞頻統計,鑒于此類方法存在一定局限性,本研究借鑒人工智能領域中的關鍵詞抽取相關技術,提出KESU方法,同時建立了在線應用平臺。該方法能夠自動抽取典禮致辭中的關鍵詞,相比傳統分析方法,更加科學、精細和高效。

主要參考文獻

[1]劉清堂,賀黎鳴,吳林靜,等.智能時代的教育文本挖掘模型與應用[J].現代遠程教育研究,2020,32(5):95-103.

[2]翟云秋,程晉寬.大學校長開學典禮致辭的教育價值:基于36所“世界一流大學”建設高校校長致辭的詞頻分析[J].江蘇高教,2021(6):42-50.

[3]陸一.大學文化:固有傳統與新思想的均衡取舍——近五年四所大學校長典禮講話的文本解析[J].教育學術月刊,2012(1):7-13.

[4]李甜甜,李天培.從高頻詞看當前我國頂尖高校的關注熱點:基于2020年C9高校開學典禮校長講話的分析[J].教育觀察,2021,10(17):130-136.

[5]于祥成,鄭如瑩.大學開學典禮校長致辭的教育價值探賾[J].大學教育科學,2019(5):28-33.

[6]王為民,趙國祥.當代中國大學生核心素養的基本內涵:基于普通本科院校開學典禮寄語文本分析[J].大學教育科學,2018(4):18-26.

[7]LUHN H P. The automatic creation of literature abstracts[J]. IBM Journal of Research and Development,1958,2(2):159-165.

[8]CAMPOS R,MANGARAVITE V,PASQUALI A,et al. YAKE! Keyword extraction from single documents using multiple local features[J]. Information Sciences,2020(509):257-289.

[9]FLORESCU C,CARAGEA C. Positionrank:An unsupervised approach to keyphrase extraction from scholarly documents[C]//Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics. 2017:1105-1115.

[10]MACHADO D,BARBOSA T,PAIS S,et al. Universal mobile information retrieval[C]//Universal Access in Human-Computer Interaction. Intelligent and Ubiquitous Interaction Environments:5th International Conference,UAHCI. 2009:345-354.

[11]SPARCK JONES K. A statistical interpretation of term specificity and its application in retrieval[J]. Journal of Documentation,1972,28(1):11-21.

[12]SAMHAA R,EL-BELTAGY A,AHMED RAFEA B. KP-Miner:A keyphrase extraction system for English and Arabic documents[J]. Information Systems,2009(1):132-144.

[13]WAN X,XIAO J. Single document keyphrase extraction using neighborhood knowledge[C]//AAAI. 2008:855-860.

[14]BOUGOUIN A,BOUDIN F,DAILLE B. Topicrank:Graph-based topic ranking for keyphrase extraction[C]//International Joint Conference on Natural Language Processing(IJCNLP). 2013:543-551.

[15]MIHALCEA R,TARAU P. Textrank:Bringing order into text[C]//Proceedings of the 2004 Conference on Empirical Methods in Natural Language Processing. 2004:404-411.

[16]BOUDIN F. Unsupervised keyphrase extraction with multipartite graphs[J]. Proceedings of NAACL-HLT,2018:667-672.

[17]WITTEN I H,PAYNTER G W,FRANK E,et al. KEA:Practical automatic keyphrase extraction[C]//Proceedings of the Fourth ACM Conference on Digital Libraries. 1999:254-255.

[18]NGUYEN T D,LUONG M T. WINGNUS:Keyphrase extraction utilizing document logical structure[C]//Proceedings of the 5th International Workshop on Semantic Evaluation. 2010:166-169.

[19]BOUDIN F. PKE:An open source python-based keyphrase extraction toolkit[C]//Proceedings of COLING 2016,the 26th International Conference on Computational Linguistics:System Demonstrations. 2016:69-73.

[20]曾子明,張瑜,李婷婷.多特征融合的突發公共衛生事件潛在謠言傳播者識別[J].圖書情報工作,2022,66(13):80-90.

猜你喜歡
特征方法
抓住特征巧觀察
新型冠狀病毒及其流行病學特征認識
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
學習方法
抓住特征巧觀察
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
賺錢方法
捕魚
主站蜘蛛池模板: 无码专区国产精品第一页| 色综合天天操| 欧美午夜理伦三级在线观看| 国产人人乐人人爱| 中文无码影院| 亚洲成人手机在线| 欧美国产精品不卡在线观看| 亚洲va欧美ⅴa国产va影院| 国产永久免费视频m3u8| 亚洲天堂视频在线免费观看| 日韩午夜片| 欧美国产视频| 日韩欧美91| 国产中文一区二区苍井空| 国产精品天干天干在线观看| 无码AV日韩一二三区| 青青青国产视频手机| 东京热高清无码精品| 亚洲精品va| 毛片在线区| 谁有在线观看日韩亚洲最新视频| 日韩在线视频网站| 亚洲成综合人影院在院播放| 日韩a级片视频| 中文字幕亚洲第一| 国产精品对白刺激| 国产午夜福利片在线观看| 欧洲极品无码一区二区三区| a亚洲视频| 福利在线一区| 91久久偷偷做嫩草影院精品| 中文字幕在线播放不卡| 国产欧美视频在线观看| 香蕉久久国产超碰青草| 日本不卡在线视频| 亚洲精品爱草草视频在线| 国产网友愉拍精品| 五月天在线网站| 另类重口100页在线播放| 无码中字出轨中文人妻中文中| 暴力调教一区二区三区| 无码aaa视频| 99视频只有精品| 伊人久久综在合线亚洲91| 日本草草视频在线观看| 亚洲成a人在线观看| 日本91视频| 在线日韩日本国产亚洲| 99热这里只有免费国产精品 | 另类综合视频| 久久精品亚洲中文字幕乱码| 中文字幕欧美日韩| 91精品国产91久久久久久三级| 99一级毛片| 免费又爽又刺激高潮网址 | 国产精品免费久久久久影院无码| 国产小视频免费观看| 国产福利拍拍拍| 熟妇丰满人妻| 国产欧美在线观看精品一区污| 自拍偷拍欧美| 国产亚洲成AⅤ人片在线观看| 亚洲中文字幕无码爆乳| 久久综合色视频| 欧美成人综合视频| 天堂在线www网亚洲| 国产成人亚洲精品蜜芽影院| 又大又硬又爽免费视频| 狂欢视频在线观看不卡| 国产人成在线视频| 丁香五月激情图片| 国产精品七七在线播放| 成年片色大黄全免费网站久久| 久久99热66这里只有精品一| 在线色国产| 国产高潮流白浆视频| 欧美国产日韩在线观看| 中文字幕亚洲综久久2021| 黄色网在线| 成年人福利视频| 色妞永久免费视频| 国产国产人成免费视频77777|