張 辛
江蘇建筑職業技術學院,江蘇 徐州 221116
習近平總書記提出的全面從嚴治黨是對90多年管黨治黨實踐中一直堅持的從嚴治黨理論的新的認識和升華[1]。全面從嚴治黨的思想是習近平新時代中國特色社會主義思想的重要組成部分[2],總書記的系列重要講話為黨的建設立了新理念、提出了新要求、制定了新舉措。崔治忠認為全面從嚴治黨的理論基礎來源于經典馬克思理論。肖霜認為黨的十九大報告的精髓之一就是全面從嚴治黨。龍麗波從淵源背景、基本內容和黨建價值三個方面論述了全面從嚴治黨思想。王偉從學理上研究分析了全面從嚴治黨科學體系的構成和特征。樊金山論述了全面從嚴治黨實踐邏輯。從這些文獻可以看出雖然研究的方向和層次眾多但是主要集中對全面從嚴治黨思想的宏觀思考、結構性論述,但是從微觀角度的研究還比較少。
關鍵詞是一篇文章的核心與骨架,掌握一篇文章的關鍵詞對清晰理解文章內容,把握文章結構,領會文章思想,記憶文章概要起到重要作用。本文選擇中紀委網站整理的習近平總書記全面從嚴治黨重要論述學習專題數據庫為研究對象,利用TFIDF算法提取重要論述中的關鍵詞,通從關鍵詞這個細微角度分析學習習近平總書記全面從嚴治黨論述。

表1 全面從嚴治黨重要論述基本結構表
習近平總書記全面從嚴治黨重要論述數據庫是中紀委網站權威發布重要學習平臺。其中學習專題是黨的十九大后建立的一個全面從嚴治黨思想的學習中心。它將十八大以來總書記在全面從嚴治黨方面的重要論述按照黨的十九大全面從嚴治黨的體系分成了九個方面、52個小類,共整理收錄了315項各類講話和文件中的全面從嚴治黨論述1303條,共計27萬余字。從表1中可以看出,這些論述的篇幅并不相同。在表2中匯總了重要論述中涉及到的次數最多的前十位會議,可以看出集中體現全面從嚴治黨思想的重要出處。

表2 重要論述中涉及到的次數最多的前十位會議

表3 部分重要論述關鍵詞表
分析全面從嚴治黨論述數據結構只能從整體上厘清一個框架,通過對論述關鍵詞的研究,可以從更細微的角度了解全面從嚴治黨思想的重要內容。
與一般學術論文不同,一方面論述文章內容豐富也沒有人為設置的關鍵詞,另一方面論述數據是不同文章段落的重新組合歸類,因此原文章題目對內容掌握意義不大。因此需要一些自動化的算法對大規模文本進行關鍵詞提取。TFIDF就是這樣一個關鍵詞提取算法。TF指文本中的詞頻,一般等于某個詞出現的次數。IDF指“逆文檔頻率”,是一個用來衡量一個詞常見程度的值。它的一般常見的公式:
TF*IDF得到的值就是某詞語的重要程度,按照重要程度排序后,前幾名的就是文章的關鍵詞。
以黨的十九大報告第十三部分第五段約三百字提取關鍵詞,提取排名前10的關鍵詞為:全黨、遠大理想、共同理想、中國特色社會主義、思想、共產主義、堅定、建設、總開關、武裝頭腦。從中可以看出TFIDF算法提取出的關鍵詞基本可以表現原文核心內容,基本可以刻畫出原文骨架。
為了防止jieba分詞系統對全面從嚴治特有詞匯無法識別,而導致分詞結果過于細碎,首先要建立用戶詞典。以全面從嚴治黨為主題,在知網核心期刊數據庫中提取最新500篇文章的關鍵詞,將這些關鍵詞去重后做為分詞的專用數據庫,共得到用戶詞典詞條1022條。提取關鍵詞后,見表3,可以看出提取出的排名前十的關鍵詞與二級分類的標題表達內容十分相似,大部分標題中的詞語都包含在了關鍵詞中,由此可見,一方面關鍵詞很好的表達了論述的核心內容,另一方面論述的主要內容確實是圍繞標題展開。由于前十關鍵詞與二級分類標題中的詞語有一定的重復性,為了更多的領會論述的精神,再去除標題中出現的關鍵詞后,在表4中列出了不含標題詞的排名前十的關鍵詞。將二級分類的標題和不含標題詞的排名前十關鍵詞結合在一起,基本上展現了二級分類下的骨架內容。如從尊崇黨章這部分的關鍵詞,可以看出尊崇黨章是“全面從嚴治黨”、加強“黨的建設”的必然要求,要求的范圍包括“全體黨員”和“領導干部”,要求做的工作是“自覺”“學習”“貫徹”,特別是“黨的紀律”,最終目標是為了“群眾”。
通過以上分析可以看到一方面利用關鍵詞提取技術可以對習近平總書記全面從嚴治黨重要論述數據庫進行統計分析,可以幫助我們進一步把握好思想脈絡、領會好思想精髓、記憶好思想表述。另一方面TFIDF算法提取出的關鍵詞基本可以反映每個二級分類下論述的關鍵信息。通過對關鍵詞的學習,可以進一步加強對重要論述的理解和記憶,為學習習近平新時代中國特色社會主義思想提供了一個新視角。