馬玉慶, 劉一翔, 張根熹, 萬宇明
(上海交通大學 電子信息與電氣工程學院, 上海 200240)
年鑒是特定年份特定區域或領域所發生的重要事件的記錄。年鑒的編制既是對事件的記錄與整理,也是對特定范圍內工作的匯總總結。對管理者進一步決策,起到輔助支持作用。高校年鑒編制對各院系圍繞教學、科研所開展活動及所取得的成果進行分類匯總,一般有院系行政管理人員完成。由于高校教學與科研工作具備專業化、創新性強的特點,辦公室行政人員在進行年鑒編制時存在如下挑戰。
(1) 教學科研與行政管理人員由于專業隔閡原因,造成年鑒編制人員進行年鑒材料內容篩選、分類困難。高校教學科研活動一般與所在院系專業相關程度高,年鑒材料中涉及到大量專業相關學術內容,年鑒編寫行政人員在進行內容篩選時,較難對其成果的專業水平進行準確評價,教學與科研交叉融合進一步造成年鑒編制內容分類甄別困難。
(2) 實驗室與行政管理分離造成年鑒編制內容收集困難。高校年鑒編寫主要是對教學、科研基層組織,例如實驗室或授課教師重要活動或成果的記錄。由于實驗室科研以及教學管理活動與行政管理常常是部門分離的,并且,教師和實驗室科研人員在年鑒材料收集方面積極性偏低,因此通過人工方式進行年鑒材料收集是一個耗費人力時間的過程。
針對不同類型年鑒編寫,相關學者分別圍繞方法創新、制度建設等方面展開研究。羅潔瓊等[1]認為年鑒條目是年鑒編寫的關鍵部分,提出可以從年鑒條目材料收集的覆蓋性、年鑒條目標題的準確性,以及年鑒條目內容的質量3個方面,提高年鑒編寫水平。孫永華等[2]從年鑒框架結構設計出發,結合區域發展中高新區現代工業與科技領域、外向型經濟、旅游經濟等特色,認為突出區域特色,推動創新編寫,是提高區域年鑒編寫水平的關鍵。針對高校年鑒編寫,羅應梅等[3]認為完善年鑒編寫制度與流程、加強年鑒編寫人員培訓是持續推進年鑒編寫工作健康發展的基礎,同時認為互聯網和數字化技術會成為年鑒傳播的趨勢之一。
自動摘要技術是基于計算機的自然語言理解的重要內容,在行政檔案、企業知識管理等領域有較多應用。姜志祥等[4]生成式摘要方法中存在的問題,提出并設計了基于自注意力與指針網絡的自動摘要模型,通過基于深度學習的語義處理技術,提升自動摘要算法的準確度。從年鑒詞條生成角度,由于深度學習對于訓練數據有一定的數量要求,因此存在工程應用的難度。章成志等[5]對書評內容進行摘要,利用詞向量以及近鄰傳播聚類等方法構建圖書屬性詞集,在此基礎上利用TextRank算法生成圖書內容摘要[6]。該研究表明自動摘要技術可以對文本內容進行分析,并區分文本內容的類別,例如屬于書評內容還是屬于書籍內容,從而對文本內容進行分別處理。在年鑒生成過程中,對于年鑒資料的分類是抽取年鑒詞條的依據,本文在年鑒自動生成研究中借鑒了相關聚類方法的應用。同時,由于信息化的普及,年鑒資料的來源主要來自于企業網站等平臺,網頁內容自動抽取有較多研究與應用,例如王雪梅等[7]利用標簽和分塊特征進行新聞網頁內容抽取,以進行新聞網頁內容分析。在年鑒生成方法中,利用企業網站內容分析可以提高年鑒資料的收集效率。
基于以上分析,本文利用網頁內容管理、圖像分類標注與文本自動摘要方法對互聯網內容進行自動分析,研究行政檔案自動摘要與應用系統設計。課題利用網絡爬蟲技術進行網站數據抓取,利用專家經驗構建領域詞庫與概念關系,形成內容評價指標體系,在此基礎上進行分詞以及權重計算,根據權重結果判定事件的重要程度。通過原型系統的設計實現以及學院網站分析結果,驗證了本項目所設計方法的可用性。
高校行政年鑒條目內容主要涵蓋年度科研、教學活動等活動中重要事件。一般地,高校年鑒由學校和院系不同級別行政管理人員協同完成。年鑒整體架構和類目等,由學校統一制定,各院系在統一年鑒架構的指導下,進行年度重要事件材料收集,以形成條目和大事記內容[8]。
條目和大事記內容的編寫是一個繁瑣的過程,需要對年度發生的各類事件進行整體梳理、歸類和重要性評估。為了提升年鑒條目信息收集的效率,本文以條目生成為例,研究提出基于網絡爬蟲的網站新聞內容自動抽取與分析方法,以生成年鑒條目推薦列表,其抽取分析過程如圖1所示。

圖1 面向網站新聞的年鑒條目自動抽取方法
由圖1可知,年鑒條目自動抽取方法主要包括3個部分,即網站結構抽取、新聞內容抽取以及條目推薦。
網站結構抽取部分,由于年鑒條目和大事記主要收集本行政單位年度發生的重要活動,因此網站分析目標主要是本部門的官網或公眾號,網站結構相對固定、可根據網站開發文檔獲知。
新聞內容抽取部分,則需較大的靈活性,本文主要借助自動摘要研究中較成熟的分詞工具,進行新聞內容關鍵字的抽取。雖然從生成條目的角度,單純的關鍵字并不能完全反映條目或大事記的全部內容,但是從新聞所反映的活動事件重要性評價角度,關鍵字是較重要的評價依據。
條目推薦部分的主要目的是通過對新聞內容的評估,挑選出可能列為年鑒條目的新聞材料。如何進行新聞內容重要程度評價是關鍵。本文借助領域知識圖譜思想,設計了關鍵詞關聯與權重指標體系,構建結合領域關鍵詞層次及權重分配的內容評價方法。
在年鑒條目的自動生成過程中,除了內容自動摘要外,從年鑒角度對新聞內容進行重要性評估是條目自動生成的關鍵。在新聞內容重要性評估方面,領域專業人員一般需要將先驗知識與后驗統計結果兩方面相融合。因此,本文借鑒知識圖譜概念,設計了領域關鍵詞權重指標體系,將領域專業知識與關鍵詞統計結果相結合,計算所分析新聞的活動重要程度,以判斷是否列入條目推薦列表。
關鍵詞權重指標體系元模型及指標體系示例如圖2所示。
圖2中,左側虛線框內為指標體系的元模型。指標體系中包含3類元素:指標項、屬性項和關鍵詞。

圖2 關鍵詞權重指標體系元模型及指標體系示例
條目=(指標項1,指標項2,……,指標項n);
指標項={指標項|<屬性項,權重>};
屬性項={<屬性項,權重>|<關鍵詞,權重>}
其中,年鑒條目是由若干并列的指標項組成,它們彼此獨立,按時間構成大事記的基礎。指標項間由于是各自獨立的,因此不區分權重。
首先,首先使用Request庫,通過網站URL地址、page=
urllib.request.urlopen(url)、contents = page.read()和soup = BeautifulSoup(contents,"html.parser")建立soup對象。
然后,在Web中找到新聞內容的存放位置(p),使用Soup對象的find_all功能,提取內容并寫入分析文件txt中。其代碼片段如圖3所示。

圖3 獲取新聞內容代碼片段
圖3所示的偽代碼以utf-8的編碼格式打開txt文檔,遍歷HTML頁面中p標簽內的文字,并將其寫入1.txt。
對于存儲在文件1.txt中的新聞內容,本文采用Jieba庫來獲取特定新聞的關鍵詞,偽代碼如圖4所示。

圖4 新聞關鍵詞提取偽代碼片段
圖4偽代碼片段中,首先是讀取出目標txt文檔中的文本,并用Jieba庫中的Lcut函數處理得到處理成關鍵詞的對象文本,并對關鍵詞進行遍歷篩選,最后返回出頻率最高的前len(cha)個關鍵詞。
年鑒編寫是行政辦公室的重要職能工作之一。但是,也是一項耗費時間人力的任務。對于高校年鑒編寫還存在專業壁壘,具有一定的挑戰性。本文研究了網頁內容抽取方法,設計了年鑒詞條評價模型,并進行了關鍵詞體系構建;設計了年鑒詞條自動抽取方法,并進行了原型設計驗證。該方法對于提升年鑒編寫效率有一定借鑒作用。