999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

網站內容自動摘要方法及其在高校年鑒編制中的應用

2021-11-01 06:29:44馬玉慶劉一翔張根熹萬宇明
微型電腦應用 2021年10期
關鍵詞:內容

馬玉慶, 劉一翔, 張根熹, 萬宇明

(上海交通大學 電子信息與電氣工程學院, 上海 200240)

0 引言

年鑒是特定年份特定區域或領域所發生的重要事件的記錄。年鑒的編制既是對事件的記錄與整理,也是對特定范圍內工作的匯總總結。對管理者進一步決策,起到輔助支持作用。高校年鑒編制對各院系圍繞教學、科研所開展活動及所取得的成果進行分類匯總,一般有院系行政管理人員完成。由于高校教學與科研工作具備專業化、創新性強的特點,辦公室行政人員在進行年鑒編制時存在如下挑戰。

(1) 教學科研與行政管理人員由于專業隔閡原因,造成年鑒編制人員進行年鑒材料內容篩選、分類困難。高校教學科研活動一般與所在院系專業相關程度高,年鑒材料中涉及到大量專業相關學術內容,年鑒編寫行政人員在進行內容篩選時,較難對其成果的專業水平進行準確評價,教學與科研交叉融合進一步造成年鑒編制內容分類甄別困難。

(2) 實驗室與行政管理分離造成年鑒編制內容收集困難。高校年鑒編寫主要是對教學、科研基層組織,例如實驗室或授課教師重要活動或成果的記錄。由于實驗室科研以及教學管理活動與行政管理常常是部門分離的,并且,教師和實驗室科研人員在年鑒材料收集方面積極性偏低,因此通過人工方式進行年鑒材料收集是一個耗費人力時間的過程。

針對不同類型年鑒編寫,相關學者分別圍繞方法創新、制度建設等方面展開研究。羅潔瓊等[1]認為年鑒條目是年鑒編寫的關鍵部分,提出可以從年鑒條目材料收集的覆蓋性、年鑒條目標題的準確性,以及年鑒條目內容的質量3個方面,提高年鑒編寫水平。孫永華等[2]從年鑒框架結構設計出發,結合區域發展中高新區現代工業與科技領域、外向型經濟、旅游經濟等特色,認為突出區域特色,推動創新編寫,是提高區域年鑒編寫水平的關鍵。針對高校年鑒編寫,羅應梅等[3]認為完善年鑒編寫制度與流程、加強年鑒編寫人員培訓是持續推進年鑒編寫工作健康發展的基礎,同時認為互聯網和數字化技術會成為年鑒傳播的趨勢之一。

自動摘要技術是基于計算機的自然語言理解的重要內容,在行政檔案、企業知識管理等領域有較多應用。姜志祥等[4]生成式摘要方法中存在的問題,提出并設計了基于自注意力與指針網絡的自動摘要模型,通過基于深度學習的語義處理技術,提升自動摘要算法的準確度。從年鑒詞條生成角度,由于深度學習對于訓練數據有一定的數量要求,因此存在工程應用的難度。章成志等[5]對書評內容進行摘要,利用詞向量以及近鄰傳播聚類等方法構建圖書屬性詞集,在此基礎上利用TextRank算法生成圖書內容摘要[6]。該研究表明自動摘要技術可以對文本內容進行分析,并區分文本內容的類別,例如屬于書評內容還是屬于書籍內容,從而對文本內容進行分別處理。在年鑒生成過程中,對于年鑒資料的分類是抽取年鑒詞條的依據,本文在年鑒自動生成研究中借鑒了相關聚類方法的應用。同時,由于信息化的普及,年鑒資料的來源主要來自于企業網站等平臺,網頁內容自動抽取有較多研究與應用,例如王雪梅等[7]利用標簽和分塊特征進行新聞網頁內容抽取,以進行新聞網頁內容分析。在年鑒生成方法中,利用企業網站內容分析可以提高年鑒資料的收集效率。

基于以上分析,本文利用網頁內容管理、圖像分類標注與文本自動摘要方法對互聯網內容進行自動分析,研究行政檔案自動摘要與應用系統設計。課題利用網絡爬蟲技術進行網站數據抓取,利用專家經驗構建領域詞庫與概念關系,形成內容評價指標體系,在此基礎上進行分詞以及權重計算,根據權重結果判定事件的重要程度。通過原型系統的設計實現以及學院網站分析結果,驗證了本項目所設計方法的可用性。

1 年鑒條目及自動抽取方法設計

高校行政年鑒條目內容主要涵蓋年度科研、教學活動等活動中重要事件。一般地,高校年鑒由學校和院系不同級別行政管理人員協同完成。年鑒整體架構和類目等,由學校統一制定,各院系在統一年鑒架構的指導下,進行年度重要事件材料收集,以形成條目和大事記內容[8]。

條目和大事記內容的編寫是一個繁瑣的過程,需要對年度發生的各類事件進行整體梳理、歸類和重要性評估。為了提升年鑒條目信息收集的效率,本文以條目生成為例,研究提出基于網絡爬蟲的網站新聞內容自動抽取與分析方法,以生成年鑒條目推薦列表,其抽取分析過程如圖1所示。

圖1 面向網站新聞的年鑒條目自動抽取方法

由圖1可知,年鑒條目自動抽取方法主要包括3個部分,即網站結構抽取、新聞內容抽取以及條目推薦。

網站結構抽取部分,由于年鑒條目和大事記主要收集本行政單位年度發生的重要活動,因此網站分析目標主要是本部門的官網或公眾號,網站結構相對固定、可根據網站開發文檔獲知。

新聞內容抽取部分,則需較大的靈活性,本文主要借助自動摘要研究中較成熟的分詞工具,進行新聞內容關鍵字的抽取。雖然從生成條目的角度,單純的關鍵字并不能完全反映條目或大事記的全部內容,但是從新聞所反映的活動事件重要性評價角度,關鍵字是較重要的評價依據。

條目推薦部分的主要目的是通過對新聞內容的評估,挑選出可能列為年鑒條目的新聞材料。如何進行新聞內容重要程度評價是關鍵。本文借助領域知識圖譜思想,設計了關鍵詞關聯與權重指標體系,構建結合領域關鍵詞層次及權重分配的內容評價方法。

2 關鍵詞權重指標體系構建

在年鑒條目的自動生成過程中,除了內容自動摘要外,從年鑒角度對新聞內容進行重要性評估是條目自動生成的關鍵。在新聞內容重要性評估方面,領域專業人員一般需要將先驗知識與后驗統計結果兩方面相融合。因此,本文借鑒知識圖譜概念,設計了領域關鍵詞權重指標體系,將領域專業知識與關鍵詞統計結果相結合,計算所分析新聞的活動重要程度,以判斷是否列入條目推薦列表。

關鍵詞權重指標體系元模型及指標體系示例如圖2所示。

圖2中,左側虛線框內為指標體系的元模型。指標體系中包含3類元素:指標項、屬性項和關鍵詞。

圖2 關鍵詞權重指標體系元模型及指標體系示例

條目=(指標項1,指標項2,……,指標項n);

指標項={指標項|<屬性項,權重>};

屬性項={<屬性項,權重>|<關鍵詞,權重>}

其中,年鑒條目是由若干并列的指標項組成,它們彼此獨立,按時間構成大事記的基礎。指標項間由于是各自獨立的,因此不區分權重。

3 年鑒條目自動抽取原型系統設計

首先,首先使用Request庫,通過網站URL地址、page=

urllib.request.urlopen(url)、contents = page.read()和soup = BeautifulSoup(contents,"html.parser")建立soup對象。

然后,在Web中找到新聞內容的存放位置(p),使用Soup對象的find_all功能,提取內容并寫入分析文件txt中。其代碼片段如圖3所示。

圖3 獲取新聞內容代碼片段

圖3所示的偽代碼以utf-8的編碼格式打開txt文檔,遍歷HTML頁面中p標簽內的文字,并將其寫入1.txt。

對于存儲在文件1.txt中的新聞內容,本文采用Jieba庫來獲取特定新聞的關鍵詞,偽代碼如圖4所示。

圖4 新聞關鍵詞提取偽代碼片段

圖4偽代碼片段中,首先是讀取出目標txt文檔中的文本,并用Jieba庫中的Lcut函數處理得到處理成關鍵詞的對象文本,并對關鍵詞進行遍歷篩選,最后返回出頻率最高的前len(cha)個關鍵詞。

5 總結

年鑒編寫是行政辦公室的重要職能工作之一。但是,也是一項耗費時間人力的任務。對于高校年鑒編寫還存在專業壁壘,具有一定的挑戰性。本文研究了網頁內容抽取方法,設計了年鑒詞條評價模型,并進行了關鍵詞體系構建;設計了年鑒詞條自動抽取方法,并進行了原型設計驗證。該方法對于提升年鑒編寫效率有一定借鑒作用。

猜你喜歡
內容
內容回顧溫故知新
科學大眾(2022年11期)2022-06-21 09:20:52
內容回顧 溫故知新
科學大眾(2021年21期)2022-01-18 05:53:48
內容回顧溫故知新
科學大眾(2021年17期)2021-10-14 08:34:02
內容回顧溫故知新
科學大眾(2021年19期)2021-10-14 08:33:02
內容回顧 溫故知新
科學大眾(2021年9期)2021-07-16 07:02:52
內容回顧 溫故知新
科學大眾(2020年23期)2021-01-18 03:09:18
內容回顧 溫故知新
科學大眾(2020年17期)2020-10-27 02:49:04
引言的內容
引言的內容
主要內容
臺聲(2016年2期)2016-09-16 01:06:53
主站蜘蛛池模板: 91外围女在线观看| 免费一级无码在线网站| 亚洲毛片网站| 欧美视频在线不卡| 69av在线| 久久久久青草线综合超碰| 国产成人精品2021欧美日韩| 国产精品亚洲五月天高清| 波多野结衣一区二区三视频| 麻豆a级片| 国产产在线精品亚洲aavv| 久久99国产综合精品女同| 国产大片黄在线观看| 中文字幕无码中文字幕有码在线 | 三上悠亚在线精品二区| 国产成人av一区二区三区| 国产午夜福利在线小视频| 久久精品国产精品青草app| 青青青伊人色综合久久| 草逼视频国产| 国产呦精品一区二区三区下载 | 国产伦片中文免费观看| 国产乱子伦视频三区| 色久综合在线| 欧美综合成人| 日韩精品一区二区三区中文无码| 97在线国产视频| 国产精品亚洲精品爽爽| 久久青青草原亚洲av无码| 国产精品99r8在线观看| 欧美精品黑人粗大| 2022精品国偷自产免费观看| 国产黑丝一区| 欧美日韩va| 色老二精品视频在线观看| 久操线在视频在线观看| 亚洲欧美国产高清va在线播放| 色哟哟国产精品一区二区| 免费福利视频网站| 亚洲中字无码AV电影在线观看| 乱码国产乱码精品精在线播放| 亚洲日韩AV无码精品| 高清不卡毛片| 99国产精品国产高清一区二区| 天堂av高清一区二区三区| 亚洲综合天堂网| a级毛片免费网站| 国产精品一区二区无码免费看片| 国产在线观看精品| 亚洲免费福利视频| 国产综合色在线视频播放线视| 午夜福利免费视频| 国模极品一区二区三区| 一本色道久久88综合日韩精品| 亚洲a免费| 国产香蕉国产精品偷在线观看| 91av成人日本不卡三区| 亚洲成人一区二区三区| 免费无码网站| 亚洲欧美一区二区三区蜜芽| 欧美亚洲国产一区| 国产xx在线观看| 2021亚洲精品不卡a| 中文字幕永久在线观看| 免费高清毛片| 国内精品手机在线观看视频| 国产乱肥老妇精品视频| 精品无码视频在线观看| 欧美精品色视频| 毛片视频网| 91美女视频在线观看| 国产黄网站在线观看| 欧美成在线视频| 成人国产小视频| 国产免费网址| 欧美午夜精品| 日韩精品无码不卡无码| 91免费国产高清观看| 1769国产精品免费视频| 久久久久无码精品| 青青国产视频| 日韩天堂在线观看|