999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

校園中文訊息自動摘要系統

2015-09-28 06:25:44徐濤
現代計算機 2015年32期
關鍵詞:校園文本

徐濤

(惠州學院計算機科學系,惠州 516007)

校園中文訊息自動摘要系統

徐濤

(惠州學院計算機科學系,惠州516007)

0 引言

近年來,基于手機之類移動終端的信息傳遞和發布成為移動終端App市場的一類重要應用[1-4],人們開始習慣于在手機上獲取和閱讀信息。在大學或中學校園內,很多重要文件、新聞等都需要及時由校方轉發給廣大師生員工,手機等移動通訊工具由于便于隨身攜帶,因此面向移動手機端的訊息轉發顯得尤為必要,雖然現在已經出現了諸如“校訊通”之類的校園移動通訊軟件,但需要注意的是,這些軟件并不具備自動文本摘要功能。手機之類移動設備的網速和屏幕大小明顯受限,一般情況下不能保留文件和新聞的全文,那些次要、重復的內容只能選擇拋棄。目前很多校園通訊軟件采用人工操作來實現重要文件或新聞的內容簡化,這樣做雖然可行,但明顯會造成額外負擔,假如面臨大量的重要文件或新聞需要及時進行發布時,采用手工操作將嚴重影響發布進度和時效性,因此采用自動文本摘要技術顯得尤為必要。

近年來已經出現了一些自動文本摘要技術,針對網頁文檔結構往往組織和結構散亂、包含主題雜亂無章,網頁文檔摘要領域出現了一些較新的自動摘要技術,具有代表性的在iOS上運行的新聞閱讀類應用Summly,采用了自然語義算法,生成的摘要可將原文凝練為不足400詞。

本文設計了一個用于大學或中學校園使用的中文訊息自動文本摘要系統,采用自動文本分析的方式對校方需要轉發的重要文件或新聞生成摘要,可以節約人力成本,并能明顯提高發布時效。

1 校園中文訊息平臺構建

整個系統的平臺架構如圖1所示。重要的文件和新聞先經過采集匯總到服務器上,服務器使用文本自動摘要技術快速將新聞文本壓縮成一段較短的精煉后文本摘要(一般控制在300字以下),摘要生成后利用互聯網發布到各個安裝了該應用客戶端程序的智能手機上(包括Android手機和蘋果的iOS手機),而移動手機端的應用程序App則根據接收的內容,自動生成校園訊息列表,用戶可以通過閱讀壓縮后的文本摘要,萬一感興趣,還可以點擊源鏈接去訪問原文。

2 校園中文訊息系統自動摘要處理技術的原理及關鍵技術

文本的自動摘要技術為本系統中的核心關鍵技術,重要的文件或新聞都需要按照一系列的處理步驟來完成文本摘要并轉發,包括中文分詞、特征詞的提取和計算權重、句子權重計算、句子相似度計算并過濾和形成最終摘要這樣的步驟進行。

圖1 校園中文訊息系統運營平臺

2.1中文分詞

分詞處理為提前和生成特征詞序列的必要前提工作,只有通過有效、準確的分詞方案,才能夠形成候選特征詞。眾所周知,英文是以詞為單位的,詞和詞之間是靠空格隔開,而中文是以字為單位,句子中所有的字連起來才能描述一個意思。把中文的漢字序列切分成有意義的詞,就是中文分詞。

目前在自然語言處理技術中,中文處理技術比西文處理技術要落后很大一段距離,許多西文的處理方法中文不能直接采用,究其原因則是中文必需有分詞這道工序。中文分詞是其他中文信息處理的基礎,自動摘要,搜索引擎等只是中文分詞的一個應用。

為了可以快速有效的進行分詞處理,本系統采用了目前較為流行的分詞方案——ICTCLAS,該技術由中科院計算所研制,主要功能包括中文分詞、詞性標注、命名實體識別、新詞識別等。

2.2特征詞和句子的權重計算

特征詞指的是能夠反映文件或新聞文本主題的詞語,目前提出的方法大多通過計算文本分詞后的每個詞的權重,選取權重較大的詞語作為特征詞[5-8]。特征詞選取后主要用于在最后選取摘要句時句子的權重計算中用到,用于計算摘要句子能反映主題的權重值。

本系統在計算特征詞的權重值時只考慮名詞和動詞,原因為在文本的詞語組成結構中主要包括沒有實際意義的功能詞和有實際意義的內容詞,而內容詞在表達文章時起主要作用,主要體現為名詞和動詞。為了衡量詞語權重,本系統采用了TF-IDF算法,該算法為一種用于資訊檢索與資訊探勘的常用加權技術,可以判斷某個字詞在一個文件集或一個語料庫中的重要程度,字詞的重要性隨著它在文件中出現的次數成正比增加,但同時會隨著它在語料庫中出現的頻率成反比下降。TF-IDF加權的各種形式常被搜索引擎應用,作為文件與用戶查詢之間相關程度的度量或評級。

本系統中所生成的摘要為由原文本中最能代表全文主題的句子組成,可簡稱為主題摘要句,它們通常為權重最大的前若干個句子(最能體現主題),根據這些句子在原文中出現的位置再次排列組成最終的新聞摘要。

計算句子的權重時除了要考慮它所包含的特征詞(即句子所包含的詞語對文本影響較大)權重,還要考慮句子在原文和段落中出現的位置,另外標題詞也會對句子權重產生影響。所以影響句子權重的因素包括:(1)特征詞的加權平均值;(2)句子包含特征詞的數量;(3)句子出現的位置權重比例因子(包含在全文中出現的位置權重比例因子和在單獨段落中出現的位置權重比例因子);(4)特殊標記比重比例因子(如句子中含有像“總的來說”、“綜上所述”、“總而言之”這類型指示性詞語的句子);(5)與標題出現重合的句子需要增加權重。

2.3計算句子相似度并過濾多余句子

在漢語表達的文本中,一個句子的特征基本可以認為具有以下三類:詞特征、語義特征、句法特征。在語句相似度計算時,需要綜合考慮以上的這三類特征,讓它們進行有機的加權組合和互相補充。

漢語文本的句子可分為核心部分和修飾部分,核心部分可認為是那些能夠句子的語義起至關重要的作用,通常表現為主謂賓結構,而修飾部分則表現為次要,通常表現為定狀補結構。由于主謂賓結構中的主語和賓語往往為名詞或代詞,謂語則多為副詞或形容詞,而因此在進行句子相似度計算時,應當對句子中出現的各類詞語進行詞性標注,然后保留關鍵詞,過濾掉非關鍵詞。

3 結語

本文設計了一個基于自動文本摘要技術的校園訊息發布系統,可以將校方需要轉發的重要文件或新聞采集匯總后,在服務器端進行自動文本摘要,然后轉發給安裝有客戶端App的各類型移動手機,可以滿足校園學習工作生活中的訊息發布的需要,節省了人工摘要的成本,有效提高發布的時效性。

[1]茆意宏.移動信息服務的內涵與模式[J].情報科學,2012,30(2):210-215.

[2]茆意宏.面向用戶需求的圖書館移動信息服務[J].中國圖書館學報,2012,38(1):76-86.

[3]楊超,陳璐.基于手機短信的訂餐系統設計與開發[J].計算機工程與設計,2008,29(2):472-476.

[4]劉慧,張軍.基于Internet的移動短信互通設計方案[J].計算機工程與應用,2007,43(31):5-8.

[5]江開忠,李子成,顧君忠.自動文本摘要方法[J].計算機工程,2008,34(1):221-223.

[6]馬漢華,邵志清,過弋.基于認知心理學模型的自動文本摘要生成技術[J].華東理工大學學報(自然科學版),2009,35(6):886-891.

[7]余永紅,柏文陽.基于特征項權重自動分解的文本聚類[J].計算機工程,2011,37(11):25-27.

[8]張虹.基于自動文本分類的關鍵詞抽取算法[J].計算機工程,2009,35(12):145-147.

Campus Message;Mobile Phone;Text Forwarding;Automatic Text Summarization

A Campus Chinese Message System Based on Automatic Summarization

XU Tao

(Department of Computer Science,Huizhou University,Huizhou 516007)

1007-1423(2015)32-0036-03

10.3969/j.issn.1007-1423.2015.32.009

徐濤(1974-),男,山東淄博人,副教授,博士,研究方向為移動互聯網信息技術和信息安全技術

2015-10-13

2015-11-05

隨著移動手機在校園內的普及使用,在手機上閱讀來自學校的文件、新聞成為師生們獲取學校信息的重要來源。由于學校的文件和新聞通常包含大量的文本,在手機端閱讀非常不便,若采用人工摘要明顯會增加人力成本,并且會產生延遲,因此有必要采用自動摘要技術對訊息進行加工精煉后轉發到移動手機端。設計一個基于自動文本摘要的校園中文訊息系統,采用自動文本分析的方式對文件或新聞進行加工提煉后生成摘要,然后推送到校園內的移動手機,在節約人力的同時,能夠提高文件和新聞發布的時效。

校園訊息;移動手機;文本轉發;自動文本摘要

2013年惠州市科技計劃項目(No.2013W20、No.2013W12)、惠州學院2014年度教研教改項目(No.JG2014011)、惠州學院應用型人才培養示范專業(No.SZ2012001)

With popular use of mobile phones at campus,reading files and news from the school on the phone has become an important source of teachers and students to get school information.Because the school's files and news usually contain a lot of text,reading them on the phone side is very inconvenient.Since artificial abstract would significantly increase labor costs and may cause delay,it's necessary to use automatic summarization technology for refining messages.Proposes a campus information system based Chinese automatic text summarization.The abstracts of messages are generated after automatic text analysis,and then pushed to mobile phones on campus.While saving manpower,it can improve the timeliness of the files and news release.

猜你喜歡
校園文本
初中群文閱讀的文本選擇及組織
甘肅教育(2020年8期)2020-06-11 06:10:02
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
Q爆校園
再見,我的校園
南方周末(2018-06-28)2018-06-28 08:11:04
校園的早晨
琴童(2017年3期)2017-04-05 14:49:04
春滿校園
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
論《柳毅傳》對前代文本的繼承與轉化
人間(2015年20期)2016-01-04 12:47:10
開心校園
主站蜘蛛池模板: 波多野结衣在线一区二区| 国产精品亚洲一区二区在线观看| 丝袜美女被出水视频一区| 四虎综合网| 精品人妻一区无码视频| 999国内精品久久免费视频| yjizz视频最新网站在线| 无码专区在线观看| 国产自产视频一区二区三区| 国产不卡在线看| 99精品免费欧美成人小视频| 国产成人欧美| 国产成人夜色91| 第一区免费在线观看| 久久伊伊香蕉综合精品| 欧美区一区二区三| 国产特一级毛片| 97人妻精品专区久久久久| 伊人久久大香线蕉影院| 国产一区免费在线观看| 美女被操91视频| 东京热一区二区三区无码视频| 国产成人综合日韩精品无码首页| 精品国产免费观看一区| 久久香蕉国产线看观看式| 国产欧美日韩视频怡春院| 色欲国产一区二区日韩欧美| 思思热精品在线8| 成人永久免费A∨一级在线播放| 日韩欧美一区在线观看| 69国产精品视频免费| 亚洲日产2021三区在线| 毛片网站在线播放| 欧美日在线观看| 国产幂在线无码精品| 免费无遮挡AV| 欧美激情视频一区二区三区免费| 国产熟睡乱子伦视频网站| 欧美一区二区三区国产精品| 欧美、日韩、国产综合一区| 91亚瑟视频| 免费毛片视频| 狠狠躁天天躁夜夜躁婷婷| 国内毛片视频| 国产精品一区二区国产主播| 精品久久久久久中文字幕女| 青青操国产视频| 香蕉99国内自产自拍视频| 欧美区一区| 51国产偷自视频区视频手机观看| 中国特黄美女一级视频| 人妻无码中文字幕第一区| 97在线公开视频| 69视频国产| 国产白丝av| 成人久久18免费网站| 欧美精品v日韩精品v国产精品| 天天综合网亚洲网站| 综合久久久久久久综合网| 日韩午夜伦| 亚洲av无码人妻| 内射人妻无套中出无码| 国产精品美女自慰喷水| 91视频青青草| 国产情精品嫩草影院88av| 996免费视频国产在线播放| 日韩视频福利| 亚洲无码精彩视频在线观看| 原味小视频在线www国产| 美女高潮全身流白浆福利区| 2020亚洲精品无码| a级毛片毛片免费观看久潮| 亚洲男人天堂网址| 国产高清在线观看| 国产精品欧美日本韩免费一区二区三区不卡| 国产浮力第一页永久地址| 99热这里只有精品国产99| 一本大道香蕉久中文在线播放 | 国产资源免费观看| 国产成人精品午夜视频'| 狠狠久久综合伊人不卡| 国产一在线观看|