999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

校園中文訊息自動(dòng)摘要系統(tǒng)

2015-09-28 06:25:44徐濤
現(xiàn)代計(jì)算機(jī) 2015年32期
關(guān)鍵詞:校園文本

徐濤

(惠州學(xué)院計(jì)算機(jī)科學(xué)系,惠州 516007)

校園中文訊息自動(dòng)摘要系統(tǒng)

徐濤

(惠州學(xué)院計(jì)算機(jī)科學(xué)系,惠州516007)

0 引言

近年來(lái),基于手機(jī)之類移動(dòng)終端的信息傳遞和發(fā)布成為移動(dòng)終端App市場(chǎng)的一類重要應(yīng)用[1-4],人們開始習(xí)慣于在手機(jī)上獲取和閱讀信息。在大學(xué)或中學(xué)校園內(nèi),很多重要文件、新聞等都需要及時(shí)由校方轉(zhuǎn)發(fā)給廣大師生員工,手機(jī)等移動(dòng)通訊工具由于便于隨身攜帶,因此面向移動(dòng)手機(jī)端的訊息轉(zhuǎn)發(fā)顯得尤為必要,雖然現(xiàn)在已經(jīng)出現(xiàn)了諸如“校訊通”之類的校園移動(dòng)通訊軟件,但需要注意的是,這些軟件并不具備自動(dòng)文本摘要功能。手機(jī)之類移動(dòng)設(shè)備的網(wǎng)速和屏幕大小明顯受限,一般情況下不能保留文件和新聞的全文,那些次要、重復(fù)的內(nèi)容只能選擇拋棄。目前很多校園通訊軟件采用人工操作來(lái)實(shí)現(xiàn)重要文件或新聞的內(nèi)容簡(jiǎn)化,這樣做雖然可行,但明顯會(huì)造成額外負(fù)擔(dān),假如面臨大量的重要文件或新聞需要及時(shí)進(jìn)行發(fā)布時(shí),采用手工操作將嚴(yán)重影響發(fā)布進(jìn)度和時(shí)效性,因此采用自動(dòng)文本摘要技術(shù)顯得尤為必要。

近年來(lái)已經(jīng)出現(xiàn)了一些自動(dòng)文本摘要技術(shù),針對(duì)網(wǎng)頁(yè)文檔結(jié)構(gòu)往往組織和結(jié)構(gòu)散亂、包含主題雜亂無(wú)章,網(wǎng)頁(yè)文檔摘要領(lǐng)域出現(xiàn)了一些較新的自動(dòng)摘要技術(shù),具有代表性的在iOS上運(yùn)行的新聞閱讀類應(yīng)用Summly,采用了自然語(yǔ)義算法,生成的摘要可將原文凝練為不足400詞。

本文設(shè)計(jì)了一個(gè)用于大學(xué)或中學(xué)校園使用的中文訊息自動(dòng)文本摘要系統(tǒng),采用自動(dòng)文本分析的方式對(duì)校方需要轉(zhuǎn)發(fā)的重要文件或新聞生成摘要,可以節(jié)約人力成本,并能明顯提高發(fā)布時(shí)效。

1 校園中文訊息平臺(tái)構(gòu)建

整個(gè)系統(tǒng)的平臺(tái)架構(gòu)如圖1所示。重要的文件和新聞先經(jīng)過(guò)采集匯總到服務(wù)器上,服務(wù)器使用文本自動(dòng)摘要技術(shù)快速將新聞文本壓縮成一段較短的精煉后文本摘要(一般控制在300字以下),摘要生成后利用互聯(lián)網(wǎng)發(fā)布到各個(gè)安裝了該應(yīng)用客戶端程序的智能手機(jī)上(包括Android手機(jī)和蘋果的iOS手機(jī)),而移動(dòng)手機(jī)端的應(yīng)用程序App則根據(jù)接收的內(nèi)容,自動(dòng)生成校園訊息列表,用戶可以通過(guò)閱讀壓縮后的文本摘要,萬(wàn)一感興趣,還可以點(diǎn)擊源鏈接去訪問(wèn)原文。

2 校園中文訊息系統(tǒng)自動(dòng)摘要處理技術(shù)的原理及關(guān)鍵技術(shù)

文本的自動(dòng)摘要技術(shù)為本系統(tǒng)中的核心關(guān)鍵技術(shù),重要的文件或新聞都需要按照一系列的處理步驟來(lái)完成文本摘要并轉(zhuǎn)發(fā),包括中文分詞、特征詞的提取和計(jì)算權(quán)重、句子權(quán)重計(jì)算、句子相似度計(jì)算并過(guò)濾和形成最終摘要這樣的步驟進(jìn)行。

圖1 校園中文訊息系統(tǒng)運(yùn)營(yíng)平臺(tái)

2.1中文分詞

分詞處理為提前和生成特征詞序列的必要前提工作,只有通過(guò)有效、準(zhǔn)確的分詞方案,才能夠形成候選特征詞。眾所周知,英文是以詞為單位的,詞和詞之間是靠空格隔開,而中文是以字為單位,句子中所有的字連起來(lái)才能描述一個(gè)意思。把中文的漢字序列切分成有意義的詞,就是中文分詞。

目前在自然語(yǔ)言處理技術(shù)中,中文處理技術(shù)比西文處理技術(shù)要落后很大一段距離,許多西文的處理方法中文不能直接采用,究其原因則是中文必需有分詞這道工序。中文分詞是其他中文信息處理的基礎(chǔ),自動(dòng)摘要,搜索引擎等只是中文分詞的一個(gè)應(yīng)用。

為了可以快速有效的進(jìn)行分詞處理,本系統(tǒng)采用了目前較為流行的分詞方案——ICTCLAS,該技術(shù)由中科院計(jì)算所研制,主要功能包括中文分詞、詞性標(biāo)注、命名實(shí)體識(shí)別、新詞識(shí)別等。

2.2特征詞和句子的權(quán)重計(jì)算

特征詞指的是能夠反映文件或新聞文本主題的詞語(yǔ),目前提出的方法大多通過(guò)計(jì)算文本分詞后的每個(gè)詞的權(quán)重,選取權(quán)重較大的詞語(yǔ)作為特征詞[5-8]。特征詞選取后主要用于在最后選取摘要句時(shí)句子的權(quán)重計(jì)算中用到,用于計(jì)算摘要句子能反映主題的權(quán)重值。

本系統(tǒng)在計(jì)算特征詞的權(quán)重值時(shí)只考慮名詞和動(dòng)詞,原因?yàn)樵谖谋镜脑~語(yǔ)組成結(jié)構(gòu)中主要包括沒(méi)有實(shí)際意義的功能詞和有實(shí)際意義的內(nèi)容詞,而內(nèi)容詞在表達(dá)文章時(shí)起主要作用,主要體現(xiàn)為名詞和動(dòng)詞。為了衡量詞語(yǔ)權(quán)重,本系統(tǒng)采用了TF-IDF算法,該算法為一種用于資訊檢索與資訊探勘的常用加權(quán)技術(shù),可以判斷某個(gè)字詞在一個(gè)文件集或一個(gè)語(yǔ)料庫(kù)中的重要程度,字詞的重要性隨著它在文件中出現(xiàn)的次數(shù)成正比增加,但同時(shí)會(huì)隨著它在語(yǔ)料庫(kù)中出現(xiàn)的頻率成反比下降。TF-IDF加權(quán)的各種形式常被搜索引擎應(yīng)用,作為文件與用戶查詢之間相關(guān)程度的度量或評(píng)級(jí)。

本系統(tǒng)中所生成的摘要為由原文本中最能代表全文主題的句子組成,可簡(jiǎn)稱為主題摘要句,它們通常為權(quán)重最大的前若干個(gè)句子(最能體現(xiàn)主題),根據(jù)這些句子在原文中出現(xiàn)的位置再次排列組成最終的新聞?wù)?/p>

計(jì)算句子的權(quán)重時(shí)除了要考慮它所包含的特征詞(即句子所包含的詞語(yǔ)對(duì)文本影響較大)權(quán)重,還要考慮句子在原文和段落中出現(xiàn)的位置,另外標(biāo)題詞也會(huì)對(duì)句子權(quán)重產(chǎn)生影響。所以影響句子權(quán)重的因素包括:(1)特征詞的加權(quán)平均值;(2)句子包含特征詞的數(shù)量;(3)句子出現(xiàn)的位置權(quán)重比例因子(包含在全文中出現(xiàn)的位置權(quán)重比例因子和在單獨(dú)段落中出現(xiàn)的位置權(quán)重比例因子);(4)特殊標(biāo)記比重比例因子(如句子中含有像“總的來(lái)說(shuō)”、“綜上所述”、“總而言之”這類型指示性詞語(yǔ)的句子);(5)與標(biāo)題出現(xiàn)重合的句子需要增加權(quán)重。

2.3計(jì)算句子相似度并過(guò)濾多余句子

在漢語(yǔ)表達(dá)的文本中,一個(gè)句子的特征基本可以認(rèn)為具有以下三類:詞特征、語(yǔ)義特征、句法特征。在語(yǔ)句相似度計(jì)算時(shí),需要綜合考慮以上的這三類特征,讓它們進(jìn)行有機(jī)的加權(quán)組合和互相補(bǔ)充。

漢語(yǔ)文本的句子可分為核心部分和修飾部分,核心部分可認(rèn)為是那些能夠句子的語(yǔ)義起至關(guān)重要的作用,通常表現(xiàn)為主謂賓結(jié)構(gòu),而修飾部分則表現(xiàn)為次要,通常表現(xiàn)為定狀補(bǔ)結(jié)構(gòu)。由于主謂賓結(jié)構(gòu)中的主語(yǔ)和賓語(yǔ)往往為名詞或代詞,謂語(yǔ)則多為副詞或形容詞,而因此在進(jìn)行句子相似度計(jì)算時(shí),應(yīng)當(dāng)對(duì)句子中出現(xiàn)的各類詞語(yǔ)進(jìn)行詞性標(biāo)注,然后保留關(guān)鍵詞,過(guò)濾掉非關(guān)鍵詞。

3 結(jié)語(yǔ)

本文設(shè)計(jì)了一個(gè)基于自動(dòng)文本摘要技術(shù)的校園訊息發(fā)布系統(tǒng),可以將校方需要轉(zhuǎn)發(fā)的重要文件或新聞采集匯總后,在服務(wù)器端進(jìn)行自動(dòng)文本摘要,然后轉(zhuǎn)發(fā)給安裝有客戶端App的各類型移動(dòng)手機(jī),可以滿足校園學(xué)習(xí)工作生活中的訊息發(fā)布的需要,節(jié)省了人工摘要的成本,有效提高發(fā)布的時(shí)效性。

[1]茆意宏.移動(dòng)信息服務(wù)的內(nèi)涵與模式[J].情報(bào)科學(xué),2012,30(2):210-215.

[2]茆意宏.面向用戶需求的圖書館移動(dòng)信息服務(wù)[J].中國(guó)圖書館學(xué)報(bào),2012,38(1):76-86.

[3]楊超,陳璐.基于手機(jī)短信的訂餐系統(tǒng)設(shè)計(jì)與開發(fā)[J].計(jì)算機(jī)工程與設(shè)計(jì),2008,29(2):472-476.

[4]劉慧,張軍.基于Internet的移動(dòng)短信互通設(shè)計(jì)方案[J].計(jì)算機(jī)工程與應(yīng)用,2007,43(31):5-8.

[5]江開忠,李子成,顧君忠.自動(dòng)文本摘要方法[J].計(jì)算機(jī)工程,2008,34(1):221-223.

[6]馬漢華,邵志清,過(guò)弋.基于認(rèn)知心理學(xué)模型的自動(dòng)文本摘要生成技術(shù)[J].華東理工大學(xué)學(xué)報(bào)(自然科學(xué)版),2009,35(6):886-891.

[7]余永紅,柏文陽(yáng).基于特征項(xiàng)權(quán)重自動(dòng)分解的文本聚類[J].計(jì)算機(jī)工程,2011,37(11):25-27.

[8]張虹.基于自動(dòng)文本分類的關(guān)鍵詞抽取算法[J].計(jì)算機(jī)工程,2009,35(12):145-147.

Campus Message;Mobile Phone;Text Forwarding;Automatic Text Summarization

A Campus Chinese Message System Based on Automatic Summarization

XU Tao

(Department of Computer Science,Huizhou University,Huizhou 516007)

1007-1423(2015)32-0036-03

10.3969/j.issn.1007-1423.2015.32.009

徐濤(1974-),男,山東淄博人,副教授,博士,研究方向?yàn)橐苿?dòng)互聯(lián)網(wǎng)信息技術(shù)和信息安全技術(shù)

2015-10-13

2015-11-05

隨著移動(dòng)手機(jī)在校園內(nèi)的普及使用,在手機(jī)上閱讀來(lái)自學(xué)校的文件、新聞成為師生們獲取學(xué)校信息的重要來(lái)源。由于學(xué)校的文件和新聞通常包含大量的文本,在手機(jī)端閱讀非常不便,若采用人工摘要明顯會(huì)增加人力成本,并且會(huì)產(chǎn)生延遲,因此有必要采用自動(dòng)摘要技術(shù)對(duì)訊息進(jìn)行加工精煉后轉(zhuǎn)發(fā)到移動(dòng)手機(jī)端。設(shè)計(jì)一個(gè)基于自動(dòng)文本摘要的校園中文訊息系統(tǒng),采用自動(dòng)文本分析的方式對(duì)文件或新聞進(jìn)行加工提煉后生成摘要,然后推送到校園內(nèi)的移動(dòng)手機(jī),在節(jié)約人力的同時(shí),能夠提高文件和新聞發(fā)布的時(shí)效。

校園訊息;移動(dòng)手機(jī);文本轉(zhuǎn)發(fā);自動(dòng)文本摘要

2013年惠州市科技計(jì)劃項(xiàng)目(No.2013W20、No.2013W12)、惠州學(xué)院2014年度教研教改項(xiàng)目(No.JG2014011)、惠州學(xué)院應(yīng)用型人才培養(yǎng)示范專業(yè)(No.SZ2012001)

With popular use of mobile phones at campus,reading files and news from the school on the phone has become an important source of teachers and students to get school information.Because the school's files and news usually contain a lot of text,reading them on the phone side is very inconvenient.Since artificial abstract would significantly increase labor costs and may cause delay,it's necessary to use automatic summarization technology for refining messages.Proposes a campus information system based Chinese automatic text summarization.The abstracts of messages are generated after automatic text analysis,and then pushed to mobile phones on campus.While saving manpower,it can improve the timeliness of the files and news release.

猜你喜歡
校園文本
初中群文閱讀的文本選擇及組織
甘肅教育(2020年8期)2020-06-11 06:10:02
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識(shí)別
電子制作(2018年18期)2018-11-14 01:48:06
Q爆校園
再見,我的校園
南方周末(2018-06-28)2018-06-28 08:11:04
校園的早晨
琴童(2017年3期)2017-04-05 14:49:04
春滿校園
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
論《柳毅傳》對(duì)前代文本的繼承與轉(zhuǎn)化
人間(2015年20期)2016-01-04 12:47:10
開心校園
主站蜘蛛池模板: 亚洲首页在线观看| 亚洲视频免费播放| 国产精品真实对白精彩久久 | 国产高清又黄又嫩的免费视频网站| 久久永久视频| 性色生活片在线观看| 国产精品对白刺激| 日韩在线视频网站| 欧美中文字幕在线播放| 欧美日韩久久综合| 四虎影视国产精品| 福利在线一区| 欧美激情一区二区三区成人| 欧美日韩久久综合| 亚洲一级色| 国产欧美视频在线| 亚洲色图欧美一区| 97视频在线观看免费视频| 9cao视频精品| 欧美高清日韩| 91精品人妻一区二区| 成人国产一区二区三区| 久久亚洲国产一区二区| 国产美女丝袜高潮| 免费无码在线观看| 99爱在线| 欧美笫一页| 91口爆吞精国产对白第三集| 亚洲精品大秀视频| 少妇精品久久久一区二区三区| 在线精品视频成人网| 久久频这里精品99香蕉久网址| 国产极品美女在线| 欧美一级黄色影院| 国产91透明丝袜美腿在线| 国产综合无码一区二区色蜜蜜| 亚洲欧美成aⅴ人在线观看 | 欧美精品在线看| 狠狠色噜噜狠狠狠狠色综合久 | 日本人真淫视频一区二区三区| 五月天天天色| 尤物在线观看乱码| 波多野结衣中文字幕一区二区| 婷婷六月激情综合一区| 一区二区三区四区精品视频 | 毛片网站观看| 亚洲国产黄色| 国产精品久久久久鬼色| 久久精品无码一区二区日韩免费| 久久性视频| 免费无遮挡AV| 国产成人调教在线视频| 欧美无遮挡国产欧美另类| 午夜视频在线观看区二区| 亚洲欧洲日产国码无码av喷潮| 国产精品福利在线观看无码卡| 国产成人精品在线1区| 久久精品无码国产一区二区三区| 久久动漫精品| 亚洲天堂网2014| 亚洲精品成人福利在线电影| 国产门事件在线| 国产无人区一区二区三区| 福利片91| 四虎永久在线精品影院| 国产三级成人| a级毛片免费在线观看| 欧美怡红院视频一区二区三区| 波多野结衣一级毛片| 人人看人人鲁狠狠高清| av手机版在线播放| 一本久道久久综合多人| 男女猛烈无遮挡午夜视频| 亚欧乱色视频网站大全| 亚洲伊人电影| 毛片基地美国正在播放亚洲 | swag国产精品| 国产视频资源在线观看| 亚洲精品卡2卡3卡4卡5卡区| 波多野结衣在线一区二区| 午夜性爽视频男人的天堂| 亚洲综合婷婷激情|