999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于Web Services和插件架構(gòu)的新聞中心平臺的設(shè)計

2012-02-21 04:02:48陳海建
關(guān)鍵詞:信息

李 劍 ,陳海建

(1.江蘇廣播電視大學(xué),江蘇 南京 210036;2.上海電視大學(xué) 信息與工程系,上海 200433;3.上海財經(jīng)大學(xué) 信息管理與工程學(xué)院,上海 200433)

隨著網(wǎng)絡(luò)技術(shù)的迅猛發(fā)展,以網(wǎng)頁形式發(fā)布的信息、數(shù)據(jù)爆炸性地增長,人們期望能夠及時有效地關(guān)注、獲取、管理和分析對比特定行業(yè)的熱點(diǎn)信息和數(shù)據(jù)。尤其在金融和傳媒領(lǐng)域,信息和數(shù)據(jù)變化特別快,能及時收集來自不同網(wǎng)站上發(fā)布的信息和數(shù)據(jù)變得尤其重要。但是,絕大多數(shù)網(wǎng)頁基于HTML格式,其松散的特性使得現(xiàn)有的頁面提取算法不能較好地與特定領(lǐng)域的業(yè)務(wù)相結(jié)合,分析出信息的語義。例如,對單個頁面而言,如果完全進(jìn)行自動化分析,較難在分析結(jié)果中對與新聞這一特定領(lǐng)域相關(guān)的新聞標(biāo)題、鏈接、發(fā)表時間和正文等內(nèi)容元素加以區(qū)分;對于新聞標(biāo)題列表和新聞?wù)姆謩e位于不同網(wǎng)頁這一典型的多頁面結(jié)構(gòu),需要聯(lián)合分析多個網(wǎng)頁的內(nèi)容,如果沒有一套完善的提取和分析這些信息的軟件平臺,也難以得到完整信息。

本文針對Internet上新聞網(wǎng)站的信息,設(shè)計并實(shí)現(xiàn)了一個網(wǎng)頁插件形式的半自動化的網(wǎng)頁信息搜集中間件,對于不同版式的新聞網(wǎng)站,只需編寫少量相關(guān)代碼實(shí)現(xiàn)中間件,即可完成對新聞標(biāo)題、鏈接、發(fā)表時間和正文等信息的提取。新聞生成器插件加入到新聞中心平臺中,由Web Services提供同構(gòu)的新聞獲取接口,前臺通過調(diào)用Web Services即可構(gòu)建匯集各種新聞和通知公告的新聞中心。此外,本平臺還提供將新聞轉(zhuǎn)換為RSS(Really Simple Syndication)種子的功能,以方便用戶使用RSS閱讀器訂閱新聞。

基于此種新聞中心平臺架構(gòu),完全不需要改變現(xiàn)有的新聞網(wǎng)站布局,即可自動匯聚多方面的新聞,創(chuàng)建新聞門戶網(wǎng)站。此外,本平臺還具有高擴(kuò)展性,當(dāng)有新的網(wǎng)站需要關(guān)注時,只需編寫擴(kuò)展插件,即可實(shí)現(xiàn)將關(guān)注的網(wǎng)站加入到視野中。

1 網(wǎng)頁信息提取技術(shù)

對Web信息提取的研究早在20世紀(jì)80年代就已開始,根據(jù)參考文獻(xiàn)[1],現(xiàn)有的對Web信息提取分析的方法可以分為多種類型:從自動化程度上可劃分為手工、半自動和全自動提取分析方法;從原理上可劃分為基于自然語言理解、基于本體、基于HTML(HyperText Markup Language)和基于隱馬爾可夫模型等提取分析方法。本文設(shè)計并實(shí)現(xiàn)的新聞中心平臺,在對單個頁面進(jìn)行分析時所采用的是基于HTML的半自動提取分析方法,也即:在信息提取之前通過解析器將Web文檔解析成語法樹,通過半自動的方式產(chǎn)生提取規(guī)則,將信息提取轉(zhuǎn)換成對語法樹的操作實(shí)現(xiàn)信息提取”。

在Web中,信息是以半結(jié)構(gòu)化和無結(jié)構(gòu)文檔的形式組織存儲的,參考文獻(xiàn)[2]中指出:“這些數(shù)據(jù)沒有統(tǒng)一的模式,數(shù)據(jù)的內(nèi)容和表示相互交織,數(shù)據(jù)內(nèi)容基本上沒有語義信息進(jìn)行描述,僅僅依靠HTML語法對數(shù)據(jù)進(jìn)行描述”。

當(dāng)前,對Web信息提取的研究主要有兩個方向[3]:一種是研究怎樣把網(wǎng)頁中無結(jié)構(gòu)或半結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)換為結(jié)構(gòu)化數(shù)據(jù),這類研究的主要目的在于提取細(xì)粒度的數(shù)據(jù);另一種研究則是希望通過信息提取技術(shù),提取標(biāo)題、正文等主題內(nèi)容或興趣區(qū)域。本文設(shè)計并實(shí)現(xiàn)的新聞中心平臺,主要注重的是對新聞標(biāo)題、鏈接、發(fā)表時間和正文等內(nèi)容元素的提取。

由于現(xiàn)實(shí)中Web頁面種類繁多,形式各異,在國內(nèi)外的研究工作中,學(xué)者們提出了多種Web信息提取方式,例如:Finn[4]等人將HTML文檔看作字符和標(biāo)簽組成的序列,在字符集中的區(qū)域提取文字。這種方式適用于以文字為主要內(nèi)容的文檔,而不便于提取文檔中的圖片、鏈接等內(nèi)容;胡國平等[5]人針對新聞網(wǎng)站提取了基于統(tǒng)計的正文的抽取方法,但卻只適合所有正文只有一個TABLE標(biāo)簽中的文檔;而楊成[6]提出了一種面向由XML描述的Web文檔的、基于用戶主題信息的模式和數(shù)據(jù)提取方法。該方法利用學(xué)習(xí)算法從樣本文檔中提取規(guī)則,然后使用匹配算法從目標(biāo)文檔中訓(xùn)練出模式。

考慮到新聞領(lǐng)域相關(guān)的內(nèi)容元素較為簡單(包括標(biāo)題、正文等),本文認(rèn)為針對某個具體的新聞網(wǎng)站,可以由人工編碼完成少量差異化的提取和分析工作,以插件形式加入到整個新聞提取和分析過程中,實(shí)現(xiàn)對各類新聞網(wǎng)站內(nèi)容的準(zhǔn)確高效提取。

2 新聞中心平臺的設(shè)計

2.1 新聞生成器插件的設(shè)計

中間件是新聞中心平臺的核心,是進(jìn)行半自動化信息提取的部分。中間件主要類的UML類圖如圖1所示。圖中,IGenerator接口對提取新聞的主要方法 (獲得標(biāo)題及正文等)進(jìn)行了定義,凡是具有實(shí)現(xiàn)了IGenerator接口的類的插件均可以加入到平臺中作為針對某個新聞網(wǎng)站的生成器,為平臺提供來自某一特定網(wǎng)站的新聞。考慮到流行的新聞網(wǎng)站的架構(gòu)具有一些相似之處,本新聞平臺事先設(shè)計了一些實(shí)現(xiàn)IGenerator接口的基類,使用戶在開發(fā)某些類型的新聞網(wǎng)站生成器插件時,無需從頭開始編碼工作,只需由這些基類派生,并實(shí)現(xiàn)一些差異化的工作即可。例如,TitleListNewsGenerator基類對如圖2所示類型的新聞網(wǎng)站提供了支持。

圖1 插件平臺主要類的UML圖類

圖2 一種常見的新聞網(wǎng)站架構(gòu)

TitleListNewsGenerator基類對提取這類新聞網(wǎng)站信息的功能做了進(jìn)一步的封裝和優(yōu)化(例如并行分析多個新聞?wù)捻摚缧鑿哪硞€具體的、如圖2所示的新聞網(wǎng)站提取信息,只需編寫派生自TitleListNewsGenerator基類的實(shí)例,再對特定網(wǎng)頁的少量特殊內(nèi)容進(jìn)行人工編碼實(shí)現(xiàn)(例如若新聞鏈接地址是通過JavaScript事件生成的,則需要對這種鏈接進(jìn)行轉(zhuǎn)換)即可。提取這類新聞網(wǎng)站的信息的流程如圖3所示。

針對不同類型的新聞網(wǎng)站,新聞生成器插件平臺可以開發(fā)多種不同的基類,將其中可以自動化完成的工作預(yù)先實(shí)現(xiàn),而插件制作人員只需對所針對的網(wǎng)站的特殊部分(例如與網(wǎng)頁版面美化有關(guān)的少量特殊內(nèi)容可能需要過濾)加以處理即可。

新聞生成器插件中包括至少一個直接或間接實(shí)現(xiàn)IGenerator接口的類,該接口定義新聞生成器必須實(shí)現(xiàn)的功能,包括獲得新聞標(biāo)題和新聞描述等。新聞生成器插件針對不同的新聞網(wǎng)站,采取不同的分析頁面源代碼和抓取分析策略,最終實(shí)現(xiàn)在IGenerator接口中規(guī)定必須實(shí)現(xiàn)的功能。

新聞生成器插件在分析頁面源代碼的過程中,需要注意的是將頁面圖片、附件所使用的相對路徑或由JavaScript在事件中生成的路徑均轉(zhuǎn)換為絕對路徑,使其在從新聞網(wǎng)站獨(dú)立出來后仍能正常使用。此外,在處理過程中若發(fā)生錯誤,應(yīng)將異常交由日志記錄模塊進(jìn)行記錄,并由異常處理模塊做相應(yīng)處理。

圖3 一種常見的新聞提取流程

2.2 新聞中心平臺的設(shè)計

基于半自動化提取新聞的設(shè)計思想,為江蘇城市職業(yè)學(xué)院實(shí)現(xiàn)了一套可擴(kuò)展的新聞中心平臺。其平臺由歸檔數(shù)據(jù)庫、新聞生成器插件平臺、服務(wù)層、RSS種子生成模塊、日志記錄和異常管理模塊以及多種類型的新聞中心表示層(客戶端、網(wǎng)站、RIA等)組成,其整體架構(gòu)如圖4所示。

圖4 新聞中心平臺的架構(gòu)

2.2.1 新聞生成器插件平臺

基于2.1節(jié)插件的設(shè)計思想,新聞生成器插件平臺負(fù)責(zé)將各插件集成到新聞中心平臺中,為新聞中心平臺提供來自不同網(wǎng)站的新聞信息。插件加載引擎通過讀取插件配置文件定位插件并加載。插件配置文件是一個XML文件,該文件定義了各新聞生成器插件所屬的新聞類別、插件文件路徑和生成器類的完整路徑,其格式如下所示:

要為新聞中心平臺增加新的新聞生成器插件,只需在插件配置文件中增加該插件的配置信息以及插件加載引擎即可定位到該插件,并通過調(diào)用相關(guān)方法,向新聞中心平臺提供來自新來源的新聞信息。

2.2.2 歸檔數(shù)據(jù)庫

歸檔數(shù)據(jù)庫負(fù)責(zé)存放保留由各新聞生成器通過分析新聞所在網(wǎng)站源代碼而抓取生成的新聞內(nèi)容。

2.2.3 RSS種子生成模塊

在新聞生成器插件平臺的基礎(chǔ)上,RSS種子生成模塊能夠?yàn)槊總€新聞來源生成一個RSS種子,以便用戶使用RSS閱讀器訂閱新聞。

由于RSS文件是XML格式的,因此在生成RSS種子時,需要轉(zhuǎn)換或過濾與XML文檔不兼容的字符。另外,根據(jù)RSS標(biāo)準(zhǔn)的規(guī)范定義,需要將日期時間轉(zhuǎn)換為RFC822規(guī)定的格式。

2.3 服務(wù)層

在新聞生成器插件平臺的基礎(chǔ)上,服務(wù)層進(jìn)一步將功能抽象為一個個平臺無關(guān)的Web Services方法,以適合為多種類型的表示層提供功能。

服務(wù)層主要提供以下服務(wù):獲得新聞類別列表、獲得新聞頻道列表、獲得新聞標(biāo)題列表和獲得新聞?wù)牡取?/p>

2.4 日志記錄模塊和異常管理模塊

日志記錄和異常管理模塊貫穿整個新聞中心平臺的服務(wù)周期,用以記錄平臺的工作狀況,并在發(fā)生異常時及時采取措施。

2.5 多種類型的新聞中心表示層

通過調(diào)用服務(wù)層提供的Web Services,新聞中心的表示層可以使用不同技術(shù),并設(shè)計成為多種不同的表現(xiàn)形式,從而滿足不同用戶的需要。

3 新聞中心平臺的實(shí)現(xiàn)和運(yùn)用

3.1 運(yùn)行環(huán)境與實(shí)現(xiàn)

新聞中心平臺基于.NET Framework 4.0構(gòu)建,除表示層因具體技術(shù)不同而有所區(qū)分外,新聞中心平臺的其余部分最終均部署于Dell PowerEdge R900服務(wù)機(jī)上使用VMWare ESX 3i劃分的一臺安裝有Windows Server 2008操作系統(tǒng)的虛擬機(jī)上。

新聞中心平臺的客戶端可以多種不同形式 (網(wǎng)站、PC或手機(jī)應(yīng)用程序等)向用戶提供新聞。圖5是江蘇城市職業(yè)學(xué)院新聞中心客戶端的運(yùn)行效果圖。圖中的新聞均由新聞中心平臺通過提取與分析江蘇城市職業(yè)學(xué)院網(wǎng)站的內(nèi)容自動整理生成,并與網(wǎng)站更新保持同步,用戶通過使用新聞中心平臺,能夠便捷地集中瀏覽原本散落于網(wǎng)站各個頁面學(xué)院的新聞。

圖5 基于新聞中心平臺的江蘇職業(yè)學(xué)院新聞中心客戶端運(yùn)行截圖

3.2 新聞中心平臺的優(yōu)勢

除使用本文實(shí)現(xiàn)的新聞中心平臺的方式外,還可通過設(shè)計門戶網(wǎng)站或設(shè)計搜索引擎的方式方便對信息的獲得,與此二種方式相比,新聞中心平臺有其特有的優(yōu)勢。

3.2.1 與門戶網(wǎng)站相比的優(yōu)勢

新聞門戶網(wǎng)站能夠分類發(fā)布和整理新聞,但重新架構(gòu)一套門戶網(wǎng)站,意味著需要完全放棄現(xiàn)有的所有新聞網(wǎng)站,重新組織來自眾多院系部門的新聞維護(hù)人員,成本極高。此外,各院系部門并非完全不需要一個展示自身的網(wǎng)站平臺,完全廢棄這些網(wǎng)站而統(tǒng)一使用門戶網(wǎng)站將使各院系部門的形象千篇一律,流程僵化,而保留這些網(wǎng)站并同時使用門戶網(wǎng)站又將造成信息的冗余。

而新聞中心平臺是利用插件半自動化地從各院系部門現(xiàn)有網(wǎng)站中提取新聞,避免了重復(fù)建設(shè),并只由歸檔數(shù)據(jù)庫做適當(dāng)緩存,隨時可以刪除,不存在大量冗余。與建設(shè)門戶網(wǎng)站相比,使用新聞中心平臺能有效降低成本投入,且更加靈活。

3.2.2 與搜索引擎相比的優(yōu)勢

可以使用搜索引擎,通過關(guān)鍵詞檢索新聞。然而檢索的范圍和粒度都難以控制,也不能滿足一般的新聞瀏覽需要。而新聞中心平臺將新聞分門別類,在方便統(tǒng)一瀏覽的同時,可以足夠快速地找到所需的新聞,在必要的時候還可以加入搜索功能作為輔助。

本文設(shè)計并實(shí)現(xiàn)了一套基于插件架構(gòu)的新聞中心平臺,該平臺在新聞中心網(wǎng)站和客戶端的設(shè)計中進(jìn)行了實(shí)踐,通過插件提取新聞網(wǎng)站的內(nèi)容進(jìn)行分析匯總,解決了新聞來源混亂而不易于獲得的問題,且具有較好的擴(kuò)展性。今后將進(jìn)一步分析新聞網(wǎng)站的特點(diǎn),有針對性地提高信息提取的自動化程度。

[1]王宇寧.隱馬爾可夫模型在信息抽取中的應(yīng)用研究[D].大連:大連理工學(xué)院,2007.

[2]袁宇麗.基于HTML網(wǎng)頁的Web信息提取研究 [D].成都:電子科技大學(xué),2005.

[3]謝德輝.面向刑偵網(wǎng)頁的信息抽取與主題爬蟲應(yīng)用研究[D].大連:大連理工學(xué)院,2007.

[4]FINN A, KUSHMERICK A, SMYTH B.Fact or fiction:contentclassification fordigitallibraries [C].The 2nd DELOS Network of Excellence Workshop on Personalisation and Recommender Systems in Digital Libraries, Dublin,Ireland, 2001: 110-115

[5]胡國平,張巍,王仁華.基于雙層決策的新聞網(wǎng)頁正文精確抽取[J].中文信息學(xué)報,2006,20(6):1-10.

[6]楊成.基于XML的網(wǎng)頁信息提取系統(tǒng)的研究與設(shè)計[J].電腦知識與技術(shù),2009,5(25):7327-7329.

猜你喜歡
信息
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
展會信息
中外會展(2014年4期)2014-11-27 07:46:46
信息超市
展會信息
展會信息
展會信息
展會信息
展會信息
信息
健康信息
祝您健康(1987年3期)1987-12-30 09:52:32
主站蜘蛛池模板: 国产视频资源在线观看| 99re在线视频观看| 亚洲精品大秀视频| 香蕉伊思人视频| 亚洲精品国产综合99久久夜夜嗨| 国产无码网站在线观看| 久久综合丝袜日本网| 色噜噜在线观看| 日本不卡视频在线| 国产丝袜无码一区二区视频| 亚洲中文字幕av无码区| 日本成人在线不卡视频| 手机精品福利在线观看| 国产精品福利导航| 亚洲国产欧美自拍| 在线免费不卡视频| 免费看美女毛片| 一区二区理伦视频| 久久夜夜视频| 狼友视频国产精品首页| 亚洲不卡无码av中文字幕| 91色国产在线| jizz在线免费播放| 日本精品视频一区二区 | 国产一级无码不卡视频| 日本精品中文字幕在线不卡| 无遮挡一级毛片呦女视频| 日韩欧美中文字幕在线精品| 国产拍在线| 亚洲综合色婷婷| 无码精品福利一区二区三区| 日本成人精品视频| 色精品视频| 99手机在线视频| 成年看免费观看视频拍拍| 亚洲日韩高清无码| 亚洲第一福利视频导航| 国产美女自慰在线观看| 欧美精品高清| 666精品国产精品亚洲| 亚洲天堂视频在线观看免费| 亚洲人妖在线| av一区二区三区高清久久| 日韩精品久久无码中文字幕色欲| 99精品高清在线播放| 日韩欧美高清视频| 四虎综合网| 中文精品久久久久国产网址| 天天视频在线91频| 中文成人在线| 在线观看精品自拍视频| 中国一级特黄大片在线观看| 国产视频你懂得| 波多野结衣视频网站| 91av国产在线| 欧美精品二区| 久久精品国产在热久久2019| 视频一区亚洲| 在线欧美一区| 国产精品亚欧美一区二区| 久久亚洲中文字幕精品一区| 国产在线欧美| 美女亚洲一区| 亚洲黄网视频| 四虎在线高清无码| 国产va免费精品观看| 国产黄色片在线看| 久久99国产综合精品1| 亚洲区欧美区| 又爽又大又黄a级毛片在线视频 | 精久久久久无码区中文字幕| 欧美成人免费午夜全| 1769国产精品视频免费观看| 99热这里只有免费国产精品| 亚洲人成网站日本片| 亚洲av色吊丝无码| 精品一区二区三区自慰喷水| 乱人伦视频中文字幕在线| 亚洲男人在线| 毛片视频网址| a国产精品| 国产精品无码制服丝袜|