999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于WEB的智能信息采集及處理系統(tǒng)的關(guān)鍵技術(shù)

2010-07-17 08:41:06譚媛媛
關(guān)鍵詞:頁(yè)面用戶信息

譚媛媛 王 偉

(秦皇島廣播電視大學(xué),河北 秦皇島 066000)

1 系統(tǒng)架構(gòu)

系統(tǒng)由三個(gè)子系統(tǒng)組成,即Web信息采集子系統(tǒng)、信息智能處理子系統(tǒng)和信息發(fā)布子系統(tǒng)。三個(gè)子系統(tǒng)可以單獨(dú)部署和運(yùn)行,也可以通過(guò)接口文件實(shí)現(xiàn)整個(gè)過(guò)程的自動(dòng)化采集、智能化處理和主動(dòng)式發(fā)布,整體架構(gòu)如圖1所示。

1.1 系統(tǒng)整體架構(gòu)

該系統(tǒng)架構(gòu)不僅適合較大用戶的分布式部署采集、加工的需要,也可以適應(yīng)單用戶集中部署的需要。當(dāng)用戶只需要某個(gè)子系統(tǒng)時(shí),只需對(duì)接口文件稍作配置就可以滿足不同的用戶需求。

圖1

圖2

1.2 Web信息采集子系統(tǒng)

Web采集器一般都是從稱為種子的URL出發(fā),通過(guò)協(xié)議向Web上其它所需頁(yè)面作擴(kuò)展。經(jīng)研究表明Web上30%的頁(yè)面是重復(fù)的,當(dāng)面向特定的主題時(shí),80%以上的URL鏈接是我們不關(guān)心的,因此在采集中如何進(jìn)行URL去重和分析適合主題特征的URL是提高采集子系統(tǒng)效率的重要因素。同時(shí)如何獲取有效的Web頁(yè)面信息,過(guò)濾廣告、導(dǎo)航欄等噪聲,將直接影響后續(xù)的智能處理的性能。該子系統(tǒng)的流程如圖2所示。

有別于通用的Web信息采集器,該子系統(tǒng)最大的特點(diǎn)在于任何用戶的主題采集都是在相應(yīng)的模版的支撐下完成。所謂模版就是關(guān)于要采集的Web對(duì)象的特征描述,為了提高下載的有效性和效率,將某一個(gè)具體的網(wǎng)站所有的Web頁(yè)面劃分為Hub頁(yè)和Topic頁(yè),表示為一個(gè)三元組。其中M刻畫(huà)Web頁(yè)共性特征,如:網(wǎng)站名稱、網(wǎng)站URL地址、語(yǔ)言種類等;Hf刻畫(huà)該Web資源中的Hub頁(yè)面特征,即此類Web中哪些URL地址特征是下載時(shí)需要解析的;而Tf則是刻畫(huà)某一類具體的Topic頁(yè)特征,主要是描述用戶最感興趣的內(nèi)容的訪問(wèn)路徑,如:正文標(biāo)題、作者、來(lái)源等。

為了實(shí)現(xiàn)對(duì)下載的Web資源的監(jiān)控,將最新的信息及時(shí)地推送給用戶,觸發(fā)器可以為用戶指定適合需要的采集策略,通過(guò)設(shè)定一定的間隔時(shí)間來(lái)激活下載機(jī)器人,“巡視”是否存在最新的信息。

1.3 信息智能處理子系統(tǒng)

該系統(tǒng)預(yù)先通過(guò)機(jī)器學(xué)習(xí)建立用戶感興趣的內(nèi)容分類器,當(dāng)用戶某一次下載任務(wù)完成后,發(fā)送消息激活處理子系統(tǒng),系統(tǒng)將會(huì)自動(dòng)地處理下載的內(nèi)容,主要包括自動(dòng)分類、自動(dòng)摘要和元數(shù)據(jù)分析,如創(chuàng)建正文標(biāo)題、關(guān)鍵字、分析作者等。系統(tǒng)流程如圖3所示。

傳統(tǒng)上的Web信息采集不具備對(duì)下載信息的深層次加工能力,而本系統(tǒng)不僅實(shí)現(xiàn)機(jī)器的自動(dòng)分類、摘要和元數(shù)據(jù)分析,還提供人機(jī)交互的機(jī)制,將處理的結(jié)果以便捷預(yù)覽的方式呈現(xiàn),用戶可以進(jìn)行修改、刪除以及確認(rèn)后入庫(kù)存儲(chǔ)等操作,確保發(fā)布信息的正確性和有效性。

1.4 信息發(fā)布子系統(tǒng)

近年來(lái)信息的發(fā)布形式越來(lái)越備受關(guān)注,作為對(duì)外信息服務(wù)的平臺(tái),該子系統(tǒng)主要特點(diǎn)有:多視角、多層次發(fā)布采集信息,即從來(lái)源、原始欄目、分類體系多個(gè)視角交叉進(jìn)行展示,可以靈活的進(jìn)行信息集合的交、并運(yùn)算;個(gè)性化信息發(fā)布,用戶登錄后利用個(gè)性化信息定制界面,選擇自己感興趣的信息視角,再次登錄后,推送給用戶的就是完全個(gè)性化的信息內(nèi)容;強(qiáng)大的信息檢索能力,不僅提供針對(duì)獨(dú)立字段的檢索,還提供快速檢索、高級(jí)的表達(dá)式檢索及全文檢索。

2 若干關(guān)鍵技術(shù)

2.1 URL去重

常規(guī)的URL去重有兩種解決思路,一是將所有的URL地址存入數(shù)據(jù)庫(kù),做好索引后,利用數(shù)據(jù)庫(kù)的查找來(lái)判斷該URL是否被重復(fù)下載;二是利用文件存儲(chǔ),將URL通過(guò)一定轉(zhuǎn)換,也是建立基于文件的查找索引。這兩種方式的弊端是顯而易見(jiàn)的,如中文網(wǎng)頁(yè)有4億左右,假設(shè)每一個(gè)URL的平均長(zhǎng)度為25個(gè)字符,那么存儲(chǔ)這些網(wǎng)頁(yè)的URL地址需要的空間為8G左右,很顯然面對(duì)如此大的文件,這種機(jī)制無(wú)法快速的進(jìn)行URL查找,因此不能保證快速的下載和去重。

在本系統(tǒng)中采用了文件目錄尋址機(jī)制來(lái)實(shí)現(xiàn)URL的快速去重。基本思想是首先將URL地址做CRC32轉(zhuǎn)換,生成一個(gè)唯一的4字節(jié)32位的編碼,如:E8CA0B3F,將4個(gè)字節(jié)組成兩級(jí)目錄和一級(jí)文件,即第一個(gè)字節(jié)的首字符作為第一級(jí)目錄名,第二、三個(gè)字符組合作為二級(jí)目錄名,第三、四個(gè)字符組合作為文件名存放在二級(jí)目錄下,每個(gè)文件的大小固定為4K,最后還剩下三個(gè)字符一共是12bit,共有4096個(gè)二進(jìn)制數(shù),與4K的文件大小剛好一一對(duì)應(yīng)。這種機(jī)制能夠容納的總頁(yè)面數(shù)為232,大約43億個(gè),幾乎能包括目前互聯(lián)網(wǎng)上所有URL鏈接。

圖3

2.2 HTML解析

為了提高下載頁(yè)面的有效性,需要過(guò)濾掉一些無(wú)用的噪聲信息。傳統(tǒng)上有兩種解決方案,一是頁(yè)面學(xué)習(xí)的方式提取熵值最大的頁(yè)面分塊[1];二是通過(guò)定義訪問(wèn)路徑來(lái)提取需要訪問(wèn)的感興趣的內(nèi)容。無(wú)論是哪一種方案都必須有對(duì)頁(yè)面的HTML的解析能力,即構(gòu)造合適的數(shù)據(jù)結(jié)構(gòu)來(lái)解析HTML的標(biāo)簽。解析的難點(diǎn)在于目前的網(wǎng)絡(luò)Web頁(yè)面的HTML非常不規(guī)范、不嚴(yán)格,標(biāo)簽之間即使有錯(cuò)誤或者不嚴(yán)格的匹配,IE也能完美的呈現(xiàn)。但是為了信息的精確提取,必須要構(gòu)造嚴(yán)密的訪問(wèn)結(jié)構(gòu)。

2.3 自動(dòng)摘要與元數(shù)據(jù)分析

摘要是指通過(guò)對(duì)文檔內(nèi)容處理,從中提取出滿足用戶需求的重要信息,經(jīng)過(guò)重組修飾后生成比原文更精煉的文摘過(guò)程。目前主要自動(dòng)文摘技術(shù)有三類:基于淺層分析的方法、基于實(shí)體分析的方法、基于話語(yǔ)結(jié)構(gòu)的方法。

本系統(tǒng)采用一種新的使用自然語(yǔ)言處理(NLP)技術(shù)的自動(dòng)摘要系統(tǒng),通過(guò)融合基于內(nèi)容的方法[Based on Content]和基于主題(Based on Topic)的方法,將主題與內(nèi)容相結(jié)合,生成具有良好連貫性和流暢性的摘要。基本思想是首先對(duì)主題詞進(jìn)行分析,動(dòng)態(tài)地處理具有抽象標(biāo)題和具體標(biāo)題的文檔;然后采用詞匯、語(yǔ)法、語(yǔ)義分析等自然語(yǔ)言處理技術(shù),對(duì)文章的文本內(nèi)容進(jìn)行深入分析;再根據(jù)線性加權(quán)融合兩種分析得到的結(jié)果,生成摘要;最后采用指代消解技術(shù)(Anaphora Resolution Technology)進(jìn)行平滑使生成的摘要更連貫流暢。

在上述摘要生成的算法中,部分元數(shù)據(jù)如對(duì)標(biāo)題的分析、作者、主題詞的提取,作為中間結(jié)果也將被輸出和保存,形成完整的符合基本文獻(xiàn)規(guī)范的元數(shù)據(jù)體系。

3 結(jié)束語(yǔ)

基于Web的信息采集和處理技術(shù),在互聯(lián)網(wǎng)飛速發(fā)展的時(shí)代,將扮演者越來(lái)越重要的角色。本文設(shè)計(jì)和實(shí)施的系統(tǒng),繼承和發(fā)展了現(xiàn)有的偏平化的信息采集策略,以“信息采集、組織處理和發(fā)布”三項(xiàng)并重為理念,使面向Web的信息采集系統(tǒng)向垂直和智能的方向推進(jìn),也同時(shí)預(yù)示著該系統(tǒng)有廣泛的市場(chǎng)和應(yīng)用前景。

[1]尹存燕.戴新宇.陳家駿.Internet上文本的自動(dòng)摘要技術(shù).計(jì)算機(jī)工程.Vol.32.No.3.Feb..2006.

猜你喜歡
頁(yè)面用戶信息
大狗熊在睡覺(jué)
刷新生活的頁(yè)面
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
關(guān)注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
關(guān)注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
關(guān)注用戶
商用汽車(2016年4期)2016-05-09 01:23:12
如何獲取一億海外用戶
展會(huì)信息
同一Word文檔 縱橫頁(yè)面并存
淺析ASP.NET頁(yè)面導(dǎo)航技術(shù)
主站蜘蛛池模板: 精品视频91| 四虎成人在线视频| 少妇精品在线| 亚洲综合九九| 久久婷婷国产综合尤物精品| 亚洲精品卡2卡3卡4卡5卡区| AV不卡国产在线观看| 日韩精品久久无码中文字幕色欲| 亚洲综合18p| 青青操国产| 无码一区中文字幕| 久久精品国产91久久综合麻豆自制| 99re热精品视频中文字幕不卡| 免费jizz在线播放| 国内精品伊人久久久久7777人| 99精品热视频这里只有精品7| 日韩一区二区在线电影| 久久久久亚洲av成人网人人软件| 成人久久18免费网站| 久久精品午夜视频| 99在线国产| 97免费在线观看视频| 中文字幕66页| 8090成人午夜精品| 77777亚洲午夜久久多人| 亚洲一区色| 婷婷五月在线视频| 日韩免费成人| 免费av一区二区三区在线| 精品乱码久久久久久久| 97狠狠操| 思思热精品在线8| 免费高清毛片| 毛片网站在线播放| 97成人在线视频| 久久无码av三级| 欧美福利在线| 亚洲成人网在线播放| 国产成人啪视频一区二区三区 | 精品久久高清| 国产对白刺激真实精品91| 人妻丰满熟妇AV无码区| 亚洲无码在线午夜电影| 在线看国产精品| 91精品视频网站| 一级片一区| 久久综合结合久久狠狠狠97色| 天天婬欲婬香婬色婬视频播放| 亚洲h视频在线| Aⅴ无码专区在线观看| 91极品美女高潮叫床在线观看| 欧美www在线观看| 人妻无码中文字幕第一区| 国产经典三级在线| 国产成人精品一区二区| 一区二区自拍| 国产成人综合日韩精品无码首页| 亚洲精品动漫| 国产亚洲精久久久久久无码AV| 国产成人综合日韩精品无码不卡 | 日本成人一区| 亚洲第一页在线观看| 亚洲第一视频网| 久久一日本道色综合久久| 色综合中文| 中文字幕自拍偷拍| 国产熟女一级毛片| 亚洲av无码专区久久蜜芽| 香蕉eeww99国产精选播放| 尤物国产在线| 国产精品无码影视久久久久久久| 国产日本欧美亚洲精品视| 国产精品香蕉在线| 丝袜美女被出水视频一区| 人妻21p大胆| 日本久久免费| 亚洲国产成熟视频在线多多| 国产精品久久久精品三级| 99免费视频观看| 久久美女精品国产精品亚洲| 国产男女免费视频| 国产精品亚洲专区一区|