999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

新技術水平下Web數據自動采集與維護技術研究綜述

2014-12-31 00:00:00楊淵林
消費電子·下半月 2014年7期

摘 要:由于互聯網技術的飛速發展,Web信息急劇膨脹,傳統搜索引擎注重查全率而查準率不足,導致Web信息搜索越來越困難。本文通過對Web數據自動采集與維護技術的分析,試圖對用戶身份驗證、導航URL提取、翻頁URL提取、頁面屬性字段的提取、數據去重等Deep Web數據集成關鍵技術做探索性的研究,對各種方案進行了嘗試和比較,然后給出了最優的解決方案,為進一步的研究提供了基礎。

關鍵詞:Web;Deep Web;數據自動采集;數據抽取

中圖分類號:TP391.3 文獻標識碼:A 文章編號:1674-7712 (2014) 14-0000-01

一、web數據采集的研究背景

由于互聯網技術的飛速發展,Web信息急劇膨脹,傳統搜索引擎注重查全率而查準率不足,導致Web信息搜索越來越困難。特定領域的Deep Web網站上蘊藏著豐富的主題信息,但是這些Deep Web網站通常是分散的、不易檢索的,因此,Deep Web數據集成技術逐漸成為研究熱點。它不但可以解決傳統搜索引擎不能索引Deep Web數據的局限,還能把各個孤立的Deep Web數據集成到一起,提供面向主題的一站式搜索服務。用戶難以利用傳統的技術全面快速地收集Deep Web中的企業信息,使用Deep Web數據集成技術對企業黃頁進行集成,提供高效專業化的Web信息服務,能夠讓用戶更快的找到相關信息,不僅促進產業信息化發展,同時,也有利于推動經濟的發展。

通過應用Web數據自動采集技術,可以有效的將某一領域、個性化的信息進行集成。對Web數據自動采集技術的深入研究,可以制定合理的策略在Internet上搜集和發現信息,對信息進行處理和組織,使得用戶能夠更方便、快捷、高效的檢索到自己所需的信息。

二、Web數據自動采集理論基礎

Web可以說是目前最大的信息系統,其數據具有海量、多樣、異構、動態變化等特性。因此給人們要準確迅速的獲得自己所需要的數據越來越難,盡普目前有各種搜索引舉,但是搜索引攀在數據的查全率考慮較多,而查準率不足,而且很難進一步挖掘深度數據。因此人們開始研究如何更進一步獲取互聯網上某一個特定范圍的數據,從信息搜索到知識發現。

(一)相關概念

Web數據自動采集內涵和外延非常廣泛,目前尚無明確定義。Web數據自動采集涉及到Web數據挖掘,Web信息檢索,信息提取,搜索引擎等概念和技術。Web數據挖掘與這些概念密切相關,但又有所區別。

1.Web數據自動采集與挖掘

Web挖掘是一種特殊的數據挖掘,到目前為止還沒有一個統一的概念,我們可以借鑒數據挖掘的概念給出Web挖掘的定義。所謂Web挖掘就是指從大量非結構化、異構的Web信息資源中發現有效的、新穎的、潛在可用的及最終可以理解的知識包括概念、模式、規則、規律、約束及可視化等形式的非平凡過程。包括Web內容挖掘,Web結構挖掘和Web使用挖掘。

2.Web數據自動采集與搜索引擎

Web數據自動采集與搜索引攀有許多相似之處,比如它們都利用了信息檢索的技術。但是兩者側重點不同,搜索引攀主要由網絡爬蟲,索引數據庫和查詢服務三個部分組成。爬蟲在網上的漫游是無目的性的,只是盡量發現比較多的內容。查詢服務盡可能多的返回結果,不關心結果是否符合用戶的習慣專業背景等。而Web數據自動采集主要針對某個具體行業,提供面向領域,個性化的信息挖掘服務。

3.Web數據自動采集與信息提取

信息提取是近年來新興的一個概念。信息提取是面向不斷增長和變化的,某個具體領城的文獻特定的查詢,這種查詢是長期的或者持續的。與傳統搜索引攀是基于關鍵字查詢的不同,信息提取基于查詢。不僅要包含關鍵字,還要匹配各個實體之間的關系。信息提取是從技術上的概念。Web數據自動采集很大程度要依賴于信息提取的技術,實現長期的,動態的追蹤。

4.Web數據自動采集與Web信息檢索

信息檢索即從大量的Web文獻集合C中,找到與給定查詢q相關的,數目相當的文獻子集S,如果將q看作輸人,S看作輸出,那么Web信息檢索的過程就是一個輸入到輸出的映像:

ζ:(C:q)→S

而Web數據自動采集不是直接將文獻集合的子集直接輸出給用戶,還要進一步的分析處理,查重去噪,整合數據等。盡量將半結構化甚至非結構化的數據變為結構化的數據,然后以統一的格式呈現給用戶。

因此,Web數據自動采集是Web數據挖掘的一個重要組成部分,它利用了Web數據檢索,信息提取的技術,彌補了搜索引擎缺乏針對性和專業性,不能實現數據的動態跟蹤與監測的缺點,是一個非常有前景的領域。

(二)研究意義

1.解決信息冗余下的信息迷航

隨著互聯網信息的急劇增長,網上存在越來越多的對用戶沒有價值的冗余信息,使人們無法及時準確捕捉到自己所需要的內容,信息利用的效率和效果大為降低。互聯網上的信息冗余主要體現在信息的過載性,信息的無關性,選擇的復雜性等多個方面。

因此,在當今高度信息化的社會里,信息冗余信息過載已經成為互聯網上一個急需解決的問題。而Web數據采集可以通過一系列方法,依據用戶興趣,自動搜取網上特定種類的信息,去除無關數據和垃圾數據,篩選虛假數據和遲滯數據,過濾重復數據。用戶無需跟復雜的網頁結構和五花八門的超級鏈接打交道,直接將信息按照用戶的要求呈現給用戶。可以大大減輕用戶的信息過載和信息迷失。

2.解決搜索引擎的智能化不高

雖然互聯網上有海量的信息,但是對某一個特定的個人或團體而言,獲取相關信息或服務,和關注的范圍只是很小的一部分。目前人們查找網上信息的主要是通過搜索引擎,如Google,Yahoo等。但這些搜索引擎涉及大而廣,檢索智能度不高查準率和查全率的問題日益凸現。并且搜索引攀難以針對不同的用戶的不同需求,提供個性化服務。

3.節約人力物力成本

與傳統的人工采集數據相比,自動采集可以減少很多重復性工作,大大縮短采集時間,節約人力物力成本,提高效率。而且不會出現人工數據采集中的遺漏、偏差和錯誤。

參考文獻:

[1]崔少彬.主題搜索引擎的研究與實現[D].中國海洋大學,2007.

[2]董曉常.中國黃頁網:開辟網絡經濟新天地[J].互聯網周刊,2004(40).

主站蜘蛛池模板: 992tv国产人成在线观看| 午夜不卡视频| 婷婷综合色| 日韩专区欧美| 国产亚洲日韩av在线| 五月婷婷亚洲综合| 日韩无码真实干出血视频| 色视频国产| 亚洲综合香蕉| 在线日韩日本国产亚洲| 欧美啪啪精品| 国产真实二区一区在线亚洲 | 少妇精品久久久一区二区三区| 免费观看欧美性一级| 久久综合色88| 国产女人在线视频| 激情乱人伦| 国产综合无码一区二区色蜜蜜| 青草娱乐极品免费视频| 亚洲美女高潮久久久久久久| 国产无吗一区二区三区在线欢| 日韩大片免费观看视频播放| 亚洲精品免费网站| 国产一级二级三级毛片| 中文成人在线视频| 在线免费a视频| 一级爱做片免费观看久久| 国产欧美一区二区三区视频在线观看| 97人妻精品专区久久久久| 波多野结衣无码视频在线观看| 欧美人人干| 亚洲一级毛片在线观| 最新无码专区超级碰碰碰| 欧美日韩国产成人高清视频 | 2021国产乱人伦在线播放| 国产亚洲欧美日韩在线一区二区三区| 高清无码手机在线观看| 国产福利小视频在线播放观看| 国产美女自慰在线观看| 国产精品亚洲五月天高清| 免费观看无遮挡www的小视频| 免费无码AV片在线观看国产| 国产H片无码不卡在线视频| 99久久精品视香蕉蕉| 99久久国产综合精品2023| 又爽又大又光又色的午夜视频| 激情乱人伦| 麻豆精品在线播放| 在线观看亚洲天堂| 欧美成人综合在线| 久久成人国产精品免费软件 | 婷婷六月综合网| 日本精品视频一区二区| 久热精品免费| 久无码久无码av无码| 久热精品免费| 欧美不卡二区| 性网站在线观看| 在线国产综合一区二区三区| 成人夜夜嗨| 国产爽妇精品| a级毛片在线免费| 午夜精品国产自在| 女人一级毛片| 亚洲国产成人久久精品软件| 亚洲国产成人自拍| 亚洲国产精品VA在线看黑人| swag国产精品| 1769国产精品视频免费观看| 亚洲成肉网| 国产精品白浆在线播放| 无码AV动漫| 永久成人无码激情视频免费| 欧美精品高清| 91精品啪在线观看国产| 二级特黄绝大片免费视频大片| 午夜限制老子影院888| 国产第一页屁屁影院| 亚洲欧美人成人让影院| 亚洲性网站| 国产99热| 午夜国产精品视频|