新技術水平下Web數據自動采集與維護技術研究綜述

2014-12-31 00:00:00楊淵林

消費電子·下半月 2014年7期

摘要：由于互聯網技術的飛速發展，Web信息急劇膨脹，傳統搜索引擎注重查全率而查準率不足，導致Web信息搜索越來越困難。本文通過對Web數據自動采集與維護技術的分析，試圖對用戶身份驗證、導航URL提取、翻頁URL提取、頁面屬性字段的提取、數據去重等Deep Web數據集成關鍵技術做探索性的研究，對各種方案進行了嘗試和比較，然后給出了最優的解決方案，為進一步的研究提供了基礎。

關鍵詞：Web；Deep Web；數據自動采集；數據抽取

中圖分類號：TP391.3 文獻標識碼：A 文章編號：1674-7712 （2014） 14-0000-01

一、web數據采集的研究背景

由于互聯網技術的飛速發展，Web信息急劇膨脹，傳統搜索引擎注重查全率而查準率不足，導致Web信息搜索越來越困難。特定領域的Deep Web網站上蘊藏著豐富的主題信息，但是這些Deep Web網站通常是分散的、不易檢索的，因此，Deep Web數據集成技術逐漸成為研究熱點。它不但可以解決傳統搜索引擎不能索引Deep Web數據的局限，還能把各個孤立的Deep Web數據集成到一起，提供面向主題的一站式搜索服務。用戶難以利用傳統的技術全面快速地收集Deep Web中的企業信息，使用Deep Web數據集成技術對企業黃頁進行集成，提供高效專業化的Web信息服務，能夠讓用戶更快的找到相關信息，不僅促進產業信息化發展，同時，也有利于推動經濟的發展。

通過應用Web數據自動采集技術，可以有效的將某一領域、個性化的信息進行集成。對Web數據自動采集技術的深入研究，可以制定合理的策略在Internet上搜集和發現信息，對信息進行處理和組織，使得用戶能夠更方便、快捷、高效的檢索到自己所需的信息。

二、Web數據自動采集理論基礎

Web可以說是目前最大的信息系統，其數據具有海量、多樣、異構、動態變化等特性。因此給人們要準確迅速的獲得自己所需要的數據越來越難，盡普目前有各種搜索引舉，但是搜索引攀在數據的查全率考慮較多，而查準率不足，而且很難進一步挖掘深度數據。因此人們開始研究如何更進一步獲取互聯網上某一個特定范圍的數據，從信息搜索到知識發現。

（一）相關概念

Web數據自動采集內涵和外延非常廣泛，目前尚無明確定義。Web數據自動采集涉及到Web數據挖掘，Web信息檢索，信息提取，搜索引擎等概念和技術。Web數據挖掘與這些概念密切相關，但又有所區別。

1.Web數據自動采集與挖掘

Web挖掘是一種特殊的數據挖掘，到目前為止還沒有一個統一的概念，我們可以借鑒數據挖掘的概念給出Web挖掘的定義。所謂Web挖掘就是指從大量非結構化、異構的Web信息資源中發現有效的、新穎的、潛在可用的及最終可以理解的知識包括概念、模式、規則、規律、約束及可視化等形式的非平凡過程。包括Web內容挖掘，Web結構挖掘和Web使用挖掘。

2.Web數據自動采集與搜索引擎

Web數據自動采集與搜索引攀有許多相似之處，比如它們都利用了信息檢索的技術。但是兩者側重點不同，搜索引攀主要由網絡爬蟲，索引數據庫和查詢服務三個部分組成。爬蟲在網上的漫游是無目的性的，只是盡量發現比較多的內容。查詢服務盡可能多的返回結果，不關心結果是否符合用戶的習慣專業背景等。而Web數據自動采集主要針對某個具體行業，提供面向領域，個性化的信息挖掘服務。

3.Web數據自動采集與信息提取

信息提取是近年來新興的一個概念。信息提取是面向不斷增長和變化的，某個具體領城的文獻特定的查詢，這種查詢是長期的或者持續的。與傳統搜索引攀是基于關鍵字查詢的不同，信息提取基于查詢。不僅要包含關鍵字，還要匹配各個實體之間的關系。信息提取是從技術上的概念。Web數據自動采集很大程度要依賴于信息提取的技術，實現長期的，動態的追蹤。

4.Web數據自動采集與Web信息檢索

信息檢索即從大量的Web文獻集合C中，找到與給定查詢q相關的，數目相當的文獻子集S，如果將q看作輸人，S看作輸出，那么Web信息檢索的過程就是一個輸入到輸出的映像：

ζ：（C：q）→S

而Web數據自動采集不是直接將文獻集合的子集直接輸出給用戶，還要進一步的分析處理，查重去噪，整合數據等。盡量將半結構化甚至非結構化的數據變為結構化的數據，然后以統一的格式呈現給用戶。

因此，Web數據自動采集是Web數據挖掘的一個重要組成部分，它利用了Web數據檢索，信息提取的技術，彌補了搜索引擎缺乏針對性和專業性，不能實現數據的動態跟蹤與監測的缺點，是一個非常有前景的領域。

（二）研究意義

1.解決信息冗余下的信息迷航

隨著互聯網信息的急劇增長，網上存在越來越多的對用戶沒有價值的冗余信息，使人們無法及時準確捕捉到自己所需要的內容，信息利用的效率和效果大為降低。互聯網上的信息冗余主要體現在信息的過載性，信息的無關性，選擇的復雜性等多個方面。

因此，在當今高度信息化的社會里，信息冗余信息過載已經成為互聯網上一個急需解決的問題。而Web數據采集可以通過一系列方法，依據用戶興趣，自動搜取網上特定種類的信息，去除無關數據和垃圾數據，篩選虛假數據和遲滯數據，過濾重復數據。用戶無需跟復雜的網頁結構和五花八門的超級鏈接打交道，直接將信息按照用戶的要求呈現給用戶。可以大大減輕用戶的信息過載和信息迷失。

2.解決搜索引擎的智能化不高

雖然互聯網上有海量的信息，但是對某一個特定的個人或團體而言，獲取相關信息或服務，和關注的范圍只是很小的一部分。目前人們查找網上信息的主要是通過搜索引擎，如Google，Yahoo等。但這些搜索引擎涉及大而廣，檢索智能度不高查準率和查全率的問題日益凸現。并且搜索引攀難以針對不同的用戶的不同需求，提供個性化服務。

3.節約人力物力成本

與傳統的人工采集數據相比，自動采集可以減少很多重復性工作，大大縮短采集時間，節約人力物力成本，提高效率。而且不會出現人工數據采集中的遺漏、偏差和錯誤。

參考文獻：

[1]崔少彬.主題搜索引擎的研究與實現[D].中國海洋大學，2007.

[2]董曉常.中國黃頁網：開辟網絡經濟新天地[J].互聯網周刊，2004（40）.

消費電子·下半月2014年7期

消費電子·下半月的其它文章: D—S證據理論在商場火災安全評價中的應用; 直接與間接證據相結合的火災調查方式的探討; 低碳經濟視閾下公路交通現代化建設研究; 淺談給排水工程施工管理; 數控裝調與維修大賽的幾點個人體會; 應用創新技術，延長抽提裝置熱載體系統的運行周期