999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

Deep Web數據庫集成技術的研究

2016-09-20 05:49:18盧一枝陳軍華
關鍵詞:引擎數據庫

盧一枝, 陳軍華

(上海師范大學 信息與機電工程學院,上海 200234)

?

Deep Web數據庫集成技術的研究

盧一枝, 陳軍華

(上海師范大學 信息與機電工程學院,上海 200234)

針對基于查詢接口集成的web集成技術復雜且面向領域這一現象,提出了一種非實時查詢Deep Web數據庫集成技術.該技術通過在被檢索網站安裝客戶端數據源應用程序,獲取所有被檢索網站的Deep Web數據源連接信息、Deep Web異構數據庫表結構信息以及Deep Web異構數據庫表數據.其中表結構和表數據經集成系統解析后以統一的格式集成到本地數據庫.實驗結果表明,該集成技術可集成所有領域的Deep Web異構數據庫,沒有領域限制.由于是本地查詢查詢速度也較快,具有一定的可行性.

Deep Web數據庫; 異構的; 集成

0 引 言

Deep Web中存在著大量的web數據庫資源,這些web數據庫中保存著覆蓋各個領域的web數據,且通過不斷更新數據庫的方式保證著其提供數據的質量.由于web數據庫在互聯網中相互獨立,且隱藏在查詢接口之后,因此無法被搜索引擎直接檢索到.

在國外,斯坦福大學的Raghavan與Garcia-Molina較早地對包含結構化數據的web數據庫進行了研究.在Hidden Web Exposer(HiWE)[1]研究項目中,通過表單分析的方法對爬蟲程序搜集到的web頁面進行處理,通過基于標簽的模式識別抽取表單結構,使用預先準備好的數據集填寫表單來獲得結果頁面.目前在國內,Deep Web數據庫集成還處于一個發展階段.中國人民大學網絡與移動數據管理實驗室開發的JobTong[2]系統是一個面向領域的Deep Web數據集成系統,其中應用了web數據抽取和搜索引擎等技術.

現有的Deep Web數據庫集成系統[3-5]主要存在以下問題:(1) 查詢局限性:只能查詢到和某一領域相關的數據信息,無法適用于更多領域的數據集成;(2) 集成技術復雜:現有的大部分集成方法是基于查詢接口的集成,其中所涉及的關鍵技術多而復雜.

本文作者提出了一種非實時查詢Deep Web數據庫集成技術,該技術實現了將所有被檢索Deep Web異構數據源集成到本地數據庫的目的,為用戶提供了更加方便的查詢.相比較而言,該系統所涉及的關鍵技術較少,并且查詢速度較快.

1 相關研究工作

由于Deep Web數據資源分布在各被檢索網站數據庫中,而這些數據庫本身都有自己的DBMS,因此存在很大的異構性[6-8],主要表現在:

(1) 系統異構.數據源所依賴的應用系統、數據庫管理系統乃至操作系統之間的不同構成了系統異構.

(2) 模式異構.數據源在存儲模式上的不同.一般的存儲模式包括關系模式、對象模式、關系對象模式和文檔嵌套模式等幾種,其中關系模式為主流存儲模式.然而值得注意的是,即使是同一類存儲模式,它們的模式結構也可能存在差異.例如Oracle所采用的數據類型與SQL Server所采用的數據類型并不完全一致.

(3) 格式相異.包括數據類型、精度、數據范圍的不同.如書的價格在一個數據庫中用美元表示而在另一個數據庫中用人民幣表示.

Deep Web數據庫集成的前提就是要屏蔽掉這些異構性,并保證集成后各Deep Web數據庫不受影響.集成后的數據必須具有高度的完整性和一致性.

2 集成技術

本文作者提出了一種非實時查詢的Deep Web數據庫集成技術,該技術實現了將所有被檢索網站的Deep Web數據庫信息集成到本地數據庫的目的.其中非實時性主要體現在每次的查詢是對集成系統本地數據庫的查詢,而不是直接訪問Deep Web源數據庫.在集成前期,各被檢索網站安裝客戶端數據源應用程序,安裝完成后本地生成一張Deep Web各數據庫的連接信息表,然后,Deep Web檢索引擎應用程序根據這張連接信息表對Deep Web各數據庫依次檢索,并得到Deep Web數據庫的表結構和表數據.最后,Deep Web檢索引擎應用程序對拿到的表結構和表數據進行解析后集成,并以統一的格式存儲到本地數據庫.非實時查詢Deep Web集成框架如圖1所示.

圖1 非實時查詢Deep Web集成框架

此框架主要包括4個應用程序:客戶端數據源應用程序、Deep Web數據源發現應用程序、Deep Web檢索引擎應用程序、Deep Web查詢應用程序.

圖1中,各應用程序的功能如下所示:

客戶端數據源應用程序:

(1) 獲取Deep Web數據源連接信息.

(2) 獲取Deep Web數據庫表結構.

(3) 獲取Deep Web數據庫表數據.

(4) 與Deep Web數據源發現應用程序進行通信連接.

Deep Web數據源發現應用程序:

(1) 與客戶端數據源應用程序進行通信連接.

(2) 與Deep Web檢索引擎應用程序進行通信連接.

Deep Web檢索引擎應用程序:

(1) 與Deep Web數據源發現應用程序進行通信連接.

(2) 將獲取的Deep Web數據庫表結構、表數據進行解析.

(3) 將解析后的Deep Web數據庫表結構、表數據進行集成.

(4) 將Deep Web數據源連接信息以及集成后的Deep Web數據庫表結構、表數據存儲到本地數據庫.

Deep Web查詢應用程序:

(1) 將用戶輸入的關鍵字轉換成相應的查詢語句.

(2) 將用戶查詢到的結果進行處理,并以統一的界面返回給用戶.

3 集成設計

3.1方案設計

本方案的設計流程如下:

(1) Deep Web各被檢索網站下載安裝客戶端數據源應用程序,實現本地Deep Web數據源發現應用程序與客戶端數據源應用程序建立連接.安裝完成后客戶端數據源應用程序將獲取的Deep Web數據源連接信息發送到本地Deep Web數據源發現應用程序,再通過Deep Web檢索引擎應用程序存儲到本地數據庫,得到Deep Web數據源連接信息表local_link.

(2) Deep Web檢索引擎應用程序讀取Deep Web數據源連接信息表local_link的每一行,根據每個IP地址向Deep Web數據源發現應用程序發出命令,Deep Web數據源發現應用程序再將命令轉發給客戶端數據源應用程序.客戶端數據源應用程序接收指令后,獲取此IP下Deep Web所有數據庫的表結構信息,并打包發送給本地Deep Web數據源發現應用程序.本地Deep Web數據源發現應用程序將接收到的所有數據庫表結構再發送給Deep Web檢索引擎應用程序進行解析,最后Deep Web檢索引擎應用程序再對解析后的這些數據庫表結構進行集成并以統一的格式存儲到本地local_structure表.

(3) Deep Web檢索引擎應用程序根據同一IP地址向Deep Web數據源發現應用程序發出命令,Deep Web數據源發現應用程序再將命令轉發給客戶端數據源應用程序.客戶端數據源應用程序接收指令后,獲取該IP下Deep Web數據庫中所有的數據,并打包發送給本地Deep Web數據源發現應用程序.本地Deep Web數據源發現應用程序將接收到的所有數據再發送給Deep Web檢索引擎應用程序進行解析,最后Deep Web檢索引擎應用程序再對解析后的這些數據進行集成,集成后以統一的格式存儲到本地數據庫local_data表.

(4) 用戶只需在本地的查詢接口輸入查詢條件,便可在本地實現對Deep Web數據源的查詢.

3.2邏輯結構設計

Deep Web集成系統的本地數據庫共存放3張表,分別是:(1) Deep Web數據源連接信息表local_link,該表主要存放各被檢索網站的IP地址以及檢索狀態(未檢索或已檢索);(2) Deep Web數據庫各表結構local_structure.該表以統一的格式存放集成后的Deep Web數據庫各表結構;(3) Deep Web集成數據表local_data.該表以統一的格式存放集成后的Deep Web數據庫各表的數據信息.各表的設計方案如下所示:

(1) Deep Web數據源連接信息表local_link的設計(表1).

表1 local_link表設計

初始條件下state值為0.每輪檢索完成后,Deep Web檢索引擎應用程序又重頭讀取local_link表,依次對每一個IP地址進行檢索,盡量保證得到每個Deep Web數據庫實時更新的數據.

(2) Deep Web表結構local_structure的設計如下(表2).

表2 local_structure表設計

由于Deep Web檢索引擎應用程序解析后的各表結構在格式、內容上存在高度的異構性,因此Deep Web檢索引擎應用程序要對解析后的表結構進行集成,集成后統一以local_structure表的格式存儲在本地數據庫.

(3) Deep Web集成數據表local_data的設計如下(表3).

表3 local_data表設計

注:lineNumber值相同的即為原表中的同一行數據.

正如第一節中提出的 Deep Web數據庫的異構性所述,Deep Web數據庫在系統、模式、命名、格式方面均存在異構性.因此將不同系統中所有Deep Web異構數據庫的數據均以local_data表的格式存儲.設計這樣的格式不僅解決了Deep Web數據庫的異構性,由于設置了行號,用戶在查詢時也能夠將原來在表中同一行的數據完整的還原出來.

4 實 驗

若有一個IP 為110.111.1.12的網站,該網站后臺使用SQLSERVER數據庫.

數據庫book中有一張myBook表(表4).

表4 myBook表

(1) 在該網站安裝客戶端數據源應用程序后,Deep Web集成系統數據庫的local_link表(表5)為:

表5 檢索前的local_link表

(2) Deep Web檢索引擎應用程序根據IP地址對110.111.1.12網站進行檢索.

myBook表結構集成后對應到Deep Web集成系統數據庫的local_structure表(表6)為:

表6 集成后的myBook表結構

(3) 根據表結構得到myBook表數據.myBook表數據集成后對應到Deep Web集成系統數據庫的local_data表(表7)為:

表7 集成后的myBook表數據

(4) Deep Web檢索引擎應用程序對110.111.1.12網站檢索完成.

此時Deep Web集成系統數據庫的local_link表(表8).

表8 檢索后的local_link表

5 與其他集成技術的比較

現有的大部分Deep Web集成技術是基于查詢接口的集成,主要面向特定的領域,有很大的局限性,不能滿足用戶更高的需求.與這種集成技術相比,本文作者提出的非實時查詢Deep Web數據庫集成技術的優點主要體現在:

(1) 數據更新方法.由于該集成技術在每個被檢索網站安裝客戶端數據源應用程序,因此可將Deep Web數據信息定時更新到本地.

(2) 響應速度.由于該集成技術將所有被檢索網站的數據全部集成在本地數據庫,因此用戶在查詢時只需在本地查詢,得到的響應速度較快.

(3) 集成數據量.該集成技術不是單純的面向特定領域的集成,而是將安裝了客戶端數據源應用程序的Deep Web數據庫所有數據,全部集成到集成系統的本地數據庫.因此本地數據庫集成的數據量相比較來說是非常龐大的.

雖然本文作者提出的Deep Web集成技術能很好地解決用戶快速查詢Deep Web數據的問題,但各被檢索網站在參與權限、數據排序、服務費用等方面仍存在很多不足.具體體現在:

(1) 參與權限.為了獲取被檢索網站的數據信息,通常需要在用戶同意的情況下,下載安裝客戶端數據源應用程序.這給主動集成更多的Deep Web數據庫帶來很大的不便.

(2) 數據排序.對集成數據進行查詢時,查詢結果是在集成系統本地以統一的格式進行排序,而原網站中Web數據的查詢結果排序卻無法體現.

(3) 數據冗余.對于Deep Web數據庫中那些有外鍵的表,外鍵大多由代號表示,集成后的表數據因此失去了關聯性,造成跟查詢關鍵字有關的很多數據查不到的現象.這部分數據會產生很大的冗余量.

6 結束語

介紹了一種非實時查詢Deep Web數據庫集成方法,該方法將所有被檢索網站的Deep Web數據庫集成到本地數據庫.研究證明,該方法不僅解決了Deep Web數據庫在系統、模式、命名、格式方面的異構性,也實現了用戶只需輸入查詢條件,便可在本地輕松地訪問到Deep Web數據的目標.由于篇幅的限制,沒有介紹各應用程序相互之間的通信以及異常情況的處理,這是不足的地方.如何節省成本并提高集成效率,最終得到高準確率的查詢結果是今后的研究重點之一.

[1]Zhu J,Zhang B,Ma W Y.Simultaneous record detection and attribute labeling in web data extraction [C]//International Conference on Knowledge Discovery and Data Mining.New York:ACM,2006.

[2]Li B,Tan L X,Li H Y,Zhuang Z Q.The techniques for integrating information on the Internet [J].Computer Engineering,2000,26(11):35-37,86.

[3]Nie T Z.Study on key techniques of web batabase integration in the deep web [D].Shenyang:Northeastern University,2009.

[4]Chen W.Design and implementation of a web crawler based on deep web deep data acquisition [D].Wuhan:Central China Normal University,2013.

[5]Liu W,Meng X F,Meng W Y.A survey of deep web data integration [J].Chinese Journal of Computers,2007,30(9):1475-1489.

[6]Shuai W M.Research and application of enterprise heterogeneous data integration based on SOA [D].Guangzhou:Guangdong University of Technology,2014.

[7]Wang N H,Zhang G L.Study on integration of heterogeneous database based on XML [J].Information Technology,2006,30(5):174-176.

[8]Ma L F,Wang Y.Research and implementation of heterogeneous data integration based on XML and web service [J].Computer Technology and Development,2010,20(11):42-46,50.

[9]Geng Y S,Kou J S.Construction of heterogeneous data integration model on cloud computing [J].Journal of University of Jinan (Sci.and Tech.),2012,26(04):384-389.

(責任編輯:包震宇)

Research on the technology of Deep Web database integration

LU Yizhi, CHEN Junhua

(College of Information,Mechanical and Electrical Engineering,Shanghai Normal University,Shanghai 200234,China)

In response to this phenomenon that web integration technology integrated based on query interface is complex and domain-oriented,this paper presents a non-real time query Deep Web database integration technology,which can obtain Deep Web data source connection information of all retrieved websites,their heterogeneous table structure information and table data by installing a client application.In this way,the table structure information and the table data can be parsed by integration system and then integrated to the local database in unified format.Experimental results show that this integration technology can integrate Deep Web heterogeneous database of all domains,there is no domain limit for it.Because it′s a local query,it also has a faster query speed and higher feasibility.

Deep Web database; heterogeneous; integration

10.3969/J.ISSN.1000-5137.2016.04.006

2015-03-10

陳軍華,中國上海市徐匯區桂林路100號,上海師范大學信息與機電工程學院,郵編:200234,E-mail:chenjh@shnu.edu.cn

TP 391

A

1000-5137(2016)04-0422-06

猜你喜歡
引擎數據庫
以學促干 挺膺擔當 激活砥礪前行的紅色引擎
三生 三大引擎齊發力
藍谷: “涉藍”新引擎
商周刊(2017年22期)2017-11-09 05:08:31
數據庫
財經(2017年15期)2017-07-03 22:40:49
數據庫
財經(2017年2期)2017-03-10 14:35:35
數據庫
財經(2016年15期)2016-06-03 07:38:02
數據庫
財經(2016年3期)2016-03-07 07:44:46
數據庫
財經(2016年6期)2016-02-24 07:41:51
無形的引擎
河南電力(2015年5期)2015-06-08 06:01:46
基于Cocos2d引擎的PuzzleGame開發
主站蜘蛛池模板: 亚洲欧洲免费视频| 91精品国产一区自在线拍| 99re免费视频| 综合色区亚洲熟妇在线| 国内精品91| 青青操视频在线| 国产第四页| 青草精品视频| 亚洲精品视频免费观看| 永久毛片在线播| 99热国产这里只有精品9九 | 国产在线精品美女观看| 亚洲婷婷丁香| av大片在线无码免费| 免费观看男人免费桶女人视频| 国产精品人莉莉成在线播放| 毛片久久久| 91人妻在线视频| 国产一区成人| 欧美人与动牲交a欧美精品| 毛片a级毛片免费观看免下载| 国产真实乱子伦视频播放| 99在线视频免费| 国产内射在线观看| 日韩色图在线观看| 久久久精品无码一区二区三区| 国产尤物视频网址导航| 91年精品国产福利线观看久久| 国产成人综合日韩精品无码不卡| 91精品国产一区| 中字无码av在线电影| 欧美综合中文字幕久久| 2020精品极品国产色在线观看| 成年网址网站在线观看| 91福利在线看| 国产超碰一区二区三区| 国产亚洲精品自在久久不卡| 99热这里只有免费国产精品| 精品久久久久无码| 亚洲 欧美 日韩综合一区| 久久精品欧美一区二区| 国产一区自拍视频| 欧美精品成人一区二区在线观看| 欧美高清国产| 天堂成人av| 伊伊人成亚洲综合人网7777| 欧美在线视频不卡第一页| 免费国产好深啊好涨好硬视频| 中文国产成人精品久久| 久久久波多野结衣av一区二区| 国产91高跟丝袜| 91丝袜美腿高跟国产极品老师| 国产精品部在线观看| 国产黄网永久免费| 国产网站一区二区三区| 亚洲黄色片免费看| 国产69囗曝护士吞精在线视频| 这里只有精品在线播放| 亚洲av片在线免费观看| 人妻熟妇日韩AV在线播放| 91精品在线视频观看| 国产精品专区第1页| 青青草原国产| 人妻精品全国免费视频| 成人欧美日韩| 久久久久亚洲精品无码网站| 中文字幕在线欧美| 9丨情侣偷在线精品国产| 国产成人久久777777| 美女免费黄网站| 亚洲中文字幕久久无码精品A| 亚洲日本一本dvd高清| 视频二区国产精品职场同事| 996免费视频国产在线播放| 欧美成人影院亚洲综合图| 亚洲色图综合在线| 亚洲系列中文字幕一区二区| av一区二区无码在线| 国产乱子伦精品视频| 欧美日韩午夜| 激情无码字幕综合| 免费国产好深啊好涨好硬视频|