999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于HTTP協(xié)議的業(yè)務(wù)系統(tǒng)網(wǎng)頁數(shù)據(jù)采集應(yīng)用集成

2019-01-30 08:05:30路輝高尚飛李少龍
電子技術(shù)與軟件工程 2019年2期
關(guān)鍵詞:頁面數(shù)據(jù)庫用戶

文/路輝 高尚飛 李少龍

隨著現(xiàn)代信息技術(shù)的迅猛發(fā)展,互聯(lián)網(wǎng)規(guī)模的不斷擴大,尤其家庭光纖網(wǎng)絡(luò)寬帶的接入和4G移動網(wǎng)的不斷普及,新的網(wǎng)絡(luò)業(yè)務(wù)層出不窮,互聯(lián)網(wǎng)應(yīng)用已經(jīng)深入到人們生活的方方面面,B/S(Browser客戶端瀏覽器/Server服務(wù)器端服務(wù)應(yīng)用)技術(shù)架構(gòu)的互聯(lián)網(wǎng)網(wǎng)站由于其可直接通過瀏覽器進行網(wǎng)站訪問優(yōu)勢,是其發(fā)展及應(yīng)用最為突出和廣泛。互聯(lián)網(wǎng)網(wǎng)站使用超文本標(biāo)記語言(HTML)作為表達(dá)的信息展示www(萬維網(wǎng))網(wǎng)站,其分為客戶端瀏覽器和服務(wù)器端應(yīng)用程序的開發(fā)架構(gòu)模式。目前,企事業(yè)單位內(nèi)部業(yè)務(wù)系統(tǒng)采用B/S架構(gòu)以成為系統(tǒng)建設(shè)共同遵循和采用的技術(shù)架構(gòu),廣泛應(yīng)用于企業(yè)級信息管理系統(tǒng)和業(yè)務(wù)系統(tǒng)。

HTTP協(xié)議,即超文本傳輸協(xié)議(HTTPHypertext transfer protocol)是一種詳細(xì)規(guī)定了瀏覽器和萬維網(wǎng)服務(wù)器之間互相通信的規(guī)則,通過因特網(wǎng)傳送萬維網(wǎng)文檔的數(shù)據(jù)傳送協(xié)議。HTTP協(xié)議是一種分布式、協(xié)作式的通信協(xié)議,用戶客戶端瀏覽器與服務(wù)端web服務(wù)器的數(shù)據(jù)傳輸交互,是互聯(lián)網(wǎng)上應(yīng)用層上應(yīng)用最廣泛的協(xié)議。

1 業(yè)務(wù)系統(tǒng)集成分析

互聯(lián)網(wǎng)網(wǎng)站主要分為信息提供和業(yè)務(wù)操作類,信息提供如新聞、股票行情之類的網(wǎng)站,業(yè)務(wù)操作如網(wǎng)上營業(yè)廳等。當(dāng)然,也有很多網(wǎng)站同時具有這兩種性質(zhì),如購物網(wǎng)站、視頻網(wǎng)站等,既提供信息,也實現(xiàn)某些業(yè)務(wù)。隨著互聯(lián)網(wǎng)的飛速發(fā)展,由于基于HTTP協(xié)議傳輸?shù)腂rowser/Server模式架構(gòu)的優(yōu)勢,企業(yè)級業(yè)務(wù)系統(tǒng)采用B/S技術(shù)架構(gòu)已是通用架構(gòu)標(biāo)準(zhǔn)。B/S結(jié)構(gòu)是隨著Internet技術(shù)的興起,對C/S結(jié)構(gòu)的一種改進,在這種結(jié)構(gòu)下,軟件應(yīng)用的業(yè)務(wù)邏輯完全在應(yīng)用服務(wù)器端實現(xiàn),用戶表現(xiàn)完全在Web服務(wù)器實現(xiàn),客戶端只需要瀏覽器即可進行業(yè)務(wù)處理,是一種全新的系統(tǒng)構(gòu)造技術(shù)。

目前,基于B/S架構(gòu)的企業(yè)級業(yè)務(wù)系統(tǒng)實現(xiàn)系統(tǒng)間數(shù)據(jù)集成方式主要有兩種方式,一是采用接口的系統(tǒng)間數(shù)據(jù)集成,其應(yīng)用最為典型和廣泛的為Web Service的服務(wù)接口應(yīng)用;二是數(shù)據(jù)庫層數(shù)據(jù)庫賬號授權(quán)訪問的數(shù)據(jù)獲取集成方式。

Web Service是使用SOAP機制的XML消息傳遞,XML 是目前主流的數(shù)據(jù)交換技術(shù),它可以實現(xiàn)具有相當(dāng)靈活性的、通用的數(shù)據(jù)交換接口,可以有效的解決不同應(yīng)用系統(tǒng)、不同數(shù)據(jù)源之間的數(shù)據(jù)共享與交流問題,實現(xiàn)原理如圖1Web Service接口實現(xiàn)原理所示。

數(shù)據(jù)庫的賬號授權(quán)訪問是指通過在數(shù)據(jù)庫中以管理員身份權(quán)限創(chuàng)建一個新的用戶,并給其賦予相應(yīng)權(quán)限的操作。典型的數(shù)據(jù)庫權(quán)限控制為Oracle數(shù)據(jù)庫,其權(quán)限為允許用戶訪問屬于其它用戶的對象或執(zhí)行程序,ORACLE系統(tǒng)提供三種權(quán)限:Object對象級、System系統(tǒng)級、Role 角色級,日常用到的為系統(tǒng)及管理權(quán)限,主要包括DBA、RESOURCE及CONNECT三種權(quán)限;然而,在業(yè)務(wù)系統(tǒng)的數(shù)據(jù)庫賬號訪問實現(xiàn)業(yè)務(wù)系統(tǒng)數(shù)據(jù)共享時,往往要精確到實體級(即數(shù)據(jù)庫表或視圖)上的select(查詢)、update(更新)、insert(插入)、delete(刪除)等具體的數(shù)據(jù)訪問控制,確保數(shù)據(jù)的安全管控。

業(yè)務(wù)系統(tǒng)的接口集成或數(shù)據(jù)庫授權(quán)訪問集成,均需要原業(yè)務(wù)系統(tǒng)進行相關(guān)改造或申請賬號及授權(quán)操作,其往往在實際工作中由于改造需項目資金支持或利益風(fēng)險等原因,導(dǎo)致業(yè)務(wù)系統(tǒng)數(shù)據(jù)集成工作常常難以推進,影響相關(guān)業(yè)務(wù)開展工作。

2 互聯(lián)網(wǎng)網(wǎng)頁數(shù)據(jù)采集分析

互聯(lián)網(wǎng)網(wǎng)頁數(shù)據(jù)的采集通常是針對信息提供類網(wǎng)站的網(wǎng)頁數(shù)據(jù)抓取后進行分類存儲,是一個自動提取網(wǎng)頁表單數(shù)據(jù)的Web 程序。互聯(lián)網(wǎng)信息采集我們主要采用基于垂直搜索引擎的主題爬蟲技術(shù),對互聯(lián)網(wǎng)上的某類主題信息頁面全自動識別、分類、抓取, 并能夠?qū)崿F(xiàn)網(wǎng)頁指紋消重和信息消重, 同時對主題信息頁面進行去除無關(guān)信息和信息自動抽取。針對不同的網(wǎng)絡(luò)爬蟲采集形式,其主要實現(xiàn)原理如圖2互聯(lián)網(wǎng)數(shù)據(jù)采集基本實現(xiàn)流程所示。

網(wǎng)絡(luò)爬蟲的基本工作流程:首先選取一部分精心挑選的種子URL;再將這些URL放入待抓取URL隊列;從待抓取URL隊列中取出待抓取在URL,解析DNS,并且得到主機的ip,并將URL對應(yīng)的網(wǎng)頁下載下來,存儲進已下載網(wǎng)頁庫中。此外,將這些URL放進已抓取URL隊列。最后分析已抓取URL隊列中的URL,分析其中的其他URL,并且將URL放入待抓取URL隊列,從而進入下一個循環(huán)。

圖1:Web Service接口實現(xiàn)原理

圖2:互聯(lián)網(wǎng)數(shù)據(jù)采集基本實現(xiàn)流程

3 基于HTTP協(xié)議的業(yè)務(wù)系統(tǒng)數(shù)據(jù)采集設(shè)計

3.1 設(shè)計思路

基于HTTP協(xié)議的業(yè)務(wù)系統(tǒng)數(shù)據(jù)采集功能結(jié)構(gòu)設(shè)計包括采集設(shè)置、數(shù)據(jù)采集、任務(wù)調(diào)度及數(shù)據(jù)存儲4部分。數(shù)據(jù)采集結(jié)構(gòu)如圖3業(yè)務(wù)系統(tǒng)數(shù)據(jù)采集系統(tǒng)結(jié)構(gòu)圖所示。

圖3:業(yè)務(wù)系統(tǒng)數(shù)據(jù)采集系統(tǒng)結(jié)構(gòu)圖

數(shù)據(jù)采集設(shè)置主要要求使用者完成要采用業(yè)務(wù)系統(tǒng)的登錄操作,且需保證采集用戶是業(yè)務(wù)系統(tǒng)的合法用戶,權(quán)限滿足數(shù)據(jù)采集要求(有操作查看數(shù)據(jù)的權(quán)限),一般要求為管理員用戶角色權(quán)限,然后確定需要采集的數(shù)據(jù)頁面,即確定好采集URL地址,最后再按照要求進行采集參數(shù)設(shè)置(如采集某一年、某一地區(qū))。數(shù)據(jù)采集過程是按照任務(wù)調(diào)度的分發(fā)進行數(shù)據(jù)采集執(zhí)行,核心操作為按照采集參數(shù)設(shè)置,組裝HTTP協(xié)議請求報文向后臺應(yīng)用服務(wù)請求,后端服務(wù)監(jiān)聽到前端請求后作出響應(yīng)并返回數(shù)據(jù),采集程序再接到返回數(shù)據(jù)后按照數(shù)據(jù)解析規(guī)則進行數(shù)據(jù)解析,整個采集過程都將進行URL隊列的管理及采集日志記錄;數(shù)據(jù)采集過程最后把采集并解析的業(yè)務(wù)數(shù)據(jù)、任務(wù)調(diào)度的URL隊列信息及采集日志統(tǒng)一存儲至數(shù)據(jù)庫表中。

3.2 數(shù)據(jù)采集

基于HTTP協(xié)議的業(yè)務(wù)系統(tǒng)數(shù)據(jù)采集原理如圖4數(shù)據(jù)采集基本流程圖所示,核心步驟主要包括HTTP協(xié)議請求報文、HTTP響應(yīng)報文及數(shù)據(jù)解析過程。

根據(jù)系統(tǒng)數(shù)據(jù)采集采集操作、數(shù)據(jù)采集、任務(wù)調(diào)度及數(shù)據(jù)存儲4部分功能結(jié)構(gòu)相關(guān)關(guān)系,系統(tǒng)總體流程執(zhí)行如下:

(1)以業(yè)務(wù)系統(tǒng)的合法、權(quán)限滿足用戶賬號登錄相應(yīng)業(yè)務(wù)系統(tǒng),確定需要采集數(shù)據(jù)的頁面URL地址,通常業(yè)務(wù)系統(tǒng)架構(gòu)多數(shù)采用框架進行的多頁面集成,所以采集頁面對應(yīng)的URL地址一般為數(shù)據(jù)查詢列表的查詢按鈕事件連接。

(2)按照采集頁面的查詢參數(shù)進行采集參數(shù)設(shè)置,如時間、區(qū)域等參數(shù),一般為全數(shù)據(jù)采集,確定參數(shù)后進行進行HTTP請求報文(從客戶向服務(wù)器發(fā)送的請求報文)組裝,HTTP請求報文由請求行(request line)、請求頭部(header)、空行和請求數(shù)據(jù)4個部分組成。

圖4:數(shù)據(jù)采集基本流程圖

(3)組裝好請求報文后,客戶端向服務(wù)的發(fā)送報文請求,其根本操作就是按照請求報文內(nèi)容的請求對應(yīng)的URL地址發(fā)送去搬過去,URL地址和報文頭的Host屬性組成完整的請求URL。

(4)服務(wù)器端的響應(yīng)報文,系統(tǒng)后臺服務(wù)按照客戶端請求返回響應(yīng)報文,HTTP響應(yīng)也由三個部分組成,分別是:狀態(tài)行(statusline)、 消 息 報 頭(headers)、 響 應(yīng) 正 文(response-body)。

(5)頁面表單數(shù)據(jù)解析操作就是針對響應(yīng)報文返回的響應(yīng)正文進行數(shù)據(jù)解析,一般簡單時直接用正則表達(dá)式對整個響應(yīng)報文進行匹配提取出對應(yīng)信息,但我們業(yè)務(wù)系統(tǒng)的數(shù)據(jù)庫內(nèi)容一般都是批量操作的,返回的數(shù)據(jù)均是整個數(shù)據(jù)庫中存儲對應(yīng)數(shù)據(jù)表的全量數(shù)據(jù),所以用解析HTML的方法解析。

(6)數(shù)據(jù)解析完畢后,按照業(yè)務(wù)列表即表頭標(biāo)識把對應(yīng)列頁面數(shù)據(jù)存儲至數(shù)據(jù)庫中,同時進行相關(guān)日志記錄,并把采集的URL地址及參數(shù)信息同時記錄存儲至數(shù)據(jù)庫日志表中。

(7)重復(fù)以上步驟(2)-(6),直至數(shù)據(jù)采集完畢,則數(shù)據(jù)采集程序結(jié)束。

在數(shù)據(jù)采集過程中,由于目前很多業(yè)務(wù)系統(tǒng)為了數(shù)據(jù)響應(yīng)的及時性,會按照頁面列表顯示的條數(shù)進行指定數(shù)據(jù)行數(shù)的返回,此時要特別注意進行“下一頁”的URL繼續(xù)采集,直至“最后一頁”采集完畢。

3.3 數(shù)據(jù)解析

HTTP響應(yīng)報文數(shù)據(jù)解析主要是對響應(yīng)正文(response-body)內(nèi)容進行解析,其內(nèi)容為標(biāo)準(zhǔn)的HTML標(biāo)記語言格式,由規(guī)范的HTML標(biāo)簽組成,數(shù)據(jù)解析主要針對標(biāo)簽內(nèi)容。

營銷管理系統(tǒng)中查詢轉(zhuǎn)變用戶清單時,顯示如圖5營銷管理系統(tǒng)轉(zhuǎn)變用戶清單列表圖系統(tǒng)列表界面所示。

分析報文中的的標(biāo)簽內(nèi)部內(nèi)容其內(nèi)部嵌套有標(biāo)簽,詳細(xì)標(biāo)簽內(nèi)容如下:

圖5:營銷管理系統(tǒng)轉(zhuǎn)變用戶清單列表圖

依據(jù)其標(biāo)簽規(guī)范,我可以發(fā)現(xiàn)其列表內(nèi)容均為標(biāo)簽的內(nèi)集合里面,并根據(jù)其內(nèi)部的標(biāo)簽獲取對應(yīng)的列值。在解析數(shù)據(jù)時,首先遍歷集合,其次嵌套遍歷標(biāo)簽集合,同時按照一定的規(guī)則規(guī)律過濾掉不符合的、key、class等HTML標(biāo)簽內(nèi)容,實現(xiàn)HTTP報文內(nèi)容值的解析。

另外,pathon語言提供的許多工具可以行輕松的HTTP協(xié)議的響應(yīng)報文內(nèi)容解析操作,如導(dǎo)入beautifulsoup4庫,可以把HTTP響應(yīng)報文格式為HTML文檔,遍歷此文檔,可以從中挑選出特定的標(biāo)簽;導(dǎo)入re(正則)庫可以很容易的實現(xiàn)和正則相關(guān)的驗證。例如,判斷一個字符串是否可以匹配某個正則表達(dá)式、從一個字符串中找出所有的能夠匹配的字符串等。

3.4 數(shù)據(jù)存儲

數(shù)據(jù)存儲前需要進行對應(yīng)數(shù)據(jù)庫表的設(shè)計,表名可按照業(yè)務(wù)系統(tǒng)列表內(nèi)容進行命名,數(shù)據(jù)庫字段名則按照業(yè)務(wù)系統(tǒng)列表值的分析,可以直接按照列表頁面(圖5營銷管理系統(tǒng)轉(zhuǎn)變用戶清單列表圖)的列表頭(如序號、用戶編號、用戶名稱等)進行表字段名的直接英文翻譯命名。后續(xù)按照開發(fā)的應(yīng)用進行數(shù)據(jù)的直接插入數(shù)據(jù)庫表中進行存儲,實現(xiàn)業(yè)務(wù)系統(tǒng)頁面數(shù)據(jù)的獲取,為下一步的數(shù)據(jù)集成共享提供對應(yīng)業(yè)務(wù)系統(tǒng)的數(shù)據(jù)支撐。

4 結(jié)語

本文對基于HTTP協(xié)議的業(yè)務(wù)系統(tǒng)網(wǎng)頁數(shù)據(jù)采集做頂層的研究與設(shè)計,并結(jié)合電力營銷管理系統(tǒng)進行數(shù)據(jù)的抓取和解析分析,為基于B/S架構(gòu)的業(yè)務(wù)系統(tǒng)不通過接口或數(shù)據(jù)庫直接訪問的方式實現(xiàn)系統(tǒng)間的數(shù)據(jù)集成共享,有效解決因業(yè)務(wù)系統(tǒng)間安全規(guī)范、網(wǎng)絡(luò)不允許等客觀條件、或業(yè)務(wù)系統(tǒng)建設(shè)方不配合開放接口時,實現(xiàn)業(yè)務(wù)數(shù)據(jù)間的數(shù)據(jù)集成共享問題。

猜你喜歡
頁面數(shù)據(jù)庫用戶
大狗熊在睡覺
刷新生活的頁面
數(shù)據(jù)庫
財經(jīng)(2017年2期)2017-03-10 14:35:35
關(guān)注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
關(guān)注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
數(shù)據(jù)庫
財經(jīng)(2016年15期)2016-06-03 07:38:02
關(guān)注用戶
商用汽車(2016年4期)2016-05-09 01:23:12
數(shù)據(jù)庫
財經(jīng)(2016年3期)2016-03-07 07:44:46
數(shù)據(jù)庫
財經(jīng)(2016年6期)2016-02-24 07:41:51
如何獲取一億海外用戶
主站蜘蛛池模板: 午夜福利无码一区二区| 亚洲成a人片在线观看88| 无码又爽又刺激的高潮视频| 青青操视频在线| 99热免费在线| 欧美激情第一欧美在线| 国产精品va| 欧美97欧美综合色伦图| 在线观看免费黄色网址| 欧美三级视频在线播放| 国产精品国产三级国产专业不| 国产一区二区精品福利| 在线观看亚洲国产| 亚洲欧洲综合| 91在线精品免费免费播放| 一级成人a做片免费| 999国产精品| 一本大道香蕉久中文在线播放 | 亚州AV秘 一区二区三区 | 欧美日韩在线成人| 亚洲精品国产首次亮相| 国产精品亚洲一区二区三区z| 香蕉久久国产超碰青草| 18禁高潮出水呻吟娇喘蜜芽| 国产高清无码麻豆精品| 成人久久18免费网站| 欧美日本一区二区三区免费| 粉嫩国产白浆在线观看| 午夜在线不卡| 青青热久免费精品视频6| 亚洲性影院| 国产成人精品一区二区| 国产午夜人做人免费视频| 97超碰精品成人国产| 免费在线国产一区二区三区精品| 免费av一区二区三区在线| 国产在线自乱拍播放| 久久国语对白| 国产精品思思热在线| 欧美午夜在线观看| 欧美日韩资源| 亚洲精品你懂的| 国产日韩欧美一区二区三区在线| 亚洲欧美日本国产综合在线| 欧美精品aⅴ在线视频| 乱人伦中文视频在线观看免费| 欧美中文字幕无线码视频| 蜜芽国产尤物av尤物在线看| 91精品国产自产91精品资源| 日本亚洲欧美在线| 国产一级精品毛片基地| 一本大道香蕉久中文在线播放| 亚洲天堂网在线视频| 亚洲永久精品ww47国产| 色综合色国产热无码一| 2020国产精品视频| 人人爱天天做夜夜爽| 久久精品人人做人人爽97| 99人妻碰碰碰久久久久禁片| 欧美三级自拍| 国产微拍精品| 亚洲天堂色色人体| 国产欧美在线观看视频| 中国国产一级毛片| 亚洲欧美极品| 亚洲 欧美 偷自乱 图片 | 狠狠色婷婷丁香综合久久韩国| 老司机午夜精品视频你懂的| 日韩精品免费一线在线观看| 色综合婷婷| 2019年国产精品自拍不卡| 亚洲an第二区国产精品| 尤物在线观看乱码| 国产女人喷水视频| 亚洲一欧洲中文字幕在线| 欧美日韩国产精品va| 日本人妻丰满熟妇区| 2020精品极品国产色在线观看| 中文字幕人妻无码系列第三区| 国产香蕉97碰碰视频VA碰碰看| 精品91视频| 国产精品吹潮在线观看中文|