999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

一種智能網頁數據采集系統設計

2018-02-23 12:47:26李世忠
電子技術與軟件工程 2018年6期

李世忠

摘要 設計了一種網頁數據采集系統。采集的數據統一保存到系統數據庫,系統輔助用戶完成常規采集參數的設置,包括訪問間隔時間及數據存儲方式等。用戶對需要采集的數據進行描述,多次訓練系統進行數據采集,生成數據識別模型。在目標網頁發生變化時,在一定的范圍內根據識別模型自動進行修正以適應新的網頁結構,減少采集工作的人工干預工作量。

【關鍵詞】數據采集系統 HTML 網頁抓取

1 引言

以往傳統的數據采集方式,通過使用爬蟲程序將相關的Web頁面下載到本地,然后根據XPATH或是正則表達式從頁面的HTML中解析出結構化的數據。這種方式在目標的頁面時常更新時,就需要投入大量的人力去做匹配規則更新,如果有一種技術能夠識別并自動完成采集規則的修正,將會非常有意義。

2 工作原理

無論網頁的內容如何變化,基本的用途是不會改變的:顯示客戶能夠識別的內容(文字或是圖片)并依據一定的設計規范;有標題欄、導航或操作欄,內容顯示區域等。

通過抓取程序將HTML內容下載到本地,再通過算法將HTML格式的內容轉換為標準的XML文檔,由于HTML的編寫可以不用很嚴謹,所以需要在轉換時根據XML的標準進行修正。再由XML解析程序將XML內容進行格式化處理,加載識別模型中由模型進行分類整理,標記出哪些內容是屬于正文、標題、列表、等數據;其流程如圖1所示。

3 數據采集系統設計

3.1 系統設計原則

軟件在設計時確定了“先進性、可擴展性、可伸縮性和易維護性”的原則。具體要求的設計原則如下:

(1)采用三層結構,界面采用組件化的設計,數據庫表能根據代碼自動生成,保持了技術的先進性。

(2)整理個程序由多個軟件包組成,使用基于接口的方式進行開發,可以單獨替換某一個軟件包而不用整個系統重新編譯,以提供可擴展性。

(3)系統采集中間層語言運行,軟件不需要進行安裝,拷貝到文件目錄就可以正常運行。

(4)數據采集與轉換組件可運行在單獨計算機中,當采集性不足時可以通過簡單的增加采集節點來提升數據處理規模及速度,保障系統的可伸縮性。

3.2 總體的系統設計

采集系統采用混合架構。服務端為B/S架構,客戶端采用C/S結構;客戶端通過WebService服務與服務端進行通信,獲取采集任務及相關的參數配置并負責具體的網頁數據攻取操作,然后將數據上傳給中心服務,服務器再對數據進行集中的處理與轉換操作。

服務端采用ASP.NET MVC+Service.客戶端采用C#桌面和控制臺程序。

整個系統分為三層:數據采集層、數據存儲層及數據轉換層。

4 實現的關鍵技術

4.1 分布程序間通信技術

系統采用組件的設計,采用Weo Service技術來進行多程序間的數據傳輸。

4.2 網絡安全技術

網絡傳輸安全主要采用SSL(Secure SocketLayer)技術來實現。SSL技術是目前應該比較廣泛的通信安全技術,可以保證兩個系統間的通訊安全。

4.3 數據分類及轉換模型

數據轉換程序使用C#語言進行開發,為保證轉換的速度,XML的數據都提高加載到內存進行處理。

數據分類:服務器端程序將需要處理的XML數據發送到MSMQ消息隊列,數據轉換程序從消息中依次取出數據對數據進行處理,具體要求的分類規則如下:

(1)基于標準的HTML/HTML5標簽的常用定義規范,將節點數據分類為:村標題、內容、內容條目、條目數據等。

(2)對分類之后的數據再次進行預定義規則匹配,如果能滿足則證明數據可用,否則使用模型數據庫中存儲的下一條解析規則處理至到滿足為止。

模型轉換:轉換程序由C#語言開發使用XML和JSON轉換技術,根據XML的分類數據,從組件庫中選擇轉換代碼對數據進行轉換,最后生成JSON數據。

5 結束語

通過將規范的HTML內容轉換為嚴格的XML數據,對數據進行的規范化的處理,再利用模型庫的規則對數據進行分類,再利用轉換程序對數據進行處理分解數據采集的操作,每個過程都可定制和和單獨替換,減少了因網頁變動對系統的調整工作量。

主站蜘蛛池模板: 亚洲熟妇AV日韩熟妇在线| 国产精品区网红主播在线观看| 精品少妇人妻av无码久久| 99久久精品无码专区免费| h网站在线播放| 国产精品亚洲va在线观看| 99视频在线精品免费观看6| 国产精品任我爽爆在线播放6080| 国产福利小视频在线播放观看| 国产麻豆va精品视频| a国产精品| 亚洲爱婷婷色69堂| 99久久精品免费看国产电影| 99ri精品视频在线观看播放| 中美日韩在线网免费毛片视频| 天天综合网色| 国产成+人+综合+亚洲欧美| 精品国产免费观看| 亚洲男人天堂网址| 亚洲男人的天堂网| 人禽伦免费交视频网页播放| 国产成人凹凸视频在线| 五月激情综合网| 欧美日韩一区二区在线播放| 四虎永久在线精品影院| 综合亚洲网| 国产精品视频导航| 国产一级做美女做受视频| 99999久久久久久亚洲| 日韩成人在线一区二区| 国产成人免费观看在线视频| 丁香婷婷激情综合激情| 精品国产www| 国内精品视频区在线2021| 成人福利在线看| 无遮挡一级毛片呦女视频| 波多野结衣一区二区三区88| 91成人在线观看视频| 色屁屁一区二区三区视频国产| 欧美视频免费一区二区三区| 亚洲无码91视频| 91在线高清视频| 精品一区二区久久久久网站| 一本一本大道香蕉久在线播放| 国产成人啪视频一区二区三区| 中文字幕在线永久在线视频2020| 日本精品αv中文字幕| 久久久久国产精品嫩草影院| 伊人大杳蕉中文无码| 日本久久久久久免费网络| 亚洲永久视频| 第九色区aⅴ天堂久久香| 专干老肥熟女视频网站| 91视频区| 一区二区日韩国产精久久| 2021国产在线视频| 国产精品观看视频免费完整版| 19国产精品麻豆免费观看| 亚洲国产天堂久久综合226114| 亚洲成a人片| 色偷偷av男人的天堂不卡| 免费在线看黄网址| 美美女高清毛片视频免费观看| 在线无码私拍| 最近最新中文字幕免费的一页| 一级片一区| 另类专区亚洲| 欧洲免费精品视频在线| 尤物亚洲最大AV无码网站| 成人年鲁鲁在线观看视频| 91久久偷偷做嫩草影院| 亚洲视频四区| 国产一级视频久久| 欧美亚洲国产视频| 亚洲人成网站在线播放2019| 亚洲侵犯无码网址在线观看| 国产性生大片免费观看性欧美| 亚洲欧洲一区二区三区| 日韩 欧美 小说 综合网 另类 | 操美女免费网站| 精品一区二区三区视频免费观看| 亚洲精品无码成人片在线观看 |