999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

云環境中Web信息抓取技術的研究及應用

2018-11-19 07:30:16王仕艷
通信電源技術 2018年9期
關鍵詞:用戶信息系統

王仕艷

(川北幼兒師范高等專科學校,四川 廣元628000)

目前互聯網中的數據還存在更新換代快、推送慢影響消息利用率、客戶獲得數據速度慢等問題[1-3]。而云時代下信息具有傳播速度快、數據集中管理、批量傳送數據等特點,同時還支持個性化服務,根據這些特點為用戶推送出滿足需求的數據信息,可提高數據信息的利用率。

當前的數據抓取技術有多種,其中hadoop云平臺框架被廣泛使用,但是這些技術多以java技術實現[4-5]。面對快速系統開發時java語言不太能滿足,為此本文以C#語言作為系統開發語言使用開源nwebcrawler框架作為數據采集工具。

1 系統需求分析

互聯網中包含大量信息,如何獲取這些信息加以使用能夠給企業、個人提供更多的信息資源從而增加企業競爭和個人信息獲取來源。信息獲取大多來源于網站,由于行業、服務對象等不同造成網站有多種形式。如何獲取不同類別網站的信息是當前面臨問題。段青玲等文獻對農業網絡信息進行了獲取[4],文獻[6]對海上信息進行了獲取,他們對不同的網站信息進行了不同的獲取信息開發,這樣增加了獲取信息的成本。為解決這一問題,本文提出了一種通用網站信息獲取系統開發。系統功能主要有:(1)系統登錄管理,該功能用于權限管理,保障用戶信息安全。(2)系統配置管理,該功能用于抓取數據規則配置、數據管理等。(3)數據抓取管理,根據配置信息進行數據抓取。(4)數據存儲管理,由于抓取的數據量比較大需要對數據進行備份、還原等管理。系統用戶主要有:系統管理員、普通用戶兩類,系統管理員對系統管理,普通用戶進行相應的數據抓取管理。如圖1為系統總體用例圖。

圖1 系統總體用例圖

2 系統設計

2.1 系統總體設計

Web信息抓取平臺主要由三部分組成:數據源、數據采集以及數據分析,如圖2所示。在數據源中包含了多種類型的網站,這些網站提供采集信息;此外系統還配置有txt、xml、sqlite以及excel文件,這些文件用于存儲采集信息、配置信息等。數據采集功能有:抓取、抽取、分類等。信息服務中主要進行信息發布、信息查詢、信息推薦、數據管理、收費管理等。

2.2 系統關鍵技術

在云環境下數據采集目的是方便用戶快速查詢信息,系統關鍵技術有:數據采集、數據抽取、數據分類、數據查詢等。下文詳細分析系統關鍵技術。

2.2.1 網站采集數據

Web數據采集主要是從Web上獲取網站網頁,將網頁保存在文檔中,并將文檔中的信息提取出來。為提高系統開發效率,本文使用C#語言進行網站數據采集系統開發,該語言具有簡單、易用特征,非常適合快速系統開發。當前網站數據采集框架有多種,比如:WebCollector、Nutch、nwebcrawler等[7-8]。本 文選擇nwebcrawler框架作為網站采集數據框架,該框架具有源代碼開發、性能優越等特點。如圖3為網站采集活動圖。

圖2 系統總體設計

2.2.2 數據抽取技術

在C#網站數據抽取的類有:WebClient、Web-Browser、HttpWebRequest。本系統使用nwebcrawler框架、WebClient、WebBrowser進行數據采集開發。數據抽取是系統核心技術。如下為網站數據抽取部分核心代碼。

//獲取網頁中所有的<td...></td>標簽

HtmlElementCollection htmlCol = webBrowser1.Document.GetElementsByTagName("td");

if(htmlCol.Count<4)

return;

//根據網頁源代碼可以知道前四個是標題

//設置表格標題

dataGridView1.ColumnCount=4;

dataGridView1.Columns[0].Name = htmlCol[0].InnerText;

dataGridView1.Columns[1].Name = htmlCol[1].InnerText;

dataGridView1.Columns[2].Name = htmlCol[2].InnerText;

dataGridView1.Columns[3].Name = htmlCol[3].InnerText;

dataGridView1.Rows.Clear();

//從第四個即標題后面開始四個一行加入列表中

for(int i=4;i<htmlCol.Count &&i+4<htmlCol.Count;i+=4)

dataGridView1.Rows.Add(new string[]{htmlCol[i].InnerText,htmlCol[i+1].InnerText

htmlCol[i+2].InnerText,htmlCol[i+3].Inner-Text});

2.3 數據庫設計

Web信息抓取系統中使用數據庫有兩類:一類是SQLite數據庫用于存儲相應的參數;一類是網絡數據庫Mysql。在信息抓取系統中包含的數據表有:用戶權限表、信息存儲表、參數配置表等。

(1)用戶權限表。該表用于存儲用戶權限信息,包含的字段有:權限ID、權限內容、用戶名、用戶ID、用戶密碼等,表1為詳細說明。

表1 用戶權限表

(2)參數信息表。該表用于存儲系統參數信息,包含的字段有:參數ID、參數名、參數內容、參數大小、參數時間、備注等。表2為參數信息詳細說明。

表2 參數信息表

3 系統實現

本文系統使用B/S模式進行開發。由于系統功能較多,本文只列舉網站數據采集創建過程。用戶需要在界面中輸入網址規則、下載深度、網址過濾(使用正則表達式)、重復下載網址過濾、下載參數設置、網頁數據設置、javascript引擎設置、登錄設置、基本信息設置等。圖4為網站數據采集創建界面。

圖4 網站數據采集創建界面

4 結 論

本文構建了Web信息抓取系統,實現了Web信息采集,主要結論為:系統實現了數據采集、數據抽取、數據分類,用戶可在界面中輸入相應的信息進行數據采集,提高了系統的復用性。

猜你喜歡
用戶信息系統
Smartflower POP 一體式光伏系統
工業設計(2022年8期)2022-09-09 07:43:20
WJ-700無人機系統
ZC系列無人機遙感系統
北京測繪(2020年12期)2020-12-29 01:33:58
連通與提升系統的最后一塊拼圖 Audiolab 傲立 M-DAC mini
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
關注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
關注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
關注用戶
商用汽車(2016年4期)2016-05-09 01:23:12
如何獲取一億海外用戶
創業家(2015年5期)2015-02-27 07:53:25
展會信息
中外會展(2014年4期)2014-11-27 07:46:46
主站蜘蛛池模板: 亚洲精品午夜无码电影网| 丝袜国产一区| 爱色欧美亚洲综合图区| 国产精品制服| 色网站免费在线观看| 色偷偷一区二区三区| 中文字幕在线免费看| 色有码无码视频| 毛片免费高清免费| 久草中文网| 国产综合色在线视频播放线视 | 六月婷婷精品视频在线观看| 呦视频在线一区二区三区| 无码福利日韩神码福利片| 日韩a级毛片| 国产成a人片在线播放| 高清视频一区| 日韩经典精品无码一区二区| 亚洲一区二区黄色| 欧美特级AAAAAA视频免费观看| 精品福利网| 国产成人无码综合亚洲日韩不卡| 99中文字幕亚洲一区二区| 国产丝袜丝视频在线观看| 国产微拍一区二区三区四区| 三上悠亚在线精品二区| 老熟妇喷水一区二区三区| 夜精品a一区二区三区| 亚洲成aⅴ人片在线影院八| 在线欧美一区| 亚洲人精品亚洲人成在线| 91视频99| 亚洲天堂网视频| 国产精品.com| 97精品伊人久久大香线蕉| 日韩一二三区视频精品| 一区二区欧美日韩高清免费| 青青草原国产| 国产精品林美惠子在线观看| 亚洲日韩Av中文字幕无码| 免费毛片全部不收费的| 中文字幕乱妇无码AV在线| 就去色综合| 亚洲国产综合精品一区| 国产精品香蕉在线| 久久人人妻人人爽人人卡片av| 免费国产不卡午夜福在线观看| 青青草国产一区二区三区| 91麻豆精品国产91久久久久| 九九精品在线观看| 亚洲欧美一区二区三区图片| 免费不卡视频| 精品国产成人高清在线| 亚洲成人动漫在线观看| 美女一区二区在线观看| 国产精品开放后亚洲| 国产一区成人| 在线中文字幕网| 久久久久无码精品| 欧美日韩高清| 无码一区二区三区视频在线播放| 成人久久精品一区二区三区| 国产精品丝袜在线| 麻豆精品在线视频| 亚洲无码日韩一区| 午夜国产精品视频黄| 97无码免费人妻超级碰碰碰| a毛片在线播放| 99久视频| 黄色网页在线观看| 亚洲一级毛片免费看| 精品福利国产| 中文字幕调教一区二区视频| 波多野一区| 国产精品妖精视频| 国产在线观看91精品亚瑟| 亚洲欧美一区二区三区蜜芽| 依依成人精品无v国产| 欧洲成人在线观看| 无码电影在线观看| 2021国产精品自拍| 成人午夜久久|