999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于云計算平臺的HTML解析系統的設計與實現

2015-05-15 10:10:48夏飛丁勝孟振南湯葉舟謝景文
現代計算機 2015年1期
關鍵詞:數據處理智能

夏飛,丁勝,孟振南,湯葉舟,謝景文

(武漢科技大學計算機科學與技術學院,武漢 430065)

基于云計算平臺的HTML解析系統的設計與實現

夏飛,丁勝,孟振南,湯葉舟,謝景文

(武漢科技大學計算機科學與技術學院,武漢 430065)

HTML解析技術能夠實現非結構化數據轉變為結構化的數據,傳統的HTML解析技術大多被直接使用到App中,其性能往往會受到運行環境限制,而且缺乏靈活性,難以維護。針對這些不足之處,設計一種基于云計算的HTML解析系統,將HTML解析放在云上。利用云平臺的超強計算性能,將非結構化的HTML數據結構化,提高移動智能終端的數據處理效率。

HTML解析;云計算;jsoup

0 引言

如今,互聯網上的信息越來越多,互聯網的信息已經成為一個越來越大的礦山,這個里面有黃金也有垃圾,我們坐在這個礦山上,如何挖掘其中的金子,已經越來越受到重視,而這個挖掘過程的第一步就是需要將這些非結構化的數據轉變為結構化的數據。最簡單的搜索爬蟲需要這種轉變,由Web到WAP的轉碼需要這種轉變,Web數據的應用也需要這種轉變。而HTML解析技術便可輕松實現這種轉變。

實際中很多應用正是基于HTML解析技術實現的,而且越來越多的移動智能終端應用也在采用這種方式。但移動智能終端的計算性能有限,因而問題便出現了,即便HTML解析算法效率很高,但直接將這種技術運用到App上,App的性能也將會受到運行環境的限制,進而不能發揮其最大能力。

與此同時,隨著科技的飛速發展,云計算技術得以推廣普及,云計算平臺允許我們將大量的數據處理邏輯放在云端,借助云平臺計算性能和數據處理能力,對大量非結構化的數據進行結構化。

針對這些特點,我們可以利用云計算平臺優秀的性能,輕松完成大量非結構化的HTML數據的解析,緊接著將其中有價值的數據提取出來重新打包封裝,然后回傳給發起請求的移動智能終端。此時移動智能終端App接收到的是結構化的數據,處理時可以大大降低終端的壓力,獲得更快的響應,進而也就能給用戶帶來更好的操作體驗。

1 云計算平臺Servlet簡介

云計算平臺也稱為云平臺。云計算平臺可以劃分為3類:以數據存儲為主的存儲型云平臺,以數據處理為主的計算型云平臺以及計算和數據存儲處理兼顧的綜合云計算平臺。這里用到的是第二種,即以數據處理為主的計算型云平臺。而可以部署在云平臺上服務器又分為多種,這里為了更好地發揮HTML解析工具的性能,我們采用了Tomcat+Servlet技術。下面將對Tomcat、Servlet進行簡單的介紹。

Tomcat是一個免費的開放源代碼的Web應用服務器,具有開源免費、容易安裝使用、占用資源小、易于和其他軟件集成等優點,其因技術先進、性能穩定,而且免費,而深受Java愛好者的喜愛并得到了部分軟件開發商的認可,成為目前比較流行的Web應用服務器。這里我們將其用作Servlet的容器,負責管理Servlet,同時充當請求調度器,將客戶端的請求傳遞到Servlet,同時將Servlet的響應返回給客戶端。

圖1 Tomcat容器模型

Servlet是一種獨立于操作系統平臺和網絡傳輸協議的服務端的Java應用程序,它通過動態響應客戶端請求來擴展服務器的功能。它可以處理HTTP請求,并回送一個響應;它還可以方便并且靈活地使用第三方的開源工具jar包,同時Servlet還有優秀的互聯網訪問性能。Servlet有著十分廣泛的應用,不僅能簡單地處理客戶端的請求,借助Java強大的功能還可以實現并發處理多個請求的功能。在啟用了Servlet的Web服務器中,默認情況下,Servlet采用一種無狀態的請求-響應處理方式。Servlet被加載、初始化、準備響應客戶請求的過程如圖2所示。

圖2 Servlet實例化、初始化及處理請求

基于這些特點,我們可以利用Servlet來編寫運行于云計算平臺上的Tomcat中的用戶處理用戶請求,抓取并解析HTML數據,然后回傳數據的業務處理邏輯。

2 系統的設計與實現

2.1 服務器端設計與實現

服務器端是本系統的核心部分,其主要用來接收客戶端的請求,并根據請求內容到互聯網上抓取相關HTML數據,然后將數據解析打包并回傳給客戶端。其主要完成:①接收并識別客戶端發送過來的請求;②根據請求內容,自動從互聯網這座數據大礦山中匹配出相關HTML數據;③將這些相關的HTML數據抓取到云計算平臺上;④對抓取回來的HTML數據進行解析;⑤將解析出的有價值的信息重新封裝打包;⑥將數據回傳給發起請求的客戶端。

服務器端的處理流程如圖3所示。

圖3 服務器端處理流程

其中,對HTML數據進行解析時,用到了開源的第三方工具jar包——jsoup。在眾多HTML解析工具中,jsoup有其獨特的類似于jQuery的select選擇器,因而其對HTML的解析效率非常高,而且使用很方便、靈活。

例如,對下面的字符串進行解析,并提取title標簽下的文本節點(First parse):

2.2 客戶端設計與實現

客戶端部分主要用于與用戶進行交互,接收用戶的輸入并顯示服務器端返回的數據。其主要完成:①接收用戶輸入請求;②將請求以HTTP post/get方式傳遞給云計算平臺上Tomcat中的Servlet程序;③接收云計算平臺回傳的數據;④將接收到的數據拆包,以用戶可閱讀的形式呈現給用戶??蛻舳顺绦虼笾铝鞒虉D如圖4所示。

圖4 客戶端處理流程

其中,客戶端不依賴于特定的平臺,可以是PC上的應用軟件,也可以是移動智能終端上的軟件,并且其用于與用戶進行交互的界面也是靈活多變的。

2.3 數據交換的格式

本系統服務器端和客戶端之間的數據交換格式采用JSON格式,JSON是一種輕量級的數據交換格式,它采用完全獨立于語言的文本格式,也使用了類似于C語言家族的習慣。因此其易于人閱讀和編寫,同時也易于機器解析和生成,這些特性使JSON成為理想的數據交換語言。本系統為了減輕移動終端的數據處理壓力,同時節省數據流量,而采用了這種數據格式。

例如:"firstName":"John",表示鍵為“firstName”的字段的值是“John”。

3 結語

互聯網的迅速發展,帶來一個嶄新的時代。如今互聯網上的信息越來越多,如何去利用好這座礦山的資源,將其中的有價值的數據挖掘出來,將沒有價值的垃圾數據過濾掉,并實現非結構化數據到結構化數據的轉變,已受到越來越多的人的關注。傳統的HTML數據處理的方式不夠靈活,且難以維護,因此亟需一種新的處理方法,以此實現資源的最大化利用。本文設計的HTML處理系統,將數據的處理與數據的呈現分離開來,將數據處理放到云計算平臺上,開發人員只需要維護云計算平臺上的代碼即可,因此大大提高了系統的可維護性,同時本系統使用優秀的jsoup工具來處理HTML數據,其靈活性得以大大提升。經實驗運行驗證,本系統能正常地工作,但還可繼續完善,例如實現語義分析、數據挖掘、智能信息處理等功能。

[1] (美)Reto Meier.Android 4高級編程(第3版),2013:83~139

[2] Jsoup Cookbook(中文版).http://www.open-open.com/jsoup/

[3] 郝玉龍.Java EE編程技術,2011:18~74

[4] JSON中國.http://www.json.org.cn/

Design and Implementation of HTML Parsing System Based on Cloud Computing Platform

XIA Fei,DING Sheng,MENG Zhen-nan,TANG Ye-zhou,XIE Jing-wen
(Wuhan University of Science and Technology,Wuhan 430065)

HTML parsing technique can change the unstructured data into structured data.The traditional HTML parsing technology tends to be used directly to the App,its performance is often constrained by running environment,and lacks of flexibility,so it is difficult to maintain. Aiming at these deficiencies,designs a kind of HTML parsing system based on cloud computing,puts the HTML parsing on the cloud. Using cloud platform super computing performance,makes the unstructured HTML into structured data again,this will greatly improve the efficiency of data processing of mobile intelligent terminal.

HTML Parsing;Cloud Computing;jsoup

1007-1423(2014)01-0042-04

10.3969/j.issn.1007-1423.2014.01.010

夏飛(1992-),男,湖北荊州人,在讀本科,研究方向為移動智能終端應用開發

丁勝(1975-),男,湖北武漢人,博士,副教授,研究生導師,研究方向為圖像分析

孟振南(1994-),男,湖北鐘祥人,在讀本科,研究方向為移動智能終端應用開發

湯葉舟(1995-),男,江蘇常州人,在讀本科,研究方向為移動智能終端應用開發

謝景文(1995-),男,湖北天門人,在讀本科,研究方向為移動智能終端應用開發

2014-11-25

2014-12-04

武漢科技大學大學生科技創新基金研究項目(No.13ZRA067)

猜你喜歡
數據處理智能
認知診斷缺失數據處理方法的比較:零替換、多重插補與極大似然估計法*
心理學報(2022年4期)2022-04-12 07:38:02
ILWT-EEMD數據處理的ELM滾動軸承故障診斷
水泵技術(2021年3期)2021-08-14 02:09:20
智能制造 反思與期望
智能前沿
文苑(2018年23期)2018-12-14 01:06:06
智能前沿
文苑(2018年19期)2018-11-09 01:30:14
智能前沿
文苑(2018年17期)2018-11-09 01:29:26
智能前沿
文苑(2018年21期)2018-11-09 01:22:32
智能制造·AI未來
商周刊(2018年18期)2018-09-21 09:14:46
MATLAB在化學工程與工藝實驗數據處理中的應用
Matlab在密立根油滴實驗數據處理中的應用
主站蜘蛛池模板: 91精品免费久久久| 久久婷婷色综合老司机| 91色爱欧美精品www| 国产久操视频| 青青草国产免费国产| 一区二区三区国产精品视频| 99视频在线免费| 尤物精品视频一区二区三区| 成人国产精品2021| 国产成人精品一区二区三在线观看| 国产aⅴ无码专区亚洲av综合网| 国产毛片不卡| 国产一区成人| 91青青草视频在线观看的| AⅤ色综合久久天堂AV色综合| 国产资源免费观看| 中国丰满人妻无码束缚啪啪| 亚洲国产成人精品无码区性色| 在线观看av永久| 91啦中文字幕| 久久特级毛片| 中文字幕亚洲另类天堂| 99热国产在线精品99| 国产成人免费手机在线观看视频 | 99精品这里只有精品高清视频| 亚洲AⅤ永久无码精品毛片| 韩日午夜在线资源一区二区| 在线色国产| 99re视频在线| 久久午夜影院| 亚洲开心婷婷中文字幕| 91精品国产福利| 女人毛片a级大学毛片免费| 欧美一级在线播放| 亚洲第一中文字幕| 欧美97欧美综合色伦图| 999精品视频在线| 无码有码中文字幕| 精品久久久无码专区中文字幕| 99久久性生片| 97久久免费视频| 一本无码在线观看| 精品色综合| 青青青国产视频手机| 1024国产在线| 精品三级在线| 久久久国产精品无码专区| 青草视频久久| 超碰aⅴ人人做人人爽欧美| 国产精品不卡永久免费| 欧美专区日韩专区| 亚洲国产欧美中日韩成人综合视频| 国产微拍精品| 日韩成人在线视频| 成人精品视频一区二区在线| 久久精品国产精品青草app| 性做久久久久久久免费看| 亚洲性影院| 福利在线一区| 人妻中文字幕无码久久一区| 丁香六月激情综合| 亚洲精品777| 亚洲Aⅴ无码专区在线观看q| 国产精品毛片在线直播完整版| 日本午夜精品一本在线观看| 久久香蕉国产线看观| 伊人婷婷色香五月综合缴缴情 | 久久人妻xunleige无码| 免费无码在线观看| 国产精品xxx| 91在线无码精品秘九色APP| 国产成人一区免费观看| 国产特级毛片| 91国内在线观看| 久草国产在线观看| 福利在线不卡| 国内丰满少妇猛烈精品播 | 999福利激情视频| 亚洲无码高清视频在线观看| 久久夜色撩人精品国产| 欧美精品亚洲精品日韩专| 欧美激情网址|