魏利峰,紀建偉,王曉斌
(1.沈陽航空航天大學 遼寧 沈陽 110136;2.沈陽農業大學 信息與電氣工程學院,遼寧 沈陽 110866)
云環境中web信息抓取技術的研究及應用
魏利峰1,2,紀建偉2,王曉斌1
(1.沈陽航空航天大學 遼寧 沈陽 110136;2.沈陽農業大學 信息與電氣工程學院,遼寧 沈陽 110866)
云平臺的出現改變了傳統的行業發展模式,基于互聯網的信息共享與合作發展為代表的團隊共贏模式加快了網絡數據發展的速度,因而帶來了互聯網的大數據現象。對互聯網信息的有效使用和動態感知,能夠確定本部門的發展戰略,是網絡信息應用研究的核心任務。通過對Web網頁信息抓取技術的方式對網絡信息系統進行研究,提出使用垂直搜索技術是在適應云平臺環境中大數據現象的對策,得出了新聞型與數據密集型網頁信息變化的動態掌握方式。
大數據與云環境;中間件層;軟件服務;信息抓取
雖然云時代悄然而知,但是現實中的互聯網數據還有更新速度快,用戶無法感知;信息推送不及時,造成有效信息浪費的現象。面對云環境與大數據的挑戰,經厲信息網絡浪潮中的駕馭,梳理出云時代的信息特點是:1)信息的快速傳播特性,快速實現大規模信息傳遞;大集合的管理思想;信息的批量傳送;盡可能實現信息的快速交付;2)個性化技術支持與服務特性,信息傳播的目的性和針對性符合用戶需要,即信息使用的有效性。
如何更有效地組織和獲取網絡數據,如何將網頁中用戶感興趣的信息準確的抽取出來,并以具有語義的結構化的形式保存下來,以供用戶查詢分析,形成決策的支持。研究人員開創了Web信息抽取這個研究領域,本文對信息搜索技術原理進行比較,發現一種能夠應用在中間件層的網絡信息抓取技術。并將其應用于云平臺中的教學管理體系中,作為云教學發展的雛形。遵從軟件工程思想,在云平臺與網絡使用者中間,建立中間件層的軟件服務。為教學信息的云管理拓寬了道路。
1.1 信息抽取技術的發展現狀
在網絡信息量不多的時代,工作人員獲得數據往往是從互聯網中進行廣泛的數據挖掘,如谷歌和百度提供了強有力的搜索引擎,成為早期信息挖掘的工具。目前互聯網的發展趨勢是網站的信息量爆發式增長,云存儲與共享合作的現象不斷出現;專業集中發展,網站的信息不斷更新,有超出個人接受能力的趨勢。研究云環境與大數據中的信息搜索技術具有很強的實用性。
從數據挖掘的觀點看,Web信息抽取是Web數據挖掘的重要組成部分。Web挖掘主要分3類:Web結構挖掘(主要為超鏈接的分析)、Web使用記錄挖掘(日志挖掘)、Web內容挖掘。從搜索方向上劃分,有平行搜索和垂直搜索,在云環境中要完成時間最少和資源利用最高[1],選擇垂直搜索。其中垂直搜索技術是深度的對某一行業的專業搜索引擎,是對網頁庫中的某類專門信息的一次整合[2],定向分字段抽取出需要的數據進行處理后再以某種形式返回給用戶,數據由非結構化數據抽取成結構化的數據。垂直信息抽取技術的應用研究更具有意義。垂直信息搜索可以根據特定用戶群的需要抓取網站中的業務元數據,供用戶查詢或其他應用程序所利用,也可用于提供信息推薦,垂直搜索技術具有更加廣泛的應用價值。
1.2 信息抽取技術的相關原理
使用信息搜索需要掌握spider、網頁結構化信息抽取技術或元數據采集技術、分詞、索引、Xhtml。下面介紹本體的概念定義,基于知識本體模型的基本概念以字、詞為名稱的語言載體,是表達知識的最小語義單元[3]。本體(ontology)是對自然存在及其本質的研究,本體所反映的是事物本質的,科學的內涵?;靖拍钜揽棵Q、屬性、關系和行為描述彼此間的語義關聯。在計算機科學中,人工智能領域的學者最先將本體的概念從哲學中借用過來。形式化是指本體是機器可讀的(即能被計算機處理),而不是完全用自然語言表達。
定義本體的方法:用人工的方式書寫某個領域的本體(包括對象的模式信息、常值、關鍵字的描述信息,其中常值和關鍵字提供了語義項的描述信息)。下面是一個用于抽取數碼相機信息的應用本體的片段 (取自于BYU信息抽取小組開發的信息抽取系統的Demo)。

上面的代碼是本體定義的例子,即本體是具體事件名稱和具有的特征組成的集合,定義本體以后,抽取系統根據邊界分割符和啟發式規則信息將源文檔分割為多個描述某一事物不同實例的無結構的文本塊,然后根據本體中常值和關鍵字的描述信息產生抽取規則,對每個無結構的文本塊進行抽取獲得各個語義項的值,最后將抽取出的結果放入根據本體描述信息生成的數據庫中。圖1所示為使用了本體方式的軟件Netget對中國網絡教育熱門招生專業的信息抓取結果。

圖1 中國網絡教育最熱門專業抓取結果Fig.1 China’s most popular professional online education crawl results
基于云計算的網絡教育與培訓的網絡架構,是資源共享,以服務為核心,滿足業務業務的彈性需求,網絡中使用了虛擬化技術、動態集群和資源的按需調度等關鍵技術為應用提供彈性擴展的能力,云計算的3層服務模式,即軟件即服務、平臺即服務、基礎架構即服務的層次關系。依據國際標準化組織制定的網絡分層的結構,任何網絡系統的通信是由網絡層到應用層的逐級遞交的。就教學網絡系統云平臺的組成中,應用服務器的集群研究[4],運輸層執行的任務出現了集聚的趨勢,由虛擬社區、微博、微信、郵件、等信息傳輸信息的形式越來越多,而使用者往往有記住密碼的重要任務。如果將信息需求按客戶群推送,能夠達到事半功倍的功效,信息推送的任務由管理單位的管理階層完成,在云教學時代軟件服務擔當著關鍵的任務。在軟件體系中,實際的網絡應用往往需要擴充中間件層的功能,如圖2所示。

圖2 應用網絡的分層結構Fig.2 Layered structure of network application
應用于教學的教學網絡平臺層[5]為了保證適應性和復用性,在平臺的中間件層定義了具體的可添加組件部分。軟件系統中間件層提供對上級管理部門的信息發現與傳送,包括教學活動支持服務軟件、通訊支持服務軟件,形成教學單位對云教學資源動態變化的感知能力。將信息資源變化實時報告,通知有關部門形成信息流達到教學體系共享協同運作是云教學服務與發展的上策,在云教學體系中,在中間件層使用Netget軟件提供的垂直信息抓取技術,附加在支持服務模塊中,將云教學的共享功能達到及時的資源更新和信息服務。
云環境下的服務器集群,也是任務集中管理與分工合作的網絡平臺的升級,如何完成中間件層的任務,分散在多個服務器運行不同的軟件是一種非常合理的布署,一種實現規范是:管理軟件使用J2EE開發Web程序,使用Servlet作為J2EE規范中用來處理HTTP請求的唯一元素,一個J2EE集群包含多個同步運行的JAVA進程,每個JAVA進程都可以獨立提供服務,也可以聯合提供服務;一個J2EE集群包含一個代理服務器,對外提供統一的訪問入口;J2EE集群通常包含一個管理服務器用來管理集群的運作。第二種實現的方案是:管理者運行第三方軟件,隨時跟蹤網絡資源的動態變化。
信息抓取任務可以對同一個網站定義多個抓取任務形成同一個類別,開放大學學生活動區午間直播課信息抓取記錄。實現“即搜——即發”的教師活動,即時抓取、即刻分發。實現了遠距離的,短時間的,及時的教學信息的使用。圖3是對開放大學午間直播課及教研活動信息抓取。

圖3 開放大學午間直播課與教研活動信息抓取結果Fig.3 Open University courses and research activities Midday broadcast information crawl results
對中國網絡教育熱門專業變化的感知,有助于院校招生人數的調控。對午間直播課程的時間信息抓取實現了開放大學教學活動的一體化設計。訪問網站需要頻繁的點擊網頁的動作,使用信息抓取技術,建立多個抓取任務,每個任務執行只需點擊運行按鈕運行幾秒鐘,實現高效率管理;也可以作為教學網站階段性的數據調查分析,長期跟蹤網站公布的數據變化。在云平臺與環境中,運行信息抓取任務達到同時獲得關鍵數據,為管理者決策提供了信息決策依據。
大數據處理的應用不斷增加[6],根據不同的應用環境實現一個高速高效的,使用方便的信息抓取陣列,在信息應用為主的行業中,為智能化管理提供拓寬了途徑[7]。云環境下的教育平臺,以中間件層思想指導下,信息抓取與通訊軟件聯合使用于服務軟件中,云平臺信息流無延遲傳輸將達到普及。
[1]閆歌,于炯,樣興耀.云計算環境下科學工作流兩階段任務調度策略[J].計算機應用,2013(4):1006-1009.
[2]張建,程錦.網絡化制造資源垂直搜索引擎的研究與應用[J].計算機應用,2007(5):1116.
[3]高一波,趙先章,孫碩,等.面向垂直搜索引擎的基于知識的語義關聯算法[J].計算機工程,2009(11):184-186.
[4]吳少剛,陳曉玲.J2EE應用服務器集群性能研究[J].計算機工程與設計,2007(18):4410-4412,4416.
[5]孫磊,戴紫珊.安全服務云框架研究[J].計算機應用2012 (1):13.
[6]趙燁,王明磊,李新友.OCR在大數據量文檔處理系統中的應用[J].計算機應用2000(8):336-338.
[7]李琪,秦會斌,楊永舒,等.基于Android平臺的智能家居系統設計[J].電子設計工程,2014(24):52-54,57.
Research and application of web information extraction technology in cloud environment
WEI Li-feng1,2,JI Jian-wei2,WANG Xiao-bin1
(1.Shenyang Aerospace University,Shenyang 110136,China;2.College of Information and Electrical Engineering,Shenyang Agricultural University,Shenyang 110866,China)
The emergence of cloud computing platform,change the development mode of traditional industries,the Internet information sharing and cooperative development as the representative of the team win mode to speed up the development of network data based on the speed of the resulting data,the phenomenon of the Internet.Effective use and dynamic perception of Internet information,to determine the development strategy of the Department,is the core task of research on Application of network information.This paper makes research on the Web Webpage information capture technology,proposes to use vertical search technology is on the countermeasures adapt to large data phenomena cloud environment,provides a method of dynamic news and data intensive Webpage information change control.
big data and cloud environments;middleware;software services;information extraction
TN91
A
1674-6236(2016)04-0029-03
2015-03-24 稿件編號:201503342
魏利峰(1978—),男,內蒙古通遼人,博士研究生,講師。研究方向:信息管理與信息系統、WEB技術。