黃衛


摘 要:數據采集是信息系統的重要組成部分,隨著信息技術工具在各部門的廣泛普及,數據采集方式發生轉變。文章提出了基于Web服務建立可互操作分布式應用程序的平臺,其具有獨立性、自發性、智能性,能很好地解決應用系統集成和跨平臺問題,簡化了持續的數據采集工作,以較低成本采集不同部門的異構數據,為數據分析和決策創造條件。
關鍵詞:Web服務;XML;數據采集;信息系統
隨著信息技術的廣泛應用,各部門積累了豐富的數據,以提供相關信息,供決策過程所使用。這些數據存放于多個異構的、自治、分布的信息系統中,各部門數據無法實現共享和轉換,面臨著信息孤島問題。數據研究機構為方便同平臺的數據采集,往往不愿付出高成本重組現有系統。于是,采集、組織和分析來自不同部門系統的數據是成為管理信息系統(Management Information System,MIS)的設計和開發目的之一。在數據采集過程中,一是要關注數據的質量、準確性和異構性,將采集后的數據存儲在一致的數據倉庫中,為數據挖掘創造條件;二是采取有效的措施,解決異種數據的操作和共享難題。基于以上要求,文中論述了應用Web服務、管理代理(Agent)等技術,以較低成本采集不同部門的異構數據,為數據分析和決策創造條件。
1 相關技術
1.1 XML規范
可擴展標記語言(eXtensible Markup Language,XML)被設計用來傳輸和存儲數據,是一種數據交換的格式,是W3C制定的文本標記語言規范,它利用標準的網絡協議進行傳輸。XML是Web服務的基礎,基于Web服務的協議規范都是XML來描述與表達的。其主要的優點在于它既是平臺無關的,又是廠商無關的[1]。
1.2 Web服務
Web服務是一種松耦合的跨編程語言和跨操作系統平臺的遠程調用技術。表面上看,Web服務是一個應用程序可對外調用的應用程序編程接口(Application Programming Interface,API)。把調用這個Web服務的應用程序稱為客戶端,而把提供這個Web服務的應用程序稱為服務端。從更深層看,Web服務建立了可互操作分布式應用程序的平臺。只要可以通過Web服務標準對這些服務進行查詢和訪問,獨立于不同的語言和平臺,能很好地解決應用系統集成和跨平臺問題[2-3]。
1.3 SOAP協議
簡單對象訪問協議(Simple Object Access Protocol,SOAP)是指定如何通過HTTP交換XML文檔的協議規范,即SOAP協議= HTTP協議+ XML數據格式。它通過SOAP編碼規則可以與現有通信技術最大限度地兼容[2]。
1.4 UDDI與Agent
通用描述、發現與集成服務(Universal Description Discovery and Integration,UDDI)是分布式Web服務的信息注冊規范,用于通過使用Internet來描述服務,企業可以使用它對Web服務進行注冊和搜索。UDDI系統引入Agent后,Web服務查詢變得更智能化,減輕了管理信息系統的負擔,提高了運行效率。當搜索服務時,Agent以SOAP消息格式向UDDI系統提出查詢請求,并生成一個查詢的Agent,以此來接收Web服務需求的SOAP消息。
2 數據采集系統的實現
2.1 數據采集系統工作機制
為解決異構數據源的數據采集,提出以Web服務作為基礎架構的數據采集系統。教育系統內數據采集器如圖1所示,其中包括Web服務、代理(Agent)系統、UDDI系統及實現異構的、分布式教育管理信息系統[4]。Web服務屏蔽異構系統的差別,外部通過服務接口響應的來自Agent的采集請求。UDDI是一種目錄服務,企業可以使用它對Web服務進行注冊和搜索。采集器的功能是各教育信息系統傳遞有用的采集數據,期間通過SOAP/HTTP來進行Web服務調用,最后采集至主管部門信息系統[5]。
2.2 Web服務的數據采集接口
該系統使用Web服務作為編程接口(見圖2)來從異構環境中采集數據。它提供了一個平臺,無論編程語言和操作系統如何,其中一個應用程序可以與另一個應用程序交換信息,支持不同網絡文件的互操作性,即松耦合。各層級不需重組現有系統,以XML文件進行通信,定時的數據采集工作可以在任何級別上進行。register()方法用于登記不同層級部門網址;send()方法用于發送XML文件注冊賬戶;get()方法用于獲取數據。
2.3 數據采集系統的優越性
一般來說,由于聯機輸入數據量大、易出錯,增加了聯機通信的成本。即使引入傳統計算機數據的采集方法,也是一個耗時的過程。此外,異構系統也不利于實時數據傳輸。基于Web服務交換異構平臺數據速度快,成本低,不論平臺和編程語言是什么,不用重新配置操作系統、數據庫系統和應用軟件,允許訪問不同私有網絡中的文件,自由地用HTTP協議進行通信。
3 數據采集方法
Web服務的工作模式是各層信息系統從DUUI系統查詢Web服務接口,然后按要求格式向Web服務發送請求,以傳遞相關數據[6]。以教育系統內部數據采集為例,采集器運行大致經過以下幾個過程(見圖3)。
教育主管部門首先數據采集格式設計,將采集請求以XML格式向學校的Web服務提出服務請求。各層級參照執行該步驟,依次為:主管部門→大學→院系→班級。各校通過Web服務接口響應采集請求,并傳回所采集的數據。比如:各大學提前手動采集大量數據,然后記錄在學校的管理信息系統(異構系統)的數據庫中。期間,Web服務主要負責將XML格式不同語義的數據轉換成標準格式。當然,校區分散或具備軟硬件的學校,也可建立類似的采集器,更高效、低成本地采集不同部門的異構數據。
數據采集過程中無法避免在同一地方可能采集大量表格,存在錯誤的條目和費時的糾錯過程等問題。所以要對采集的數據進行必要的整理,清除無用數據。事實上,任何層級都可完成數據采集工作,并把這些數據作為原始數據進行進一步的分析,為政策制定者所用。
4 結語
一個合格的學校管理信息采集平臺應該具有通用性、可靠性、實時性、共享性、能為政策制定者所用,實踐表明該平臺具備這些特點。Web服務使用的標準,如XML,SOAP,WSDL,為普遍所接受的,應用Web服務組件無需重新設計當前的學校系統,不受特定的物理位置、編程語言、平臺、數據編碼方式的限制,數據可在不同部門、不同平臺之間共享,實現了低成本、開放性與智能性的結合。
[參考文獻]
[1]SCOTT S. SOAP:XML 跨平臺Web Service開發技術[M].北京:機械工業出版社,2002.
[2]鄭子彬,呂榮聰.Web服務質量管理[M].杭州:浙江大學出版社,2013.
[3]BOOTH D,HAAS H. Web Services Architecture,W3C Working Group[J].Concurrency & Computation Practice & Experience,2004(5):72-81.
[4]JACKLE A, ROBERTS C, LYNN P. Assessing the effect of data collection mode on measurement[J].International Statistical Review,2010(1):3-20.
[5]王瑄,李燕.應用Web Services構建多層架構的高效.NET應用[M].北京:科學出版社,2005.
[6]馬曉軒.Web服務與數據交換關鍵技術研究[M].北京:中國環境出版社,2017.endprint