羅志偉 肖楊 蘇強 趙志潔
摘要:近年我國高速公路現代化建設處于一個快速發展期,高速公路的建設、運營、養護全生命周期過程中產生了海量的多源多維、異構數據。這些數據隱藏著巨大的價值,但針對這些數據的融合、處理、管理、訪問和應用上的研究仍然相對滯后。文章對高速公路建設、運營、養護等全生命周期產生的結構化、非結構化數據的預處理關鍵技術進行研究,開發基于云計算的高速公路異構數據源管理及訪問組件,將數據轉化為結構化、高質量的可用數據集,并實現海量數據高并發、高效率的存儲、提取和計算,做到數據資產的高效訪問控制。
關鍵詞:高速公路;多源異構數據;數據融合;數據集成;云計算組件
中圖分類號:U412.36+6A441536
0 引言
我國高速公路經過幾十年的快速建設,2016年底總里程已突破13萬 km,至2020年將達到16.9萬 km[1]。迅猛發展的高速公路建設讓高速公路運營方面臨越來越繁重的運營管理任務和壓力,如高速公路養護、交通擁堵、應急管理,以及公眾便捷出行等各類主體多樣、迫切的需求。而這些需求是傳統業務系統、管理和服務手段所不能滿足的[2]。
此外,隨著信息化的普及,高速公路在信息化建設方面也有著持續大量的投入。隨著以互聯網、智能感知設備為代表的高速公路數據采集手段不斷豐富,收費系統、監控系統等基礎業務系統不斷完善,高速公路運營管理部門能夠從不同角度獲取反映交通運行特征的相關數據,可以說多源多維高速公路大數據已經形成[3]。但在數據的融合、處理、管理、訪問和應用上仍然相對滯后[4]。因此,整合獨立、分散的應用系統數據與業務管理資源數據,實現對高速公路異構數據源的統一管理及訪問,對促進高速公路信息資源的充分共享利用具有重要意義[5]。而近年來飛速發展的云計算技術由于其容易部署、方便、安全等特點已成為實現以上技術目標的技術手段[6]。
云計算[7]是分布式計算的一個種類,利用互聯網“云”將龐雜的數據進行分解,并通過服務器集群分析處理返回結果。云計算可以讓信息和數據以最大效率進行管理、訪問、共享。云計算技術讓用戶可以最低的成本完成資源計算。
本文主要對高速公路建設、運營、養護等全生命周期產生的結構化、非結構化數據進行預處理關鍵技術進行研究,開發基于云計算的高速公路異構數據源管理及訪問組件,將數據轉化為結構化、高質量的可用數據集,并實現海量數據高并發、高效率的存儲、提取和計算,做到數據資產的高效訪問控制。
1 系統設計的目標、建設內容及技術路線
1.1 系統設計的總體目標
基于云計算的高速公路異構數據源管理及訪問組件設計開發是在關系數據庫管理平臺上云計算技術的多維度擴展。異構數據庫系統完成多領域、多層次的異構數據源訪問及使用,實現多層結構數據存儲共享、大規模計算、虛擬機數據加載。該系統利用多層體系去控制數據訪問,并加入程序對象用以相應功能,優化并集成了數據挖掘、大數據分析、數據模型加載技術,以實現對異構數據資源和OLTP/ OLAP分析的統一支持,支持用戶自定義虛擬數據庫和虛擬表對象管理,并支持對虛擬數據庫資源和物理數據庫資源的訪問控制。系統建設將達到以下目標:
(1)將獨立、分散的結構化和非結構化數據進行集成,將能夠提供數據提取、轉換,將加載和顯示服務的綜合基礎數據資源整合到信息資源平臺中,實現數據資源的統一管理和綜合利用。
(2)每個用戶可以根據對應的權限獲取所需資源,同時確保資源信息的質量、精準和安全。
(3)根據Web的視覺表現并顯示信息名錄,可以高效且快速的預覽所需信息。不同權限的用戶都可以按需瀏覽并進行資源共享。
(4)高效數據管理和長期更新機制,為資源的存儲、傳輸、交換和服務提供安全的操作環境。
1.2 系統的主要建設內容
(1)基于異構數據源,數據提取、清理實時同步,實現異構數據源訪問,資源映射驅動。基于時間和事件的數據抽取可智能調度算法。
(2)增量和全量的數據比對算法,優化了全量抽取比對方法,引入臨時表作為全量抽取比對基線。
(3)文件數據注冊支持。
(4)概念數據模型定義,在數據建模的驅動下,它支持從概念模型到物理模型以及用戶定義的概念模型的數據加載服務;虛擬數據庫將注冊到物理模型,并根據物理模型映射將異構數據加載到目標虛擬機。
(5)物理模型數據注冊。
(6)基于模型的數據抽取、加載。
1.2.1 異構數據源數據映射整合,基于物理異構數據源的虛擬資源映射及基于虛擬映射資源的映射訪問管理
(1)異構數據庫中間層數據處理方法,引入前置機智能調度控制算法。
(2)基于異構數據庫物理表對象的映射集成管理。
(3)基于虛擬映射資源的映射整合管理。
1.2.2 異構數據源的共享訪問,基于平臺的異構數據資源訪問
(1)基于用戶、角色、權限的異構數據庫系統的成分組件訪問控制管理。
(2)基于平臺、資源和渠道的異構數據庫的過程管理和訪問方法。
(3)虛擬數據庫表對象訪問控制管理。
異構數據清洗配置、數據審核、安全性驗證控制。
1.3 技術路線
在用于異構數據源管理和訪問應用程序的云計算組件開發的設計和實現中,充分考慮了以下幾個主要因素:(1)其符合國家相關標準和規范;(2)采取領先技術構建與實現云計算,包括多層中間件系統技術;(3)它吸收了目前在數據資源交換管理平臺的實施和某些技術實施的可行性驗證方面的經驗,從而達到客觀實用的系統設計,并以滿足業務應用需求為主導。
異構數據源管理和訪問應用程序的云計算組件開發相對于傳統交換系統優點突出。傳統的系統存在開發工期長,開發費用高,接口難以統一等缺點。在本次項目中的云交換平臺采用了核心軟件——云數據庫系統GCDB,全稱G-Cloud DataBase,是一款云數據庫軟件,它可以連接海量的、物理分布和異構的數據資源以形成虛擬數據資源處理庫,可以實現多個分離的業務系統之間數據資源的共享。
異構數據源管理及訪問應用的云計算組件開發以信息資源庫為核心,通過信息資源交換平臺的建設,全面整合獨立、分散的應用系統數據與業務管理資源數據,建立統一的信息資源管理功能與長效更新機制,建立操作支持環境,滿足信息資源的存儲、傳輸、交換、服務、應用和安全管理的要求,促進信息資源的充分共享和利用,滿足高速公路上各種業務系統的應用需求。
信息資源云交換平臺在項目的總體框架中,兼顧了效率和實用。系統邏輯架構如圖1所示。
云交換平臺的物理架構中有四種類型的連接點,包括中繼數據服務連接點、服務連接點、前端機器和生產系統。中繼數據服務連接點存儲云數據庫的中繼數據,包括:
(1)VDBS的中繼信息,例如VDB的名字、關鍵連接點、包含列表、用戶角色信息。
(2)虛擬表的中繼信息:字名、種類、字長、完整度。
(3)角色:名字、權限、VDBS。
(4)用戶:姓名、密碼、VDBS。
一個服務連接點可以在多個虛擬數據庫上部署。整個系統有很多服務連接點,這些連接點可以提供同樣的服務,并且可以保持狀態均等。服務連接點在管理及數據等VDBS服務中擔任服務角色。服務管理為虛擬數據庫中的角色,用戶和虛擬表提供管理功能,例如角色和用戶的創建、修改、刪除、注冊以及創建虛擬表數據庫等。
云數據庫系統的數據源通過在前端中的各種分布式DBS提供的訪問機制與云數據庫系統內部相聯結。并具備一個模塊可以同步信息并不時從生產系統中提取前端上的數據。系統物理架構如圖2所示。
2 系統詳細設計
2.1 云數據庫系統
云數據庫系統集成了多源異構數據庫和通用文件資源,以提供統一的數據訪問接口,從而達到以下目的:
(1)各應用系統的資源互通。
(2)為統一資源檢索提供后臺待檢索數據。
(3)用戶數據統一管理,為單點登錄提供統一用戶數據的數據源。
該系統將異構數據資源以物理形態分布的方式聯結在一起以形成一個虛擬數據庫,VDBS可以提供同樣的數據標準和訪問接口用于應用程序,并支持對數據源的透明訪問。云數據庫系統可以獨立訪問分布式數據源,并通過數據虛擬化屏蔽了數據源的分布和異構性。數據源被包裝器封裝后,系統中會進行注冊以將虛擬表的格式一致化。數據源的物理位置可以保持不變,形成的單個虛擬數據庫就可以具有集成和統一數據標準。對各種主流數據庫,云數據庫系統支持直接訪問和統一訪問。如Oracle、SQL Server、MySQL、DB2等。因為鍵值可以看作是簡化的關系模式,所以當前流行的鍵值文件系統或數據庫(例如HDFS,BigTable,HBase等)也可以輕松訪問云數據庫系統。
云數據庫系統中的虛擬表應用一種模式組織和管理,這種模式被稱為社區表,如圖3所示,應用端不再依賴于傳統形態的數據庫和物理表,而是使用社區表和虛擬表。用戶可以將社區動態產生和刪除,以快速適應商業需求變化發展。
該系統通過數據虛擬化,將數據源注冊到本系統,形成一個統一的數據中心。業務訪問和計算決策將基于虛擬視圖訪問數據源,而不需要通過指定的物理數據源。系統過程主要分為三個階段進行:資源注冊,標準定義和數據訪問。
(1)資源注冊:將現有的數據物理源聯結到數據平臺,數據規格將根據原始系統形成基本數據模式和源。
(2)標準定義:基于現有的基本源(系統數據),在需求的基礎上,定義數據模式和關系映射,并提供一致的數據標準,用以發布和使用服務。
(3)數據訪問:數據平臺提供了統一的API,以提供對數據資源的訪問。
云交換平臺,利用云數據庫來構建具有以下特點:
(1)在云數據庫中,數據以集群方式存在。
(2)分布式和異構數據庫可以滿足災難恢復、共享、容量擴展和按需使用的需求。
云數據庫只需要一個密鑰,用戶即可使用,就像使用本地數據庫一樣。
2.2 云交換接入服務
2.2.1 數據來源
信息資源共享平臺的建設涉及的數據資源內容較多,不同的數據內容現狀各不相同。有的數據尚不存在,需要采集;有的數據暫時以表文件的形式存儲,需要進行標準化轉換;有的部門或組織信息化條件較好,已經建設了信息系統,已有業務數據可以通過系統接口或數據接口方式接入,但由于系統結構設計各不相同,其接口模式設計也要各自有相應的針對性。
表1所示為針對不同的數據源格式,設計不同的數據獲取模式。
2.2.2 數據采集與處理
數據建設是系統建設的基礎,沒有數據,應用系統只能是一個空殼。在系統建設之初,就需要對數據資源進行詳盡的梳理,摸清已有數據資源可獲取數據資源的內容、數據格式、數據量,分析數據獲取方式、更新頻率等。根據數據資源梳理的結果,才能夠進行相應數據標準設計、庫表結構設計、存儲容量設計、網絡帶寬設計、數據獲取方式與獲取能力設計、數據資源更新機制設計、共享交換模式設計等。本系統的前置數據庫的內容如表1所示。
對于某些數據內容目前沒有相應的成熟數據,也沒有數據表文件采集或存儲,需要針對性地采集。
2.2.3 數據轉換
此功能將相異的數據源的格式轉換為一致的數據格式,根據轉換規律,原始數據將自動被系統識別轉換為一致的格式。
(1)數據格式轉換的定義:從一種原始的數據格式,經過系統、有規律地加工,轉變成目標數據格式的過程。
(2)數據格式轉換的處理過程:根據系統事先確定好的若干規則完成轉換。
2.2.4 數據資源管理
該功能為處理數據庫和表結構的中繼數據,定義和維護數據字典內容。
通過該功能,數據庫中存儲的數據類型、數據量、數據結構等信息查詢變得非常便利,開發人員可以更好了解行業信息庫的現有信息。
2.3 云交換平臺功能
云交換平臺的功能包括數據橋、數據清洗審核融合、數據目錄、通信服務服務。此外,該平臺還提供數據轉發、用戶管理等功能,使云交換平臺可以實現基于云模式的分布式異構數據的集成、整合和按需訪問。
2.3.1 數據橋接
數據橋接系統由兩大系統構成,數據信息庫系統和數據信息交換系統。信息庫系統由企業數據信息庫、數據交接信息庫、部門數據信息庫等組成。交換子系統架構如圖4所示。
(1)前置交換子系統:該系統負責在信息庫和傳輸子系統之間完成信息傳遞,完成數據提取轉換、發送和接收。
(2)交換橋接子系統:交換橋接子系統在每個交換前端系統之間建立可靠、高效、穩定、安全的信息交換樞紐,提供信息打包、拆包、輸送、轉換等功能,并支持大文件傳輸。
(3)交換傳輸子系統:交換過程的布置,可以實現預交換信息庫與部門之間的信息處理和信息傳遞的穩定可靠。
(4)交換管理子系統:數據交換系統操作指揮中心提供交互工具,用于系統的操作和監督。實現對流程配置的監視和管理,整個信息交換流程的部署和執行以及整個信息交換系統的運行。部門通過交換管理子系統交換所需信息到前端。在交換管理子系統的過程控制下,需要交換的信息通過交換傳輸子系統和前端交換子系統被定向到接收部門,共享信息被實時交換到共享信息庫。
2.3.2 數據清洗
數據清洗一是為了解決數據質量問題,二是讓數據更適合做挖掘。其主要功能包括:
(1)解決數據質量問題:解決數據的完整性、唯一性、權威性、合法性、一致性。
(2)讓數據更適合做挖掘:解決數據的維度過高、維度過低、無關信息、字段冗余等問題。
2.3.3 數據審核
數據審核是用來驗證數據是否統一。數據驗證和比較可以完成一件或一批的數據比較。
對于服務數據的關鍵數據項,用戶提供要驗證的原始數據,并通過系統的驗證和比較來識別一致和不一致的狀態。
2.3.4 數據融合
采用云數據庫系統,數據審計后通過數據虛擬化向云數據庫系統注冊多個數據源,包括分布式異構數據庫和文件等,形成統一的數據中心,實現創建、部署、訪問控制管理和復制在虛擬表模式下對統一數據視圖進行管理,從而實現數據融合。
系統會分為三步去實現數據融合:
(1)數據連接:根據原始數據制式,將數據平臺與現有的物理數據源連接,形成基本數據源和模式。
(2)標準定義:來自多個數據源的數據和相關數據的信息相結合,以實現比單獨使用單個傳感器所不具備的準確性。
(3)數據訪問:數據平臺提供了統一的API,以提供對數據資源的訪問。用戶請求被系統處理,分別發送到每個節點以用并行方式執行,最后統計匯總結果。
3 結語
針對高速公路大數據多源多維、異構、海量的特點,本研究開發了基于三層數據控制架構和面向流程及基于成分的功能組件云計算系統。該系統基于虛擬數據庫資源注冊訪問,支持二級虛擬數據庫資源映射機制。同時,該系統還可以屏蔽數據庫訪問細節,結合云計算技術可擴展性高、硬件成本低、資源按需使用等方面的優勢,為異構數據庫管理系統提供良好的集群存儲能力、并行計算能力、數據庫管理能力,達到系統性價比高、異構數據源無縫共享的目標。
參考文獻:
[1]國家發展改革委交通運輸部關于進一步貫徹落實“三大戰略”發揮高速公路支撐引領作用的實施意見[J].交通財會,2017(2):85-86.
[2].王紅俊.高速公路管理信息化建設的需求分析[J].中外企業家,2019(35):74.
[3].任金光.大數據在智能高速公路中的應用[J].交通世界,2016(27):14-15.
[4].楊仁懷,郎川萍,劉文美.高速公路大數據處理現狀與挑戰[J].計算機系統應用,2014,23(9):13-17.
[5]林 艷.大數據在我國高速公路中的應用探討[J].北方交通,2016(5):162-164.
[6]張建勛,古志民,鄭 超.云計算研究進展綜述[J].計算機應用研究,2010,27(2):429-433.
[7]羅軍舟.云計算:體系架構與關鍵技術[J].通信學報,2011,32(7):3-21.
收稿日期:2020-04-17