劉 宏,郭 芊,2,陳諫滔,2,張 錦,3
(1.湖南師范大學 信息科學與工程學院,湖南 長沙 410081;2.長沙市智慧交通發展中心智慧交通關鍵技術研究聯合實驗室,湖南 長沙 410023;3.長沙理工大學 計算機與通信工程學院,湖南 長沙 410114)
信息技術的發展促使數據總量呈指數級增長,數據的市場要素地位越來越凸顯。Google 董事會主席埃里克·施密特(Eric Schmidt)指出,人類社會在2003 年通過書面記錄共創建了5EB(1 018 字節)數據,到2013 年,僅用10min即創建了5EB 數據。隨著數據規模的快速增長,數據的重要性已經發生了根本性變化。因此,對海量數據的深度挖掘與有效利用將促進不同行業生產效率的提高。
長沙市交通綜合運行協調和應急指揮中心(Transportation Operations Coordination Center,TOCC)是交通信息化建設的基礎工程,也是市級綜合交通運輸協調體系的重要組成部分。隨著TOCC 項目的建設,長沙市交通行業數據實現了大匯聚、大集中,并借助局級二級部門和局本級信息化建設,形成了長沙市市級交通大數據。交通數據的運用不僅能為優化運輸結構、提高運輸效率提供參考,而且能為行業管理與決策提供輔助分析功能,具有很高的經濟價值和顯著的社會效益。但是,目前由于各級交通信息系統建設時間先后不一、標準不同、數據多而散亂、數據多源異構現象明顯,且“信息孤島”問題嚴重,海量交通數據一直未得到有效利用。長沙市作為湖南省省會,在交通復雜度更高的同時,也面臨上述問題,這些問題的存在致使TOCC 系統無法全面、有效地分析各類交通數據。
數據標準化是信息資源整合的基礎,標準化交通數據不僅有利于交通行業內數據交換與共享,而且通過統一的數據管理可減少數據冗余、降低維護成本,并能更好地利用交通大數據。數據元是數據的基本單元,科學、規范地建立數據元標準可以從根本上實現數據規范與統一。如何獲取數據元是關鍵的一環,數據元提取方法有多種,常見的4 種分別是:通過已有信息系統直接提取數據元、通過自頂向下的業務分析分解提取數據元、通過自底向上的業務流程整合提取數據元、通過用戶視圖提取數據元。
交通部出臺了交通行業標準[1](JT/T 697 交通信息基礎數據元),該標準是一個國家層面上的標準,但由于我國幅員遼闊,不同地區針對交通不同領域的側重點不同,往往存在一些特殊情況。例如,有些城市水域不發達,水路相關數據元則不屬于重點探討范疇。因此,對長沙市交通數據元標準化的研究,不僅要以國家行業規范、標準為基礎,而且需考慮城市實際情況,制定具有本市特色的交通信息數據元體系。
數據標準化的重要性不言而喻,但在實際應用中,重建設、輕實施的情況屢見不鮮,其原因主要是數據標準化的收益是長期性、系統性的。例如,在項目建設期間,項目建設方可以通過硬編碼方式實現數據轉換,保證系統對數據訪問的一致性,但隨著系統建設完成進入運維期,由于系統之間互聯互通、數據層面各種數據類型增加、數據庫表更新迭代等原因,會導致數據不標準的現象頻繁發生。
國際上發達國家開展數據元標準建設較早,從20 世紀60 年代末開始,國際上一些學者對基礎數據元理論方面進行了探討,具體研究大致可分為3 個階段:①1965-1970 年,起步階段。1965 年,國際標準化組織(International Organization for Standardization,ISO)成立了“數據元及其編碼表示”工作組(TC97/WG-K);②1970-1988 年,發展階段。1970 年,在柏林會議上將“數據元及其編碼表示”工作組更名為“數據元表示法”工作組(TC97/SC14),TC97/SC14通過全面調研制定出相關數據元表示法的國際標準;③1988 年至今,推廣應用階段。隨著信息產業的迅速發展,越來越多組織開始進行數據元標準化研究,ISO 和國際電工委員會(International Electro technical Commission,IEC)成立了信息技術標準化聯合技術委員會,編號為JTC1,“數據元表示法”工作組的代碼隨之更改為JTC1/SC14。JTC1/SC14 制定并發布了相關標準,例如ISO/IEC 11179《數據元協調標準》、ISO/IEC TR 9789《信息技術——數據交換數據元素的組織和表示指南——編碼方法和原則》。
我國數據元建設工作相對于國外起步較晚,但是發展迅速,整體成就較為可觀。1983 年,我國正式成立計算機與信息處理標準化技術委員會數據元表示分技術委員會。除國際上已有的ICS 分類標準外,中國也有了自己的CCS分類標準。我國標準化委員會發布了多項數據元標準,例如GB/T 18391 系列的關于數據元的標準、GB/T 7027 信息分類和編碼基本原則與方法等。針對交通行業也制定了相關標準,例如GB/T 18731 干線公路定位規則、GB/T 919-2002 公路等級代碼、JT/T 697 交通信息基礎數據元、GB 11708橋梁命名編號與編碼規則等。
在數據元標準化以及數據元提取方面,Shepherd 等[2]對英國4 個公共部門進行案例分析,發現了數據冗余、數據不一致、數據不規范等問題,相關數據缺乏共同的數據元標準;歐陽毅等[3]對面向信息系統需求的數據元提取方法進行研究,對其進行總結與歸納,并對幾類常用抽取方法的特點進行對比;楊喆等[4]參照信息模型(Reference Information Model,RIM),依據我國相關數據集以及數據元標準內容構建衛生數據概念模型,并依照模型中的類、屬性和數據類型元素提煉通用數據元;陳軍[5]結合“自上而下”的業務建模和“自下而上”的既有線路數據分析提取城軌線,并圍繞數據元描述規則,規范數據元屬性以及屬性的表示規則,最終建立城軌線網數據標準網;嚴菁等[6]首先介紹了數據元結構與基本屬性,然后在此基礎上說明數據元的提取方法,從表單數據及業務流程兩方面分析數據元的結構與屬性,并提取數據元;周俊燁[7]為了構建圖書館、檔案館和 博物館(Libraries Archives and Museums,LAM)數字資源整合模式,提出在實施時需要注意用戶交互模式、開放許可標準、關聯數據維護、現有數據轉換等問題;傅昊陽等[8]介紹了中醫治未病信息數據元的相關概念,闡述并實施中醫治未病信息元標準編制,包括信息數據項收集、概念數據模型研究、數據元提取方法以及數據元規范化、編碼等。
在交通領域數據標準化方面,張紹陽等[9]為了改進現有交通信息基礎數據元基于業務領域的分類組織造成的冗余問題,提出并建立了交通信息基礎數據元層次結構模型,該模型將交通信息基礎數據元劃分為基礎數據元、抽象數據元及標準規定數據類型3個層次,并對中國交通運輸數據標準編制與管理現狀進行分析,將交通運輸數據標準分為管理標準、數據定義標準、交換標準和接口實現標準4類,分析了數據在產生、存儲、交換以及應用環節的標準化需求,并與編制現狀進行對比[10];鄒巖鵬[11]針對云南省交通數據提出數據元標準化編制方法、數據元命名與分類方法,通過基于業務流程和基于用戶視圖的兩種數據元提取方法,結合省級交通運輸行業信息資源數據中心應用框架研究,提出交通運輸數據標準的兩種分類以及4 種規范標準的編制方法,用于規范和指導交通運輸數據標準研究與開發;陳偉[12]對新疆交通運輸行業內數據治理現狀進行梳理與分析,從數據標準入手,研究基礎數據元分類方法,并建立3 層數據元結構,以解決基礎數據元存在的重復、冗余問題,同時設計并實現數據管理平臺,達到數據標準統一化、數據規范化以及數據質量可控化的目的。除交通領域外,其他行業的數據標準化問題也非常明顯,許多學者針對不同領域開展了相關標準化工作。劉麗等[13]針對國土資源數據庫命名缺乏整體協調統一的問題,結合國土資源數據的重要特征,推薦了兩類命名規則,使不同時間、不同業務、不同空間上的數據命名達到標準上的統一;許瀟文等[14]從政務數據共享政策部署出發,深入研究政務數據共享的總體現狀,探討推進政務數據共享標準化的必要性,為政務數據共享工作提供新思路;高婷等[15]設計并實現了氣象相關行業間共享數據的標準化處理流程,建立行業間共享數據的標準化數據集。
從目前研究現狀不難發現,數據元標準化是各行各業都需要進行的一項工作,有利于保證數據傳輸與數據交換的規范性,從而保證數據質量和數據利用的高效性。本文的數據元標準化工作建立在長沙市TOCC 平臺上,采用更全面的方法提取數據元。由于數據元之間是互聯互通的,故基于數據元之間具有網狀結構這一特點,本文針對業務流程數據元采用深度優先算法[16-18],針對用戶視圖數據元采用廣度優先算法[19-21],以更好地獲取數據元。
長沙市交通運輸局通過交通專網實現了長沙市轄區內重要車站、港口、碼頭、公路等交通場所的視頻監控信號接入,基本實現了對重點場所、設施的實時監控。全市所有公交車都已實現了視頻監控100%覆蓋,所有在營運出租汽車也已安裝了GPS 衛星定位設備,設備的完善從某方面來說代表著數據類型增多以及數據量增大?,F從以下幾個方面分析長沙市交通行業現狀:
(1)公路現狀。長沙市是湖南省公路網絡最密集的地區之一,目前已形成以長沙為中心,通達全省各地市的干線公路網絡。隨著道路通行能力提高,運輸市場呈快速發展態勢。到2021 年,公路旅客運輸量平均每月可達100 萬人,旅客周轉率平均每月可達7 000 萬人;公路貨物每月平均運輸量約1億噸,每月平均周轉量可達68億噸。
(2)水路現狀。長沙市位于湘江干流下游,長沙港是我國中部地區重要的水陸交通樞紐,已與長江沿岸各大城市通航,是全國28 個內河的主要港口之一?,F碼頭主要分布在霞凝港區、暮云港區等10 個港區,除霞凝港區以集裝箱、件雜貨運輸為主外,其余港區主要為當地城鎮及周邊地區發展服務,以礦建材料運輸為主。2021,長沙水路貨物每月運輸量約為200 萬噸,旅客每月運輸量約1 萬人,長沙的港口貨物總吞吐量每月平均約為280 萬噸,其中外貿貨物月吞吐量約為10萬噸。
(3)城市公共交通現狀。截至目前,長沙市公交車運營車輛共有7 575 臺,其中純電動車輛5 256 臺,油電混合車輛2 319 臺。市內公交線路共計291 條,線路總長度為5 584.09km;共有出租車8 370臺,日客運量最高可達50多萬人次;針對網約車已建設了長沙市網絡預約出租汽車監管信息交互平臺,對經營者、車輛、司機人員等進行全面監管;共享代步車行業發展迅速,成為僅次于公交、地鐵的第3 大城市出行方式,其具備實時定位和精確查找功能,加裝帶有車載衛星定位與智能通訊控制模塊的智能鎖。長沙城市軌道運營線路現共有6 條,其中包括5 條地鐵線和1條磁浮線,總里程為161km,軌道站點總數102個。2021年4 月29 日,長沙地鐵開通載客運營7 周年,運營線路長度突破至161.02km,運營車站增加至114 個,累計安全運營2 557 天,運行4 800 余萬km,準點率99.9%,運行圖兌現率99.9%,且運營以來創下單日285.12萬人次客流的紀錄。
數據元(Data Element)是指用一組屬性描述其定義、標識、表示和允許值的數據單元,在特定語義環境中被認為是不可再分的最小數據單元。數據元規范是指一個對各行業數據進行規范的方法或理論,可使用該規范對行業數據的名、型、值定義及分類進行統一。數據標準是指在一定語境內對數據進行規范化地定義與解釋,使相關人員都能對數據信息形成一致的認識和理解。數據元屬性包括數據元名稱、英文名稱、中文全拼、數據元分類編號、數據元類型、數據元格式、版本、注冊機構、定義、值域、計量單位、備注等。本文著重探究其中4 個重要屬性,分別是數據元名稱、數據元分類編號、數據元類型、數據元格式。
數據元名稱是單個或多個中文字詞的指稱,其命名應該遵循3 個規則:①唯一性原則。在一定語義下的數據元名稱應該是唯一的;②語義規則。數據元名稱中一般包括對象類詞、特性詞、表示詞或限定詞。對象類詞表示數據元所屬的事物或概念,表示某一語境下的活動或對象。特性詞是數據元對象類明顯、有區別的特征。表示詞指數據的表現形式。這3 類詞在數據元名稱表示中應該有且只有一個。而限定詞是對這3 類詞進行限定的,是可選擇的;③語法規則。對象類詞、特性詞和表示詞在數據元名稱中的位置依次排列且順序是固定的,而限定詞可以分別附加到這3 類中。當表示詞與特性詞有重復時,在不會出現歧義的情況下可以刪除重復部分。
數據元的表達形式需要通過一套標準化的表述來完成,而每個數據元都應有其對應編號。數據元分類編號是數據元的特征號,本文采用長沙市交通數據元編碼規則引用標準性文件《交通信息基礎數據元第一部分:總則》(JT/T672)中的編碼規則,其數據元分類編號結構如圖1所示。

Fig.1 Data element classification numbering structure圖1 數據元分類編號結構
第一、二位為字母,代表所屬業務領域,由業務領域或簡稱的漢語拼音第一個字母縮寫組成?!督煌ㄐ畔⒒A數據元第一部分:總則》(JT/T672)中將業務領域分為13 類,而本文根據長沙市實際情況,以及為了服務TOCC 系統這個立足點,將交通數據按照業務領域分為以下4 個類別:公路、水路、城市客運及城市貨運,其代碼表示如表1 所示。其中,第三、四位為數字,代表數據元所屬一級分類順序號;第五、六位為數字,代表數據元所屬二級分類順序號;第七、八位為數字,代表數據元所屬三級分類順序號;第九、十、十一位為數字,代表某一級分類下的數據元序號,從001 開始按順序編碼。一、二、三級分類順序號按從左到右順序排列,每級分類順序號從01 開始。當某級無分類時,則該級編號為00,該級分類名稱為空。

Table 1 Classification of business areas and their codes表1 業務領域分類及其代碼
數據元類型包括字符型、日期時間型、布爾型、數字型、二進制型等。字符型是由漢字、字母、符號等組成的字符串,以文本形式進行存儲;日期時間型以YYYYMMDDhhmmss 形式表示“年月日時分秒”;布爾型是通過有且只有兩個具體值來表示數據元值的類型,如True、False;數字型是通過一位或多位阿拉伯數字表示值的類型,其存儲形式可以是整型、浮點型、貨幣型等;二進制型是通過計算機二進制語言表示值的類型,可以用來表示圖片、視頻等。5種數據類型及其可能的取值如表2所示。

Table 2 A list of possible values for the data type表2 數據類型可能的取值列表
數據元格式是從業務需求角度規定的數據元值的表示格式。數據元格式與數據元數據類型聯系緊密,但是無論數據元值的類型是什么,只要其有不同的組成和長度,就有不同的數據格式。其數據格式采用字母+數字分類序號的方式表示,標識規則如表3所示。

Table 3 Data format identification rules for data elements表3 數據元的數據格式標識規則
數據元屬性除上述4 種屬性外,還包括其他類別屬性,其他屬性含義如表4 所示。數據元屬性約束條件如表5所示。

Table 4 Data element attributes and their meanings表4 數據元屬性及其含義

Table 5 Data element attribute constraints表5 數據元屬性約束條件
提取數據元的方法有多種,要做到靈活使用,選擇一種或多種數據元分析方法提取數據元。首先,從已有信息系統出發直接提取數據元。其次,以長沙市交通運輸管理局數據收集為例,其數據收集是3 級架構:市交通局一級平臺、行業二級平臺(直屬單位例如公交事務中心)、企業三級平臺。如圖2 所示,對于長沙市的公交車數據來說,公交事務中心屬于行業二級平臺,對接企業與市交通局。而公交數據收集過程中又會出現許多不同的業務流程,例如公交車司機信息收集、公交線路情況收集等,雖然收集過程不盡相同,但是其中也會有與其相關的業務連接。因此,各業務流程之間并不是獨立存在的,而是相互聯系、相互依存的關系。與業務流程相關的數據元為網狀結構,對于此部分數據信息,可以從某一個業務流程入手展開深入調研,挖掘與之相關的其他業務及其業務相關的數據元,通過自底向上的業務流程法提取數據元。

Fig.2 Three-level architectural pattern for data collection圖2 數據收集3級架構模式
最后,考慮到現階段仍有很多工作需要依靠手工或者半手工進行操作,會保留許多紙質檔案、紙質表格等。鑒于該情況,本文還將使用用戶視圖提取法提取數據元。當然,不同的用戶視圖會存在相同數據元的情況,例如多份信息表格都存在與申請人信息相關的數據元。因此,用戶視圖之間的數據元也不是孤立的,同樣屬于網狀結構。
網狀結構不同于鏈狀結構與樹形結構,無法找到首結點或根節點,也不能從某個點出發達到獲取數據元的目的,因此需要一種適合網狀結構的數據元提取方法。現假定所有數據元構成集合D,根據某種規則R將集合D分成不同的子集Di,其中i∈[1,N]。在集合D上定義函數Ai,該函數用于判定集合D中的數據元d在集合Di中是否存在。

假設每個子集Di的權重為wi,則在D上定義函數W。對于d∈D,W(d)表示數據元d在規則R 下的權重。

由于不同數據元子集中可能會存在相同數據元,基于此,可在集合D上定義一個函數S,對于d∈D,S(d)表示數據元d在所有子集下的多重性。

此外,還可構建一個關系集合P,用于記錄數據元d在規則R下的所有關系。
對業務流程進行分析,發現不同業務環節之間聯系緊密,圖3 列舉了部分業務環節包含的數據元信息建模。其中,公交車刷卡數據和刷卡POS 機信息中同時包含數據元“刷卡POS 機編號”,刷卡POS 機信息和公交車車輛信息中同時包含數據元“車輛編號”,公交車車輛信息和企業信息中同時包含數據元“企業名稱”。

Fig.3 Data information modeling of different bussiness phases圖3 不同業務環節數據信息建模
采用深度優先算法提取業務流程數據的數據元,從某一業務出發逐個挖掘該業務中數據元與其他業務之間的關系,進而找到其他業務鏈及其相關數據元集合,再進行多次循環、更新與挖掘。算法流程如圖4所示。

Fig.4 Depth-first algorithm flow圖4 深度優先算法流程
利用用戶視圖提取法獲取數據元可操作性強,分析方法也比較簡便。具體步驟如下:
(1)收集用戶視圖。應優先收集具有權威性、版本最新的用戶視圖。
(2)分解/規范用戶視圖。將復雜的表格層層拆解成多個簡單的表格。圖5 為道路旅客運輸班線經營申請表,可將該表拆解成申請人基本信息子表、現有營運客車情況子表、申請許可客運班線情況子表、擬投入營運客車情況子表。
(3)提取數據元。從上述化簡后的用戶視圖中可提取數據元如下:申請人名稱、法定代表人姓名、經辦人姓名、通信地址、郵編、聯系電話、電子郵箱、經營許可證編號、營運客車總數、高級營運客車數量、中級營運客車數量、客運班線起點地、客運班線訖點地、中途??靠瓦\站點、營運里程、日發班次下限、申請經營期限、客運班車類型、車輛類型、車輛等級、車輛技術等級、擬購車輛數量、現在車輛數量。

Fig.5 Application form for the operation of road passenger transport lines圖5 道路旅客運輸班線經營申請表
將多個用戶視圖中的數據元提取出來后發現有很多重復數據元,針對該數據元采用廣度優先算法,算法流程如圖6 所示。先選取任一用戶視圖中的數據元集合,然后遍歷其他用戶視圖內容,對數據元集合不斷更新,進而提取出全而不重的數據元,將利用用戶視圖中的數據進行分類的方法視為一種規則R。

Fig.6 Breadth-first algorithm flow圖6 廣度優先算法流程
(1)數據元名稱不規范。針對數據元名稱不規范的情況,要解決3 個問題:首先需要檢查數據元名稱是否符合基本語法,是否按照對象類詞、特性詞和表示詞的順序進行命名;其次要檢查是否有同構異義數據元,例如某個業務中會出現“名稱”“時間”等數據元,但是不同業務中對應的“名稱”“時間”等含義不同,例如“企業名稱”“部門名稱”“上車時間”“下車時間”等。這些數據元的真實含義不同,但是往往被賦予相同名稱,此種情況往往是因為缺少對象類詞來約束數據元,因此需要在原有名稱基礎上加上對象類詞進行限定;最后還需要檢查是否有異構同義數據元,例如數據元中可能會出現“編號”“代號”“序號”等,其含義相同,但表達方式不同,此時需要對這類數據元進行統一命名,保持其一致性。
(2)數據類型選擇不正確。一些數據元的含義精確到特定的“時、分、秒”,但是數據類型選擇了“日期型”,就只能精確到“年、月、日”,因此需要選擇“時間日期型”。而數據元“身份證號”的數據類型雖然是一串數字,但是數據類型不應該選擇“數值型”,而應該選擇“字符型”。數據類型需要基于數據元定義中表達的特定含義來確定與選擇。
(3)表示格式選擇不適用。許多數據元的表示都是整數位數,例如“人數”不會出現半個人,如果選擇小數,不僅不會顯得精確,反而會消耗更多存儲空間。還有關于文字類描述的數據元,由于文字表達不確定,字數可長可短,表示格式若使用“定長”,就會限制字數,此時應該選擇“變長”。
對所在交通行業的具體工作進行了解,并對基層單位進行調研。參考有關標準規范,梳理每個業務領域下的業務重點與中心要素,構建如表6 所示的數據元框架表。該表中只列舉了一級分類下的對象名稱,例如現有基礎數據元公交車車輛編碼,該基礎數據元的業務領域為城市客運代碼CK;一級分類為公路運輸,其分類順序號為04;二級分類為公交車,其分類順序號為01;三級分類為車輛基本信息,其分類順序號為01?;A數據元為公交車車輛編碼的分類順序號為001,基礎數據元IC 卡編號的編碼為CK040101001,該數據元的表示如表7所示。
本文針對長沙市交通數據元數據不規范、數據難以融合、利用率不高的問題,展開面向TOCC 的交通數據元標準化研究,確定了適用于TOCC 平臺數據元的業務領域以及數據元編碼規則。針對數據的網狀結構,本文在業務流程中采用深度優先算法,在數據視圖中采用廣度優先算法,能夠實現全而不重地提取數據元,進而降低系統冗余度,提高系統存儲能力,并針對數據元規范化過程中出現的一些不規范情況進行說明。最后根據4 個業務領域下的業務重點與中心要素構建了數據元框架表,以提高數據利用率。

Table 6 Data element frame table表6 數據元框架表
本文通過對交通數據元的標準化進行研究,可以豐富TOCC 系統的可視化展示能力,為決策者提供決策依據。同時該標準化研究具有普適性,可推廣到其他地級市,對于實現城市交通數據的規范與統一具有重要意義。