湯志偉 郭雨暉 黃怡蕓
(1.電子科技大學公共管理學院 成都 611731;2.電子科技大學經濟與管理學院 成都 611731)
在數據時代,各國政府陸續開展開放政府數據(Open Government Data)戰略,向社會公開政府資源,以期促進數據利用、釋放數據紅利,實現社會、經濟的創新發展。在我國,隨著《促進大數據發展行動綱要》(2015年)、《公共信息資源開放試點工作方案》(2018年)等相關政策的逐步頒布,越來越多的地方政府開始建立開放政府數據平臺,并有序上線覆蓋生態環境、政府機構、企業服務、交通運輸、衛生健康等各個領域的數據集。據統計,截至2018年8月20日,我國已上線省市兩級地方政府開放數據平臺共47個,累計開放數據集接近5萬個。然而,開放政府數據本身并不是該戰略的核心目標,能否將開放后的數據進行有效利用,才是使數據發揮其價值的關鍵一步。
隨著相關研究的不斷推進,學術界也逐漸開始關注開放數據利用的話題:Mila等認為開放數據利用率低的原因之一是使用者缺乏靈活運用數據的能力,而通過培訓與干預的方式可以提高用戶對開放數據的認識、理解和掌握[1]。Antonio等通過構建開放政府數據評估框架,指出提高數據質量、及時更新數據等有助于數據的有效利用[2]。陳美認為應從商業應用角度出發,鼓勵政企合作,實現開放政府數據收益最大化[3]。湯志偉等對國內開放政府數據利用研究進行了系統性文獻綜述,發現平臺、數據等直接條件與政策、文化等間接條件,對開放政府數據利用的各個環節都會存在潛在影響[4]。而在地方政府數據開放平臺中,最有可能通過廣泛利用,率先釋放數據紅利的當屬交通數據,其緣由有三:第一,國務院常務會議上強調,我國要優先推動包括交通在內的民生領域政府數據向社會開放,可見交通數據具備必要的國家助力[5];第二,隨著我國城市化建設和交通運輸業的高速發展,人均汽車擁有率、鐵路公路里程、公共交通設施數量等逐年攀升,由此帶來的交通擁堵問題、道路規劃欠佳問題、環境污染問題等引起了公眾的廣泛關注,因而由交通帶來的城市病亟待通過數據科學的方式進行解決[6];第三,交通數據相對于教育、衛生、社保、服務等其他民生數據來說,更具備大體量、高質量、實時性等特征,對于分析和解決當前城市問題、建設新型智慧城市等具備明顯的數據優勢。
因此,深入研究打響開放政府數據利用環節第一槍的交通數據,具有顯著的現實意義和理論意義,可為探討其他種類的數據如何進行有效利用和價值發揮提供指導與借鑒。基于此,文章從交通類開放數據入手,選取來自省市兩級共43個政府數據開放平臺中的交通數據集,參考了鄭磊等人從“數據、使用、效果”幾方面評估政府開放數據的研究成果[7],探索交通數據開放和利用的現狀與所存在的問題。同時還參照了OECD的開放政府數據指數(OGD)評估框架,從數據可用性(Data Availability)、可獲取性(Data Accessibility)和數據再利用(Re-use)三個維度進行數據收集和評估[8],試圖通過數據的優質開放來打開高效利用的大門,以創造較高的社會、經濟價值。
截至2018年8月,全國共計開放47個政府數據開放平臺,除去蘇州、威海、煙臺、淄博這四個平臺未提供交通數據以外,文章對其余43個來自省市兩級政府數據開放平臺的交通數據集進行爬取和分析。以平臺分類為依據,采集“交通出行”“城市交通”等板塊內的交通數據集共1 375個,其中山東省的省、市兩級平臺中重復數據集達280個,有效數據集1 095個。表1首先列出了交通類數據集個數大于40的平臺與其占總數據集的比例情況,其中山東、上海、武漢、廣東的交通數據集總量均已超過100,上海、寧波、中山的交通數據集占比分別達到12.23%、12.81%和19.81%,雖然部分城市交通數據開放數量情況較為樂觀,但仍有大量城市并未對此給予重視。

表1 主要交通類數據集發布平臺情況
其次,文章對1 095個交通類數據集的發布單位進行了統計分析,發現目前數據來源主要集中于交通委員會、公安局、交通運輸局這三個部門(交通委員會和交通運輸局因地域行政文化差異的原因,大部分市級政府中只存其一),其數據總量高達574個,已超過所有交通類數據集的50%,是交通數據開放的主要推動者。除此以外,交通類數據集還有來源于統計局、港航局、公路管理局等多個部門的數據,圖1列出了發布數據集超過10個的單位。

圖1 交通數據集發布部門統計
目前國內外都有科學的評估體系,對各個國家和地區的開放政府數據能力進行綜合評估。國外如由萬維網基金會和開放數據研究會發布的開放數據晴雨表,從準備度、執行力和影響力三個角度對世界各國進行評價[9];國內如復旦大學數字與移動治理實驗室發布的《中國地方政府數據開放報告》,從基礎層、數據層和平臺層對中國各省市政府數據開放水平進行橫向評估[10]。無論是國外評估體系還是國內評估體系,都全面評價了開放政府數據的各個維度,對各國政府都有較強的現實指導意義,但其問題診斷和對策建議卻往往是針對整個開放政府數據生態系統進行的綜合性、全面性考量,作為報告本身還難以回答如何促進數據高效利用和價值體現的現實問題。基于此,文章在綜合各類評估體系的指標前提下,專注于數據本身及其使用情況,構建與開放利用有關的數據集調查維度——“優質開放”和“高效利用”,來對我國地方政府所開放的交通數據進行調查研究。
“優質開放”維度。主要從數據集本身進行考察,包括數據集的內容、質量、種類、更新情況等方面。這些指標均以“用”為最終導向,探索怎樣的“開放”才能促進利用效率的提升。
“高效利用”維度。主要從數據集使用情況進行考察,既包括數據集自身的瀏覽量、下載量、評論量,也包括類似APP等數據集產品的落地。同時,文章還將相關數據應用競賽納入調查范圍內,最大程度解析當前開放數據的應用和產出。
數據介紹包括數據集的名稱、關鍵詞、摘要等基本信息,完備的數據介紹是使用者準確找尋所需數據集的前提,也可謂是促進數據充分利用的第一步。首先,文章對所有交通數據集名稱進行了詞云分析。如圖2所示,“機動車”“運輸”“企業”“道路”“公路”等出現頻率最高,形成了交通數據集詞云的主干,體現了各地方交通數據以車輛數據、運輸情況數據、城市道路數據和相關運輸企業數據為主。與此同時,“客運”“駕駛”“許可”“車輛”等詞作為交通數據領域的第二梯隊關鍵詞出現,指出了交通運輸服務和車輛駕駛許可等公眾參與較多的領域也易形成數據積累。通過數據集關鍵詞的詞云分析,不難發現目前政府部門對交通數據開放的價值取向,既對后續數據分類、數據目錄制作大有裨益,也為未進行交通數據開放的城市指明了道路。其次,在全部交通類數據集中,有175個數據集并未提供關鍵詞,占全部交通數據集總量的15.98%,涵蓋15個城市,其中山東省各市尤為嚴重。摘要(部分城市為數據描述、簡介)部分,是對數據集整體情況的概述,目前主要存在三種類型:其一,信息缺失,并未提供數據摘要內容;其二,對數據集名稱的簡單重復;其三,包含數據發布單位、名稱、數據集具體指標的簡要描述,這也應是目前政府數據開放平臺的基本要求。

圖2 交通數據集的詞云圖
數據內容與質量是數據能否產生價值的關鍵環節,低內容、低質量的數據集發布得再多,其價值量也難以企及一個保質保量的數據集。因此,為了深入了解交通數據集的開放質量,筆者切實下載并打開了1 095個數據集,將所有數據集內容進行分類梳理,以便客觀地分析問題。
文章結合數據介紹與數據實質內容,對所搜集的數據集進行系統分類,其主要分為道路站點信息、企業信息、人員信息、車船信息、統計數據、執法機構信息、路況數據、費用信息等,具體見表2。由此可知,目前我國各地交通數據集的發布,主要趨向于道路、企業、人員、車船四個方面,且占有較大比重,與關鍵詞詞云相互契合。仔細觀察各數據集實際內容,存在的問題也十分典型:其一,信息與數據的邊界尚不明確,大量數據信息公開、新聞發布的內容被以數據集形式強硬進行發布。其二,統計數據與數據開放混淆,多數地方平臺均有由統計局發布的歷年統計數據,并將其分行業分年份進行強行拆分。其三,動態數據比例明顯少于靜態數據,含金量較高的動態數據或實時流量數據較少,對于數據實時調用與展現較為困難。

表2 交通數據集內容分類
其次,在數據容量方面,總體出現數據容量體量偏小、字段數維度狹窄的問題。《中國地方政府數據開放報告》中首次提出“數據容量”這一概念,即將字段數(列數)乘以條數(行數)得出數據的總量,以衡量數據集的實際數據量大小[10]。在文章統計的交通類數據集中,數據容量突破10 000的僅有116個數據集,占總數據集個數的10.59%,而數據容量低于100的多達293個,占比26.76%。雖然低容量數據可能存在數據搜集的現實局限性,但不可否認的是,它們所產生的價值是微小而有限的,甚至在大數據時代中,這樣的數據集其含金量幾乎為0。其次,部分城市為了在數據集“量”上做文章,將數據集刻意拆分,如武漢市地鐵運行時間數據,按不同地鐵線路拆分為多個數據集;又如揚州市按月發布郵政業經濟運行情況,以月為單位分割為多個數據集;再如中山市沙口大橋交通量數據,以地點為單位分割為上、下橋位兩個數據集。如此種種,不勝枚舉。其本質是對數據集進行降維處理以增加數據集數量。這種做法嚴重缺乏促進數據利用的大局觀,也加大了使用者的利用成本。
數據格式關系到用戶利用數據的方式手段,最直接影響到用戶分析數據的效率和效果,不同格式的數據集對發布者和使用者具有不同的成本效益[11]。文章從可機讀格式和開放格式兩個角度入手進行分析:可機讀格式是指能被計算機自動讀取與處理的格式,包括XLS、CSV、JSON、XML等,而不可機讀格式包括DOC、PDF、JPG等。其次,開放格式是指可下載數據集應以開放的、非專屬的格式提供,不得在格式上排除他人使用數據的權利。在Berners Lee提出的開放數據五星標準中,指出數據格式應滿足可獲取、非專屬的要求,即可達到三星標準[12],如CSV、XML等,該標準在我國各地政府中多有實踐,同時也是開放格式的題中應有之義,因而作為文章調查交通數據格式的重點觀測指標。
在各省市開放數據平臺中所檢索到的1 095條交通數據集中,有100條數據尚未提供任何可下載獲取的數據格式,僅能檢索到名稱和簡介,其主要出現在日照、泰安、濰坊、棗莊和濟南。在可下載數據集中,存有88.28%的可機讀數據,但其中僅有66.60%滿足可獲取、非專屬的開放格式要求。其中,貴陽、濟南、東莞、廣州、山東等24個地方平臺上提供的交通數據集已全部滿足開放格式的標準。例如貴陽交通運輸建設從業人員信息提供了xls,csv,xlm,json,rdf等5種數據格式,用戶可根據自身需求選擇不同格式下載使用。在整體數據格式形勢較好的情況下,仍有浙江、武漢、肇慶等6個開放數據平臺存有58條(占總量5.2%)數據集提供的是不可機讀格式。例如2016年肇慶市郵電業務總量,數據容量小且采用DOC格式展示表格數據,其實這類數據完全可以采用XLS格式,以方便用戶下載利用。究其原因,一方面是部分交通數據集內容使然,如湖北省已建高速公路圖、漢口漢陽片區堵點繞行圖等通過JPG的方式呈現更加直觀,另一方面則是可用機讀格式實現的數據卻未使用,如武漢市車管所及其分所、荊門市交通運輸局行政執法持證人員信息公示、肇慶市運輸工具擁有量等。除此以外,部分省市還出現所展示數據格式與可供下載的數據格式并不匹配的問題,如某市“道路運輸從業人員查詢”數據集,展示了xls,csv,xlm,json,rdf五種格式,卻只提供了csv格式下載渠道。
數據持續是指各個數據集更新的時間頻率,關系到數據本身的時效性和用戶對數據的持續使用。政府數據開放平臺管理運營是一項持續性和常態化工作,平臺上線后應持續更新和添加數據集,以滿足社會對開放數據日益增長的需求。文章跟蹤考察各個數據平臺在截至2018年8月20日更新的交通類數據集情況,發現大量平臺能基本保持新增數據集持續增加與存量數據集動態更新,但仍有不少地方平臺存在交通數據集延遲更新或停滯現象。

表3 交通數據集更新情況
調查發現,在各數據開放平臺所提供的1 095條交通數據集中,共有183條(16.71%)數據集并未承諾更新頻率,導致用戶無法尋求數據更新時間以持續利用數據;另有178條(16.26%)數據集承諾更新頻率類型為自定義和不定時更新,即不能提供準確更新頻率。上述現象皆容易造成數據的維護與更新缺乏監督機制,從而導致數據集發布形同虛設,無法持續產生數據價值。實際情況也印證了以上觀點:在承諾更新頻率為自定義的數據集中,有85%以上的數據都未再進行更新。除此以外,承諾更新頻率以年為周期所占的比重最大,達到41.37%,相比之下以半年、季度、月、周為承諾更新頻率的數據集占比較少,如表3所示。一般來說,更新周期越短,更新頻率越快,用戶利用數據的可能性也越大,從而更能推動相關部門更新數據,形成良性循環。不可否認,部分數據確實存在收集成本大、難度高,并不適用于短頻更新。但在承諾更新的數據集中,共有38.54%的數據集并未履行承諾,直接影響了各平臺數據持續性的整體水平。其中,貴陽、山東各地、上海等市的交通數據更新情況較好,但大部分省市在數據持續方面仍然存在未及時更新的情況,且無法找到其歷史存量數據的情況。
數據瀏覽量和下載量直觀展現了數據利用情況,反映出用戶對數據信息的需求導向和使用意向,有助于平臺運營維護者根據用戶需求有針對性地完善數據集內容,逐步提升平臺數據利用率。
從交通數據瀏覽量上看,各數據集瀏覽量普遍偏低,其中低于500人次瀏覽的共有758條,占比達69.22%;數據集瀏覽量在5 000以上的僅占2%,主要體現為北京軌道交通路線、廣州市機動車交通違法監控抓拍位置信息、高架上匝道關閉時間等信息,其瀏覽量均超過10 000,其中北京軌道交通路線瀏覽量達到了22 968,這類信息與市民日常交通出行密切相關,因此其利用率較高。
在數據下載量方面,下載量在500以內的數據集占到73.97%,其中有近19.36%的數據集下載量為0。零下載量數據集的存在一方面是由于數據不滿足用戶需求,另一方面是該部分數據集未提供可下載的文件,用戶無法進行下載和使用。另外,數據下載量高于500的僅占7.03%,主要體現為廣東機動車臨界未檢驗通告、上海城市道路信息、上海車輛統計等信息,尤其上海高架上匝道關閉時間信息下載量達到5 603,居所有交通數據下載量榜首。
值得注意的是,部分數據集出現下載量嚴重大于瀏覽量的奇怪現象,通過政府信箱反饋后,被告知為技術問題,但并未做出修正。
應用程序編程接口(Application Program Interface)是各地數據開放平臺都會普遍提供的一種數據調用形式,相比于數據集下載,API更能使用戶高效獲取所需要的數據條目,以滿足開發者的數據需求。在文章所搜集的交通類數據集中,有112個數據集提供了調用接口,占10.23%。同時,部分城市借鑒數據下載量的形式,展示了API調用統計量,以便于更加深入了解數據集的利用程度與開發程度,如北京市政務數據資源網和東營市公共數據開放網。
目前,雖然大量城市的數據開放平臺已認識到數據接口對促進數據活化的重要性,但總體實施仍處于初級階段,以致數據調用接口提供的規范性較差、自主性較強。主要問題有:其一,數據調用和下載的混亂,部分城市分別提供了數據和接口兩個欄目,但具體數據集分配交叉,如上海“快速路路面網流量”數據集在數據產品中提供了普通下載渠道和調用渠道,但在數據接口中卻無法檢索到該數據集。相對而言,北京市整體較為規范,所有交通數據集都可進行下載和調用。其二,數據調用說明缺失,增大數據利用難度。部分城市提供了以json和xml為主的可調用格式,但卻未提供涵蓋接口描述、錯誤代碼等數據調用說明,增大了數據利用難度。
數據分析工具是由政府數據開放平臺所提供,用以幫助用戶對數據集進行簡單分析和程序開發。目前國內政府數據開放平臺提供的工具主要包括三類,分別是:可視化分析工具、開發工具和地理空間工具。
可視化分析工具是指平臺提供了實現數據集可視化或統計分析的工具。用戶可以在數據集頁面通過設置不同條件,對數據進行初步的統計分析,還可以對統計結果進行可視化呈現,如餅狀圖、柱狀圖和曲線圖。其次,開發工具的提供以便利開發者為目的,但部分地區僅提供了付費下載的跳轉鏈接或僅有對工具的文字介紹,性質更接近于開發工具的推薦者,而不是開發工具的提供者。地理空間工具是指平臺提供了將政府開放數據和地理信息進行融合應用的功能。目前,長沙、東莞、佛山、山東等平臺提供了地理空間工具,這類地圖工具多與高德、百度等企業合作,提供導航功能,或將一些公共部門的位置疊加在地圖上提供服務。以山東公共數據開放網為例,用戶可在頁面上自行檢索或根據主題分類查找地理數據集,然后疊加在地圖上顯示。
交通數據開放的利用成果主要包括APP應用程序、數據分析結果和各項研究成果,其中APP應用程序使用范圍最廣,對于公眾來說實用價值最高。縱觀43個數據開放平臺,僅有貴陽、濟南、無錫、成都等12個平臺在應用欄目中提供了交通領域的APP應用程序,但都未直接提供下載鏈接,用戶最便捷的方式是在手機應用下載中搜索APP名稱進行下載。通過下載該類APP發現,超過一半的應用程序存在閃退、系統不兼容、更新慢、用戶體驗感差等問題。例如成都熊貓駕信APP,是一款實現駕駛人和機動車違法查詢、處理、繳費的一條龍處理軟件,擁有高達171萬次的下載量,但卻存在評分低、數據處理能力弱、繳費慢、廣告多、高額代辦費等各項問題。
數據應用比賽是政府和企業從推動數據利用、鼓勵公眾參與、宣傳數據開放的角度出發,所籌辦的大數據應用創新設計大賽。由于城市交通問題日益突出,很多數據應用比賽都從交通層面出發,開展以交通為主題的應用比賽,例如貴州省2017年舉辦的“云上貴州智慧交通大數據應用創新大賽”,貴陽市2016年舉辦的“貴陽交通大數據系列競賽”和上海市2015年舉辦的以城市交通為主題的“上海開放數據創新應用大賽”。這類比賽都是以解決交通問題為目的,有針對性地利用交通數據研發新應用,形成以公交線路優化、出行行為分析、路網流量預測、高速路異常事件監測等交通主題作品,既實現了對數據的跨越融合和創新應用,釋放了數據隱含的價值,也為城市交通治理的智能化、數據化發展提供了探索思路。
數據始終是開放政府數據戰略的基本元素,沒有優質的、可用的、規范的數據,那么數據開放也僅僅是變相的進行統計數據發布或數據信息公開。因此,文章認為要想提高交通數據利用率,首要解決數據本身的問題。在數據內容方面,各部委應對一部分在各省市中都廣泛涉及的數據集類型進行統一化和標準化,具體如介紹、格式、更新頻率、數據維度等,以做到各平臺交通數據橫向可綜合利用。而對于非統一標準的數據集,應盡可能的向“統一標準”靠攏,最大程度提升數據質量,以實現各平臺縱向創新發展。其次,對屬于信息公開和統計數據等非“開放數據”進行嚴格的審查和追責,確保各平臺開放的是真正有價值的數據。在數據主題分類方面,交通部門應設置規范的數據目錄,對各平臺發布的各類交通數據進行明確規定,而針對各平臺創新特色的交通數據集,則可先在已分類基礎上進行劃分,不屬于任何分類的則劃入其他類型中,如北京市將交通數據劃分為飛機、汽車、火車等。
當前各平臺中80%以上的交通數據集屬于靜態數據,且降維增量的情況頻出。因此,各平臺應整合已發布的交通數據,擴充數據維度,如時間維度、區域維度等,而非為圖方便和數量,而以某某年某某數據集的形式進行數據開放。例如某市公交類數據集,應盡可能包含各路公交站臺名、收發車時間、每日班次、收費標準、車型等數據,而非形成路線數據集、收費數據集、車型車檢數據集等。
對于路況流量數據,其數據粒度更小、更新頻率更高,對于數據利用與數據價值產生的作用較大,也更能開發出高質量的交通數據應用程序。例如地鐵線路流量數據集、高速收費站流量數據、路口違章數據等,是有條件形成優質數據集并向社會公眾開放的。相較于其他類型的數據集,交通數據中動態流量數據來源渠道多、種類多,且目前多由人工智能設備采集統計,從而增加流量數據占比,并促進交通數據的高效利用。
交通數據的開放和利用,乃至更為廣泛的政府數據的開放和利用,其主要推力仍來自于政府部門對數據開放的正確認識,包括開放什么、怎么開放、如何追責、如何評估等。以交通數據為例,其開放的目的在于和社會公眾一起探討和解決城市擁堵問題、公路運輸問題、尾氣排放問題等,以期實現智慧交通、智慧城市。同樣,為促進交通數據活用,政府交通部門可通過政府采購、服務外包、社會眾包等方式,將數據量大、敏感度高的數據集,依托企業、高等院校、科研機構來開展交通數據應用,創造更多新產品和新業態。目前,由交通運輸部采用政企合作模式建設的、基于公共云服務的綜合交通出行服務數據開放、管理與應用平臺——出行云(綜合交通出行大數據開放云平臺)已上線,其匯聚了交通部門、院校、企業等搜集的交通數據,并聯合了各單位提供的決策服務與開發服務,為各類數據集的開發應用提供了借鑒[13]。
交通數據開放的根本目的在于促進數據利用,大力提倡和鼓勵舉辦各類數據大賽,有助于挖掘數據潛在價值,可為交通領域帶來巨大的商業價值和社會價值。目前各地數據大賽以數據開放為切口,通過政府搭臺、政企合作等方式,發動公眾參與和協作來共同解決公共問題。在舉辦大賽的過程中,政府部門感受到了開放數據的巨大潛能,加大了對開放數據的支持力度,有助于政府部門拓展思路,促使決策實現科學化和精準化;而社會各界基于開放數據提出的創新方案,也為解決實際交通問題提供了實證依據和新思路。從比賽效果來看,各類數據大賽吸引了企業、高校和社會組織的廣泛參與[14],對解決實際問題、宣傳普及開放數據文化、提升公眾數據素養具有深刻意義[15]。舉辦大賽的成果也對其他尚未開放數據的政府部門起到了示范效應,加速各行各業數據開放的深入推進。
隨著各省市數據開放平臺的陸續推出,不少專家學者提出在重視數據質量的同時,更應關注對數據的充分利用。文章以交通數據為切入點,對廣東省及其各市、貴州省及其各市、山東省及其各市平臺的數據利用情況進行省、市兩級的對比調查,發現當前省市兩級政府存在普遍使用不同平臺、市級數據無法在省級平臺中找到、同省各市級平臺各自為營等現象,唯有山東省較為樂觀,能夠實現省市兩級同一平臺、數據共享。上述省市分離現象雖在開放數據前期易形成各平臺創新發展趨向,但若長期如此,勢必造成網站運營成本高昂、數據共享難以貫通、用戶查找困難、數據標準不一等現象,無形之中為數據跨區域利用增加了難度。正如目前政務服務網站一般,省市分離情況嚴重,全面實現省級統籌非一朝一夕之功。因此,在政府數據開放平臺建立初期,各地政府如何以實現數據充分利用為目的,兼顧省級統籌建設與地方創新發展,將會成為后續探討數據橫向跨區域利用的重要話題。
(來稿時間:2018年12月)