周思藝,李天瑞,2,3,4*
(1.西南交通大學 計算機與人工智能學院,成都 611756;2.可持續城市交通智能化教育部工程研究中心,成都 611756;3.綜合交通大數據應用技術國家工程實驗室(西南交通大學),成都 611756;4.四川省制造業產業鏈協同與信息化支撐技術重點實驗室(西南交通大學),成都 611756)
隨著城市化和現代化的快速發展,城市形態正發生演變[1],關乎居民出行的交通站點也變得更加重要。要發展智慧城市,如何有效分析交通站點的人流時空特性和多元環境因素的影響是未來城市規劃的關鍵。
交通智能(Integrated Circuit,IC)卡的使用已經積累了大量的乘客出行信息,每日的刷卡記錄數都是百萬級,為分析站點的流時空特性提供了可能。IC 卡的數據包括旅客身份類型、源-目的地(Origin Destination,OD)[2]名稱、時間。通過對乘客OD 數據的分析,可以得到站點間人流的流動規律,但現有工作更多關注居民的移動模式和城市功能區的劃分等,缺少更全面地展示交通站點的流時空特性和多元環境因素的研究。IC 卡的數據規模大,直接在地圖上繪制OD 數據的空間分布容易出現遮擋,不易于用戶分析流傳輸的空間特性,若多元數據類型多,更難以結合對比分析,因此,如何從海量IC 卡數據提取交通站點的OD 流時空模式,并提出一種抽象的多元時間序列數據可視化方法展示是需要解決的問題。
為此,本文設計一個面向OD 流的支持多元數據探索的交互式分層可視分析系統。針對直接可視化大規模刷卡數據的空間分布容易視覺遮擋的問題,提出基于正交非負矩陣分解(Orthogonal Nonnegative Matrix Decomposition,ONMF)的OD 流聚類方法,對大規模交通站點聚類。隨后,設計了地圖視圖和流傳輸演化視圖,分別對流空間特征和流傳輸時序演化分析,使用戶能結合時間序列從聚類社區層和站點層兩個不同層級的細節快速分析和對比站點的流時空模式。針對元數據類型多更難以結合對比分析的問題,設計了站點多元時序數據視圖對比分析多種時序數據的變化,開發了一個可視框架來可視化和探索交通站點的流時空特性和多元環境因素,并提供了易用的交互操作,幫助用戶高效率地探索和對比分析。最后,本文基于真實世界數據集利用聚類評估指標輪廓系數(Silhouette Coefficient,SC)對OD 流聚類方法定量評估,并通過案例研究對系統的有效性定性評估。
本文的主要工作如下:
1)提出基于ONMF 對OD 流聚類的方法,有利于后續從宏觀和微觀角度分析OD 流的時空模式。對大規模站點聚類后再結合可視化過濾方法,避免大規模OD 流在地圖上造成視覺遮擋的問題。
2)設計了流空間特征可視化視圖分層展示聚類層和站點層,并設計了一系列交互操作,輔助用戶通過多視圖聯動,從聚類層級和站點層級了解流傳遞的時空特性和異常。
3)設計了交通流傳遞視圖,輔助分析OD 流的時間模式。本文改進傳統的桑基圖,并展示站點聚類簇間在時間序列上的流傳遞,有利于用戶從簡潔、直觀的聚類社區層角度分析站點間的流傳遞模式,進而發現潛在調查社區。
4)設計站點多元時序數據對比視圖,輔助用戶更全面地分析站點的流時序變化和空氣質量、空氣溫度、相對濕度和降雨量這4 類多元環境數據的時序變化情況。
桑基圖是一種特定類型的流程圖,能很好地展示數據屬性從某個狀態到另一種狀態的變化過程。EcoLens[3]基于桑基圖,利用KM(Kuhn-Munkres)算法優化布局,通過不同時間片區域的轉換條表示區域演變,直觀地展示空間簇的演化特征。時間線(Timeline)也是一種有效的可視化設計,例如,基于聚類和疊加的可視化方法TimeRadar[4],通過一個抽象的時間線視圖,使分析人員對多個事件序列的演化有一個整體的概述。ACSeeker[5]將多因素數據分別編碼在以年份為單位的Timeline 上,以揭示和比較多個因素在學術生涯的不同階段如何變化。故事線(Storyline)是一種特殊的Timeline,可以讓用戶跟蹤各個數據項的時間模式。Liu 等[6]提出了一個有效的優化方法產生實時可交互的、美觀的故事情節可視化;Tanahashi 等[7]提出了一種提高可視化可讀性的布局優化算法,應用于故事情節流數據分析的新框架;Zhou 等[8]將Storyline 應用于空氣質量數據集,描述不同尺度的空氣質量監測站點隨時間的聚類演化事件。一些研究工作針對個性化任務需求,從具體應用的角度作可視化分析。楊歡歡等[9]針對鐵路OD 行程線路這類階段性時間序列數據類型提出了基于螺旋圖的可視化模型;考慮到可視化需要相關技能和知識提供開發支持,如D(3Data-Driven Document)[10]、Vega[11]等、趙韋鑫等[12]提出了一種面向交通軌跡的數據流可視化方法,開發了推薦向導可視化工具引導用戶構建數據流圖。
以上方法都能有效輔助用戶了解數據流在時間上的變化趨勢;但隨著分析對象數據量的增大,容易造成視覺遮擋或者需要更大的視圖,不利于用戶分析。針對如何展示大規模站點間人流的流動在時間序列上變化,本文設計一種基于聚類結果的交通流演化視圖,通過聚類將分析對象轉換成聚類簇的宏觀層級。在結果可視化上,改進桑基圖視覺編碼,利用KM 算法優化布局,并提供過濾交互操作,盡可能減少不必要的視覺遮擋,輔助用戶更快發現潛在調查區域。
許多領域都有OD 時空數據產生,為了用簡明扼要的圖表說明復雜的數據關系,隱喻[13]和交互式可視化方法[14]經常被學者使用。在帶有地理標簽的社交媒體數據中,Chen等[15]設計了一種多個屬性空間聚合和過濾的交互式分析方法,輔助用戶探索運動的語義,包括運輸方法、頻繁訪問序列和關鍵字描述;R-Map[16]基于地圖隱喻,用地圖上不同的元素編碼社交媒體轉發信息的不同特征。在網絡安全領域,VisAware[17]作為一種簡潔、可縮放的態勢感知交互式可視化方法,幫助分析網絡入侵的時空分布。在移動通信領域,Jiang 等[18]提出了基于地圖的可視分析工具Aureole,用于在空間和時間方面交互式探索和分析蜂窩網絡;Zhou 等[19]基于自適應藍噪聲采樣方法,增強了簡化流圖的空間分布和網絡拓撲特征,并設計了一個交互式流量環狀圖突出顯示感興趣的局部區域,并可視化其比較指標。在足球領域,Wang等[20]在ForVizor 可視分析系統中設計了一個新穎的隊形變化的時空可視化表示多變量特征,允許分析師可視分析隊形的演變,并跟蹤球員在隊形內隨時間的空間流動。在交通數據中,Jin 等[3]設計了特定可視化字形針對單個區域的流量展示和具有相同模式的區域的流量整體展示;Liu 等[21]基于時空OD 數據和興趣點(Points Of Interest,POI)數據設計了交互式可視化分析系統,通過地圖和其他視圖聯動解釋城市功能區劃分的結果;Deng 等[22]設計了一組有效的可視化來支持位置導航、影響檢查和級聯探索,并促進深入地級聯分析交通擁堵情況。
以上方法都采用可視化字形組合表示多變量屬性,取得了較好的時空對比分析效果;但現有交通站點可視分析工作較少考慮除POI 以外的多元數據影響。為此,本文設計站點多元時序數據對比視圖,可實現對流時間模式、空氣質量、環境溫度、相對濕度、降雨量在時間序列的對比,有利于用戶更全面地分析站點的多元信息,并提供與地圖的交互操作,可以時空聯動分析。
針對數據規模大多會影響OD 流的空間模式分析,如圖1 所示,本文基于ONMF 方法對站點聚類,引入空間平滑和多元因素的影響優化結果,并設計社區自畫像視圖分析聚類簇的統計屬性,站點時間序列視圖分析聚類簇的流傳輸的時間模式和地圖視圖分析流傳輸的空間模式。針對多元時序數據,設計了站點時間序列視圖,用戶可直觀對比分析多元數據,從而完成系統分析任務。

圖1 系統分析流程Fig.1 System analysis flow
本文為更全面展示交通站點的流時空特性和外部多元環境因素,將所需完成的分析任務分成如下3 點:
1)交通流傳輸模式。確定站點社區之間的人流傳輸模式和站點與站點之間的人流傳輸模式,并發現潛在的調查區域。
2)交通流時間模式。分析單個站點的小時級別和天級別的交通流演化模式。
3)交通流對比分析。實現對比分析不同站點流在時間序列上的差異,同一站點在不同日期的流量模式差異對比,同一站點在不同日期、同一時刻的差異對比,同一站點在一天內的流變化趨勢分析,以及多元數據之間的對比。
系統使用的數據包括IC 卡數據、公交站點數據、城市POI 數據、溫度、濕度、降雨量和空氣中SO2、NO2、PM2.5含量,數據如表1 所示。

表1 數據描述Tab.1 Data description
IC 卡數據包括脫敏后的乘客編號id,成年人、小孩、老人和學生這4 種乘客類型type,上下車的時間up_date 和down_date,上下車的公交站點up_id 和down_id。公交站點數據包括站點的id、名稱name 和經緯度lng 和lat。POI 數據包括POI 的名稱name、類別type 和經緯度lng 和lat。溫度、相對濕度、降雨量和空氣中SO2、NO2、PM2.5的含量數據中,date 都是以小時為時間粒度,并包含每類數據對應的監測站點id、名稱name、經緯度信息lng、lat 和監測值value。
2.3.1 熱量指數計算
溫度超過27℃,相對濕度高會降低汗液的蒸發速率,導致身體散熱的速度降低,也會產生過熱的感覺,因此只用溫度衡量天氣的熱度較為局限。熱量指數(Heat Index,HI)是一個結合空氣溫度和相對濕度的指數,考慮到高溫(溫度大于等于27℃)時,當相對濕度增加,人體真正感受到的溫度會超過實際溫度,可以更全面地衡量身體消除多余熱量的能力。計算如式(1)[23]所示:
其中:T為環境干球溫度(單位℃),R為相對濕度(百分比值),c1為-8.784 694 755 56,c2為 1.611 394 11,c3為2.338 548 838 89,c4為-0.146 116 05,c5為-0.012 308 094,c6為 -0.016 248 227 777 8,c7為 0.002 211 732,c8為0.000 725 46,c9為-0.000 003 582。
HI 對應熱度影響類別E,分為涼爽(Cool)、溫暖(Warm)、注意過熱而疲勞(Caution)、小心熱痙攣(Extreme Caution)、有熱痙攣和熱衰竭的危險(Danger)和極度炎熱(Extreme Danger)這6 類逐漸遞增的熱度級別,如式(2)所示:
2.3.2 空氣質量指數計算
空氣質量指數(Air Quality Index,AQI)可以定量描述空氣質量狀況。通過計算,將多類描述AQI 的監測值轉換成AQI 的等級,便于用戶快速感知當前的空氣情況。利用式(3)計算多種污染物的AQI 值,并依據表2 判斷AQI 屬于優(Good)、良(Moderate)、輕度污染(Unhealthy for Sensitive Groups)、污染(Unhealthy)、嚴重污染(Very Unhealthy)這5 個類別中哪一類空氣質量類別。

表2 AQI等級判斷邊界值Tab.2 AQI level judgment boundary values
其中:I為空氣質量指數,C為當前類別的污染物濃度,Clow和Chigh分別是斷點濃度的最小邊界值和大邊界值,Ilow和Ihigh分別是表2 中斷點濃度最小和最大的邊界值對應的空氣質量指數。
2.4.1 流特征提取
以N個站點為調查對象,以時間粒度t計算每個站點在t內的流入流出的人數。每個站點由一個2N維的特征向量P描述。向量中前N個字段表示從站點i出發到其余N-1個站點下車的人流量;后N個字段表示從其余站點出發到i站點下車的人流量。這樣,如圖2所示,在時間間隔t內,可以得到一個特征矩陣DOD,t,利用它捕獲t時間內的類模式。不同時間的矩陣形成了特征矩陣時間序列,這個矩陣序列表征了每個區域隨時間變化的移動性模式,并用于后面的聚類分析。

圖2 特征提取方法Fig.2 Feature extraction method
2.4.2 流特征聚類
ONMF 相對非負矩陣分解(Nonnegative Matrix Factorization,NMF)方法[24],多了正交的優點,可以保證解的唯一性,有利于對嚴格聚類解釋。因此,本文提出一種適應流特征矩陣的ONMF 算法分析上述特征矩陣時間序列中捕獲的站點相關性。該方法基于原始的ONMF 方法新增了空間平滑正則化項和多元數據平滑正則化項兩個正則化約束項,如式(4)所示:
式(4)的第一項是從原始數據中提取潛在流移動模式,利用ONMF 分解特征矩陣到兩個非負矩陣Ht和Wt,分別捕獲潛在模式的空間分布和模式語義。其中,Ht表示K個模式發生在N個站點的可能性,Wt表示潛在模式具有一定特征的概率。K是在分析中要找到所期望的潛在模式數,本文取使得損失最小時的K。
式(4)的第二項是空間平滑正則化項,利用λ1控制平滑度,引入鄰接矩陣A,其中Ai,j∈{0,1}表示兩個站點i和j是否功能區相同,確保一個站點與其相似站點共享相似的移動模式,滿足共識中類似功能區(例如學校區域)的站點有相似的移動模式。
式(4)的第三項是多元數據平滑正則化項,利用λ2控制平滑度,引入鄰接矩陣B,其中Bi,j∈{0,1}表示站點i和j是否多元數據相同。
最后利用梯度下降求解更新矩陣,并將結果應用于可視化視圖。
針對前文提出3 個分析任務,本文設計了基于OD 流和多元數據的分層可視分析系統,從聚類社區層角度分析交通流傳遞模式,從站點層分析交通流時間模式和外部多元環境對交通流的影響。如圖3 所示,系統由4 個視圖組成。

圖3 基于OD流和多元數據的分層可視分析系統界面Fig.3 Hierarchical visual analysis system interface based on OD flow and multivariate data
地圖視圖基于Mapbox.gl 地圖開發框架和城市的矢量地圖對站點的空間特征可視化。為了滿足不同細節需求的交通流信息在地圖上的展示,本系統針對分析對象,設置了兩種不同的可視化社區層和站點層。
社區層分為3 個部分,如圖4 所示。最外層用于編碼分層社區信息,弧的長度編碼表示該社區所包含的站點數,包含站點數越多,弧越長;反之越短。內置的5 個環用于編碼各類POI(興趣點)的分布情況,環上的柱狀圖編碼社區每個站點對應的該類型設施數,柱狀圖越高,則表示該站點一定區域內包含該類型設施數多;反之越少。內置環內的空白則是地圖,即站點層,并以點的形式編碼站點,點的位置編碼站點的空間分布。

圖4 分層社區的POI分布可視化設計Fig.4 Visual design of POI distribution in hierarchical communities
流傳輸演化視圖基于桑基圖的表現形式,輔助用戶分析分層社區間的交通流傳播模式,如圖3(d)所示。視圖按時間順序水平排列成一組時間窗口,借鑒BicaVis[25]將相鄰時間窗口的背景顏色設置為不同亮度級別以增強可區分性。用桑基圖的節點編碼分層社區,用連線編碼社區間存在交通流傳遞,連線的透明度編碼傳遞的流值大小,透明度參數值越高,傳遞的流值越大;反之,越小。此外,系統提供過濾交互方法,用戶通過設定過濾系數過濾掉不需要分析的流傳遞信息。
在地圖視圖中點擊選擇要分析的站點后,圖3(b)所示的站點視圖將顯示該站點的多元數據在時間序列上的變化。為了實現2.1 節的系統分析任務3,站點視圖提供展開和折疊模式,以供用戶對比分析。
折疊模式 上方是河流圖,橫軸代表以小時為單位的時間,縱軸上對應的陰影寬度代表對應時段的流量值,展示了同一站點一天的流量變化趨勢。下方是柱狀圖,橫軸代表以天為單位的時間,縱軸代表對應日期的流量值,展示了同一站點不同日期的天流量,同時可以橫向對比。針對查看具體日期的小時流量變化趨勢的需求,系統提供一種選擇關聯的交互方法。用戶點擊選擇對應日期的柱狀圖,柱狀圖將高亮顯示,同時上方的河流圖也會更新,并顯示為所選日期對應的小時級別的流量。
展開模式 每個圓圈表示一個分析的時段點,第一層外圈是一個圓環,以弧度表示當前時段的流量占所有日期該時段的最大流量值的占比,以便于用戶對比分析同一時刻不同日期的流量;圓環內以4 種紋理分別表示4 個等級的空氣質量指數。第二層外圈是一個環形餅狀圖,展示當前時間段的乘客類型,其中粉色代表成年人,紫色代表小孩,黃色代表老人,藍色代表學生。最外側采用棒棒糖圖(Lollipop Chart)展示對應時刻的多元數據降雨量值和熱度值HI。它是一種特殊形式的柱形圖,不僅能像柱形圖一樣對數值型數據可視化,而且柱形變成線條減少了展示空間,視覺上更簡潔和美觀。本系統基于Lollipop Chart 用點的飽和度編碼HI 值的6個級別,并用棍的高度編碼降雨量值的大小,棍越高降雨量值越大;反之,越小。
社區自畫像視圖以列表的形式展示了社區聚類簇的周圍興趣點分布、平均流入流量、平均流出流量和平均乘車時長這4 種詳細信息,每一行對應一個聚類簇。基于徑向柱狀圖,展示周圍興趣點分布,包括旅游、醫療、教育、住宅、娛樂興趣點的總和。基于橫向柱狀圖,分別將平均流入流量和平均流出流量值映射到矩形的寬度,方便用戶橫向對比流入流出值,同時也可以縱向對比不同社區簇的某一類流量值。基于箱線圖,通過可視化上四分位數、中位數、下四分位數、上下邊界值等統計量,展示該社區簇的平均乘車時長分布。
本文系統數據集時間范圍在2017 年1 月1 日至2017 年2月28 日每天5 點至23 點的數據,其中新加坡公交車的IC 卡數據共計4 228 個公交站點,每天百萬級刷卡數據。
本文以2017 年2 月1 日的OD 流特征矩陣作為OD 流聚類方法的實驗數據,其中時間間隔t為1 d,N為4 228。
由于本文的聚類方法針對OD 數據的應用場景,所以采用聚類的內部評估指標輪廓系數SC 定量評估相同原始數據的聚類效果。第i個站點的SC 計算如式(5)所示:
該評估指標通過每個站點的平均簇內距離a和到其他簇的平均距離b來衡量,其值介于-1 和1 之間,越接近1 聚類效果越好。對所有站點的SC 求平均,就是該聚類方法的定量評估值。
基于ONMF 的OD 流聚類方法,聚類得到8 個聚類簇,聚類結果在可視化方法中的應用在4.2.1 節時空傳輸模式案例中分析。
4.1.1 參數對比實驗
如2.4.2 節所述,基于ONMF 的OD 流聚類方法在實現過程中需要確定模式數量值K、加權系數λ1和λ2。本文通過參數對比實驗確定各參數的值。
模式數量值K是要分解的低秩矩陣的維度,也是在分析中要找到的所期望的潛在模式數。設置參數對實驗,取K={2,3,4,5,6,7,8,9}中最能恢復原始流特征矩陣能力的值,即損失最小時的值。通過如圖5 所示的實驗結果分析,確定K值為8 時,誤差最小。

圖5 模式數量值K的敏感性分析實驗Fig.5 Sensitivity analysis experiments for mode quantity value K
加權系數λ1和λ2分別控制空間平滑度和多元數據平滑度。設置參數對比實驗,從0.000 1、0.000 5、0.001、0.005、0.01、0.05、0.1 和0.5 中選擇使得兩個加權參數,獨立約束聚類中效果最優時的參數的值,即SC 值取得最大時對應的值。通過如圖6 所示的實驗結果分析,確定加權系數λ1為0.1 時聚類效果最好,λ2為0.000 1 時聚類效果最好。

圖6 加權參數的確定Fig.6 Determination of weighting coefficient
4.1.2 方法對比實驗
將本文的聚類方法與NMF、MEP-ONMF(Maximum-Entropy-Principle based ONMF)[26]、ONMF-A[27]、EM-ONMF(EM-like algorithm for ONMF)[28]、ONMFS[29]這5 個方法在相同數據上分別聚類,并從聚類的定量評估指標SC 和運行時間兩方面作聚類性能對比。
設置的方法對比實驗,將每個方法分解的低秩矩陣H作為K-means 的輸入進行聚類,并計算對應的SC 值和運行時間。每個方法獨立運行7 次,設置實驗中的低秩矩陣維度值和K-means 聚類數均為8,并取中位數作為結果。
聚類效果定量評估結果顯示,本文方法在聚類評價指標SC 值為0.941,聚類效果較好。如圖7(a)所示,本文方法比直接用OD 流特征矩陣作K-means 聚類效果提升了0.253,且SC 值均高于NMF、ONMF-A、EM-ONMF 和MEP-ONMF 四個方法,但是比ONMFS 差一點,低0.009。

圖7 方法對比實驗結果Fig.7 Experiment results of method comparison
運行時間定量評估結果顯示,本文方法的運行時間為40.79 s,和運行較快的MEP-ONMF 和NMF 方法相比,在時間消耗上相差在1 s 內,時間效率較高。如圖7(b)所示,聚類效果最好的ONMFS 方法的運行時間較長,為295 s。
因此,從聚類效果和運行時間綜合分析,本文提出的OD流聚類方法相較于其他方法在OD 數據應用場景中更有效。
4.1.3 消融實驗
設置消融實驗對比原始方法、只加了空間平滑約束矩陣A、只加了多元數據平滑約束矩陣B、兩個約束矩陣都加了的本文方法這4 種情況在聚類效果上的差異。
通過比較聚類評價指標SC 的提升值,驗證了本文聚類方法的兩個約束矩陣能有效提取OD 流的特征并聚類。消融實驗結果如表3 所示,添加空間平滑約束矩陣A比原始方法在聚類效果上提升了0.024,添加多元數據平滑約束矩陣B比原始方法在聚類效果上提升了0.023,兩個約束矩陣都加的方法(本文方法)相較于原始方法,聚類效果提升了0.028。

表3 消融實驗結果Tab.3 Ablation experimental results
案例將運用新加坡數據集從流的時空傳輸模式、流的時間模式對比和多元時序數據對比三個方面分析,并通過與相關工作能解決的任務比較評估系統應用能力。
4.2.1 時空傳輸模式
從流傳輸演化視圖可以分析站點簇的傳輸時間模式,結合地圖視圖可以分析傳輸的空間模式。如圖8 所示,選擇聚類簇3,結合時間序列和節點連接線的透明度,發現該聚類簇的流量主要發生在7 點至9 點和17 點至19 點。

圖8 站點聚類簇3交通流傳輸的時空模式分析Fig.8 Spaio-temporal pattern analysis of traffic flow transmission in cluster 3 of bus stops
選擇要分析的7 點至9 點流傳輸連線a,地圖顯示聚類簇3 流向聚類簇4 空間主要分布在5 個區域。本文以直徑300 m 分析周圍POI 屬性。a1 為44009 站點,周圍有1 個圖書館和1 個社區聯絡所;a2 為28009 站點,周圍有2 個醫院、1 個銀行和1 個圖書館;a3 為52009 站點,周圍有1 個學校、2 個幼兒園、2 個銀行分別為馬來亞銀行支行和華僑銀行支行;a4為84009 站點,周圍有1 個學校、1 個幼兒園和1 個圖書館;a5為75009 站點,周圍有1 個大華銀行支行、1 個圖書館、1 個音樂培訓學校和3 個醫療相關地點。
選擇要分析的17 至19 點流傳輸線b,地圖顯示聚類簇3流向聚類簇7 空間主要分布在2 個區域,仍以直徑300 m 分析周圍POI 屬性。b1 為44699 站點和44779 站點,周圍是多個住宅社區;b2 為53231 站點,周圍有1 個地鐵站、1 個圖書館、3 個社區中心、3 個學前學校、3 個銀行分別為大華銀行支行、華僑銀行支行和星展銀行支行。
4.2.2 時間模式對比
在地圖站點選擇中a1~a5 這5 個站點,站點視圖可以分析對比這些站點在時間序列上的流情況和周圍多元環境因素,如圖9 所示。

圖9 站點多元時序數據對比分析Fig.9 Comparative analysis of multivariate time series data of bus stops
通過分析發現,5 個站點(a1~a5)在天流量級別上均沒有明顯的周期規律,但2017 年1 月28 日至1 月30 日(實線框部分)的天流量均小于周圍的天流量,結合新加坡公共假期發現,這幾日是中國新年,居民休假。通過3.3 節提到的視圖折疊模式可以只顯示某個站點流的時間序列變化。故選擇44009站點(a1)對應這幾日折疊模式下的流量,分析發現這幾日的小時流量沒有工作日2 月1 日相同的早高峰。1 月28 日處于中國新年的周六和1月21日正常周末的周六顯示的小時流量存在區別,假期居民都在9點以后才開始大量出行。
展開模式可以分析小時流量級別的詳細信息。從站點人員類別分析,6 點至7 點公交站點附近都存在一大部分學生,這也與站點附近都存在教育相關地點相符。
4.2.3 多元時序數據對比
查看a1~a5 展開模式,對比分析站點時序熱度值的差異。如圖9 所示,Lollipop Chart 中可視化編碼的熱度值,發現5 個站點晚上熱度值均比白天高,和新加坡2017 年年度氣候報告中指出的熱島效應相一致。44009 站點(a1)和28009 站點(a2)一天的環境熱度模式相似,均屬于10 點之后熱度值上升,到22 點之后開始轉成適宜溫度。52009 站點(a3)、84009 站點(a4)和75009 站點(a5)一天的環境熱度模式相似,均是早晨和下午涼爽,晚上開始變熱,區別在于a3 和a4站點炎熱時間從10 點至13 點,夜晚也不能轉涼爽,a5 站點是從10 點至11 點,炎熱的時間縮短了2 h,并且夜晚21 點能轉涼爽。這個差異是由于新加坡各區受日光照射不同造成的。
展開模式對比分析降雨量對居民乘坐公共交通工具的影響。17101 站點(c1)在2017 年2 月23 日的多元數據變化,15 時出現大暴雨(實線框),根據內層環的弧度占比發現對人們出行并沒有造成過大的影響,但紋理編碼的AQI 等級加重了一級,結束后2 h 周圍環境逐漸升溫,并且AQI 值也回到好的狀態。
4.2.4 系統評估
為了更好地發現系統的優點和不足,將系統功能與近幾年的其他工作根據群體移動模式,挖掘時空異常和隱藏關系、探索分析各種統計屬性、多尺度時空分析、個體多元數據分析(需要有除POI 以外的多元數據)這6 個OD 數據可視分析的典型應用作對比。對比結果如表4 所示。

表4 系統應用對比結果Tab.4 Comparison results of system application
從表4 可以看出,所提系統在群體移動時空模式分析、宏觀層面的群體的統計屬性和微觀層面的個體多元信息都能有對應的功能支撐;但在空間異常分析方面顯示出不足。
基于OD 流數據、POI 數據和多元環境數據,本文構建一個基于OD 流的多元數據分層可視分析系統,設計了4 種可視化字形完成流時空模式分析和多元數據可視化。基于流傳輸演化視圖分析站點聚類社區簇間的流傳輸;基于地圖視圖分析交通流的空間特征;基于站點視圖分析交通流的時間模式和外部多元因素的相互影響;基于社區自畫像視圖分析聚類社區的周圍POI 情況和統計屬性,包括流入流量、流出流量、平均出行時間。在新加坡公交車IC 卡的數據集上驗證,實驗證實該系統可以全面地探索分析交通站點的流時空特性和外部多元環境因素的影響。
本系統目前還存在一些不足之處,因IC 卡的數據規模龐大,直接將所有原始數據導入系統中需要較高的存儲資源和計算資源,所以系統目前不能支持探索分析實時數據。