夏 玲
(廣州南方學院,廣東廣州 510970)
在計算機學科的分類中,利用人眼的感知能力對數據進行交互的可視表達以增強認知的技術,稱為可視化。[1]公元6200年,人類使用幾何圖表和地圖來展示重要的信息,是可視化的萌芽時期。隨著可視化方法和技術的持續發展,信息傳遞方式從單向灌輸走向雙向交互,從被動接收信息到主動獲取信息。到20世紀80年代末,信息可視化這一學科名稱確立。隨著計算機的普及和互聯網的快速發展,現代的數據可視化是一門涉及計算機圖形圖像學、計算機交互設計、圖像處理等領域的綜合技術,運用程序將不可見或難以直接顯示的數據轉化為可感知的圖形、符號、顏色、紋理等,增強數據識別效率,為用戶傳遞有價值的信息。[1]數據可視化有時引導用戶的看法,有時是為了影響其行為。例如,19世紀50年代,南丁格爾用其繪制的“南丁格爾玫瑰圖”打動政府高層,獲得醫院醫療支持,最終使得英軍死亡率得到下降。
人眼對可視化符號的感知和認知能力遠高于對文本和數字的直接識別。[1]所謂一圖勝千言,可視化促使用戶迅速獲取信息。因此,面向用戶,傳播與發布信息的最有效途徑是將數據可視化。[1]數據可視化涉及數據的收集、數據的篩選與變換、視覺編碼、人機交互、用戶感知等流程。視覺編碼是整個數據可視化流程的核心,本文重在探討可視化視圖呈現的方式方法。視覺編碼是指將處理后的數據信息映射成可視化元素的過程,[1]且同一數據集合可能對應多種視覺呈現形式。可視化結果可以理解為一組圖形元素的組合,這些圖形元素攜帶了被編碼的信息,而當用戶從這些圖形元素中讀取信息時,可以稱我們解碼了一些信息。[2]例如,非洲的面積是3022萬平方千米,“非洲到底多大”,設計師凱?克勞斯(Kai Krause)設計了一張圖表,將西班牙等15國的地圖填充進非洲大陸中,組合成非洲地圖。這張圖表是被編碼的信息,15國面積之和是非洲的真實大小,這是我們解碼的信息。
標記和用于控制標記的視覺特征的視覺通道是可視化編碼元素的兩個方面,兩者結合對數據信息進行完整的可視化表達,從而完成可視化映射這一過程。[1]在可視化中,標記可以分為點、線、面等。1967年,雅克?貝爾廷(JacquesBertin)在他出版的《圖形符號學》一書中提出了位置、大小、數值、紋理、顏色、方向和形狀等7個圖形符號及其與信息的對應關系。將這些圖形符號映射到點、線、面之后,可以衍生出21種編碼可用的視覺通道。[4]人們在之后的實踐中增加了角度、體積、長度、透明度、動畫等其他幾種視覺通道,可用的視覺通道越來越多。視覺通道各有特點,位置占用空間少,能夠一眼識別出趨勢、群集和離群值;大小能夠直觀比較數值差;方向可以傳達增長、下降和波動等變化趨勢;形狀易于區分不同類別顏色;顏色常用于表示分類數據和數據間的變化等。
在可視化編碼之前,需要了解編碼的數據類型,數據分為基本三種類型:定量數據、有序/定性數據、分類數據。[1]定量數據,有確切數字的對象。例如,每日運動時長:1,2,3。持續天數:1,15,365。有序/定性數據:可以比較和排序的對象。例如,故事優先級:優、良、中、差。緊急程度:一級、二級、三級、四級。分類數據,可以區分對象。例如,性別:男性和女性。年齡:青年、中年、老年。有些視覺編碼擅于傳遞與數值相關的信息,例如位置、方向、區域面積、直線的長度、顏色飽和度和亮度、圖案等,有些視覺編碼擅于傳遞與分類相關的信息,例如形狀、色相、空間位置、圖案等。
通過一些實際案例的分析以更好地掌握視覺通道的運用。例如,澎湃新聞“數說”2021年6月22日發布的報道《為什么名校都喜歡異地辦學?》,報道中以柱狀圖的形式將全國至今異地辦學機構的調查結果進行了可視化呈現。視覺編碼變量分析,X軸:年份作為定量數據映射到位置的視覺通道;Y軸:異地辦學機構數是一個定量數據,映射到矩形的長度。本圖是1:1的映射關系,圖表顯示全國至今已有兩輪異地辦學潮。例如,美國作家Nathan Yau在flowingdata發布的《加州野火時間表》中,使用符號時間表可視化了2004年至2020年間加州火災燒毀面積情況。X和Y軸:年份和月份作為定量數據映射到位置;過火面積作為定量數據映射到符號大小,同時顏色越深代表燃燒的面積越大。所以,過火面積的映射存在兩個視覺通道1:n。例如,《數據新聞大趨勢》[3]一書中使用樹圖對英國廣播公司BBC營業收入進行可視化呈現和分析。營業額作為定量數據則映射為矩形面積;各業務線為分類數據則映射成色相;子業務線營業額越大,飽和度越高。業務名稱和營業額共同決定了顏色映射,所以此映射是n:1的關系。
通過對視覺編碼的分析,可以看出數據類型和視覺通道的多樣性使得一個數據集可以有多種可視化呈現形式和視覺編碼方案。一個數據類型可以對應一個(1:1)或多個(1:n)視覺通道,多個數據類型對應著一個(n:1)視覺通道。每種可視化方式都各有所長,也各有所短。不同視覺通道的使用影響用戶對可視化結果的信息獲取,錯誤編碼數據信息反而會導致用戶對可視化結果的誤解,因此合適的編碼形式顯得尤為重要。陳為在《數據可視化》一書中指出,視覺通道的表現力和有效性對挑選合適的視覺通道具有指導性,主要體現在下面幾個方面[5]:1.精確性,能否精確的還原數據信息及表達數據間的變化。2.可辨認性,同一個視覺通道的不同取值編碼的數據信息能否輕易區分。3.可分離性,不同視覺通道的編碼對象放置到一起,是否容易分辨。在可視化設計中,應盡量選擇可分離性好的視覺通道進行可視編碼。4.視覺突出,用戶能否在短時間內識別到重要的信息。常用的方法是用突出的視覺通道編碼重要的信息,如明亮大膽的顏色,繪制邊框,或線加粗,使其在視覺上更為突出,引人注目。
本文以Tableau為開發工具,根據Tableau自帶的超市數據集為例做超市運營分析,結合數據類型和視覺編碼原則,指定任務目標,詳細說明視覺編碼在數據可視化中的應用。
圖1顯示了產品類別和所屬的銷售地區,其中圖1-1采用了柱狀圖的可視化形式,使用長度編碼銷量數據,鑒于柱狀圖主要用于表達數值信息而不是分類信息,圖中東北地區對應于垂直軸上的辦公用品、技術、家具等多個產品類別,這并不合理。而圖1-2采用了氣泡圖的可視化形式,能夠表達一一的對應關系,圓的面積表示銷售額的高低,這樣避免了左圖中所產生的錯誤信息。圖2-1展示了子類別銷售額和時間的關系和變化,使用了形狀和顏色編碼不同的類別,形狀越大表示銷售額越高,可視化結果出現信息元素重疊,顏色和形狀的可分離性弱。而圖2-2采用了杠鈴圖的可視化形式,能夠快速識別線上兩端數值的關系,并進行比較,提高了可視化結果的有效性。




人的視覺系統對于不同的視覺通道會解碼出不同的信息。圖3從不同的維度可視化了“2018年和2021年超市運營的變化”。圖3-1使用了長度、顏色和位置這些視覺通道編碼了2018年和2021年間的變化,蝴蝶圖的條形越長表示數值越大。在這個圖中,我們可以看到西北地區的利潤是最少的,而增長最緩慢的是西南地區。圖3-2使用了面積和位置,水平軸和垂直軸分別對應數值信息(利潤)和分類信息(地區),灰色和藍色的圓點分別代表2018年和2021的運營情況,兩個點在同一水平線上,用直線連接,直線越長表示兩年間的變化越大。灰色圓點到藍色圓點給出一種方向感,如果藍色圓點在灰色圓點左側,則該地區的利潤在下降,這里所有的地區都是增長的。圖3-3使用了位置、方向、顏色編碼的斜率圖來呈現2018年和2021年各地區利潤排名情況,水平軸上的數值按年份分類,各個地區的利潤排名顯示在垂直軸上,左邊表示2018年各地區的利潤情況,右邊則表示2021年的情況,用一條直線連接同一地區,斜率越大表示變化越大,顏色作為視覺突出的通道,對利潤最高的中南地區做高亮顯示,還可以增加一個變量,線的粗細表示利潤的大小。在這個圖中,可以看到整體的趨勢變化,華東、東北和西南地區相比2021年利潤排名有所下滑。綜合實踐,不同的視覺通道組合編碼出不一樣的可視化視圖,用戶理解和獲取的信息也會不同。



無論是橫向比較還是縱向比較,每種可視化方式都各有利弊。好的數據可視化能清晰、準確、高效地傳達信息。在設計可視化方案時,根據目標來分析數據類型,挑選合適、易于理解、高表現力的視覺通道編碼數據,確保用戶在更短的時間解碼出可視化元素所攜帶的信息,是優秀數據可視化的表現。視覺編碼是數據可視化的核心內容,合理的視覺編碼是設計優秀數據可視化的關鍵因素[1],研究視覺編碼有著重要的意義。隨著數據可視化技術的發展,可視化呈現的方式越來越豐富多樣,在信息過載的時代,如何可視化數據為用戶提供有價值的信息值得不斷研究與探討。