蘇咪咪
摘要:“大數據”時代催發了可視化技術的再創新?!岸剐螆D”以其處理海量數據的超強能力可以直觀地展現大數據的結構特征,并為大數據的可視化分析奠定基礎。本文首先引入“豆形圖”及其可視化大數據的特征,并將其應用于資本市場中典型的金融大數據——超高頻數據,構造用于可視化分析的豆形時間序列,分析數據的日內模式和動態特征,為大數據的可視化技術開辟新的方向。
關鍵詞: 豆形圖;金融大數據;可視化;超高頻數據
中圖分類號:F830 ? ? ? ? ? 文獻編碼:A ? ? ? ? DOI:10.3969/j.issn1003-8256.2014.06.001
1 ? ?引言
2012年12月,英國人維克托·邁爾·舍恩伯格所著的《大數據時代》在我國出版,他在書中指出,大數據帶來的信息風暴正在變革我們的生活、工作和思維, 大數據開啟了一次重大的時代轉型。而哈佛大學社會學教授加里·金說:“這是一場革命,龐大的數據資源使得各個領域開始了量化進程,無論學術界、商界還是政府,所有領域都將開始這種進程”。金融市場更是催生了大數據,隨著計算機存儲和傳輸能力的提升,股票、外匯、衍生品等金融市場記錄了以小時、分鐘,甚至是以秒為采集頻率的高頻或超高頻數據,即金融大數據(Financial Big Data)。金融大數據提供了交易價格、收益率、交易量、交易方向以及交易時間間隔等多維度、具有高度持續性的交易信息,是金融市場的實時再現,這對理解和研究金融市場微觀結構、行為金融、資本資產投資等具有重要的商業價值,同時引發基于金融大數據的產業創新。
金融大數據的相關研究在本世紀初期開始風靡全球,在定量研究方面,世界各國學者在此領域取得卓越的成績,對于金融市場的發展做出了杰出的貢獻。觀之金融大數據的定性分析,金融大數據在研究統計特征,尤其是更高頻資產收益率的波動率方面作用很大,鑒于其大量的觀測值,對于金融大數據的可視化方面的研究存在著不小的瓶頸。
金融數據的可視化在表現金融序列屬性特征時比統計模型更為形象、直觀。從原始數據中難以挖掘的規律、純理論運算中難以得到的結論,我們可以從可視化圖形中窺知一二。尤其是“大數據”時代的到來,金融大數據的可視化研究還未取得有效進展,豆形圖的出現為金融大數據的可視化開辟了道路。豆形圖(Beanplot)可以可視化比較組別間的單變量數據,并且可以展示密度曲線、重復觀測和多峰形態分布等數據特征,這是箱形圖所不能比擬的。尤其值得一提的是,豆形圖在金融大數據的可視化領域展示了突出的優勢,不僅克服了箱形圖的不足,還能夠充分展現海量數據的信息,極大提高大數據可視化的有效性和精確性。為此,本文在簡單介紹數據可視化發展歷史的基礎上,引入豆形圖及其屬性特點,展示了模擬的“豆形”例子,并將其應用于實際金融大數據,構造可視化的豆形時間序列,分析金融大數據的日內模式和動態特征,為后繼的金融大數據建模提供數據的屬性特征。
2 ? ?金融大數據的可視化
最初,我們使用條形圖可視化條形時間序列。條形圖會正確顯示原始趨勢以及每個時間間隔內最小值和最大值。然而,此類圖形中,在單一的時間間隔內,采用單一的點來繪制每個觀測,致使條形圖盡在存在極少點的情況下才能彰顯其用途。因此,這也使其很難應用在大數據框架中。直方圖在時間和空間維度上匯總數據時用處很大,因為其結構簡單、靈活,能夠合理、精確地描述數據基本特征的能力。然而,在多組數據比較方面,直方圖的疊加會使空間變得混亂。箱形圖(Turky, 1977)常用于比較組與組間分布的差異,能夠揭示某一總體的幾種屬性:中心,范圍,不對稱性、離群點以及數據主要結構的變化。然而,隨著觀測個數增加,離群點的個數會增加,箱形圖的可視能力漸弱。并且,還將忽略關于分布密度的信息,而這些密度信息在可視化金融大數據上卻是極其重要的。小提琴圖(Benjamini,1988)結合了密度曲線的可視化以及箱形圖的優點,更好地顯示了分布形狀。雖然在小提琴圖中可見其基本分布,但隨數據量的增大,很多樣本點(除了最低點和最高點)卻是不可視的,難以在金融大數據的可視化方面有所展露。
本文提出用豆形圖來可視化金融大數據。事實上,所有個體觀測在每一個“豆”中都是可視的。豆形圖會繪出每個時間點的均值(由豆形線表示)以及整體均值,這非常便于比較金融時間序列不同時間點的屬性特征。另外,在豆形圖中,不僅大數據密度的分布是可見的,還會顯出數據存在的噪音、“波峰”、“波谷”和波動情況。由于在日內數據中,波動會代表數據的主要特征,因此豆形圖對于研究金融大數據極其重要。
國外的研究中,豆形圖已經逐漸被應用于金融大數據的可視化,近十年對于豆形時間序列的研究文獻,已成為金融大數據可視化文獻中重要組成部分。我國金融市場的穩步發展也為豆形時間序列的研究提供了數據條件。但與國外相比,我國學界在介紹以及應用豆形圖對金融大數據進行可視化研究方面尚處于空白階段。鑒于此,本文參考了國外學者的研究成果,試圖對豆形時間序列作系統的介紹,目的在于揭示豆形時間序列在金融大數據可視化中的優勢,以及改進我國在金融大數據可視化應用領域的不足。
3 ? ?豆形圖
豆形圖(Beanplot)是一個或多個豆形的圖示。如圖1右圖所示,每個“豆”由密度曲線組成,通過鏡像形成一個多邊形。同時,利用一維散點線顯示所有的觀測值(豆形圖中的散點線利用短線表示數據)。如果短線圖示在密度線外,繪圖的顏色就會發生變化,這樣即使密度曲線外的短線有很多,
圖1 ? 隨機模擬的正態分布密度曲線及其豆形圖
也能使密度曲線是可見的。為了便于比較,每個圖中都標出組均值和總體均值(如圖2右圖)。對于含有子組的情況(如男生組與女生組),我們可以繪制非對稱形式的豆形圖(如圖4)。
3.1 ? 豆形圖的構成
豆形圖由密度曲線和散點線構成。由于密度曲線形似豆莢,而散點線類似豆莢里的豆籽,所以豆形圖就因此得名。密度曲線是一個對稱的多邊形,由序列的密度曲線及其鏡像構造而成。R軟件利用density程序包計算密度曲線。計算此類密度曲線,帶寬的選擇特別重要。通常利用Sheather-Jones方法選擇每組的帶寬,這樣會使豆形圖效果趨于最佳。為了便于組間比較,每組帶寬都是相同的。但這樣會使數據點較少的豆形寬度變得比較大,影響顯著性的判斷。為了克服這個缺點,數據點個數小于10的“豆”需要進行線性變化(如僅含3個數據點的豆形寬度,就使其帶寬為正常寬度的3/10)。
密度曲線通常與一維散點線結合在一起進行圖示。圖1左圖是R軟件生成的隨機模擬的正態分布密度曲線,右圖是其相應的豆形圖。當散點線位于多邊形的外部時,圖形的顏色就必須要進行改變。R軟件可以利用直線插補法近似處理密度曲線與散點線的交點。如果同組中的多個觀測值是相等的,它們的短線就會疊加在一起,線長就會增加,因此,重復觀測也能得以顯示。
箱形圖大都采用中位數展現數據的集中趨勢,而豆形圖一般展示數據的組均值和總體均值。并且結合有效的密度曲線,均值便能提供更有效的信息。出于比較方便的目的,豆形圖大都是對稱的。但有時會出現組中包含兩個子組的情況,比如男性組與女性組。這種情況下,每個子組分居豆形的兩邊,共同組成一個完整的豆形,各自呈現其獨有的形狀,形成非對稱形式的豆形圖(參見圖4)。
圖2 ? 雙峰、均勻和正態分布的箱形圖和豆形圖
注:豆形圖中的綠色短線(深色)表示單個觀測,紫色區域(淺色)顯示分布。
3.2 ? 豆形圖的優點
我們利用R軟件模擬實現幾組不同類型的豆形圖,顯示其相對于箱形圖所特有的優勢。圖2是利用雙峰正態分布、均勻分布和單峰正態分布模擬生成的數據繪制而成的箱形圖和豆形圖。左邊的箱形圖展示的第一組數據與第二組數據的圖形類似,并且其四分位值、最大最小值,以及平均水平都近乎相同。如果我們單純從該箱形圖中就做出判斷的話,我們會認為這兩組數據之間的屬性、特征等是近乎相同的。但事實并非如此,圖2右端的豆形圖就充分展示了數據的實際分布特征。很顯然,第一組數據與第二組數據的分布是完全不同的:第一組數據呈現出的是雙峰分布,即分別有兩個觀測(-2,+2),在該兩點附近數據出現的頻率很高,而當數據趨于0時或趨于-4、+4時,數據出現的頻率近乎為0;而第二組數據呈現出的顯然是一個近似均勻分布,即從-4到+4之間所有數據出現的頻率近乎相等。顯而易見,第一組數據與第二組數據是兩組特征完全不同的數據,而我們從箱形圖中卻得出兩者近乎完全相同的結論。就圖2第三組單峰的正態分布而言,箱形圖只能展示極個別的極端值,而豆形圖非常清晰地顯示了模擬數據所有的尾部觀測。綜上可見,豆形圖在對于數據分布及其特征的把握上,要高箱形圖一籌。
圖3 ? 不同類型歌手體重的箱形圖和豆形圖
圖3利用R的vioplot程序包中singer數據集圖示了不同類型歌手體重的箱形圖(實為小提琴圖,小提琴圖為箱形圖的一種)和豆形圖。小提琴圖盡管可以清晰地顯示不同組歌手具有不同的體重分布,但豆形圖還可以解釋更多的附加信息。例如:所有觀測在豆形圖中都是可見的,每個組的平均體重以及所有歌手的總平均體重都清楚地列示在豆形圖中。事實上,每個組的觀測個數在運行結果上也是可見的。圖4在一個豆形圖上分組顯示singer數據集中男歌手和女歌手的體重豆形圖,用一種非對稱形式比較解釋了數據特征,直觀、精確地展示了同類歌手中性別間的體重差異,彰顯豆形圖的優越性。
圖4 ? 男女歌手的非對稱豆形圖
3.3 ? 豆形時間序列
豆形時間序列(Bean Time Series)是豆形圖的另一優勢所在。所謂豆形時間序列,就是指按照時間順序排列而成的豆形圖序列,圖5顯示了模擬而成的豆形時間序列。在圖中,每一個時態區間都包含了與該區間相關的大量數據。對于時間間隔的選擇,通常我們研究三種情況,即以日、周、月作為時間間隔。最終要選擇哪種情況作為時間間隔需要根據所研究數據的特征進行判定。
在豆形圖中,我們所要展示的變量特征有均值、極差(最大值減最小值)以及以Kernel估計量計算出來的密度曲線等,其密度曲線的估計量為
其中,K是標準正態分布。h是區間寬度的平滑參數。我們把h作為基本因素來考慮。事實上,h越大,該豆形圖越不規則。因此,我們要慎重地選擇帶寬,特別是我們通過Sheather-Jones方法來獲得該參數時更應該謹慎。
豆形時間序列展現出了數據中心(用粗短線表示)、波動大小(用極差表示)以及形狀(用密度曲線表示),并借以揭示序列的復雜結構關系。特別地,在每個豆形圖中,凸起部分就代表了數據最密集的數據點,并且凸起部分隨著時間的變化而變化。更一般地,豆形圖隨著時間的變化就揭示出時間點之間的動態變化。當我們發現豆形圖較之前呈現擴張趨勢時,即極差擴大,通常可以理解為出現了結構性的變化(見圖5)。另外,通過所有的小豆形圖的變化,我們可以計算出該時間序列的變化趨勢,并可選擇一個合適的時間間隔,以使該趨勢可視化。豆形時間序列建立之后,我們可以對其進行參數估計以及預測。尤其是當觀測個數特別多(如金融大數據),對復雜的市場行為所存在的長期趨勢、規律等進行分析方面,豆形圖的優勢就會充分顯現出來。在我們所研究對象的觀測個數極其多的情況下,直接進行定量時間序列預測的話,不能將數據屬性特征精確的展示出來,一些異常值、離群點等也不能得到體現。而在實際工作中,要對金融大數據等進行時間序列分析,往往所涉及的數據包會包含極大量的數據,以便于總結出現象的真實特征、屬性,并最終得出結論。因為,在這種情況下,定量時間序列分析就存在部分觀測信息被丟失的風險。這也從一定程度上說明了用豆形圖來對金融大數據進行分析以及預測的必要性。
圖5 ? 模擬豆形時間序列
進一步講,我們之所以使用豆形圖來對時間序列數據進行分析,是鑒于兩點原因。首先,豆形圖可以既保持時間序列的結構,同時又顯示數據的重要特征;其次,我們可以通過豆形圖,從大量的時間序列數據中提取出某些長期的結構特征。同樣,對于其他一些復雜的研究對象,我們依然可以觀察到該現象的主要結構特征。
正是由于豆形圖在可視化方面的獨特優勢,在數據與信息如此發達的大數據時代,豆形圖正慢慢以獨立的形態登上統計舞臺。不僅僅是豆形圖的發展與信息化的發展息息相關,更是信息化的發展,特別是在金融領域大數據分析方面,更需要豆形圖的發展作為強大支持,開辟出可視化的一條新研究路徑,以期得到更為精確的結論。
4 ? ?金融大數據“豆形”可視化的實證分析
隨著計算機存儲技術的飛速發展,記錄海量數據日趨便捷,且處理大規模數據的數據挖掘技術也越來越成熟,因而大數據問題日益受到學界廣泛關注。特別在金融領域,鑒于中國證券市場歷史短暫且發展迅速,大時間跨度的觀測數據往往在可比性上不能令人信服。如果采用金融大數據,就可以在較的時間區間內產生滿足分析所需要的數據量,同時可以對市場微結構模型做出恰當的驗證。金融大數據通常是指以小時、分鐘、秒甚至更高頻單位為頻率所采集的按時間先后順序排列的金融類數據,有時也稱為超高頻金融數據。在金融市場中,信息是連續地影響證券市場價格的運動過程的。數據的離散采集必然會造成信息不同程度的缺失。無疑,采集頻率越高,信息丟失越少;反之,信息丟失越多。所以,大數據包含更多的信息,金融大數據的研究將帶來更精確的分析結果。
當前金融大數據的研究領域主要集中在市場微觀結構和高頻金融時間序列的模型化方法等方面,由于金融大數據屬于海量存儲數據系列,在數據的可視化方面一直存在著發展瓶頸。然而,豆形圖的出現可以很好地推動金融大數據的可視化發展。利用豆形圖可以分析金融大數據的日內模式,研究相應時段的市場微觀結構,同時也可以構造日內豆形時間序列,進而利用豆形圖構建金融大數據的時間序列分析模型,從可視化角度分析金融大數據的時間特征。
4.1 ? 日內豆形圖
圖6展示了上證綜合指數在2009年12月31日的日內股指價格、交易量和收益率豆形圖,從中可以清晰地顯示上證綜合指數的日內行為特征。首先,股指價格屬于多峰態分布,分布類型介于均勻分布和正態分布之間,且是左偏的,說明在當天股指價格大部分時間處于高位運行狀態,但下滑幅度也多呈現不對稱狀態。其次,交易量和收益率近似服從正態分布,呈現完美的對稱分布形式,但略微右偏,特別是收益率,杠桿效應傾向于正收益。最后,匯總三者的豆形圖特征,我們可以得到當日股指整體趨勢是上升的,但也穿插少部分下降模式。
圖6 ? 日內股指價格、交易量和收益率的豆形圖
4.2 ? 豆形時間序列
圖7 ? 股指價格、交易量和收益率的豆形時間序列
圖7顯示的是上證綜合指數在2009年12月21日至12月25日之間的股指價格、交易量和收益率豆形時間序列,目的是為了說明金融大數據的周內變動模式。就股指價格豆形時間序列而言,這一周內大部分日期的股指價格呈現多峰態分布樣式,除了周五近似服從正態分布之外,其他都近似呈現出均勻分布的特點, 且都屬于左偏型分布,說明這周的股指價格是上升趨勢,在周五處于均衡調整階段。就交易量豆形時間序列而言,周初和周末的交易量波動性比較大,周中的波動性相對較小,豆形圖基本呈現正態分布走勢。就收益率豆形時間序列而言,其變動模式與交易量比較相近,周初和周末的收益率波動性比較大,周中的收益率波動相對較小,但分布類型相比交易量更加重尾。交易量和收益率的極端值需要進行單獨考慮,可借助豆形圖進行大數據的清洗。
5 ? ?結論
本文在簡單介紹數據可視化發展的基礎上,引入豆形圖及其屬性特點,通過一系列案例分析解釋豆形圖相比于箱形圖和直方圖的優勢和廣闊使用前景。實證部分,本文將豆形圖應用于金融大數據,構造可視化的日內豆形圖和豆形時間序列,分析金融大數據的日內模式和動態特征,展現了金融大數據豆形可視化的可能性和重要性,為后繼的豆形時間序列建模提供數據屬性特征。
參考文獻:
[1] ?Pearson K. "Contributions to the Mathematical Theory of Evolution. II. Skew Variation in Homogeneous Material"[J]. Philosophical Transactions of the Royal Society A: Mathematical, Physical and Engineering Sciences ,1985,186:343–326.
[2] ?Bruce H.M., T.A.DeFanti,M.D.Brown.Visualization in Scientific Computing [M].ACM Press, 1987.
[3] Turkey J.W. Exploratory Data Analysis [M]. Addison–Wesley,1977.
[4] ?Hyndman R., Y. Fan. Sample quintiles in statistical packages[J].The American Statistician, 1996.(4):361–365.
[5] ?Frigge, M. , D. Hoaglin. & B. Iglewicz. Some implementations of the boxplot [J]. The American Statistician,1989.43(1):50–54.
[6] ?Rousseuw, P.J. , I. Ruts.,J.W. Tukey. The bagplot: A bivariate boxplot [J]. The American Statistician,1999.(53):382–387.
[7] Carter, N. J. , N.C. Schwertman, & T.L. Kiser. A comparison of two boxplot methods for detecting univariate outliers which adjust for sample size and asymmetry [J]. Statistical Methodology,2009.6(6):604–621.
[8] ?Aslam, M. & A. Khurshid. Shape-finder box plots [J]. ASQC Statistics Division Newsletter, 1991.(Fall):9–11.
[9] Choonpradub C.,D. McNeil. Can the box plot be improved? [J] Songklanakarin Journal of Science and Technology,2005.27(3):649–657.
[10]Marmolejo-Ramos F.,T. Tian. The shifting boxplot[J].International Journal of Psychological Research,2010.3(1):37–45.
[11]McGill T. J.W.,R.W. Larsen. Variations of box plots [J].The American Statistician, 1978.(32):12–16.
[12]Hintze J.L.,R.D. Nelson. Violin plots: A box plot-density trace synergism [J]. The American Statistician,1998(52):181–184.
[13]Box G. , W. Hunter, J. Hunter. Statistics for Experimenters: An Introduction to Design, Data Analysis, and Model Building[C]. Wiley Series in Probability and Mathematical Statistics. John Wiley & Sons, Hoboken, NJ.1978.
(責任編輯:姚 ? ?英)
The “Beanplot” Visualization and Application of Financial Big Data
SU Mimi1,2
(1.School of finance, Shandong University of finance and economics,Jinan 250014;
2.School of economics, Shandong University, Jinan 250100)
Abstract: As the advent of the era of "big data", new requirements have been put forward to the visualization of financial data. "Bean charts can be intuitively visualized financial data, show the structure characteristics of huge amounts of data, and lay a foundation for large financial data time series analysis. This paper introduced characteristics and its properties "bean charts", and its application in financial data, tectonic fractal time series visualization of beans, analysis of financial data model and the dynamic characteristics of days, to work on the big data visualization way.
Keywords: Beanplot;Financial Big Data;Visualization
[6] ?Rousseuw, P.J. , I. Ruts.,J.W. Tukey. The bagplot: A bivariate boxplot [J]. The American Statistician,1999.(53):382–387.
[7] Carter, N. J. , N.C. Schwertman, & T.L. Kiser. A comparison of two boxplot methods for detecting univariate outliers which adjust for sample size and asymmetry [J]. Statistical Methodology,2009.6(6):604–621.
[8] ?Aslam, M. & A. Khurshid. Shape-finder box plots [J]. ASQC Statistics Division Newsletter, 1991.(Fall):9–11.
[9] Choonpradub C.,D. McNeil. Can the box plot be improved? [J] Songklanakarin Journal of Science and Technology,2005.27(3):649–657.
[10]Marmolejo-Ramos F.,T. Tian. The shifting boxplot[J].International Journal of Psychological Research,2010.3(1):37–45.
[11]McGill T. J.W.,R.W. Larsen. Variations of box plots [J].The American Statistician, 1978.(32):12–16.
[12]Hintze J.L.,R.D. Nelson. Violin plots: A box plot-density trace synergism [J]. The American Statistician,1998(52):181–184.
[13]Box G. , W. Hunter, J. Hunter. Statistics for Experimenters: An Introduction to Design, Data Analysis, and Model Building[C]. Wiley Series in Probability and Mathematical Statistics. John Wiley & Sons, Hoboken, NJ.1978.
(責任編輯:姚 ? ?英)
The “Beanplot” Visualization and Application of Financial Big Data
SU Mimi1,2
(1.School of finance, Shandong University of finance and economics,Jinan 250014;
2.School of economics, Shandong University, Jinan 250100)
Abstract: As the advent of the era of "big data", new requirements have been put forward to the visualization of financial data. "Bean charts can be intuitively visualized financial data, show the structure characteristics of huge amounts of data, and lay a foundation for large financial data time series analysis. This paper introduced characteristics and its properties "bean charts", and its application in financial data, tectonic fractal time series visualization of beans, analysis of financial data model and the dynamic characteristics of days, to work on the big data visualization way.
Keywords: Beanplot;Financial Big Data;Visualization
[6] ?Rousseuw, P.J. , I. Ruts.,J.W. Tukey. The bagplot: A bivariate boxplot [J]. The American Statistician,1999.(53):382–387.
[7] Carter, N. J. , N.C. Schwertman, & T.L. Kiser. A comparison of two boxplot methods for detecting univariate outliers which adjust for sample size and asymmetry [J]. Statistical Methodology,2009.6(6):604–621.
[8] ?Aslam, M. & A. Khurshid. Shape-finder box plots [J]. ASQC Statistics Division Newsletter, 1991.(Fall):9–11.
[9] Choonpradub C.,D. McNeil. Can the box plot be improved? [J] Songklanakarin Journal of Science and Technology,2005.27(3):649–657.
[10]Marmolejo-Ramos F.,T. Tian. The shifting boxplot[J].International Journal of Psychological Research,2010.3(1):37–45.
[11]McGill T. J.W.,R.W. Larsen. Variations of box plots [J].The American Statistician, 1978.(32):12–16.
[12]Hintze J.L.,R.D. Nelson. Violin plots: A box plot-density trace synergism [J]. The American Statistician,1998(52):181–184.
[13]Box G. , W. Hunter, J. Hunter. Statistics for Experimenters: An Introduction to Design, Data Analysis, and Model Building[C]. Wiley Series in Probability and Mathematical Statistics. John Wiley & Sons, Hoboken, NJ.1978.
(責任編輯:姚 ? ?英)
The “Beanplot” Visualization and Application of Financial Big Data
SU Mimi1,2
(1.School of finance, Shandong University of finance and economics,Jinan 250014;
2.School of economics, Shandong University, Jinan 250100)
Abstract: As the advent of the era of "big data", new requirements have been put forward to the visualization of financial data. "Bean charts can be intuitively visualized financial data, show the structure characteristics of huge amounts of data, and lay a foundation for large financial data time series analysis. This paper introduced characteristics and its properties "bean charts", and its application in financial data, tectonic fractal time series visualization of beans, analysis of financial data model and the dynamic characteristics of days, to work on the big data visualization way.
Keywords: Beanplot;Financial Big Data;Visualization