謝玉成 王嘉琳


摘? 要:很多人都知道股市的賺錢比例是很低的,近70%的人在虧損,真正可以賺錢的只有10%。面對金融市場中的巨大風險,人們通過各種技術手段分析金融數據,發掘其中隱含的規律,大數據技術就是一種重要的技術手段。針對如何利用大數據技術分析數據在股市中獲得利潤的問題,文章將利用R語言對金融數據進行大數據分析,給投資者提出建議。
關鍵詞:大數據;價差套利;R語言;金融
中圖分類號:TP311.1? ? ? 文獻標識碼:A 文章編號:2096-4706(2020)06-0013-03
Abstract:Many people know that the percentage of people who make money in the stock market is very low. Nearly 70% of people are losing money,and only 10% can make money. In the face of huge risks in the financial market,people analyze financial data through various technical means to discover the hidden laws. Big data technology is an important technical means. Aiming at how to use big data technology to analyze data to obtain profits in the stock market,this paper will use R language to conduct big data analysis on financial data and give suggestions to investors.
Keywords:big data;spread arbitrage;R language;financial
0? 引? 言
在金融市場上,對于投資者來說,抓住合適的投資機會進行盈利是很困難的,因為市場中金融產品眾多而且難以把握交易的時機,大數據技術可以給投資者提供合理的建議。大數據是一個專門用于分析、處理和存儲大量數據的領域,這些數據通常來自不同的數據源。通過大數據技術對金融數據的分析處理,將會幫助投資者對交易時機的把握和對金融產品的選擇,因此,本文基于河南大學大數據課程,對金融數據進行了大數據分析。
1? 股市的風險
以一個經典的故事為例:一個女人和一個男人拋硬幣,如果都是正面男人贏3塊,都是反面男人贏1塊錢,一正一反女人贏兩塊,這從表面上的看是非常公平的,但結果是男人一直輸。我們可以通過數學分析的方法來看看其中的原因,女人想要自己一直贏,保證男人贏的數學期望始終小于零就可以了,我們不難解出,只要女人出正面的概率在1/3和2/5之間,無論男人怎么出硬幣,都會一直輸錢。女人就像股市里的莊家一樣,可以拉升股價也可以打壓股價,男人就像散戶一樣,可以買多,也可以買空。當莊家拉升股價時,我們做多贏了,做空的話就輸了;如莊家打壓股價,我們做多輸了,做空就贏了,表面是公平的,實際上莊家有一定的策略讓散戶一直輸錢。由此表明,股市有風險,投資需謹慎。
在市場上,隨著新的信息被披露,企業的股價必然會受其影響而出現價格波動,例如,2019年蘋果公司的新產品iPhone 11的熱賣造成了其股價的上升。當然反應和調整是需要時間的,一般來說市場越有效,反應和調整所需要的時間就越短,對于投資者來說,要想獲利,就要想盡一切辦法在市場作出反應之前確定投資計劃。
2? 價差套利
下面介紹一種利用價差來獲利的投資方式,這種方式相對來說風險較低。
(1)該方式的典型是在期貨市場。期貨價格的基礎是現貨價格,但是期貨價格和現貨價格的變化趨勢并不一樣??梢杂没顏砻枋霈F貨價格與期貨價格之間的關系,利用“基差=現貨價格-期貨價格”的公式就可以求出基差。在到期之前,基差應該為正(此時稱為反向市場),也就是期貨>現貨價格,因為期貨合理價格=現貨價格*(1+利率)。如果出現了現貨價格高于期貨價格(此時稱為正向市場),且幅度擴大,就可以買進期貨、賣出現貨,等著日結算獲利。
(2)時間價差也叫作日歷價差或水平價差。一般情況是賣出一個期權,并同時買入一個遠期期權,如果兩個期權的實際價值相同的話,遠期期權更具有時間價值,因為離到期日越近,期權的價值會減少。這一買一賣就可以賺取其中的價差,時間價差最多的就是商品,如Crude Oil Calendar Spreads。
(3)各產業內不同個股,股價時常會一起漲或一起跌,且保持一定的價格差距(Price Gap)。當兩只股票之間的價差擴大縮小時,就可以進行價差交易。例如,股票A高于股票B約20元。參考技術、籌碼情況之后,如果價差縮小到20元以內,可以買進股票A,賣出股票B。反之,價差高于20元可以買進股票B,賣出股票A。
(4)尋找走勢相近的兩檔權重股,一買一賣進行價差交易??煞譃橘I進價差、賣出價差。若價差=股票A-股票B,買進價差的意思是:做多股票A,做空股票B。兩只股票的統計相關,出現正負交替時,就是套利機會出現的時候。表1計算了在香港上市的兩只股票:中國銀行和中國農業銀行的價差表(中國農業銀行-中國銀行)。
從2019年6月4日到2019年7月3日一個月內,一股未計算手續費的利潤是0.88元,以一張期權1 000股計算,此1:1的價差部分,一套價差獲利880元。如果配合套期保值比率(hedge ratio),獲利可能更驚人。
3? 大數據技術
對于大數據的定義,可以認為大數據是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力的海量、高增長率和多樣化的信息資產[1]。大數據具有數據量巨大、數據真實性、數據類型多樣、流動速度快和價值密度低的特點,即大數據的“5V”。
3.1? 數據量巨大
大數據處理的數據量是巨大的,而且還在不斷增長。世界上有很多股票交易所,這些股票交易所擁有數萬家上市公司,每家上市公司每個財年都會公布財務報告,還有大量的期貨信息和其他的金融衍生品。由此可見金融市場的數據之多。
3.2? 數據的真實性
數據的真實性是指數據的質量或真實可信度。股票的開盤價、收盤價、最高價、最低價和成交量的數據是真實的。
3.3? 數據類型多樣
大數據支持處理多種格式和類型的數據。金融市場上有很多產品、股票、期權、期貨、外匯以及各種各樣的衍生品,當然,還有與它們緊密聯系的時間數據。由此可見市場上種類豐富的數據。
3.4? 流動速度快
在大數據環境中,大量的數據可以在很短的時間內積累。毫不夸張地說,在市場上,一分鐘可能積累幾百GB或者幾TB的數據,投資者所做決策的價值會隨時間的推移慢慢下降。
3.5? 價值密度低
價值是指數據對企業或個人的有用性。一般來說在大數據背景下,處理龐大的數據量才可以提供一個投資建議,進行獲利。
基于大數據的“5V”特點,其存儲技術和處理技術可以有效處理金融領域的數據。數據分為結構化數據、半結構化數據和非結構化數據,對于這些數量龐大而且種類多樣的數據,提出了集群、分片、NoSQL數據庫、CAP理論、ACID數據庫設計原則、BASE數據庫設計原則,這些理論和對應的技術將有效地對數據進行存儲。無論是SCV理論,Hadoop和MapReduce的處理模型,相關性分析,機器學習,自然語言處理,大數據使用這些理論方法的目的就是發掘數據背后隱藏的秘密,要將這些結論以圖表或者其他易懂的方式和模型清晰地展示在使用者的面前[2]。由此可見大數據技術在金融領域應用價值。
4? 利用R語言進行數據分析
下面通過分析聯合利華公司和保潔公司的收盤價來發現價差套利機會,因為這兩個公司的主要經營業務相似,所以數據相關性夠高。
以保潔公司2015年11月到2019年11月的收盤價減去聯合利華公司2015年11月到2019年11月的收盤價(數據來源于雅虎金融),利用R語言匯總分析得到如圖1所示的價差的時間序列圖。從圖中觀察可知,兩家公司的價差波動比較大,有套利的機會。對此進行進一步的分析,得到如圖2所示的價差概率分布圖,圖中的虛線是波動的平均值,通過圖2我們可以進一步發現,兩家公司的價差有明顯的波動,這就意味著有價差套利的可能。
我們有個價差交易策略——價差大于上界,我們做空價差,反之做多。按照上述所列舉的中國銀行和中國農業銀行進行價差套利的例子所代表的思想,利用R語言進行分析,結果如圖3所示,點1證明我們要做多,點2證明我們要做空。
5? 結? 論
利用R語言對保潔公司和聯合利華公司的股票收盤價進行分析,可以找出合適的套利時機,指導投資者做出正確的決策。由此可見,使用大數據分析對利用價差進行投資有巨大的意義。現在國內的大數據技術發展已經成熟,且中國市場是一個弱式有效市場,善用大數據技術對歷史金融數據處理分析,將會給投資這帶來巨大的利益。
參考文獻:
[1] 本刊編輯部.什么是大數據 [J].黑龍江檔案,2016(6):98.
[2] 維克托·邁爾-舍恩伯格,肯尼思·庫克耶.大數據時代:生活、工作與思維的大變革 [M].盛楊燕,周濤,譯.杭州:浙江人民出版社,2012.
作者簡介:謝玉成(1998.11-),男,漢族,河北石家莊人,本科,研究方向:大數據分析;王嘉琳(1998.11-),女,漢族,河南鄭州人,本科,研究方向:數據分析。