大數據時代不僅數據量巨大,更新迅速,使用更具隨機性,而且數據結構異常復雜,80% 以上都是諸如文本、視頻、音頻、郵件、圖片等非結構化數據。并且數據格式之間互不兼容,這給數據的提取、分析、應用帶來了很大困難。多音字、多義詞,中文的博大精深更是給文本數據分析帶來了難點。
而深圳市穎源科技有限公司開發的股市情緒分析系統正是利用這些難以分析的文本數據,分析出投資者的情緒變化,從而洞察股市行情。
情緒分析洞悉股市變化
實時抓取互聯網中的財經數據,找出每篇博客、微博、新聞中關于每支股票的觀點和情緒,匯總數據并告訴用戶此時的看漲看跌比例,這就是股市情緒分析系統。
早在2010年10月,國際知名學術網站arXiv. org刊登的一篇研究報告稱,Twitter中的“鎮定度”水平能夠提前2至6天預測道瓊斯工業平均指數的走向,并且準確度可達到87.6%。
投資者行為不像傳統金融學認為的那樣具有理性化,由于投資者的情緒和偏見經常劇烈影響著價格波動,金融行為學對這些現象提供了一些很好的詮釋。股市情緒分析系統是基于金融行為學理論和客觀的機器學習算法,對股市漲跌數據、社會化媒體言論數據進行采集和挖掘。該系統計算出來的結果能夠幫助投資者洞察股市的情緒,從而進行市場預測。
當憂慮指數達到最高點的時候,往往股市是比較低迷的時候,憂慮指數處于低點的時候往往預示著股市處于高漲期。
股市情緒分析在國外已有人嘗試,MarketPsych是股市情緒分析的先驅,由心理學家創立的這家公司從事股市形勢分析已有七八年的時間。MarketPsych投資公司每天會對全球200萬篇文章進行抽取和采集,然后進行分析,分析6000多家公司投資者的情緒,為投資者提供參考。
而成立于1995年的穎源科技是伴隨著互聯網的發展而迅速發展起來的一家公司。如今,穎源科技將注意力集中到大數據上,計劃未來致力于大數據的投資和發展。
深圳市穎源科技CEO時俊杰介紹說,股市情緒分析系統是在IBM BigInsights平臺上開發的系統架構,目前主要和新浪與騰訊微博進行合作,通過開放接口采集投資者對于股市的評價或對市場漲跌情緒的表達,通過情緒分析引擎進行分析。
采集到的微博要先經過預處理,去掉重復話語和廣告成分,再進行分類。經過預處理后還要進行斷句才能進入半監督的機器訓練(半監督機器訓練是最近幾年提出來的機器學習算法)。
時俊杰說,半監督機器訓練先要設定算法,需要將微博樣本通過人工進行標注,建立規則庫后交給計算機自動進行訓練,分析出來該條微博所表達的情緒值,然后將它放到模式匹配庫里存放。新采集到的微博先跟模式匹配庫進行比對,如果在模式匹配庫里已經存在了這樣的句子,就可以計算出它的情緒值。如果在模式匹配庫里沒有,則需要再根據規則庫進行計算。這是一個不斷迭代和優化的過程。
增加多情緒維度
時俊杰表示,在股市情緒分析系統的研發過程中IBM BigInsights提供了非??煽俊⒏咝У拇髷祿幚砥脚_,不僅加強了開源的Hadoop系統,搭建了能夠支持企業級大數據的分析平臺,且平臺易用性和可視化管理等工具使得穎源科技在情緒分析系統研發過程中不是把精力花在平臺適應上,而是花在應用研發上。
同時,由于IBM BigInsights設計了企業級節點冗余,減少了宕機概率,通過PC Server經過節點擴展的分布式并行計算架構降低了成本,提高了運行速度。
“Hadoop本身是一個并行架構,可以充分發揮并行架構的優勢。舉例來說,之前開放網站流量分析軟件時我們采用的是傳統架構數據庫,多個進程需要用幾臺服務器計算一晚上才可以得出計算結果。而現在使用大數據解決方案后一個小時就可以得出計算結果?!睍r俊杰說。
由于金融監管機構更為關注整個證券市場的輿情分析與監測,股市情緒分析系統分為B2B與B2C兩種,未來可以和金融機構等合作伙伴一起運營。對于基金公司和證券公司等可以利用該系統為自己的客戶提供增值服務,為短線投資者提供投資參考。而對于金融監管機構來說,穎源科技未來研發的輿情分析系統可以對異動股票進行監測,為監管機構提供參考。
經過一段時間的測試,穎源科技股市情緒分析軟件的預測結果與實際走勢基本一致,近期將正式推出。未來,穎源科技會對數據源進行進一步擴展,將股票論壇、門戶文章等納入分析數據源中。并在功能方面為現在簡單的行情分析增加更多情緒維度。
“我們的股市情緒分析系統之所以能夠成功,有兩方面的原因。一是我們通過IBM的產品培訓很快就掌握了BigInsights的使用,它是非常容易學習、非常容易掌握的企業級產品。二是我們自己也很堅定地看好大數據的市場前景,所以我們在大數據領域不吝投入,深圳市政府也專門撥??钪С治覀冞M行大數據創新。未來我們對大數據還會有長期的投資策略。”時俊杰說。