Gerard Francis
數據、機器學習和自然語言處理這三大因素正在相互融合,從根本上改變全球資本市場投資者獲取、使用和分析可用信息的方式。
● 在數據更加易于獲取、更加多樣化但也更缺乏關聯的背景下,金融信息正在重塑投資策略
● 機器學習成為引領金融業未來發展的力量,為投資者提供更快、更明智、更精確的市場分析
● 通過即用數據可以實現流程自動化、制定新的交易策略和捕捉投資信號
金融業正在經歷前所未見的科技突破,而數據是支撐行業快速轉型的基礎。如今,決策者可獲取的數據無論在數量、復雜程度和多樣性方面都呈指數級增長,但這些數據也變得更缺乏關聯性。根據IBM統計,當今世界90%數據是在過去兩年中生成的。
數據(與另類數據)、機器學習與自然語言處理這三大因素正在相互融合,這一趨勢從根本上改變了全球資本市場投資者獲取、使用和分析可用信息的方式,也正在重塑投資機構的交易策略以及他們辨別商業信息的方法。
處理數據的挑戰——更加多樣化但更欠關聯性
金融機構的數據池十分龐大但同時很零碎,它不僅僅包括大多數人熟悉的財報、證券價格等基本面數據,還包括業務流程生成的數據(如:商業交易)、機器生成的數據(如:衛星信息)以及非傳統來源的數據(如:社交媒體)。
越來越多投資者選擇采用另類數據集,借助創新技術專注于發現有用的投資信號以捕捉超額收益。如今,投資者不但要了解證券定價與財務表現,還要分析外部圖像、供應鏈信息、ESG因素乃至社交媒體輿情。
金融業不斷產生海量數據,彭博每天收到的市場數據信息多達1千億條,另外還從12.5萬個新聞來源接收200萬篇新聞報道。我們通過機器學習算法和自然語言處理打造的預測分析工具,可以快速檢閱所有信息,篩選出對投資者最為重要的信息。
今天,市場參與者與金融機構面臨的最大挑戰是如何識別有用的數據、如何確保收集的數據具有高質量、連貫性、關聯性和即用性,以及如何快速分析這些數據從而做出正確的關鍵決策。
即用數據賦能自動化
數據的爆發性增長僅僅是變革與復雜性的基礎驅動力。考慮到所面臨任務的艱巨程度,毫不意外地許多金融機構都借助科技將處理流程自動化,以更高效地管理好數據,并借此生成超額收益。
機器學習在這些技術之中快速脫穎而出。自然語言處理和數據采集的進步正在推動電子交易執行平臺的交易自動化;多家機構選擇借助大數據與機器學習預測客戶需求與價格波動。
以買方機構為例,對沖基金與資產管理公司可使用預測分析工具,基于市場流動性評估風險。隨著更多的工作流程自動化,專業金融人士將更多的注意力放在注重認知能力的工作上,包括策略和投資組合篩選以及投資理論制定。他們試圖通過這樣的方式解決金融領域的眾多問題,打造更優良的信息系統支持交易和客戶溝通工作。
彭博最近在悉尼、新加坡、東京和孟買舉行了以“解碼機器學習”為主題的研討會,發現多數專業人士已經開始利用機器學習發現投資信號和因子,優化執行策略以提高交易效率。在上述四個亞太市場當中,日本在將機器學習應用于交易模型方面最為先進,在投資策略中利用的數據也是最為多樣化。有鑒于此,我們正在加速投入以發掘機器學習的潛力。
高質量數據在機器學習時代至關重要
15年前,金融信息與數據行業向電子交易轉型,隨后又發展出了高頻交易和算法交易。今天,我們正在步入機器學習與人工智能的信息時代,數據賦能自動化、創新交易策略,并發掘前所未有的洞察。
在機器學習時代,金融數據與信息將更加豐富,而且也更加可測和更具條理。彭博作為領先的金融信息公司,將數據標準化為“整潔格式”(tidy formats),通過提供標準化歷史數據使分析變得更加容易,從而提升效率也更便于互相參考。
我們新推出的數據接入平臺網站——彭博企業數據接入站點(BEAP)通過便于操作、易于建模和可視化的方式,幫助客戶探索大批量數據集并與之互動。最近,我們還向BEAP增加了20多套另類數據集,來源同時包括彭博和市場領先的另類數據提供商,內容涵蓋金屬存貨洞察、股票相關博客情緒、藥品審批、消費人流量和停車場數據、建筑許可、地緣政治風險以及APP使用率等。 投資機構希望可以靈活應用這些數據,所以我們正努力做到何時何地都能夠遞送數據。數據將成為一種服務,而未來的平臺會更加輕量化且具有移動性。
機器學習從本質上說是由數據驅動的,投資者應用機器學習可以快速掌握紛繁復雜的關系;從而應對之前因為受制于數據之間的復雜關系、問題的復雜性,以及數據或計算資源的可獲得性而無從入手的問題。
科技日益進步的今天,讓機器學習發揮更大價值需要高質量、互相關聯并可付諸應用的數據。在機器學習時代,能夠領悟這一點,并有效執行數據驅動策略的機構將成為最終贏家。
(作者Gerard Francis是彭博企業數據業務全球負責人)