劉 斌(興業證券股份有限公司, 福州 350001)
基于大數據分析和復雜事件處理的金融信息服務平臺①
劉 斌
(興業證券股份有限公司, 福州 350001)
針對大數據時代下金融信息服務滯后性、片面性、同質化的問題, 設計并實現了基于大數據分析和復雜事件處理的金融信息服務平臺. 該平臺采用多通道采集、淺層語義處理等技術實現多源數據的采集、抽取與清洗,采用面向金融領域特征的網絡觀點分析等技術進行數據分析, 為證券投資者、投資顧問及機構等三類用戶提供及時、精準、個性化的金融信息服務, 取得了良好的應用成效.
大數據分析; 復雜事件處理; 情緒分析; 數據采集; 金融信息服務平臺
大數據時代的金融信息呈現海量、異構等特點,廣大投資者或金融信息的使用人員無所適從. 因此,對金融信息服務在及時性、精準性、差異性等方面提出了更高的要求. 如:
① 金融信息的發布具有時間不確定、渠道多樣化、數量巨大等特點, 投資研究人員花費大量的時間在海量數據整理中, 無法專注于核心工作, 效率低下,希望有更高效的工具可以及時、系統地為其提供所關注方面的信息;
② 互聯網已經成為機構、上市公司以及投資者信息發布與獲取的重要渠道, 政策法規、公司公告、熱門事件、投資心得、自媒體等海量異構數據以及各種噪聲信息使得傳統的人工模式已很難從中精確地獲取最有價值的信息; 市場的一體化使得信息與事件不再孤立, 而傳統金融信息服務只是向客戶提供客觀資訊或事件, 缺乏關聯性的分析, 造成價值丟失. 對于廣大的投資者來說, 數據的分析與處理專業性強、條件復雜、門檻高、成本大;
③ 互聯網的開放性與隨意性使得金融信息更趨向同質化. 而投資者更關心的是與自身投資相關的金融信息、賬戶信息、資產變動等相對個性化的信息服務;證券公司等機構為了防止惡意及虛假的信息影響公司品牌形象, 防范輿論風險、市場風險, 需要更實時更全面發現對機構本身會產生影響的互聯網信息風險點.
本文基于上述金融信息服務的新要求, 設計并實現了基于大數據分析和復雜事件處理的金融信息服務平臺, 同時還展開介紹了數據采集、抽取和分析等關鍵技術, 并描述了系統的功能. 為三類用戶能提供精準、及時、個性化的金融信息服務, 取得了良好的應用效果.
2.1 系統架構設計
針對數據源多源異構、信息服務實時個性化的需求, 新一代金融信息服務平臺架構應達到如下要求:數據源方面, 能準確地獲取多源數據, 并能對結構化數據以及非結構化數據進行清洗并統一存儲; 在分析方面, 既能對海量歷史數據進行批處理, 也要能實時處理流數據; 在信息發布方面, 能針對不同的用戶實現統一、標準、及時的個性化信息發布. 系統在架構上主要從以下幾個方面進行分析與設計.
2.1.1 數據源方面
本平臺需要獲取的數據來源包含: 互聯網及社交媒體、金融資訊中心、客戶數據中心等. 互聯網數據主要涉及交易所、央行、證監會、主流財經網站等公告及新聞; 社交媒體包括微博、微信、股吧等; 金融資訊中心主要包括如個股行情、大盤指數、行業新聞、研究報告、公司信息、市場數據等; 客戶數據中心主要包含如客戶資料、持倉信息、交易流水、行為日志等.
2.1.2 信息處理方面
要實現對多數據源的采集、抽取和標準化, 并具備對多數據源協同分析的能力, 能從多個維度對海量異構數據進行實時處理分析. 要求本平臺具備有一個能實時處理信息的引擎, 實現對實時事件的處理, 提供有效的金融信息, 提升投資顧問和投資者及時準確掌握和利用市場信息的能力;
為滿足投資者對金融信息差異性的需求, 要求平臺能對投資者進行分類分析, 得到投資者的個性化需求, 才能針對性地投資者提供差異化的金融信息;
為提升數據價值, 滿足金融信息精準性的需求,要求平臺能對多源數據進行有效挖掘, 構建數據的分析模型, 如熱點主題、投資者情緒指數、股市預測等投資者感興趣的模型, 獲取數據的有效價值, 提升金融信息質量, 提升平臺服務水平等.
2.1.3 信息發布方面
為有效地將金融信息實時差異化地推送到投資者,需要本平臺能整合各信息發布終端, 打通各個渠道,實現金融信息的統一發布平臺, 為證券投資者及投資顧問提供全面及時的信息服務.
通過以上對系統架構的分析, 本文設計了基于大數據分析的金融信息服務平臺系統架構, 如圖1所示,主要包含數據獲取層、數據分析層和數據應用層.
2.2 系統實現
基于對系統架構的設計要求, 分別對系統的數據獲取層、數據分析層以及數據應用層進行實現.
2.2.1 數據獲取層
數據獲取層負責多源異構數據的快速獲取、清洗、存儲, 如圖2 所示. 通過“基于多通道技術”實現互聯網數據的分布式統一采集; 通過“基于淺層語義的網頁抽取技術”實現海量混雜數據的統一抽取與清洗;利用MySQL數據庫及HDFS分布式文件系統實現結構化、非結構化海量數據的存儲; 利用SolrCloud實現高效全文索引.

圖2 數據獲取
數據獲取包含傳統數據源和互聯網數據源的獲取.數據獲取是否正確直接影響后續的數據分析及應用.因而, 針對傳統數據源, 主要為內部數據, 在采集過程中通過內部數據校驗機制對采集的數據結果進行驗證審核; 針對互聯網數據源, 主要為外部數據, 通過定時監控結合人工審核的機制對獲取到的數據進行驗證, 從而保證了內外部數據獲取的準確性.
2.2.1.1 傳統數據獲取
針對傳統數據源, 主要是金融資訊中心和客戶數據中心的內部結構化數據, 采用傳統ETL工具, 從源端將數據采集到目標數據庫中.
2.2.1.2 互聯網數據獲取
針對互聯網數據源, 采用如下三個模塊實現數據獲取:
1) 互聯網采集模塊
利用網頁采集工具, 針對指定的頁面和主題進行采集, 并以網頁的形式下載到本地. 信息采集模塊是系統的基礎模塊, 所采集的網頁是后續模塊的輸入數據. 采集模塊應包括微博采集、門戶采集、公告采集,實現對微博數據、重要門戶網站數據以及公告新聞數據的采集.
2) 數據抽取模塊
對采集模塊得到的網頁進行清洗預處理, 去除頁面結構錯誤. 通過算法定位到抽取內容的標簽節點,抽取出標題、正文、時間等所需的信息, 將其存入數據庫并生成XML文件.
3) 索引模塊
對抽取得到的XML文件, 根據自定義的索引規則, 將XML文件信息進行關鍵字提取, 設置標簽, 然后將文件加入到索引庫中, 以供后續檢索與分析功能使用. 索引建立的過程, 類似于將數據進行關鍵字提取, 設置標簽, 在后續工作中, 可以通過這個標簽進行內容過濾獲取期望數據的操作. 歸結起來大致的過程為: 獲取數據?設置建立索引規則?建立索引?寫入磁盤/內存.
在互聯網數據獲取方面, 多源、異構數據的統一采集、抽取與清洗是該環節的關鍵點和難點, 本文采用“基于多通道主動采集技術”實現互聯網數據的分布式統一采集, 研發“基于淺層語義的網頁抽取技術”實現海量混雜數據的統一抽取與清洗.
2.2.1.3 基于多通道的主動采集技術該技術分為非常規采集和常規采集: 1) 非常規采集
非常規采集共分為四個部分: 任務分發器、Cookie生成器、主題與種子URL定制、非常規采集器, 如圖3.

圖3 非常規采集結構圖
任務分發器負責將需要采集的頁面及其相關信息整合, 并根據優先策略分發給微博采集器. Cookie生成器為后續的頁面下載模塊提供登錄Cookie, 是頁面下載模塊的基礎. 為了簡化使用的復雜性, 該模塊主要應用在系統部署時. 主題與種子URL定制模塊提供用戶設置采集目標的界面, 采集目標包括關鍵詞和用戶主頁的URL. 用戶可以通過Web用戶界面, 設置關鍵詞, 從而采集相關的內容, 也可以設置URL采集目標用戶發布的內容. 關鍵詞與URL均存放于后臺數據庫中. 非常規采集器提供頁面下載功能. 可供設置的內容包括采集間隔時間與每次采集并發線程數, 根據不同媒介、以及貸款設置相對合適的采集間隔時間與并發線程數. 主要面向系統部署人員, 以參數的形式輸入給程序. 程序將以在系統后臺運行. 在終端運行程序時輸入參數, 包括: 輸出目錄、采集間隔時間、并發線程數. 輸出目錄產生與關鍵詞和目標用戶主頁的頁面文件.
2) 常規采集
常規采集主要是指靜態網頁數據采集, 主要由網頁采集模塊、鏈接抽取模塊和鏈接判重模塊三部分組成. 靜態網頁數據采集是從一個初始鏈接對應的網頁開始采集該網頁的源代碼, 并且在保存網頁源代碼的同時, 不斷地從中抽取出新的鏈接. 程序重復上述過程, 直到滿足采集深度達到事先設定的值或者鏈接集合為空. 其系統流程圖如圖4所示.
網頁采集模塊實現獲取鏈接對應網頁源代碼, 并將網頁源代碼保存到文件中. 鏈接抽取模塊抽取網頁源代碼中的鏈接和對應的錨文本, 并保存鏈接和對應的錨文本信息在指定文件中. 鏈接判重模塊可以初始化一個集合, 可以往集合中添加鏈接元素, 并判斷某個鏈接是否在集合中.

圖4 靜態網頁數據采集系統流程圖
2.2.1.4 基于淺層語義的網頁抽取技術
基于淺層語義的網頁抽取技術主要分為長文本網頁抽取和短文本抽取:
1) 長文本抽取
長文本網頁抽取主要由四個模塊組成, 如圖5所示.

圖5 長文本網頁抽取模塊圖
預處理模塊對網頁源碼預處理, 過濾掉噪聲標簽節點并對網頁源碼中錯誤地方進行修正, 如標簽匹配錯誤等. 文本節點定位模塊根據預處理模塊提供的DOM樹結構, 通過計算節點文本密度, 在所述DOM樹中來定位正文區域. 文本節點抽取模塊根據文本節點定位模塊提供的正文標簽節點按照先序遍歷DOM樹結構中正文節點子樹, 抽取出遍歷過程中各節點的文本內容. 輸出模塊用于檢查抽取的文本是否符合條件, 將抽取好的正文和屬性作為輸出項存儲到數據庫和文件中.
2) 短文本抽取
短文本抽取即為多記錄網頁抽取, 主要由四個部分組成, 如圖6所示.

圖6 多記錄網頁抽取模塊圖
預處理模塊提供抽取過程所需的DOM樹結構.記錄區域定位模塊根據預處理模塊提供的DOM樹結構利用橫向層次分析法在DOM樹中來定位記錄區域.記錄分隔符識別模塊根據記錄區域定位模塊提供的記錄子樹利用雙向搜索方法從記錄區域塊中找到記錄之間的分隔符并進行存儲. 輸出模塊根據記錄區域定位模塊提供的記錄子樹和記錄分隔符識別模塊提供的分隔符先序遍歷記錄子樹并輸出到文件.
2.2.2 數據分析
數據獲取完畢后進行數據分析工作, 數據分析層包含大數據分析部分和復雜事件處理部分, 主要負責海量數據批處理及實時流數據分析.
2.2.2.1 大數據分析
在大數據分析方面, 采用“融合用戶觀點和用戶行為的證券應用技術”、“面向證券領域特征的網絡觀點分析技術”、“分/聚類技術”等主題分析、情緒分析以及投資者分析工作, 如圖7所示.

圖7 大數據分析
1) 主題分析
① 相關度分析: 根據用戶自定義的主題及主題關鍵字, 計算新聞與主題的相關度值, 并將相關度值高于閾值的新聞展示出來, 提供給用戶瀏覽.
② 股市預測: 根據社交媒介情感分析量化結果,感知市場情緒, 并構建股市預測模型, 預測股指判斷市場走勢.
③ 用戶行為特征分析: 在用戶登陸系統后, 通過對用戶顯式或隱式采集到的行為, 分析出用戶的行為特征, 并以此為依據, 將用戶可能感興趣的證券信息推薦給用戶.
2) 情緒分析
① 投資者情緒分析: 根據互聯網以及行業數據構建投資者情緒指數模型, 感知投資者情緒, 輔助投資決策.
② 社交媒介情感分析: 根據社交媒介用戶發表的內容以及社交關系, 對用戶發表的內容進行情感分析, 得到社交媒介對某一類事物的觀點傾向.
③ 傾向性分析: 根據新聞與主題關鍵字, 判斷該主題下新聞的傾向性, 并分別置為-1(負面), 0(客觀), 1(正面).
3) 投資者分析
① 投資者細分: 獲取投資者的行為數據進行分析, 建立投資者細分模型, 根據投資者的行為特征將投資者進行劃分.
② 投資者流失預測: 監測投資者的行為數據, 建立投資者流失預測模型, 識別投資者流失傾向.
通過上述的主題分析、情緒分析、投資者分析, 整合互聯網數據以及內部數據, 挖掘數據的有用信息,從而將其推送給用戶或投資顧問.
在數據分析中, 證券領域的情感量化是情緒分析的關鍵點. 本文采用基于異構圖模型的證券情感量化技術用以解決情感量化問題.
首先對要進行情感量化的文檔進行預處理, 然后基于證券傾向性文檔以及證券情感詞構建二分連接圖,計算證券情感詞的傾向性權重, 最后利用文檔的相關性得分以及傾向性得分根據概率模型計算文檔的情感得分. 該方法的核心關鍵是計算證券情感詞的權重,為了獲取證券領域的情感傾向, 在利用該方法進行帖子的情感量化時, 所基于的傾向性文檔集采用了證券領域帶有傾向性的文檔. 證券情感量化具體過程按如下步驟進行:
1) 預處理
對證券傾向性文檔進行預處理, 包括去除標點符號、網頁鏈接、表情符號、特殊符號等噪聲, 分詞, 去除停用詞.
2) 基于異構圖的證券情感詞賦權
為了獲取證券領域特定情感詞的權重, 在如下構建的二分連接圖中, 其傾向性文檔均采用帶有證券傾向性情感的文檔集合, 使用如下方法計算證券情感詞權重.
在由證券領域的傾向性文檔集和證券情感詞組成的二分連接圖, 如圖8所示.

圖8 傾向性文檔-傾向詞二分連接圖
根據式(1)和式(2)計算傾向性文檔和證券情感詞每步迭代的得分.

當連續兩步迭代的情感詞得分和傾向性文檔得分誤差小于某一閥值, 迭代計算結束, 得到最終的每個情感詞得分即為每個證券情感詞的傾向性權重.
3) 情感量化
根據式(3)計算傾向性得分, 結合傾向性得分并根據式(4)計算最終的情感得分.

2.2.2.2 復雜事件處理
復雜事件處理主要負責實時事件流的處理及不同事件實時關聯分析. 主要包括: 事件輸入、事件處理及事件響應三部分, 如圖9所示.
事件輸入來源包含大數據分析結果及實時數據流,數據覆蓋全面實時; 在事件處理部分, 研發可視化規則定義和基于EPL的事件模型定義,可以方便用戶自主定制事件模型及業務規則, 并利用熱切換技術實現模型在線發布; 在此基礎上, 根據業務需求研發針對客戶應用及員工應用的復雜事件處理模型集; 事件響應部分負責將事件處理的結果通過輸出適配器應用于客戶及員工系統.

圖9 復雜事件處理
復雜事件處理的基礎就是事件間的關系. 其中,事件之間的偏序由因果關系、時間關系決定, 而一個事件對一個事件集合的總結、代表或指示關系則是組合關系. 本平臺通過實時復雜事件引擎的搭建和多輸入多輸出個性化服務模型的構建實現復雜事件處理:
1) 實時復雜事件引擎的搭建
① 實現以事件驅動為核心的服務模式, 采用內存處理技術, 并通過索引化流事件查詢規則, 實現對實時流事件的高效分析;
② 結合企業服務總線實時事件發布(ADB)與復雜事件處理實現基于可變滑動窗口的靜態數據與實時事件關聯技術構建海量靜態數據的實時維護解決方案,提升了海量靜態數據處理的實時性;
③ 通過自定義標準化底層事件處理協定, 實現了事件的過濾、判重與取消, 降低了事件流的復雜度,提升了核心處理模塊的處理效率.
2) 多輸入多輸出個性化服務模型的構建
① 多源異構事件構成的復雜事件處理引擎的“多輸入”.
平臺通過事件適配層(IAF)對接EMS消息隊列接口, 訂閱不同來源實時發布的事件, 包含公司數據中心, 資訊中心, 以及大數據分析系統等. 目前系統定義的“多輸入”事件包含: 客戶特征數據(客戶關鍵時點事件、客戶風險偏好、客戶滿意度、客戶貢獻度等); 客戶行為數據(買賣流水、銀證轉賬流水、終端訪問日志);市場數據(實時行情特征數據、資訊數據等); 大數據分析結果(個股特征數據、市場熱點, 市場情緒分析等等數據). 這些“多輸入”事件在復雜事件引擎中被定義為一個元事件及其流監聽.
② 基于事件流關聯的復雜事件處理模型構建.
在上述“多輸入”的元事件基礎上, 可根據客戶訂單, 業務分析等方式, 定義出有特定意義的復合事件監聽模型.
2.2.3 數據應用層
在數據應用層, 通過企業服務總線(ESB)集成客戶信息、員工信息及統一消息服務, 為客戶及員工提供全面及時的信息服務, 如圖10所示.

圖10 數據應用
秉承SOA理念與企業的整體IT規劃, 遵循統一標準, 通過企業服務總線與各信息系統進行松耦合整合. 各系統包括大數據挖掘分析產生的事件通過企業服務總線進入復雜事件引擎, 經事件處理模型產生的結果事件也是通過ESB提供給各應用終端送達用戶.
平臺提供的數據應用按照用戶角度分為兩類:
1) 客戶類: 包括PC終端、移動終端、中臺、網上商城、短信、郵件平臺等與客戶服務相關的終端系統, 直接為終端客戶提供個性化的實時證券信息服務;
2) 員工類: 包括投資顧問平臺、機構CRM平臺、研究平臺等與員工工作平臺相關的終端系統, 為員工進行產品研究、市場分析、客戶服務等提供全面、及時、便捷的證券信息服務.
3.1 系統主要功能
本平臺主要為三類客戶提供金融信息, 如表1所示, 主要包含市場研判、即時資訊、風險監測、專題資訊、賬戶提醒、行情預警等六個方面的服務內容.

表1 資訊服務內容
為了保證金融信息服務的及時、精準、差異化的要求, 在信息獲取方面, 在數據源分類分級的基礎上,通過系統自動處理和人工審核相結合的運營機制保證信息的及時性和準確性; 在分析方面, 基于大量的歷史數據采用有效的挖掘分析方法進行訓練, 在投資者分析模型、投資者情緒指數、股市預測模型等構建方面在穩定性及預測精度方面均有較大提升; 在信息推送方面, 基于復雜事件處理技術, 結合投資者分析模型, 能夠實現金融信息流的即時、個性化的推送.
本平臺支持多種渠道為投資者、投資顧問及機構提供及時、個性化、精準的金融信息服務. 通過手機終端、微信公眾號等渠道為客戶提供個性化資訊服務;通過投顧工作平臺、機構CRM等員工工作平臺服務于公司投資顧問、資管產品經理、機構客戶經理、行業研究員等, 有效提升員工的金融信息服務能力; 通過專題資訊分析, 服務公司董秘處、中高層領導, 輔助公司管理決策, 維護品牌形象.
3.2 平臺特色及成效
金融信息服務平臺為解決互聯網數據因泛在分布、動態化、多樣化等特點而難以采集的問題, 研發了一套針對互聯網門戶、股吧、微博、微信等自媒體資訊的分布式統一采集平臺, 提高了采集精度. 為了實現在海量異構數據中分析和提煉準確有效的量化信息, 利用金融領域特征的網絡觀點分析、大數據文本挖掘等關鍵技術, 提升挖掘精度及數據價值. 同時構建實時個性化服務引擎提供實時差異化服務, 開創金融信息服務的實時處理新模式.
本平臺在上述特點的支撐下提供及時、精準、差異化的金融信息服務, 從而有效提升投資者服務體驗、提高員工專業服務能力、提升機構用戶的公司信息管理水平, 應用成效歸納如下:
① 差異化、高質量的金融信息服務有效提升了投資者服務體驗.
本平臺利用個性化推薦技術將用戶感興趣的金融信息精準地推送給用戶, 實現降低資訊服務通道成本的同時提升用戶體驗. 同時, 平臺通過綜合互聯網數據、市場交易數據、客戶數據等, 并基于大數據文本挖掘技術融合各類數據進行分析, 提供諸如投資者情緒指數、股市趨勢預判等大數據投資者服務信息, 不僅豐富了金融信息服務的內容, 同時提升了金融信息的質量.
②專業化的金融信息服務平臺有效提高了員工專業服務能力.
本平臺通過市場研判(熱點話題、熱點個股、股市趨勢預判等)、即時資訊、風險監測等服務, 將重要資訊信息以及相關提醒信息推送給服務人員, 輔助服務人員將及時、全面的金融信息服務提供給客戶, 不僅有助于提升服務人員的專業服務能力, 同時也提升了投資者服務質量, 為服務人員開展業務提供更有力的支持.
③ 專題資訊分析有助于提升機構用戶的公司信息管理水平.
本平臺通過同業動態、重大事件跟蹤等專題資訊分析模塊, 能及時全面地為公司管理決策、機構監管分析等提供參考, 有效提升互聯網時代下公司及監管部門等機構的信息管理水平, 防范市場風險, 提高管理決策能力.
綜上所述, 本金融信息服務平臺在資訊推送時效性上、內容質量上以及客戶服務體驗上均取得了不錯的應用成效, 在大數據時代的金融信息服務創新起到良好的示范作用, 具有較大的行業推廣價值.
本文立足于證券行業的金融信息服務需求, 實現了一個集多源異構數據采集、分析、處理及發布全流程的金融信息服務平臺. 該平臺基于大數據建立了個性化的行業資訊推送、投資者情緒指數、股市預測等關鍵分析模型, 可為投資者提供更為精準、個性化的金融信息服務. 本文提出的平臺架構及分析方法, 以證券投資信息服務為典型案例, 并取得較好的應用效果, 這種架構和分析方法還普遍適用于其他金融行業如銀行、保險、基金等.
1 Donovan S. Big data. Nature, 2008, 455(7209): 1–136.
2 程學旗,靳小龍,王元卓,等.大數據系統和分析技術綜述.軟件學報,2014,25(9):1889–1908.
3 Liao XW, Chen H, Wei JJ, et al. A weighted lexicon-based generative model for opinion retrieval. 2014 International Conference on Machine Learning and Cybernetics (ICMLC). IEEE. 2014, 2. 821–826.
Financial Information Service Platform Based on Big Data Analysis and Complex Event Processing
LIU Bin
(Industrial Securities Co. Ltd., Fuzhou 350001, China)
In view of the problems of lag, one-sided and homogeneous financial information service in big data era, this paper designs and implements a financial information service platform based on big data analysis and complex event processing. The multi-source data acquisition, extraction and cleaning are implemented by multi-channel data acquisition and shallow semantic processing technology on the platform. And the data is analyzed by the financial network sentiment analysis technology. The platform provides timely, accurate, personalized financial information services for securities investors, investment adviser and institutions and achieves good application results.
big data analysis; complex event processing; sentiment analysis; data acquisition; financial information service platform
2016-07-15;收到修改稿時間:2016-08-29
10.15888/j.cnki.csa.005706