999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于BIRCH大數據聚類方法在證券業的個性化服務

2016-11-08 10:20:20楓苑博趙文瑜馮必成侯
決策與信息 2016年27期

俞 楓苑 博趙文瑜馮必成侯 秦

基于BIRCH大數據聚類方法在證券業的個性化服務

俞 楓1苑 博2趙文瑜3馮必成4侯 秦5

本文以客戶細分、客戶聚類為切入點,為證券企業對客戶適當性服務與分類管理提供技術支持。第一,本文提出了一種適用于大數據集的組合聚類方法:BIRCH方法。其通過構建CF(聚類特征)樹層次,實現對數據的壓縮。第二,本文針對證券交易記錄數據,從年度換手率,年度持倉率,年度持股時長等的特征提取算法。通過記錄證券交易數據提取出可多方面描述客戶狀態的動態屬性,可增加證券企業對客戶的識別。并根據這些動態屬性進行聚類,其結果可為證券企業探求不同客戶的、最具偏好的針對性需求作支撐。

BIRCH方法;大數據;特征提取;證券交易

一、背景分析和問題提出

(一)背景分析

金融體制在中共“十八大”提出,將作為未來十年發展改革的重點。《中國大數據技術與產業發展白皮書(2013)》于2013年,中國計算機學會發布,其指出:“未來中國的金融企業將構建智慧型、智能型的數據分析體系,充分挖掘其中的規律,從而支持業務創新與服務創新。”我國各金融企業如今都制定了“十二五”發展規劃,其中,最核心的指導思想和目標是以科技引領創新。未來幾年,我國的金融行業在“大數據”時代下的轉型主要集中在三大方面:(1)、根據巴塞爾協議和第二代償付能力等的要求,建立全面的風險管理體制,向嚴監管轉型,“大數據”能夠加強風險的可審性和管理力度;(2)、企業管理模式從粗放式向精細化、集約化轉型,并且將信息化重點從業務信息化向管理信息化轉變。“大數據”能夠支持精細化管理;(3)、企業工作中心從“以利潤為中心”和“以保單為中心”向“以客戶為中心”轉型,“大數據”為服務創新提供“原料”支持,通過數據挖掘等技術可以更好地實現“以客戶為中心”理念,通過對客戶消費的行為模式進行分析,提高客戶轉化率,針對不同用戶開發不同的、與之匹配的產品,以滿足客戶個性化市場需求,從而實現差異化競爭。我國金融三大支柱產業中,證券行業是與“大數據”粘合度最高的支柱產業,憑借其較高的信息化起點和較快的業務發展速度,其現已實現了交易撮合、價格生成發布的自動化和集中化。隨著信息科技、互聯網等技術的發展,證券行業的信息系統在發布、交易、結算、信息披露、技術監控、信息咨詢與服務等方面已經逐漸完善。在“大數據”時代,互聯網金融模式不僅可以大幅度削減交易的成本,還可以降低信息挖掘處理的成本。此外,證券企業的客戶信息將逐漸成為新的資產和為客戶提供個性化服務的原材料。

(二)問題提出

如今,我國證券行業,正由規模、傭金等兩方面的競爭,逐步轉向以資訊、產品、交易渠道等三方面的服務競爭,這勢必將成為證券行業發展的大趨勢。并且,這對我國證券行業的競爭格局產生較為深遠的影響。這無疑對現有證券企業的管理體制是一次從頭到腳的顛覆式改革。客戶對證券企業的需求提升主要在信息資訊和投資咨詢兩方面體現。部分證券企業開始推出點對點服務、定期股評報告會等服務。但大多數證券企業推出新服務時,是以交易量為服務推出的動力源。

現在,證券行業已從傳統的新增客戶競爭,轉向定量客戶的鞏固和持續。盡管傭金仍成為客戶選擇證券企業的關鍵因素,但越來越多的客戶開始關注證券企業的個性化服務。

(三)本文主要研究內容及意義

第一,從“大數據時代”到來的關鍵要素的視角,闡述“證券業大數據”的由來,展示了業界和學術界內較為突出的“證券業大數據”研究成果和應用。并介紹“證券業大數據”的數據結構和數據特點。本文在聚類分析方法方面的主要研究對象是BIRCH方法。BIRCH方法是由Zhang、Ramakrishnan、Linvy提出的組合(多階段)層次聚類方法。BIRCH方法通過CF(聚類特征)來刻畫、概括一個簇,形成CF樹。CF樹可以在信息量沒有較多損失的前提下,“壓縮”聚類的層次結構。其次,再通過其它各類聚類方法對CF樹的葉結點進行聚類,把稀疏的簇當做異常點剔除,把稠密的簇合并成更大的簇。并將第二階段(宏聚類階段)的聚類結果還原到第一階段(微聚類階段)的輸入數據對象(觀測)上,從而實現完成的聚類分析。該方法具有伸縮性強、儲存空間小、抗異常數據干擾能力強等特點,且其在大數據集仍保持優良的有效性。在Zhang、Ramakrishnan、Linvy的基礎上,大多數學者對BIRCH方法的衍生研究主要集中于BIRCH微聚類階段:(1)閾值動態更新機制;(2)CF樹結點分裂技術(3)混合型屬性數據集處理。

二、BIRCH算法

(一)Birch算法的主要思想

Birch算法通過掃描數據庫,建立一個初始存放于內存中的聚類特征樹,然后對聚類特征樹的葉結點進行聚類。它的核心是聚類特征(CF)和聚類特征樹(CFTree)。CF是指三元組CF=(N,LS,SS),用來概括子簇信息,而不是存儲所有的數據點。其中:N:簇中D維點的數目;LS:N個點的線性和;SS:N個點的平方和。

在BIRCH算法中用到了兩個重要的知識:聚類特征(CF)和CF-Tree聚類特征CF是一個三元組,其中N表示子集內點的數目;和是與數據點同維度的向量,是線性和,是平方和。

(二)BIRCH算法的過程

把待分類的數據插入一棵樹中,并且原始數據都在葉子節點上。這棵樹看起來是這個樣子:

在這棵樹中有3種類型的節點:Nonleaf、Leaf、MinCluster,Root可能是一種Nonleaf,也可能是一種Leaf。所有的Leaf放入一個雙向鏈表中。每一個節點都包含一個CF值,CF是一個三元組是與數據點同維度的向量,是線性和,是平方和。

之后是插入過程,插入是從CF-Tree根節點開始的

(1)從數據庫中讀取第一條數據,用這條數據構造一個葉子節點和一個子簇,子簇就包含在葉子節點中

(2)當讀到后面的第2,第3條數據時,需要加入判斷,這個時候就要用到關鍵的參數B和T,如果新插入的這條數據符合已經存在的葉子節點,則將他封裝為一個簇,加入到該葉子節點中,這里判斷符合不符合的標準就是根據閾值T判斷的,如果加入該葉子節點使得半徑超過T,則需要新建簇作為該節點的兄弟節點,如果作為兄弟節點,其葉子節點的孩子節點超過B,則需要對葉子節點進行分裂,分裂的規則是選出簇間距離最大的二個孩子,分別作為二個葉子,然后其他的孩子按照就近分配。非葉子節點的分裂規則同上。

(3)最終的構造模樣大致如此:

簇中心、簇半徑、簇直徑以及兩簇之間的距離D0到D3都可以由CF來計算:

這里的N,LS和SS是指兩簇合并后大簇的N,LS和SS。所謂兩簇合并只需要兩個對應的CF相加那可

CF1+CF2=(N1+N2,LS1+LS2,SS1+SS2)

每個節點的CF值就是其所有孩子節點CF值之和,以每個節點為根節點的子樹都可以看成是一個簇。

Nonleaf、Leaf、MinCluster都是有大小限制的,Nonleaf的孩子節點不能超過B個,Leaf最多只能有L個MinCluster,而一個MinCluster的直徑不能超過T。

(三)算法流程

BIRCH算法流程分為四個階段,如下圖所示:

三、基于BIRCH算法的證券客戶細分

基于BIRCH算法的證券客戶細分,在我國證券行業發展的初期,證券市場一直是個“買方’市場。這意味著客戶主動找證券企業來尋求投資,而不需要證券企業去挖掘客戶。這是造成證券企業不重視客戶服務的原因之一。隨著我國證券市場的發展,證券企業不斷涌現,導致了證券企業之間相互競爭客戶資源的現象。而我國證券市場也逐步由一個“買方”市場逐步轉入到了一個“賣方”市場,這意味著證券行業在與證券市場協調發展的同時,隨著證券市場不斷規范和成熟,逐漸從粗放式管理向精細化、集約化管理轉變。此外,證券企業間的競爭程度也受市場行情影響。

本文主要討論客戶年度換手率,客戶年度持倉率,客戶年度持股時長,客戶年度資金流動率。

(一)客戶年度換手率的特征提取

客戶年度換手率是指客戶在該年度進行股票投資時交易金額占可支配金額的平均比例。本文用中位數作為集中趨勢的代表,避免了異常數據的干擾。具體算法思路如下:算法:年度換手率輸入:D:(各個對象、數據集)。輸出:各個對象的年度換手率。方法:(1)將D按客戶編號排序,將客戶編號一致的對象提取出,并合成子集D;(2)REPEAT;(3)在第i個子集中,將交易日期先后順序排序,在同一日期的對象里,再按交易序號先后排序;(4)根據交易類型,選出交易類型是買入股票的對象;(5)計算所選出的每個對象換手率=買入金額/(買入股票+后資金額);(6)在所選出的每個對象的換手率中,取換手率的中位數作為年度換手率。

(二)客戶年度持倉率的特征提取

客戶年度持倉率是指客戶在該年度月末平均持倉率。其中,月末平均持倉率為月末持有股票資產占月末總資產的比例。本文用中位數作為集中趨勢的代表,避免了異常數據的干擾。具體算法思路如下:算法:年度持倉率輸入:D:(各個對象、數據集)。輸出:各個對象的年度換手率。方法:(1)將D按客戶編號排序,將客戶編號一致的對象提取出,并合成子集D;(2)REPEAT;(3)在第i個子集中,將交易日期先后順序排序,在同一日期的對象里,再按交易序號先后排序;(4)按交易日期,對象提取出來,并生成第k個子子集;(5)REPEAT;(6)按交易日期,生成第i個子子子集DIKi(i=1,2,…,12);(7)根據交易類型,選出交易類型是買入的對象;(8)計算交易類型是買入的所有對象的股數A的∑A。

(三)客戶年度持股時長的特征提取

客戶年度持股時長是指客戶在該年度所賣出的股票的平均持有時間長度。本文用中位數作為集中趨勢的代表,避免了異常數據的干擾。具體算法思路如下:算法:年度持股時長輸入:D:(各個對象、數據集)。輸出:各個對象的年度換手率。方法:(1)將D按客戶編號排序,將客戶編號一致的對象提取出,并合成子集d;(2)REPEAT;(3)在第i個子集中,將交易日期先后順序排序,在同一日期的對象里,再按交易序號先后排序;(4)按交易日期,對象提取出來,并生成第j個子子集DIK(j=1,2,…,9);(5)根據交易類型,選出交易類型是買的對象;(6)客戶的年度持股時長為各證券編號股票上的持股時長的中位數;(7)UNTIL所有年份的子子集計算結束;(8)UNTIL所有客戶子集計算結束。

(四)客戶年度資金流動率的特征提取

客戶年度資金流動率是指客戶在該年度資金流入、流出次數之和占交易總次數的比例。具體算法思路如下:算法:年度資金流動率輸入:D:(各個對象、數據集)。輸出:各個對象的年度換手率。方法:(1)將D按客戶編號排序,將客戶編號一致的對象提取出,并合成子集D;(2)REPEAT;(3)在第i個子集中,將交易日期先后順序排序,在同一日期的對象里,再按交易序號先后排序;(4)計算對象個數n1;(5)根據交易類型,選出交易類型是資金流入的對象;(6)計算交易類型是資金流入的對象個數n2;(7)IF n2=0,THEN該年度資金流動率直接輸入0;(8)根據交易類型,選出交易類型是資金流出的對象;(9)計算交易類型是資金流入的對象個數n3;(10)年度資金流動率=(n2+n3)/n1;(11)REPEAT所有年份子子集計算結束;(12)REPEAT所有客戶子集計算結束。

[1]曾曉迪.一種基于 K-mediods 改進 BIRCH 的大數據聚類方法 2015.學位論文

[2]曾曉迪,石磊,李興奇.基于非結構化數據的金融大數據分析方法介紹[J].泛亞金融.2014 年 11 月(創刊號):91-99.

[3]曾曉迪.基于灰色理論的區域宜居性模糊綜合評價:以上海市交通便捷和區域宜居分析為例[J].云南財經大學研究生學刊,2014年第 1 期:91-109.

[4]王園.證券業客戶細分模型構建及實證研究[J].上海管理科學,2012,34(2):30-35.

[5]劉靜.基于數據挖掘的證券公司客戶細分及其應用研究[D].同濟大學,2008.

[6]李君鋒.數據挖掘在證券業 CRM 中的應用研究[D].西安電子科技大學,2009.

[7]張效嚴,齊春瑩.基于數據挖掘技術的證券客戶分析系統[J].計算機應用,2008,28,369-375.

[8]陳農心,張效嚴.數據掘技術在證券分析系統的應用研究[J].計算機仿真,2010,27(10),301-305.

[9]熊淑華.數據挖掘技術在證券業 CRM 中的應用研究[D].南昌大學,2008.

[10]王圣明.數據挖掘在證券行業的應用[D].浙江工商大學,2008.

俞楓 男,1969年出生,上海國泰君安信息技術部經理,教授級高級工程師

苑博 男,1982年出生,上海國泰君安信息技術部大數據平臺總監

趙文瑜 男,1966年出生,上海華東理工大學金融大數據聯合研究中心

馮必成 男,1976年出生,上海華騰軟件系統有限公司技術研發總監,高級工程師

侯秦 女,1969年出生,上海華騰軟件系統有限公司市場主管,工程師

主站蜘蛛池模板: 免费人成网站在线高清| 免费毛片全部不收费的| 国产综合精品日本亚洲777| 精品久久蜜桃| 国产高清在线丝袜精品一区| 国产精品蜜芽在线观看| 国产成人免费视频精品一区二区| 久久国产精品影院| 99热这里只有精品国产99| 国产91视频观看| 亚洲v日韩v欧美在线观看| 99re热精品视频中文字幕不卡| 国产性生交xxxxx免费| 欧美激情网址| 欧美A级V片在线观看| 国产sm重味一区二区三区| 久久中文字幕2021精品| 青青青伊人色综合久久| 2021无码专区人妻系列日韩| 国产精品短篇二区| 亚洲天堂首页| 欧美在线网| 国产日韩精品欧美一区喷| 2021国产精品自拍| 天天躁狠狠躁| 999精品视频在线| 国产肉感大码AV无码| 亚洲IV视频免费在线光看| 亚洲婷婷丁香| 国产95在线 | 亚洲综合婷婷激情| 国产日韩欧美一区二区三区在线 | 最新国语自产精品视频在| 麻豆精品在线播放| 国产一区二区丝袜高跟鞋| 在线国产91| 亚洲精品在线影院| 国产黄在线观看| 久久精品人人做人人爽| 一本大道香蕉高清久久| 国产XXXX做受性欧美88| 午夜精品一区二区蜜桃| 一级片免费网站| 中文字幕久久精品波多野结| 久无码久无码av无码| 一本大道无码高清| 国产成人精品免费av| 亚洲成av人无码综合在线观看| 97精品国产高清久久久久蜜芽| 成人中文在线| 国产青青操| 国产真实乱人视频| 91在线播放免费不卡无毒| 成年人视频一区二区| 亚洲天堂在线免费| 欧美成人免费一区在线播放| 亚洲国产成人精品一二区| 欧美激情二区三区| 国产精品天干天干在线观看| 国产99免费视频| 天堂va亚洲va欧美va国产| 毛片免费观看视频| 农村乱人伦一区二区| 国产欧美日韩精品综合在线| h视频在线观看网站| 亚洲女同欧美在线| 欧美成a人片在线观看| 欧美乱妇高清无乱码免费| 精品伊人久久久香线蕉| 亚洲国产精品不卡在线| 国产在线精品人成导航| 久久精品丝袜| 久久综合亚洲色一区二区三区| 国产区91| 91精品福利自产拍在线观看| 欧洲亚洲一区| 99久久精品无码专区免费| 亚洲成人www| 国产精品伦视频观看免费| 爽爽影院十八禁在线观看| 国产亚洲日韩av在线| 日韩精品一区二区深田咏美|