李 芳,郭進(jìn)利,譚利明
(上海理工大學(xué)管理學(xué)院,上海 200093)
數(shù)據(jù)挖掘(Data Mining,DM)是一項(xiàng)從大量數(shù)據(jù)中揭示潛在價(jià)值信息、發(fā)現(xiàn)潛在規(guī)則的技術(shù),即數(shù)據(jù)庫(kù)中的知識(shí)發(fā)現(xiàn)(Knowledge Discovery in Database,KDD)[1]。雖然許多數(shù)據(jù)挖掘算法提出并應(yīng)用,但關(guān)聯(lián)規(guī)則挖掘一直是數(shù)據(jù)挖掘的研究熱點(diǎn),因其廣泛的適用性而備受學(xué)者關(guān)注。關(guān)聯(lián)規(guī)則挖掘以尋找事物之間隱藏的關(guān)系為目的,如啤酒和尿布案例:啤酒和尿布看似沒有因果關(guān)系,但通過(guò)對(duì)大量購(gòu)物數(shù)據(jù)進(jìn)行關(guān)聯(lián)分析,發(fā)現(xiàn)很多男性會(huì)在購(gòu)買尿布時(shí)購(gòu)買啤酒。因此,本文擬采用關(guān)聯(lián)規(guī)則中的Apriori 算法挖掘金融行業(yè)的股東關(guān)聯(lián)規(guī)則。
關(guān)聯(lián)規(guī)則最早由Agrawal 等[2]提出,是用于從大量原始數(shù)據(jù)中挖掘令人感興趣的規(guī)則的方法,是近年數(shù)據(jù)挖掘研究方向之一。Chen 等[3]給出一種改進(jìn)的關(guān)聯(lián)規(guī)則Apri?ori 算法,用于挖掘大學(xué)科研項(xiàng)目數(shù)據(jù);Yang 等[4]提出一種多級(jí)關(guān)聯(lián)規(guī)則挖掘算法,用于發(fā)現(xiàn)具有多級(jí)抽象的數(shù)據(jù)元素之間的隱藏關(guān)系;和征等[5]基于產(chǎn)品服務(wù)融合的創(chuàng)新方法,采用關(guān)聯(lián)規(guī)則算法識(shí)別能夠進(jìn)行融合的產(chǎn)品或服務(wù)模塊;單汨源等[6]從行業(yè)供應(yīng)鏈視角,利用Apriori 算法挖掘鋼鐵和醫(yī)藥行業(yè)上市公司信用風(fēng)險(xiǎn)傳染的關(guān)聯(lián)規(guī)則;崔冬梅[7]構(gòu)建電信增值業(yè)務(wù)交叉銷售模型,運(yùn)用數(shù)據(jù)挖掘技術(shù)得出6 條規(guī)則集;林穎華等[8]基于關(guān)聯(lián)規(guī)則交互挖掘構(gòu)建企業(yè)財(cái)務(wù)風(fēng)險(xiǎn)分析模型,挖掘財(cái)務(wù)指標(biāo)間規(guī)律;伏蘭蘭等[9]基于商品價(jià)格構(gòu)建單維與二維關(guān)聯(lián)規(guī)則模型,分別挖掘出商品價(jià)格之間的強(qiáng)關(guān)聯(lián)規(guī)則;李春青[10]運(yùn)用Apriori 算法對(duì)高校就業(yè)數(shù)據(jù)進(jìn)行關(guān)聯(lián)規(guī)則分析,挖掘出學(xué)生個(gè)人信息與就業(yè)單位性質(zhì)之間的隱含關(guān)聯(lián)關(guān)系;郭曉鴿等[11]運(yùn)用關(guān)聯(lián)規(guī)則對(duì)稅收數(shù)據(jù)之間的相關(guān)關(guān)系進(jìn)行挖掘,建立識(shí)別逃稅路徑;李海林等[12]將關(guān)聯(lián)規(guī)則算法應(yīng)用于分析期刊論文參考文獻(xiàn),挖掘出參考文獻(xiàn)在引用過(guò)程中隱藏的關(guān)聯(lián)規(guī)則;董曉芳等[13]運(yùn)用關(guān)聯(lián)規(guī)則算法對(duì)21 種概念板塊進(jìn)行分析,證實(shí)長(zhǎng)期概念板塊指數(shù)之間的輪動(dòng);李鐵軍等[14]對(duì)微博評(píng)論行為進(jìn)行關(guān)聯(lián)規(guī)則挖掘,構(gòu)建基于情感加權(quán)關(guān)聯(lián)規(guī)則的微博推薦模型。
通過(guò)對(duì)已有文獻(xiàn)歸納,發(fā)現(xiàn)國(guó)外文獻(xiàn)對(duì)關(guān)聯(lián)規(guī)則的研究比較早,國(guó)內(nèi)近年才有大量相關(guān)研究。關(guān)聯(lián)規(guī)則應(yīng)用領(lǐng)域非常廣,尤其在經(jīng)管領(lǐng)域取得了很多成果,但還沒有學(xué)者對(duì)企業(yè)的大股東進(jìn)行關(guān)聯(lián)分析。因此,本文以金融行業(yè)為例,基于數(shù)據(jù)挖掘—關(guān)聯(lián)規(guī)則的Apriori 算法對(duì)上市公司大股東進(jìn)行分析,以挖掘該行業(yè)企業(yè)股東之間的投資關(guān)聯(lián)及規(guī)律。
Apriori 算法是關(guān)聯(lián)規(guī)則挖掘最基本算法,其核心是兩階段頻集思想的遞推算法[15]。Apriori 算法主要包括尋找頻繁項(xiàng)集與探索關(guān)聯(lián)規(guī)則兩方面內(nèi)容。Apriori 算法實(shí)現(xiàn)過(guò)程中最基本的概念是支持度與置信度,尋找頻繁項(xiàng)集用支持度,確定關(guān)聯(lián)規(guī)則用置信度。
支持度表示項(xiàng)集發(fā)生的概率,即數(shù)據(jù)集中包含該項(xiàng)集的記錄個(gè)數(shù)在全體數(shù)據(jù)樣本中所占的比例,如項(xiàng)集X、Y 同時(shí)發(fā)生的概率,為包含X、Y 的項(xiàng)數(shù)與所有項(xiàng)數(shù)之比:

置信度表示規(guī)則的可信程度,即一個(gè)數(shù)據(jù)出現(xiàn)后另一個(gè)數(shù)據(jù)出現(xiàn)的概率,也即數(shù)據(jù)的條件概率。如項(xiàng)集X 發(fā)生Y 也發(fā)生的概率,為包含X、Y 的項(xiàng)數(shù)與所有包含X 的項(xiàng)數(shù)之比:

頻繁項(xiàng)集簡(jiǎn)稱頻集,是所有支持度大于支持度閾值的項(xiàng)集。
在執(zhí)行算法前,用戶自己設(shè)定合適的支持度和置信度閾值。每次迭代后,項(xiàng)集的支持度大于支持度閾值的項(xiàng)集被保留下來(lái),稱為頻繁項(xiàng)集,最終的頻繁項(xiàng)集生成關(guān)聯(lián)規(guī)則。最小支持度是衡量支持度的閾值,表示項(xiàng)集最低重要性;最小置信度是衡量置信度閾值,表示關(guān)聯(lián)規(guī)則的最低可靠性,強(qiáng)關(guān)聯(lián)規(guī)則表示同時(shí)滿足最小支持度閾值和最小置信度閾值規(guī)則。
(1)尋找頻繁項(xiàng)集,即項(xiàng)集出現(xiàn)的頻繁性大于支持度閾值的項(xiàng)集。
(2)頻繁項(xiàng)集產(chǎn)生強(qiáng)關(guān)聯(lián)規(guī)則,這些規(guī)則的支持度和置信度應(yīng)滿足大于所設(shè)定的閾值。
(3)使用第(1)步找到的頻繁項(xiàng)集產(chǎn)生期望規(guī)則,產(chǎn)生只包含集合項(xiàng)的所有規(guī)則,其中每一條規(guī)則右部只有一項(xiàng),采用規(guī)則定義。
(4)一旦這些規(guī)則生成,只有那些滿足大于用戶給定的置信度規(guī)則才被留下。對(duì)候選集中的非頻繁項(xiàng)集進(jìn)行剪枝去掉。運(yùn)用遞推方法生成所有頻繁項(xiàng)集。
Apriori 算法實(shí)現(xiàn)流程如圖1 所示[16]。

Fig.1 Apriori algorithm flow圖1 Apriori 算法流程
本文選取的研究樣本是上證A 股金融行業(yè)公司股東,數(shù)據(jù)來(lái)源于Wind 數(shù)據(jù)庫(kù),日期更新截至2020 年3 月,經(jīng)篩選企業(yè)共計(jì)73 家,導(dǎo)出這73 家上市公司持股前10 名股東,股東不足10 名的以實(shí)際數(shù)為主,經(jīng)處理后該行業(yè)共涉及445 個(gè)不同股東。借助Python 語(yǔ)言結(jié)合Apriori 算法思想編寫程序,對(duì)數(shù)據(jù)進(jìn)行處理,對(duì)金融行業(yè)公司大股東進(jìn)行關(guān)聯(lián)分析研究。
研究的數(shù)據(jù)庫(kù)共計(jì)73 條事務(wù),涉及445 個(gè)不同項(xiàng)目,可見項(xiàng)目較分散。選擇較小的支持度和置信度進(jìn)行嘗試,以尋找適合該研究的最小支持度和置信度。將支持度閾值設(shè)為5%,置信度閾值設(shè)為50%,經(jīng)Python 初步處理后得到表1。

Table 1 Statistics of preliminary processing results表1 初步處理結(jié)果統(tǒng)計(jì)
執(zhí)行Apriori 算法Python 程序后,得到頻繁一項(xiàng)集13個(gè),頻繁二項(xiàng)集19 個(gè),頻繁三項(xiàng)集14 個(gè),在此基礎(chǔ)上共挖掘出74 條關(guān)聯(lián)規(guī)則。關(guān)聯(lián)規(guī)則個(gè)數(shù)過(guò)多可能無(wú)法捕捉到最有價(jià)值規(guī)則信息,因此需要調(diào)高閾值以挖掘出更加有效的關(guān)聯(lián)規(guī)律。通過(guò)分析將支持度閾值設(shè)為10%,置信度閾值設(shè)為70%,對(duì)數(shù)據(jù)再次處理。

Table 2 Frequent itemsets and their support表2 頻繁項(xiàng)集及支持度
對(duì)數(shù)據(jù)處理后得到該事物數(shù)據(jù)庫(kù)的頻繁項(xiàng)集如表2所示。頻繁項(xiàng)集共涉及4 家公司(股東):中國(guó)證券金融股份有限公司、香港中央結(jié)算有限公司(陸股通)、香港中央結(jié)算(代理人)有限公司、中央?yún)R金資產(chǎn)管理有限責(zé)任公司,單項(xiàng)支持度分別為43.84%,38.36%,36.99%,26.03%。頻繁一項(xiàng)集有4 個(gè),頻繁二項(xiàng)集有6 個(gè),頻繁三項(xiàng)集有4個(gè),其項(xiàng)集支持度如表2 所示。
中國(guó)證券金融股份有限公司為上交所、深交所和中國(guó)證券登記結(jié)算有限責(zé)任公司共同發(fā)起設(shè)立的證券類金融機(jī)構(gòu)。香港中央結(jié)算有限公司是港交所的附屬公司,投資者將股份集中存放在該公司,香港中央結(jié)算(代理人)有限公司代理的H 股股東股份總和為其所持有的股份,股份權(quán)益仍舊歸屬投資者本身所擁有;香港中央結(jié)算有限公司(陸股通)指外資通過(guò)滬港交易所/深港交易所互聯(lián)通道買賣上海股票/深圳股票。中央?yún)R金投資有限責(zé)任公司是國(guó)家出資設(shè)立的國(guó)有獨(dú)資公司,行使對(duì)國(guó)有商業(yè)銀行等重點(diǎn)金融企業(yè)出資人的權(quán)利和義務(wù),對(duì)4 家證券公司、6 家商業(yè)銀行、2 家保險(xiǎn)公司和4 家其它機(jī)構(gòu)直接控股參股??梢姡壳敖鹑谛袠I(yè)主要由這4 家公司(股東)控制。
在找出頻繁項(xiàng)集基礎(chǔ)上對(duì)數(shù)據(jù)進(jìn)行關(guān)聯(lián)規(guī)則分析,再次執(zhí)行Python 關(guān)聯(lián)規(guī)則挖掘算法,處理結(jié)果如表3 所示。

Table 3 Association rules and confidence表3 關(guān)聯(lián)規(guī)則及置信度
本文將關(guān)聯(lián)規(guī)則置信度閾值設(shè)為75%,通過(guò)關(guān)聯(lián)規(guī)則挖掘得到12 條相關(guān)系數(shù)大于75% 的強(qiáng)關(guān)聯(lián)規(guī)則,主要涵蓋4 家公司(股東),如香港中央結(jié)算(代理人)有限公司、中央?yún)R金資產(chǎn)管理有限責(zé)任公司共同投資某金融企業(yè)時(shí),中國(guó)證券金融股份有限公司及香港中央結(jié)算有限公司(陸股通)投資可能性均達(dá)100%;香港中央結(jié)算有限公司(陸股通)、中央?yún)R金資產(chǎn)管理有限責(zé)任公司共同投資某金融企業(yè)時(shí),中國(guó)證券金融股份有限公司投資可能性達(dá)100%;香港中央結(jié)算(代理人)有限公司、香港中央結(jié)算有限公司(陸股通)共同投資某金融企業(yè)時(shí),中國(guó)證券金融股份有限公司投資可能性達(dá)92.86%;中國(guó)證券金融股份有限公司、中央?yún)R金資產(chǎn)管理有限責(zé)任公司共同投資某金融企業(yè)時(shí),香港中央結(jié)算有限公司(陸股通)投資可能性達(dá)88.89%;中央?yún)R金資產(chǎn)管理有限責(zé)任公司投資時(shí),中國(guó)證券金融股份有限公司有94.74% 的概率投資,香港中央結(jié)算有限公司(陸股通)有84.21% 的概率投資;中央?yún)R金資產(chǎn)管理有限責(zé)任公司投資時(shí),中國(guó)證券金融股份有限公司和香港中央結(jié)算有限公司(陸股通)同時(shí)投資概率100% 等。
基于數(shù)據(jù)挖掘中的關(guān)聯(lián)分析,本文對(duì)上證A 股金融行業(yè)公司股東進(jìn)行了實(shí)證研究,結(jié)果發(fā)現(xiàn):金融行業(yè)主要的控股股東是香港中央結(jié)算(代理人)有限公司、中國(guó)證券金融股份有限公司、香港中央結(jié)算有限公司(陸股通)、中央?yún)R金資產(chǎn)管理有限責(zé)任公司,4 家公司(股東)在投資企業(yè)時(shí)存在一定的關(guān)聯(lián)規(guī)律。本研究拓展了數(shù)據(jù)挖掘—關(guān)聯(lián)分析在經(jīng)管領(lǐng)域的應(yīng)用,但經(jīng)典的Apriori 算法在產(chǎn)生關(guān)聯(lián)規(guī)則時(shí)會(huì)生成大量的規(guī)則集,效率不高,同時(shí)本文只對(duì)上證A 股金融行業(yè)公司進(jìn)行分析,樣本選擇存在一定局限性,后續(xù)研究將在這兩方面進(jìn)行改進(jìn)和完善。