(貴州大學 數(shù)學與統(tǒng)計學院,貴州省博弈決策與控制系統(tǒng)重點實驗室,貴陽,550025)
高送轉(zhuǎn)股票是指上市公司高比例送紅股或者高比例轉(zhuǎn)贈股票的簡稱,一般市場送轉(zhuǎn)比例超過0.5(包括0.5)被認為是高送轉(zhuǎn).高送轉(zhuǎn)本質(zhì)上是股東權益的內(nèi)部結(jié)構(gòu)調(diào)整,無論是送紅股還是轉(zhuǎn)增股票都是將資金轉(zhuǎn)化成股票的形式發(fā)放給投資者,對公司的盈利能力沒有任何實質(zhì)性影響,所以也并不會改變公司總市值.一些研究表明,高送轉(zhuǎn)預案公告前后均存在顯著的超額收益率[1-5].所以對投資者而言,如果能提前預知上市公司是否高送轉(zhuǎn),不僅能享受除權前的超額收益,還能從除權后的填權行情中獲利.因此能準確預測可能實施高送轉(zhuǎn)的公司對投資者來說有著重大意義.
對于高送轉(zhuǎn)預測問題,許多學者已有了相應的研究.熊義明等(2012)[6]將不同送轉(zhuǎn)理論納入logistic回歸模型.送轉(zhuǎn)理論中包含的變量有股價、股本、每股積累、每股收益、凈利潤增速、市值賬面比、是否次新股、上年是否高送轉(zhuǎn)和低價股9個變量.基于中國市場2006-2010年數(shù)據(jù)進行樣本外預測,其主要方法是以第t年之前的數(shù)據(jù)為基礎估計獲得系數(shù),然后結(jié)合第t年的自變量數(shù)據(jù),計算第t年高送轉(zhuǎn)的概率,并與實際情況對比,最終得到各年份的預測準確率在50%-90%之間.王鵬等(2016)[7]基于logistic回歸模型分析影響創(chuàng)業(yè)板上市公司進行高送轉(zhuǎn)的因素,研究表明:影響創(chuàng)業(yè)板上市公司進行高送轉(zhuǎn)的因素主要是股價與公司總市值.潘明娟等(2016)[8]以2015-2016年上市公司為研究樣本,通過運用多項logistic模型實現(xiàn)分檔預測以及線性回歸來構(gòu)建相關因子之間的關系,以此制定具體投資策略獲得盡可能大的超額收益率.石好等(2016)[9-10]采用logistic回歸與主成分分析相結(jié)合的方法,構(gòu)建了年報高送轉(zhuǎn)股票的預測模型,直接選取每股凈資產(chǎn)、每股資本公積金、每股未分配利潤、每股現(xiàn)金凈流量、上市時間、股價和股本7個解釋變量代入此預測模型,實證結(jié)果顯示:預測準確度最高可達80.91%.王凱等(2016)[11]利用上市公司三季度財報數(shù)據(jù),采用3種集成學習算法構(gòu)建預測模型,結(jié)果顯示,由K-近鄰算法、決策樹以及加懲罰項的logistic回歸算法組成的“組合”模型預測得到的高送轉(zhuǎn)股票組合表現(xiàn)最優(yōu).胡宸(2019)[12]運用邏輯回歸和支持向量機的集成學習預測上市公司下一年是否高送轉(zhuǎn)以及對投資策略設計做了一些深入的探討.
上述文獻中大多數(shù)學者采用logistic回歸模型,后來有些學者利用組合模型的方法對高送轉(zhuǎn)進行預測,但是其組合模型是求取各模型算法類別概率的均值,未考慮到各模型的預測正確率的高低.本文數(shù)據(jù)來源于點寬網(wǎng)絡科技有限公司提供的3465家上市公司7年的年數(shù)據(jù)交易信息.本文在模型的構(gòu)建中,考慮到各模型的預測正確率的高低,將各單一模型進行線性組合,利用拉格朗日函數(shù)求得組合模型中各單一模型的權重,最后基于此組合模型進行預測,提高了預測準確率.本文的結(jié)構(gòu)安排如下:在第2節(jié)中,介紹建模的相關理論以及組合預測模型的方法.在第3節(jié)中,構(gòu)建模型并進行實證分析.第4節(jié)是結(jié)論,對全文進行總結(jié).
隨機森林(Random Forest,RF)算法是Breiman在2001年提出的一種集成算法,它利用bootstrap自助抽樣方法,采用決策樹和bagging的結(jié)合模式,在以多棵決策樹并行的基礎上結(jié)合成為一個強學習器.該算法在對有眾多特征變量的數(shù)據(jù)處理時可以用來篩選出重要變量,進而再進行后面的一系列建模分析.在本文數(shù)據(jù)集中,正類數(shù)據(jù)約占15%,負類數(shù)據(jù)約占85%,對于不平衡的數(shù)據(jù)集來說,隨機森林算法可以平衡誤差.
Lasso(Least absolute shrinkage and selection operator)方法是以縮小變量集(降階)為思想的壓縮估計方法,它通過構(gòu)造一個懲罰函數(shù),將變量的系數(shù)進行壓縮并使某些回歸系數(shù)變?yōu)?,進而達到變量選擇的目的.
邏輯(Logistic)回歸模型是一種廣義線性模型,適用于處理結(jié)果變量為二值型變量或分類變量的回歸問題,即結(jié)果變量Y可以取0或1(其中Y=1表示事件發(fā)生,Y=0表示事件不發(fā)生),其條件概率分布如下:
其中g(x)=β0+β1x1+β2x2+…+βpxp.
決策樹算法是一種逼近離散函數(shù)值的方法.它是一種典型的分類方法,本質(zhì)上決策樹是通過一系列規(guī)則對數(shù)據(jù)進行分類的過程.決策樹構(gòu)造可以分兩步進行:(1)決策樹的生成:由訓練樣本集生成決策樹的過程;(2)決策樹的剪枝:決策樹的剪枝是對上一階段生成的決策樹進行檢驗、預測和修正的過程,主要是用測試數(shù)據(jù)集中的數(shù)據(jù)校驗決策樹生成過程中產(chǎn)生的初步規(guī)則,將那些影響預測準確性的分枝剪除.
將多種模型進行組合可以充分發(fā)揮各模型的優(yōu)勢,預測出的結(jié)果也更加可靠.假設有M個子模型,則其線性組合的數(shù)學表達式如下:

為了提高組合模型預測準確率,引入各分類模型的分類準確率作為權重系數(shù)的懲罰項.在本文中,M=2,構(gòu)造的損失函數(shù)[16]如下:
(1)
其中,fi,gi分別為logistic回歸模型和決策樹模型的預測類別概率,λ為拉格朗日乘數(shù),αm為第m個模型對應的權重,wm為各模型分類準確率(m=1,2).
由于函數(shù)L(α1,α2)為二次凸函數(shù),故有唯一的極值點,即最優(yōu)權重,它可利用Python軟件求得.
本文中的年數(shù)據(jù)共計24262個.數(shù)據(jù)涉及的范圍廣、量大,且有部分數(shù)據(jù)缺失.若某只股票或某變量缺失信息太多,則將其舍去,如果缺失值較少,就采用向前填充的方法將缺失值填充為前一個值.由于不同量綱的數(shù)據(jù)之間的差別可能會很大,所以將數(shù)據(jù)進行標準化處理.
3.2.1 基于隨機森林算法的特征提取
通過預處理階段對缺失值的處理后,年數(shù)據(jù)中有未分配利潤、凈債務、留存收益、資本公積、每股收益、每股現(xiàn)金流量凈額等228個指標變量,其中有許多冗余變量,且數(shù)據(jù)量龐大、結(jié)構(gòu)復雜.隨機森林算法剛好適用于這種類型的數(shù)據(jù).故采用該算法對年數(shù)據(jù)中228個指標進行分析處理,得到每年的各個變量重要性得分,再篩選出得分較高的變量作為影響股票高送轉(zhuǎn)的重要因子.
圖1與圖2是從第3年到第6年數(shù)據(jù)的228個指標中選取的最重要的前30個指標.Mean Decrease Gimi通過基尼(Gini)指數(shù)計算每個變量對分類樹每個節(jié)點上觀測值的異質(zhì)性的影響,據(jù)此比較變量的重要性.該值越大表示該變量的重要性越大.從圖1中可以看出,第3年和第4年數(shù)據(jù)的變量重要性中上市年限的值最大,從圖2中看出,第5年和第6年數(shù)據(jù)的變量重要性中基本每股收益的值最大,說明上市年限與基本每股收益這兩個因子對上市公司是否實行高送轉(zhuǎn)具有重要影響.在這4年數(shù)據(jù)的指標中80%的指標是重復的,所以選取這4年的重要變量,最后選出了上市年限、基本每股收益、有形凈資產(chǎn)、營運資本、留存收益等43個變量(因子).

圖1 第3-4年變量重要性

圖2 第5-6年變量重要性
3.2.2 基于Lasso方法的特征提取
運用Lasso方法對基于隨機森林算法選取的43個變量提煉出更加重要的變量放入模型.表1為第3年到第6年數(shù)據(jù)中系數(shù)不為0的變量.

表1 第3-6年系數(shù)不為0的變量
綜合第3年到第6年數(shù)據(jù)中的重要變量,我們得到11個重要因子:每股收益(期末攤薄)、基本每股收益、每股凈資產(chǎn)、每股資本公積、每股公積金、每股未分配利潤、每股留存收益、總資產(chǎn)凈利率、總資產(chǎn)報酬率、上市年限、每股送轉(zhuǎn).
本文構(gòu)建的高送轉(zhuǎn)預測模型是基于兩個單一模型的組合預測模型.根據(jù)數(shù)據(jù)中的信息,高送轉(zhuǎn)預案公告日一般都在一年中的3月份或4月份,因此可根據(jù)上一年的數(shù)據(jù)預測下一年是否高送轉(zhuǎn).據(jù)此,我們確定解釋變量是在3.2中選取的第t-1年的11個重要因子,被解釋變量為第t年的是否高送轉(zhuǎn).數(shù)據(jù)集分為訓練集和測試集,訓練集為第t-1年的數(shù)據(jù),測試集為第t年的數(shù)據(jù).第一種模型是基于logistic回歸建立的預測模型,第二種模型是基于決策樹的二分類預測模型,然后將這兩種模型依據(jù)權重進行線性組合,組合權重由拉格朗日函數(shù)求解.
對式(1)中的損失函數(shù)關于各變量求偏導并令它們等于零,得:
(2)
利用Python對式(2)進行求解得到各年份每個模型的權重,進而得到如下的各年份的組合模型:
第5年的組合模型:
0.488×fi+0.512×gi,
第6年的組合模型:
0.764×fi+0.236×gi,
第7年的組合模型:
0.555×fi+0.445×gi.
Logistic回歸模型、決策樹模型和組合模型的預測準確率,結(jié)果如表2和圖3所示.

表2 各模型預測準確率

圖3 各模型預測準確率
從表2中可以看出,在第6年的預測準確率中,logistic回歸模型的預測準確率為76.59%,決策樹模型的預測準確率為73.795%,組合模型的預測準確率為77.9798%,可見決策樹模型的預測準確率最差,組合模型的預測準確率比決策樹模型的預測準確率提高了4.19%,比logistic回歸的預測準確率提高了1.39%.同理,在第5年的預測準確率中組合模型提高了1.01%(相比較于各單一模型中的最優(yōu)模型,下同),在第7年的預測準確率中組合模型提高了0.6%.由圖3可以看出,組合模型的預測準確率比各單一模型的預測準確率都要高,可見組合模型可以表現(xiàn)出更加優(yōu)越的效果.
本文基于組合模型對高送轉(zhuǎn)公司進行預測.為了提高預測準確率,首先根據(jù)數(shù)據(jù)不平衡的特點,利用隨機森林算法從228個指標變量中選取出43個因子,之后為防止解釋變量間相關系數(shù)過大而造成過擬合的情況,又利用Lasso方法在選出的43個因子中選出11個重要因子放入模型.從實證分析結(jié)果可以看出,基于損失函數(shù)確定權重的組合模型的預測準確率比各單一模型的預測準確率都要高,相比單一模型中的預測,組合模型的預測準確率最高提高了1.39%,說明該組合模型是有效的.
證券市場中的股票實施高送轉(zhuǎn)時在預案公告日公布之前的一段時間股價會持續(xù)抬升,帶來顯著的正的超額收益,因此是中小投資者強烈追捧的對象,所以對上市公司是否實施高送轉(zhuǎn)的預測是一個比較熱門并且很有意義的問題.本文的組合模型是logistic回歸模型與決策樹模型的線性組合,其權重是由拉格朗日函數(shù)確定的,考慮到了各算法的好壞,所以組合模型的預測效果要比各單一模型的預測效果要好.因此,采用組合模型預測可以為中小投資者提供可靠的具有理論支撐的決策依據(jù).