馮 璐,周 勇
(新疆財經大學 統計與數據科學學院,新疆 烏魯木齊 830012)
國務院于2015年提出的《國務院關于積極推進“互聯網+”行動的指導意見》鼓勵市場主體利用互聯網進行技術創新,由此互聯網發展的如火如荼,作為利用互聯網發展的代表性行業IT行業也進入了高速發展時期.IT行業不僅是新業態、新動能的重要體現,也是我國創新發展戰略中重要的一環.IT企業的產品多以軟件產品為主,其企業的不動產占比較少,財務建設具有滯后性[1],開發項目受客戶關系影響較大[2],人力資本需貨幣激勵與非貨幣激勵并重[3-4]等特點,難以被納入信貸機構現有的信用評級體系,導致IT企業在融資過程中難以得到客觀評價的信用評估報告,使得其在直接融資過程中被拒絕,不利于IT企業高質量的發展.信用評估缺失還會使信貸相關行業壞賬和呆賬的風險增大,信用風險凸顯.學者對于IT企業信用評估問題采取的多是logistic算法[5-6],對于IT企業特點來說,其形成的信用評估模型難以滿足IT企業信用評估的要求.本文結合LS-SVM算法[7],構建IT企業信用評估模型.
IT企業即信息技術產業,是運用信息手段和技術,收集、整理、儲存、傳遞信息情報,提供信息服務,并提供相應的信息手段、信息技術等服務的產業.IT企業作為一種特殊的高科技產業,有以下幾個基本特點:產品更新周期快,風險較高,收益也較高.IT企業是隨著科技的發展而發展起來的新興產業,現代科技產品為了獲得市場的先機與消費者的青睞,更新換代的速度令人咋舌,因此IT企業產品的更新周期也比較快.IT企業的風險來自于前期設備和人才的引用,因而IT企業也屬于資本較密集的一種產業.IT企業最核心的競爭力為其所生產的各類科技軟件或者產品,這類產品往往綜合了IT企業人才的知識轉移量,但是在這個過程中,由于產品在市場推進過程中受不確定因素的影響較大,因此風險性較大;其經營領域涉及面較為廣泛;經營業務多樣,產品多為私人定制類型,業務受客戶資源的影響.
隨著科技的發展,數字時代的來臨,IT企業數量和質量的提升尤為顯著,特別是當代工業互聯網的發展,大大促進了IT企業與其他企業的聯系,這兩類企業融合成了不可分割的整體,呈現出了全新的產業面貌.中國的IT產業發展指數(ITII)由2014年的61.5分提高到2018年的76.3分,由第二梯隊末位提升至第二梯隊中游水平,并于2018年首次超越英國和韓國位列第四位.2018年中國IT產業發展迅速,在產業結構上優化改進也有了長足的進步,核心競爭力隨著產品的優質有了長足的進步,大幅度提升了本土IT企業的創新發展力.隨著互聯網產業的快速發展以及產業方式的轉變,IT產業走上了高速平穩發展的道路,產業融合提升最為顯著,融合指數由50.1分升至76.5分,證明我國IT企業核心競爭力得到認可.當前我國IT產業的發展已經形成了品牌效應,走上了國際化發展道路.
選取銳思金融數據庫若干家IT企業的財務信息,從中抽取11個財務指標作為判斷企業信用評級的依據.IT企業指標體系見表1.

表1 IT企業信用評價體系表
將IT企業的信用數據指標作為分類數據點,采用LS-SVM分類器確定一個由這些數據點構成的超平面.如果用X表示數據點,用Y表示類別(Y可以取1或者-1,分別代表兩個不同的類),一個線性分類器的學習目標便是要在n維的數據空間中找到一個超平面,這個超平面的方程可以表示為:

式(1)中,WT中的T代表轉置.在超平面確定的情況下,(1)式表示點X距離超平面的遠近.通過觀察WT×X+B的符號與類別標記Y的符號是否一致,可判斷分類是否正確.用表示類別的的正負性來判定或表示分類的正確性.函數間隔為:

超平面(W,B)是關于T中所有樣本點(Xi,Yi)的函數間隔最小值.其中,X是特征,Y是結果標簽,i表示第i個樣本.超平面(W,B)關于訓練數據集T的函數間隔為:

對法向量W加約束條件,引出真正定義點到超平面的距離——幾何間隔的概念:


由于這個問題的特殊結構,還可以通過拉格朗日對偶性變換到對偶變量的優化問題,即通過求解與原問題等價的對偶問題得到原始問題的最優解,進而推廣到非線性分類問題,因此得到新的函數解析式:

(1)讓α固定,讓L關于W和B最小化.分別對W以及B求偏導數,并令兩者的偏導數等于零.

將得到的結果帶入公式(6),可以得到

(2)求對α的極大,即是關于對偶問題的最優化問題.從上面的式子得到:

即可求出αi.根據已有的公式可以得到兩個參數W,B的值,最終可以得到分類平面和分類決策函數.利用SMO算法求解對偶問題中的拉格朗日乘子α.為了使模型在線性不可分條件下也可使用,引入松弛變量ξi,在原來的目標函數后面加上一項,使得總和也要最小:+Cξi.其中,C是一個參數,用于控制目標函數中兩項之間的權重,得到的目標函數:

將IT行業的財務數據作為數據點帶入X中,將企業是否違約得到分類類別Y帶入到公式(11)中對參數α求解,將結果代入公式(6)中,即可得到分類平面中兩個參數,從而完成對分類平面的求解.
根據從銳思金融數據庫收集到的財務指標信息,計算出若干家IT企業11個指標的平均值及方差,見表2.從該表中可以看到,IT企業的流動比率較高,符合流動資產較多的事實;IT企業流動資產率也處于較高的水平,解釋了其與其他行業企業的不同之處.

表2 IT企業指標均值與方差
使用matlab軟件將數據設定種子得到80%的訓練集和20%的測試集,用訓練集分類預測,對測試集的準確性進行評估,衡量測試集的準確率.
用confusionmat函數直接產生混淆矩陣,用混淆矩陣的每一列代表預測類別,行表示真實歸屬類別、預測違約和不違約類別下的企業數目.圖1為可信企業識別率和違約企業識別率.從圖1中可以看出,LS-SVM模型可以較好地擬合企業識別率曲線圖.

圖1 違約與可信企業識別率
AUC等于1時為最理想的檢查指標.從圖2可知,AUC值為0.77404,ROC圖的含義是將可信企業判定為可信企業的概率大于可信企業判定為違約企業的概率作為1,并依次累加,最終除以可信與違約企業的總數,說明得到的超平面可以比較準確地反映出分類的情況.

圖2 ROC曲線
構建了一個基于LS-SVM的IT企業二分類平面評價模型,用于企業信用評級,確定企業信用等級.實證結果表明,構建的二分類模型可以較好地對客戶的財務信息予以區分,達到了較好的分類效果.該模型可以適用于IT行業信用等級的劃分,為IT行業信用等級提供較好的參考.