章怡
(上海電子信息職業(yè)技術(shù)學院,上海 201411)
泛在物聯(lián)網(wǎng)是泛在電力物聯(lián)網(wǎng)的擴展,主要指其他行業(yè)的智能化物聯(lián)網(wǎng)應用[1-2],包括高等學校在內(nèi)的各類企事業(yè)單位。其作為市場主體在經(jīng)營、生產(chǎn)過程中,通過各個環(huán)節(jié)的聯(lián)機、交互,可以實時掌握生產(chǎn)、運行狀態(tài)并及時進行優(yōu)化調(diào)整[3];另一方面,也能及時發(fā)現(xiàn)在生產(chǎn)、管理過程中的潛在漏洞,防患于未然[4-5]。
隨著我國經(jīng)濟進入新常態(tài)的階段,市場經(jīng)濟充滿了不確定性,資產(chǎn)的穩(wěn)定性影響著各類市場主體的良好發(fā)展。因此,構(gòu)建合理、有效的資產(chǎn)異常狀態(tài)預警系統(tǒng)尤為必要[6]。
針對以上現(xiàn)象,文中將泛在物聯(lián)網(wǎng)與機器學習相結(jié)合,開展了資產(chǎn)異常狀態(tài)預警系統(tǒng)的研究。通過采集泛在物聯(lián)網(wǎng)中各個互聯(lián)設(shè)備與監(jiān)控系統(tǒng)的實時數(shù)據(jù),作為分析資產(chǎn)狀態(tài)的樣本數(shù)據(jù)。然后,利用機器學習中的BP 神經(jīng)網(wǎng)絡與決策樹算法對樣本數(shù)據(jù)進行特征提取與資產(chǎn)狀態(tài)分類,從而構(gòu)建資產(chǎn)異常狀態(tài)預警模型。然后使用Bagging 對資產(chǎn)異常狀態(tài)預警模型進行優(yōu)化,最終得到準確的數(shù)據(jù)結(jié)果。
通過人工識別統(tǒng)計資產(chǎn)存在效率低、信息滯后與不能監(jiān)測資產(chǎn)狀態(tài)等問題,需要采用現(xiàn)代化的人工智能技術(shù)以有效提高資產(chǎn)管理效率[7]。文中基于泛在物聯(lián)網(wǎng)與機器學習技術(shù)設(shè)計了資產(chǎn)異常狀態(tài)預警系統(tǒng),具體框圖如圖1 所示。

圖1 資產(chǎn)異常狀態(tài)預警系統(tǒng)結(jié)構(gòu)框架
泛在物聯(lián)網(wǎng)可以將各個資產(chǎn)設(shè)備連接起來,通過傳感器實時采集各個設(shè)備工作狀態(tài)下的數(shù)據(jù)[8]。這些數(shù)據(jù)作為分析資產(chǎn)狀態(tài)的原始數(shù)據(jù),經(jīng)過預處理后被輸入至基于機器學習算法的模型中,進行特征提取與模型訓練。最終,可得到能夠識別資產(chǎn)狀態(tài)等級的模型。
根據(jù)上文對資產(chǎn)狀態(tài)識別系統(tǒng)的分析,整個系統(tǒng)采用B/S 系統(tǒng)架構(gòu)。該系統(tǒng)架構(gòu)中的瀏覽器,可以滿足用戶在任何地點使用Internet 進行業(yè)務查詢與數(shù)據(jù)整理;而服務器可滿足相關(guān)功能數(shù)據(jù)、程序的存儲與運行[9]。
輔助用戶進行資產(chǎn)管理,及時發(fā)現(xiàn)異常資產(chǎn)狀態(tài)并預警是文中所述系統(tǒng)的設(shè)計目標。在進行系統(tǒng)框架設(shè)計時,應以目標為核心,預警方法、預警指標為設(shè)計基礎(chǔ)。通過設(shè)置合理的預警指標閾值來衡量資產(chǎn)各個狀態(tài),具體設(shè)計框架如圖2 所示。

圖2 資產(chǎn)異常狀態(tài)預警系統(tǒng)設(shè)計框架
資產(chǎn)狀態(tài)的優(yōu)劣直接影響著用戶的生存和發(fā)展。通過泛在物聯(lián)網(wǎng)實時采集用戶日常業(yè)務運行的數(shù)據(jù),可對資產(chǎn)風險進行預估,進而達到預警的效果。由此可見,對資產(chǎn)風險預估所采用的風險指標選擇起到了關(guān)鍵作用。文中將風險指標分為4 類:運營能力、償債能力、盈利能力以及發(fā)展?jié)摿Γ唧w如圖3 所示[10-12]。其中,總資產(chǎn)轉(zhuǎn)換率被定義為該季度營業(yè)凈利潤占總資產(chǎn)的百分比;存貨周轉(zhuǎn)率被定義為營收額與平均庫存余額的比值;資產(chǎn)負債率被定義為總負債額與總資產(chǎn)額的比值;流動率被定義為短期內(nèi)可使用金額與總資產(chǎn)的比值;總資產(chǎn)收益率被定義為某段時間內(nèi)營收凈利潤占總資產(chǎn)的比例;生產(chǎn)利潤率被定義為營收凈利潤占營收額的比例;總資產(chǎn)增長率被定義為今年資產(chǎn)總增長率與去年的比值;融資能力被定義為該用戶的綜合信用水平。

圖3 資產(chǎn)風險指標體系
由于泛在物聯(lián)網(wǎng)得到的數(shù)據(jù)并不能直接用于資產(chǎn)異常狀態(tài)的分析,需要進行標準化、聚類與排除等數(shù)據(jù)預處理。其中,文中使用Z-score標準化,具體為:

式中,x為原始數(shù)據(jù),s、a分別為各項指標數(shù)據(jù)的標準差與平均值,X為經(jīng)過標準化后的數(shù)據(jù)。
BP 神經(jīng)網(wǎng)絡的全稱為誤差反向傳播神經(jīng)網(wǎng)絡,其主要特征為誤差的傳播方向與正常計算方向相反。BP 神經(jīng)網(wǎng)絡為至少三層的多層神經(jīng)網(wǎng)絡,每一層含有數(shù)量不同的神經(jīng)元。同層之間的神經(jīng)元相互獨立,相鄰層之間的神經(jīng)元以全連接的方式進行數(shù)據(jù)的傳遞。假設(shè)神經(jīng)網(wǎng)絡的輸入為xi,則BP 神經(jīng)網(wǎng)絡的激活函數(shù)表達式如式(2)所示。

其中,wikj被定義為第i層第j個神經(jīng)元到第i+1層第k個神經(jīng)元的連接權(quán)重;而aik被定義為第i層第j個神經(jīng)元的輸出。神經(jīng)元j的誤差能量函數(shù)被定義為下式:

其中,Yj為神經(jīng)元j的期望輸出,yj為神經(jīng)元j的實際輸出。
在BP 神經(jīng)網(wǎng)絡中有兩種方式可降低整個神經(jīng)網(wǎng)絡的誤差,一種方式為增加隱藏層的數(shù)量;另一種方式為增加單層隱藏層神經(jīng)元的數(shù)量。兩種方式所消耗的訓練時間及降低誤差的大小對比結(jié)果,如圖4所示。由圖可知,隨著隱藏層層數(shù)的增加,模型訓練時間顯著增加;單層神經(jīng)元個數(shù)的增加也會使訓練時間增加,且會逐漸趨于定值。而圖5 中,隱藏層層數(shù)與單層神經(jīng)元個數(shù)的增加均會使誤差降低。值得注意的是,雖然隱藏層層數(shù)可顯著降低誤差,但在相同神經(jīng)元個數(shù)時,無論神經(jīng)元個數(shù)多少,高層數(shù)的模型訓練時間均比低隱藏層層數(shù)的模型大。

圖4 隱藏層神經(jīng)元個數(shù)和隱藏層層數(shù)對訓練時間的影響

圖5 隱藏層神經(jīng)元個數(shù)和隱藏層層數(shù)對誤差的影響
BP 神經(jīng)網(wǎng)絡的使用雖然降低了誤差,但其分類識別能力相對較低。為了加強資產(chǎn)狀態(tài)分類的識別精度,從而實現(xiàn)精準預警,文中將決策樹與BP 神經(jīng)網(wǎng)絡相結(jié)合。決策樹是一種樹形的結(jié)構(gòu),在該結(jié)構(gòu)中每一個內(nèi)部節(jié)點代表一個分類屬性的判斷。由該節(jié)點引出的分支代表判斷結(jié)果,最終形成的每一個葉節(jié)點均表示分類的結(jié)果[13-16]。文中使用基尼指數(shù)進行分類屬性的選取與劃分,具體過程如下:
1)計算樣本數(shù)據(jù)集S的純度,表達式如下:

2)計算各個屬性的Gini指數(shù),表達式如下:

3)選擇所有Gini_index(S,q)中的最小值作為該節(jié)點劃分時的最佳屬性。
當不修剪決策樹的枝條時,BP 神經(jīng)網(wǎng)絡模型容易受到樣本數(shù)據(jù)的干擾,出現(xiàn)識別精準度下降的現(xiàn)象。為了提高BP 神經(jīng)網(wǎng)絡模型的識別精準度,文中使用Bagging 算法對BP 神經(jīng)網(wǎng)絡模型進行優(yōu)化。具體過程如下:
1)從輸入數(shù)據(jù)中隨機抽取k次含有n個數(shù)據(jù)的訓練樣本,從而得到k個數(shù)據(jù)集;
2)對這k個數(shù)據(jù)集分別輸入至BP 神經(jīng)網(wǎng)絡模型中進行訓練;
3)通過投票表決的方式生成資產(chǎn)狀態(tài)的識別結(jié)果。
至此,文中所述的資產(chǎn)異常狀態(tài)識別預警模型的結(jié)構(gòu),如圖6 所示。一共分為4 個部分:輸入層、隱藏層、分類層與輸出層。經(jīng)過數(shù)據(jù)預處理的樣本數(shù)據(jù)被輸入至隱藏層進行特征提取,并在分類層進行資產(chǎn)狀態(tài)的識別和在輸出層進行結(jié)果輸出與風險預警。文中將資產(chǎn)狀態(tài)分為3 種類別:無風險D1、低風險D2 與高風險D3。

圖6 含有BP神經(jīng)網(wǎng)絡和決策樹算法資產(chǎn)異常狀態(tài)預警模型示意圖
通過調(diào)用某用戶的泛在物聯(lián)網(wǎng)平臺數(shù)據(jù),得到了用于資產(chǎn)異常狀態(tài)識別模型訓練的原始數(shù)據(jù)。該數(shù)據(jù)為2014-2019 年4 個季度相關(guān)指標的數(shù)據(jù),文中采用Modeler 18.1 作為BP 神經(jīng)網(wǎng)絡模型的創(chuàng)建平臺。綜合上文的分析,文中采用4 層隱藏層,每個隱藏層均有50 個神經(jīng)元來構(gòu)建資產(chǎn)異常狀態(tài)分析模型。設(shè)定訓練周期為100 次,決策樹中CART 樹深度為5,并使用Bagging 算法進行模型優(yōu)化。表1 為該公司4 個季度的部分指標數(shù)據(jù)。分別將以上數(shù)據(jù)進行Z-score 標準化,并利用聚類法將指標進行分類。為了確定各個指標對資產(chǎn)狀態(tài)判斷結(jié)果影響的大小,分別對各個指標進行因子分析。考慮到各指標的初始數(shù)值差距較小,需要使用方差最大正交旋轉(zhuǎn)法將數(shù)據(jù)特征放大。由于決策樹中樹的數(shù)量會影響到整個模型對資產(chǎn)狀態(tài)的識別精度與計算速度,有必要合理選擇決策樹的數(shù)量。圖7 展示了決策樹數(shù)量對資產(chǎn)狀態(tài)識別精度的影響。綜合考慮識別精度與模型運算速度,文中將決策樹數(shù)量定為70 個,整體識別精度為81.3%[17]。

表1 某公司4個季度的部分指標數(shù)據(jù)

圖7 決策樹數(shù)量對資產(chǎn)狀態(tài)識別精度影響
為了驗證文中所述方案的有效性,設(shè)置對照組進行對比。對照組使用BP 神經(jīng)網(wǎng)絡與Softmax 分類器,來進行資產(chǎn)狀態(tài)識別預警模型的構(gòu)建。實驗組與對照組使用相同的樣本數(shù)據(jù)和軟硬件配置,實驗結(jié)果如圖8 所示。由圖可知,文中所述實驗組的識別精準度均比對照組高,平均識別精準度為80.1%,可為用戶提供有效的資產(chǎn)風險預警。

圖8 實驗組與對照組對資產(chǎn)狀態(tài)識別精度影響
文中基于泛在物聯(lián)網(wǎng)與機器學習技術(shù),設(shè)計了資產(chǎn)異常狀態(tài)預警系統(tǒng)。根據(jù)現(xiàn)階段所面臨的資產(chǎn)風險現(xiàn)狀,文中從系統(tǒng)框架出發(fā),采用B/S 系統(tǒng)結(jié)構(gòu)滿足多場地、實時登入功能。利用泛在物聯(lián)網(wǎng)平臺收集用戶生產(chǎn)、運營的各項數(shù)據(jù),作為分析資產(chǎn)狀態(tài)的樣本數(shù)據(jù),再利用機器學習中的BP 神經(jīng)網(wǎng)絡與決策樹算法對樣本數(shù)據(jù)進行特征提取和資產(chǎn)狀態(tài)分類,從而構(gòu)建資產(chǎn)異常狀態(tài)預警模型。最終,采用Bagging 對資產(chǎn)異常狀態(tài)預警模型進行優(yōu)化。經(jīng)測試,文中所提出的算法有較高的準確率,證明了該方案的有效性。