陳彥陶 仲天薦 王煜

摘 要:企業管理、運行風險對事故的發生具有顯著的影響,但道路交通運輸企業風險具有較強隱蔽性,對于道路交通運輸企業的監管難以實現早發現、早預防。隨著大數據的發展,通過企業經營特征數據形成企業畫像,進一步進行安全生產的風險研判成為可行之路。文章基于企業經營特征數據,首先利用因子分析法進行特征提??;然后對提取的經營因子進行聚類分析,構造了企業畫像標簽模型,劃分了不同企業的風險類別,形成了一套交通運輸企業的風險評價算法;最后利用實例數據證實了算法的有效性,該算法能較為直觀地反映企業的安全生產風險情況,為實現企業精準監管提供有效的依據和手段。
關鍵詞:因子分析;聚類分析;企業畫像;風險研判
中圖分類號:F259.22;U492.8文獻標志碼:ADOI:10.13714/j.cnki.1002-3100.2023.10.025
Abstract: Enterprise management and operational risks have a significant impact on the occurrence of accidents, but road transportation enterprise risks are highly hidden, making it difficult to achieve "early detection, early prevention". With the development of big data, it is feasible to form a corporate image through business characteristic data and further conduct risk research and judgment on safety production. Based on the business characteristics data of enterprises, this paper first uses factor analysis to extract features. Then, cluster analysis is performed on the extracted business factors to construct a corporate portrait label model, which divides different enterprise risk categories, and forms a set of transportation enterprise risk evaluation algorithms. Finally, the effectiveness of the algorithm is confirmed by using example data. The algorithm can reflect the enterprise's safety production risk situation more intuitively, and provide an effective basis and means to realize the precise supervision of enterprises.
Key words: factor analysis; cluster analysis; corporate portrait; risk assessment
0 ? ?引 ? ?言
隨著我國經濟的持續發展,道路交通運輸企業規模不斷擴大,危險品運輸量和客運量持續增加,各類安全生產問題更加突顯。道路交通運輸企業的安全生產問題會嚴重威脅人民的財產和生命安全,因此要不斷提高道路交通運輸企業的安全防范要求[1]。
在研究中發現,當前發生過嚴重生產安全事故的企業往往存在一些共性問題[2],如企業的法定代表人不明確,生產項目存在違法發包、轉包等問題;受到各類行政處罰的交通運輸企業往往存在安全隱患[3-4]。為加強安全風險防范,應對安全生產高風險企業進行重點的安全監管和風險防控。但目前對道路交通運輸企業的監管具有的一定滯后性,通常在事故發生后才采取相應的處理措施,而此時已經造成了人員傷亡和經濟損失。隨著大數據的發展,通過企業經營特征數據形成企業畫像,進一步進行安全生產的風險研判,以實現對風險的早發現、早預防。然而大數據具有體量大、數據密度低的特點,即交通運輸企業安全生產問題的影響因素眾多,隨著企業數量、企業經營數據的指數級增長,如何科學高效地劃分出安全生產高風險企業成了風險防范的關鍵問題。
企業畫像[5-6]是指將企業信息標簽化,在真實數據集基礎上構建的標簽模型體系,通過對企業的經營特征數據進行挖掘,分析企業的安全生產風險[7-8]。企業畫像技術為企業升級、政府監管等提供了有效分析,學界目前已有許多學者對企業畫像進行了研究。王雪(2017)構建了一個基于企業畫像的公示數據查詢系統,有效滿足了用戶對多維度企業公示數據的查詢需求[9]。田娟等(2018)對大數據平臺的企業畫像研究文獻進行了綜述,提出企業畫像構建的難點在于海量數據的獲取和處理[10]。吳行惠等(2018)提出了基于質監標準的企業畫像,為企業產業升級提供了依據[11]。黃曉斌等(2020)提出了融合多源數據的方法來構造企業畫像,用于描述企業的競爭對手[12]。黃家娥等(2022)提出了引入用戶畫像對企業進行建模,從需求分析角度刻畫企業畫像[13]。企業信息數據上越來越透明化,如基礎工商信息、經營風險信息、法院失信記錄等,這確保了經營特征數據的可行性和科學性。因此,在分析企業的安全生產風險時,基于大數據的企業畫像技術能夠為安全生產風險研判提供分析工具。
本文采用的企業經營特征數據包括結構化指標數據和非結構化指標數據。經營特征數據涉及的指標可以分為四個一級指標:行政處罰信息、違法轉包信息、企業規模信息、企業負責人信息。本文利用典型事故企業的經營特征數據來分析安全生產風險企業的共性問題,先利用因子分析法對企業經營指標數據進行特征提取,后利用聚類分析法設定畫像標簽,刻畫安全生產高風險企業的畫像,直觀反映企業的安全生產風險情況,為實現對企業精準監管提供有效的依據和手段。
1 ? ?基于企業外部數據的風險研判算法
1.1 ? ?經營因子選擇
縱觀國內外研究現狀,企業生產安全事故的影響因素眾多,為更加科學地分析各種因素,本文對企業行政處罰信息、企業違法轉包信息、企業規模信息、企業負責人信息這四個一級指標進行分析歸納,研究刻畫企業安全生產風險的具體經營因子。
本文在選取經營因子時,通過對應急管理部發布的安全事故調查報告進行分析,采用事故樹分析方法進行多種致因分析,從調查報告中分析篩選安全生產風險的經營因子。對于第一方面——企業規模信息,本文選取企業參保人數、注冊資本、實繳資本、注冊資本到位率(實繳資本與注冊資本的比值)、成立年限、所屬省份這6個經營因子進行進一步描述。對于第二方面——企業負責人信息,本文選取實際負責人和名義負責人不一致數、法院失信記錄數、企業法定代表人被限制消費的次數、法定代表人頻繁變更數這4個經營因子進行進一步描述。對于第三方面——企業行政處罰信息,本文選取行政處罰數、行政處罰總金額、破產清算數、注冊資本異常這4個經營因子進行進一步描述。對于第四方面——企業違法轉包信息,本文選取掛靠糾紛數、融資租賃合同糾紛數和承包經營合同糾紛數進行進一步描述,這3個經營因子常用于描述企業違法轉包、層層轉包的生產問題。
1.2 ? ?企業經營特征提取及風險研判方法
選取大量因子后,有些因子具有信息重復性,會引起某一個指標權重過大,從而引起不合理的判斷和不合理的預警。本文采用因子分析法對企業經營數據進行特征提取。采用因子分析法的主要目的是將原始指標綜合成較少的指標,以這些指標反映原始指標的絕大部分信息。因子分析算法步驟如下。
步驟1:用定性分析和定量分析的方法選擇變量,因子分析法的前提條件是觀測變量之間有較強的相關性。步驟2:計算原始變量的相關系數矩陣。步驟3:提取公共因子,按照因子的累計方差貢獻率確定公共因子。步驟4:進行因子旋轉,通過坐標變換使每一個原始變量在盡可能少的因子之間有密切關聯。步驟5:計算因子的得分,求出各樣本的因子得分,最后將因子的得分作為下一步聚類分析的變量。
在風險研判中,可以將相似的風險因素歸為一類,進而評估每一類風險的可能性和嚴重程度。同時,在風險研判中,很多時候并沒有足夠的先驗知識或已知標簽,無監督方法可以適用于這種情況。在無監督方法中,聚類分析由于速度快、可解釋性好成為主流方法。本文采用系統聚類分析,假設數據集中有n個樣本,將所有單個樣本看作是多維樣本空間中向量的一個端點,用相似度或距離度計算各點之間的距離,組成類間距離矩陣,并將距離最近的兩類合并為一個新類,然后計算新類與當前類之間的距離,將距離相近的類進一步合并,依次進行,直到數據完全合并為一個類別,并得到聚類圖。具體步驟如下。
步驟1:首先對樣本進行標準變換,再計算樣本之間的距離,由樣本之間的距離構成距離矩陣。步驟2:按樣本間距離矩陣的最小距離進行聚類,將距離最近的樣本歸為一個新的類別。步驟3:利用離差平方和法定義類與類之間的距離。步驟4:計算新類與其他類之間的距離,再根據距離最近的規則進行類與類的合并,直到所有樣本歸為一類。
1.3 ? ?企業風險研判方法的具體流程
結合上述過程,本文構建企業風險研判方法。
數據采集和處理;從政府公開信息平臺、征信網站和企查查等平臺搜集數據,采用爬蟲技術采集數據,并進行數據清洗和預處理;設定一級指標,設定四個一級指標企業規模、企業負責人信息、企業行政處罰信息、企業違法轉包信息;設定畫像因子,利用關聯分析、因子分析對數據進行處理,進而確定企業畫像的關鍵因子;計算無監督學習下的畫像,利用聚類分析不同企業所屬的畫像類型,進一步分析聚類中心,從而構建預警體系。
2 ? ?風險研判應用
2.1 ? ?數據集
本文以企業風險研判方法中的多類型為基礎,從公開信息中全面梳理69家發生過事故的企業的經營特征數據作為實驗數據。其中事故企業的經營范圍包括客運、危險品運輸等。文中所涉及的69家企業事故信息以應急管理部公開發布的事故為數據核心,企業經營特征數據源于政府網站,企查查、天眼查等數據平臺,以及征信網站。
根據前文介紹的方法,本文以69家企業自2015年來的各項企業經營指標數據為源數據,將69家企業表示為Xi,i=1,2,...,69,每家企業收集15個指標數據(V1:實際負責人和名義負責人不一致數;V2:法院失信記錄數;V3:限制消費令次數;V4:掛靠糾紛次數;V5:行政處罰金額;V6:資金到位率;V7:注冊資本;V8:實繳資本;V9:注冊資本異常;V10:法定代表人變更數;V11:行政處罰數;V12:破產清算次數;V13:參保人數;V14:成立年限;V15:所屬省份)。
2.2 ? ?風險研判分析
2.2.1 ? ?因子分析
本文利用主成分分析法求解因子載荷矩陣,從原始變量中構造出少數幾個具有代表性的因子變量,并求解變量相關系數。由原始變量的相關系數矩陣計算得出法院失信數和掛靠糾紛次數、行政處罰金額的相關系數較高,相關系數分別為0.6和0.675;限制消費令次數和破產清算次數的相關系數比較高,相關系數為0.856;行政處罰金額和掛靠糾紛次數的相關系數比較高,相關系數為0.963。各變量之間存在較強的相關性,可以從中構造出具有代表意義的因子變量。
此外,本文對數據進行了KMO(Kaiser-Meyer-Olkin)和巴特利特檢驗以驗證因子分析的有效性,計算得到KMO的值為0.673,說明該數據適合進行因子分析。巴特利特檢驗的顯著性小于0.05,因此拒絕原假設,說明所分析的變量之間具有相關性,適合進行因子分析。
下一步提取公共因子,通過計算特征貢獻度如表1所示,分析得到前6個因子的累計方差貢獻率分別為27.791%、46.243%、59.192%、68.356%、76.259%、83.743%。前6個因子序號的特征根比較大,作用比較明顯,對解釋原始變量的貢獻比較大,第7個以后的因子特征根值比較小,對解釋原始變量的作用比較小,因此提取6個因子比較理想。
接下來計算因子得分,通過計算成分得分系數矩陣,第1因子主要解釋了法院失信記錄數、行政處罰數、注冊資本、實繳資本這四個指標,四個指標的成分得分分別為0.2、0.183、0.192、0.193。第2因子主要解釋了限制消費令數、注冊資本異常和破產清算這三個指標,三個指標的成分得分分別為0.353、0.314、0.365。第3因子主要解釋了掛靠糾紛數、行政處罰金額這兩個指標,兩個指標的成分得分分別為0.356、0.349。第4因子主要解釋了資金到位率、法定代表人變更數這兩個指標,兩個指標的成分得分分別為0.516、0.335。第5因子主要解釋了實際負責人和名義負責人不一致數這個指標,指標的成分得分分別為0.563。第6因子主要解釋了行政處罰數和法定代表人變更數這兩個指標,兩個指標的成分得分分別為0.439、0.435。
2.2.2 ? ?聚類分析
本文采用系統聚類的方法,類間距離采用離差平方和,開始時把每個樣本各看為一類,然后把最靠近的樣品聚為小類,再將已聚合的小類按其類間距離合并,不斷繼續下去。計算譜系圖,可以將69家企業大致分為4類:企業X54、X40、X28、X12、X48、X37可以聚為一類;企業X65、X25、X23、X61、X26、X38、X5、X4、X53、X6、X46、X15、X68、X3可以聚為一類;企業X20、X29、X22、X10、X39、X34、X7、X56、X2、X14、X67、X63、X41、X50、X69、X57、X58、X55、X33可以聚為一類,剩余的企業聚為一類。
接下來對聚類結果進行分析,利用聚類算法將企業分為四大類。第一類企業的顯著特點是行政處罰次數頻繁。這類企業屢次違法違規,行政處罰次數多。典型案例為:28號企業的行政處罰數高達918次,處罰總金額為10 059萬元,多次交通等方面的行政處罰并未引起該企業的重視,在2019年已發生5次不同程度的事故,死亡1人。第二類企業的顯著特點是企業負責人存在問題。這類企業負責人存在多次法院失信記錄或實際負責人和名義負責人不一致的情況。典型案例為:第5號企業的法院失信記錄數高達89次,且存在實際負責人和名義負責人不一致的情況,該企業被某市交通運輸局通報為風險隱患較高的企業。第三類企業的顯著特點是存在違法轉包、掛靠問題。這類企業存在違法發包、轉包的問題。典型案例為:第63號企業因多次掛靠經營合同糾紛被起訴,且實繳資本為注冊資本的20%。該企業2020年發生一起交通事故,造成2人死亡,1人受傷。第四類企業的顯著特點是是規模較小且成立年限較短。這類企業是新成立或新建成的,生產經營等方面需要進行磨合,一旦疏于管理就容易發生事故。典型案例為:第27號企業成立的年限為6年,且企業規模比較小,注冊資本僅為10萬元。該企業在2019年出現過一次交通事故,造成3人死亡。
3 ? ?結 ? ?語
企業安全生產風險研判分析可以通過企業經營特征數據進行描述。隨著大數據技術的發展,企業的各項特征指標數據能得以記錄,各項外部數據能夠更好地刻畫企業的畫像,且能夠作為企業風險研判分析的切入點。企業畫像技術能夠將企業行為、屬性等數據抽象出標簽化的企業質量信息,以畫像的方式全方位展現企業的風險程度。本文通過企業經營特征數據來分析交通運輸企業安全生產高風險企業的共性問題,先通過特征提取外部指標數據,后進行聚類分析的方法設定畫像標簽,刻畫出高風險項目企業的畫像,為監管部門實現精準風險防控提供有效支撐。
參考文獻:
[1] 張道斌.化工園區企業安全風險分級和預警方法[J].現代化工,2022,42(S2):12-15.
[2] 應急管理部啟動硝化企業專項整治問題落實情況“回頭看”工作[J].中國安全生產科學技術,2022,18(2):197.
[3] 楊天姿,王鐵驪,彭恒明,等.小微企業生產安全事故應急脆弱性評價[J].中國安全科學學報,2021,31(12):176-183.
[4] 應急管理部部署加強年底安全風險防范 通報四類生產安全高風險項目企業[J].安全與健康,2020(11):50.
[5] 李鑫.化工企業生產安全風險畫像技術應用與研究[D].青島:青島科技大學,2020.
[6] 艾留陽,張亞強,李顏.化工企業生產安全風險畫像技術研究[J].化工安全與環境,2022,35(30):11-14.
[7] 丁行碩,李翔,謝乾.基于標簽分層延深建模的企業畫像構建方法[J].計算機應用,2022,42(4):1170-1177.
[8] 關冬院.基于網絡公開數據的企業畫像方法初探[D].昆明:云南大學,2019.
[9] 王雪.基于企業畫像的公示數據查詢系統設計與實現[D].大連:大連海事大學,2017.
[10] ?田娟,朱定局,楊文翰.基于大數據平臺的企業畫像研究綜述[J].計算機科學,2018,45(S2):58-62.
[11] ?吳行惠,梁娜,王光昕,等.大數據在企業標準畫像中的應用與研究[J].標準科學,2018(7):96-101.
[12] ?黃曉斌,張明鑫.融合多源數據的企業競爭對手畫像構建[J].現代情報,2020,40(11):13-21,33.
[13] ?黃家娥,李靜,胡潛.基于企業畫像的行業信息精準服務研究[J].情報科學,2022,40(2):99-104,112.