付婷婷 苗蘊慧



摘 要: 現階段工業互聯網發展提速,其安全問題也飽受重視。通過選取12篇政府出臺的工業互聯網相關政策并提取匯總政策文本,運用Python統計文本高頻詞匯,通過SPSS對其進行因子分析和聚類分析,從而得到工業互聯網安全相關政策的關鍵內容。結果表明工業互聯網安全政策主要包括以下四類:工業互聯網安全建設及防護、建立與工業互聯網發展相匹配的保障能力及工業互聯網試點應用安全機制、建立工業互聯網安全管理體系、工業互聯網安全的服務水平。
關鍵詞: 工業互聯網 安全 文本分析 ]
一、引言
隨著經濟和技術的不斷發展,工業互聯網受到了更多的關注,與此同時,工業互聯網安全也面臨著在傳統網絡安全的復雜環境下捉襟見肘的問題。自2016年來,我國有關政府部門紛紛出臺了工業互聯網的相關政策,研究學者對我國工業互聯網安全的分析也逐漸增多。
何洪流、尚朝鋒(2019)分析工業互聯網安全面臨威脅來源廣、工業系統設備自身脆弱等問題,對《國務院關于深化“互聯網+先進制造業”發展工業互聯網的指導意見》《工業互聯網發展行動計劃(2018—2020年)》等政策的探討,提出了要出臺政策指引,強化安全保障;健全管理體系,完善管理機制等建議。王新霞、李璇等(2020)通過分析工業互聯網在網絡通信協議、開放、設備生產商、有關工作人員管理等諸多方面面臨的問題,提出了相關建議。孫念、傅為政(2020)基于大數據時代的背景下,分析了工業互聯網所面臨的挑戰,并提出了相應的應對措施。
上述學者,大多對工業互聯網的安全問題進行了純定性分析,還有一些學者則使用Python、SPSS等軟件對文本進行分析。袁野、于敏敏等(2018)選取了2017年6月—2018年6月,16個省級層面的人工智能產業規劃作為研究樣本,運用Python、Gephi等文本挖掘與可視化方法,從高頻關鍵詞和內容關聯度著手,對政策主體,研究熱點,重點領域和相關舉措進行分析。馬曉玲、楊思琦等(2019)以120篇北美公共圖書館推廣閱讀的相關政策為樣本,利用Python進行分詞、合并同義詞、統計高頻詞匯,構建高頻詞匯的共詞矩陣、相異矩陣、相關矩陣,并利用SPSS進行因子分析和聚類分析最終得出政策文本內容主要包括四大類。
基于上述分析,本文通過選取有關工業互聯網安全的政策文本,利用Python進行分詞,統計高頻詞匯,并通過SPSS軟件進行因子分析和聚類分析,最終得出工業互聯網安全相關政策主要包括的內容。
二、研究設計
(一)樣本來源
工業互聯網安全政策,是指由國家工業和信息部等有關部門出臺的關于工業互聯網方面的指導意見、發展規劃、工作計劃、評價方法等政策性文件。樣本主要通過人工搜索“工業互聯網”“互聯網+制造業”“互聯網安全”等關鍵詞,在中國政府網等官方網站中搜索,得到政策文件12個。
(二)研究工具和方法
本文的研究工具主要借助于Pycharm軟件和SPSS.25.0版本的軟件。首先在Pycharm中利用Python的第三方庫jieba對工業互聯網安全的政策文本進行分詞、統計詞頻等操作;再將統計好的高頻詞匯導入到excel中構建共詞矩陣,然后將共詞矩陣導入到spss25.0版本軟件中,計算相關矩陣,對數據樣本進行因子分析,并根據因子分析的結果確定分類數目,進而對樣本進行聚類分析,再根據聚類結果進行進一步的分析和研究。
三、分析過程
(一)高頻詞匯共詞分析
由于工業互聯網相關的指導意見、發展規劃等政策性文件大多為綜合性文件,只有《加強工業互聯網安全指導意見》是對工業互聯網安全的全面說明,其他的文件中只包括部分與工業互聯網安全相關的意見說明等政策。因此,本文通過人工預處理,將所選取的工業互聯網政策性文件中與安全相關的部分內容提煉出來,作為后續處理的政策文本。
首先,將提煉出來的工業互聯網安全政策文本使用Python的第三方庫jieba包進行分詞。分詞是為了在自然語言處理過程中,更好地處理句子,把句子拆分成一個一個的詞語,從而更好地分析句子的特性。其次,自定義用戶詞典。因為往往分詞后可能將原本屬于一個詞匯的兩個字或詞拆分成兩個或多個,例如,分詞結果將“大數據”拆分成“大”和“數據”兩個詞。此時,為了更好地分析和理解文本,需要重新定義詞典。同時,還需要將與語義無關的停用詞和標點符號刪除,例如:“和”“關于”“通過”等用于連接句子,且與語義表達無關的詞語。在統計高頻關鍵詞時,需要建立同義詞語料庫。將一些文字不同但表達含義相同或相似的詞語合并為一個詞語,例如:本文將“加強”“強化”等語義相同的詞匯合并為“加強”一詞;將“建設”“建立”等詞合并為“建設”一詞;將“推動”“促進”等詞合并為“推動”一詞。進行上述步驟后,再統計高頻關鍵詞,經過分詞后統計工業互聯網安全相關政策的高頻關鍵詞,選擇詞頻為10以上的詞語作為高頻關鍵詞,一共得到了40個高頻關鍵詞,如表1所示。
在得到工業互聯網安全相關政策的高頻關鍵詞后,為了更好地研究高頻關鍵詞之間的內在聯系,本文將高頻關鍵詞詞匯表導入到excel中,建立了40〖*〗40的高頻關鍵詞共詞矩陣,如表2所示。
(二)因子分析
在構建工業互聯網安全相關政策高頻關鍵詞共詞矩陣的基礎上,將共詞矩陣導入到SPSS25.0軟件中,計算生成高頻關鍵詞的相關矩陣。數值越大,說明兩個詞匯之間的相關程度越高;數值越小,說明兩個詞匯之間的相關程度越小。部分高頻關鍵詞相關矩陣如表3所示。并利用工業互聯網安全相關政策高頻關鍵詞相關矩陣進行因子分析,通過碎石圖顯著陡峭、特征根大于1和累計貢獻率大于85%,這三個特征可知,將高頻關鍵詞設置成4個類別,可以覆蓋政策文本97.926%的信息。部分因子分析結果如表4所示,碎石圖如圖1所示。
(三)高頻詞匯聚類分
所謂的聚類分析,是指根據一批樣品的多個指標值,具體找出一些能夠度量樣本或指標之間相似程度的統計量,將相似程度高的樣本或指標劃分為一類,把不同的類型一一劃分出來,形成由小到大的分類系統。在進行因子分析后,判別可以將高頻關鍵詞分為4類,本文采用系統聚類,聚類方法選擇組間聯結法,計算距離選擇歐式平方距離,輸出聚類結果——譜系圖,如圖2所示。高頻關鍵詞分類結果如表6所示。
四、結論
由上述聚類分析結果可知,工業互聯網安全相關政策文本主要分為以下四大類:
第一類是工業互聯網安全的建設與防護。主要包括詞匯:工業互聯網安全、安全、建設、加強、企業、工業互聯網、平臺、行業、工業、能力、防護、技術。由以上詞匯可知,政府發布的指導意見和政策建議,主體上圍繞著建設工業互聯網安全平臺,加強工業行業的信息安全防護能力,建立工業互聯網安全的技術手段。提升工業企業的自身互聯網安全技術防護,明確了工業互聯網安全要圍繞著平臺安全、技術安全建立。
第二類是建立與工業互聯網發展相匹配的保障能力及工業互聯網試點應用的安全機制。主要包括詞匯:標準、保障、開展、發展、試點,推動、評估、要求、指導、應用、支持、機制、創新、數據。“開展”“發展”“推動”“支持”表述了我國政府對建設工業互聯網安全平臺的大力支持,鼓勵推動工業互聯網在設備、網絡、平臺、數據等重點領域安全標準的制定,同時也希望企業能夠建立與工業互聯網發展相匹配的技術保障能力。“應用”、“試點”、“機制”,說明要建立健 全工業應用程序應用前的安全機制,培育創新性的工業互聯網安全企業,并在汽車、電子信息、能源等重點領 域展開試點示范,推廣應用。
第三類是建立工業互聯網安全管理體系。主要詞匯包括:產品、系統、應急、管理、國家、監測、責任、檢測、工作、風險、處置、體系、設備。其中,“管理”“監測”“監測”“風險”“體系”,要求建立工業互聯網安全管理體系,強化平臺、網絡及數據等重點領域的安全監督檢查及風險評估,升級企業的安全監測系統,重點檢測網絡安全的技術產品要求。以提升工業互聯網安全監測、評估、檢測和應急處置等能力為重點,建設國家工業信息安全保障中心,為制造業與互聯網融合發展提供安全支撐。
第四類是工業互聯網安全的服務水平。主要詞匯包括:服務。是指通過以上三類:建立工業互聯網安全管理體系,搭建工業互聯網安全平臺假設,開展工業互聯網安全的檢測評估,從而提高工業互聯網安全的服務水平,加強工業互聯網安全的公共服務能力,為我國先進制造業、工業互聯網的發展營造出一個良好的安全環境。
在今后的研究工作中,希望能夠擴大樣本容量,將政策樣本劃分到隸屬于哪個部門,以便更深入地了解工業互聯網安全的發展情況。