徐 東,王 雷,侍守創
(1.工業互聯網創新中心(上海)有限公司,上海 200120;2.江蘇杰瑞信息科技有限公司,江蘇連云港 222000)
越來越多的發達國家開始采用工業智能應用平臺靈活部署工業布局[1],為企業提供跨區域的工業信息化服務。在工業智能應用平臺中,通常采用基于內容的文本自動分類方法,不僅可以節省大量的時間和人力資源,提高信息分類的效率和準確性,而且克服了手工整理效果不佳的問題。
以往分類系統都是采用已有的指數經驗數據。例如文獻[2]建立了知識庫,實現了基于關鍵詞的自動分詞和分類。該方法的缺點是不能處理大量無序的文檔,導致分類結果不準確;文獻[3]提出了一種基于云計算的自動分類系統,并在該系統的基礎上,引入云計算平臺和分布式計算架構,對大型非結構化數據進行分類。但該方法只能處理部分結構化和非結構化的平臺信息,不能處理大量系統無序文檔,造成分類結果不準確。
針對上述問題,提出了一個基于模糊聚類算法的工業智能應用平臺信息自動分類系統,將該系統與模糊聚類算法相結合,對工業智能應用平臺的信息進行精確挖掘,有效地提高了分類性能。
基于C/S 體系結構,結合工業智能應用平臺信息分類系統的需求[4],以B/S 體系結構管理用戶信息[5],進行了系統硬件結構設計,如圖1 所示。

圖1 系統硬件結構
如圖1 所示,該系統由3 層組成,分別是系統表示層、業務邏輯層和系統數據層。可以使系統運行速度更快,數據處理更安全,方便了網絡資料查詢和公告的發布。
1.1.1 圖形用戶界面
便攜式媒體播放器以TMS320DM270 作為主控芯片,這是一種具有多種外部設置的可編程芯片,它有利于滿足市場的動態變化要求,并使系統的其他模塊受其控制[6-7]。采用TVP5150A 核心芯片作為視頻輸入模塊,能夠對視頻信號進行轉換,以獲取數字信號。
系統添加了觸摸屏功能,其中,必須使用觸摸屏控制器和音頻編解碼器,同時,采用DM270 和McBSP構建音頻輸入輸出模塊,使得觸摸屏控制器的使用更加簡單方便[8-10]。此外,為了減小芯片尺寸和成本,觸摸屏控制器可以集成音頻編碼[11]。根據交流充電或USB 充電需求,選擇電源模塊。
1.1.2 瀏覽器
瀏覽器是用來訪問和瀏覽互聯網的客戶端[12]。瀏覽器引擎使用一個接口來查詢和操作渲染引擎。渲染引擎與后臺使用同一個界面來顯示請求的內容。使用網絡調用接口,執行HTTP 請求等內容[13]。
業務邏輯層是系統的核心處理層,包括數據采集邏輯、預處理邏輯、文檔管理邏輯、信息發布管理邏輯、文件管理邏輯等[14]。
文中設計了一個以PC104 為嵌入式信息處理單元的嵌入式智能數據采集系統,采用開放的互連結構和CAN總線接口,提高系統可靠性,避免外界干擾[15]。
嵌入式數據采集器主要是由信息處理模塊、遠程嵌入模塊、數據采集模塊、顯示模塊、外圍控制與維護接口模塊組成,并配置雙CAN 總線接口的嵌入式信息處理器和遠程數據采集裝置。
由圖2 可知,該采集器主要單元為嵌入式信息處理單元,該單元的主要任務是對信息進行采集和管理,將采集的信息定期發送給數據存儲和顯示模塊,分析用戶指令,并實時從維護界面入手,進行采集器維護工作,對系統進行日常維護[16]。高速網絡接口用于實現與其他網絡的數據交換。

圖2 嵌入式數據采集器
在系統數據層,使用一種數據分類器進行數據中心的信息分類,使其與數據庫管理系統相結合。對屬性集進行一系列決策,包括提供屬性集和分類數據,分類器結構如圖3 所示。

圖3 分類器結構
2.1.1 初始聚類中心選取
通過對象間的距離公式,確定數據集中最遠的點,將其作為初始聚類中心,設對象間距離公式為:

式(1)中,Pk和Pi表示兩個對象。
2.1.2 類合并
當兩個對象之間距離最短時,則說明這兩個對象是同一類別的。在聚類過程中,兩個類別間距離最小時,可以進行類合并處理。為了加快聚類速度,設定閾值為:

式(2)中,λ表示比例系數;dmin、dmax分別表示類別間最小和最大距離。閾值取值不能過小,否則合并速度較慢;取值也不能過大,否則所有類別將全部被歸為一類。
2.1.3 模糊聚類算法流程
將每個樣本都作為初始聚類中心,計算閾值,同時,將類間小于閾值的兩個類別進行合并處理,由此獲取新的類別點,計算隸屬度函數,更新聚類中心。根據評價函數,計算新的分類評估結果為:

如果E(n-1)<Y(n-2),則輸出聚類結果;否則,重新計算隸屬度函數,直到滿足上述條件,即可完成模糊聚類。
模糊聚類原理是將工業智能應用平臺中的所有信息進行自動分類,設某個工業智能應用平臺中包含的類別nj,其中nj在該平臺訓練樣本集Wrj中的樣本信息為mj,按照下列步驟將所屬類別nj劃分到子類T1或T2中。
分類步驟如下:
step1:根據模糊聚類原理對樣本訓練集Wrt進行模糊聚類,得到類別信息xji及兩個子類隸屬度μj1i和μj2i,將滿足隸屬度之差大于0、小于0、等于0 的樣本分別存儲到集合Wj1、Wj2、Wj3中,并分別設置3 個集合的樣本數,依次為Zj1、Zj2、Zj3;
step2:對于種類nj中,如果存在:

式(4)中,α表示設定的閾值,該值越大,說明交疊結構類別數量就越多。如果滿足式(4),則將種類nj劃分到子類T1或T2中;
step3:對于種類nj中,如果存在:

如果滿足式(5),則將集合Zj1劃分到子類T1中,Zj2劃分到子類T2中,Zj3劃分到子類T1或T2中;
從初始訓練節點開始,生成各個節點模糊聚類后,再從每個模糊類別中直接選擇該模糊聚類中隸屬度小于1 的樣本。
從上述訓練結果可看出,使用模糊聚類算法減少了訓練樣本的數量,避免了系統化無序信息對分類造成的不利影響,進而有效提高系統精度。
為了驗證基于模糊聚類算法的工業智能應用平臺信息自動分類系統設計的合理性,進行實驗驗證分析。
系統測試數據集主要包括工廠遠程運維管理平臺、訂單數字制造管控平臺、智能工業云服務平臺、項目管理協同工作云平臺4 個類別,每個類別中均有600 條信息,共包含2 400 條信息。
系統運行平臺硬件配置了5 臺主機,該主機的內存為2.5 GB。在計算機周圍部署Hadoop,并將這5 臺主機連接起來,形成分布式集群。
在Eclipse中,選擇Maven 作為管理工具,引用管理工具即可進行相關實驗。
分類結果評價可以從側面反映分類系統性能的優良,主要有兩個評價指標,分別是召回率recall 和準確率precision。其中,召回率指的是分類系統信息分類的數量與屬于同一類工業智能應用平臺信息總數之比的正確評價結果;準確率指的是分類系統工業智能應用平臺信息中,真正屬于該平臺信息所占比例的正確評價結果。召回率和準確率的計算公式為:

由式(6)、(7)可知,S表示分類標準中屬于同一類信息同時也被分類系統分到同一類中的信息數;Q表示分類標準中不屬于同一類信息,卻被分類系統分到同一類中的信息數;R表示原本應當分類到同一類信息卻被分到其他類別中的信息數。
分別使用基于知識庫自動分類系統、云計算的自動分類系統和基于模糊聚類算法自動分類系統對比分析召回率和準確率,對比結果如圖4 所示。
由圖4可知,使用基于知識庫自動分類系統對4個平臺信息分類的過程中,以關鍵詞作為特征粒度后,該系統的召回率得到提高,最高召回率為0.7,但在處理項目管理協同工作云平臺時,系統化無序信息影響著系統的分類精度,最低精度為0.6;使用基于云計算的自動分類系統對4 個平臺信息分類的過程中,引入了云計算平臺和分布式計算架構,有效提高了系統召回率,最高召回率為0.65。但在處理項目管理協同工作云平臺時,同樣受到系統化無序信息影響,導致系統分類精度較低,最低為0.59;而基于模糊聚類算法的自動分類系統,結合了模糊聚類算法,能夠精準挖掘出4 個平臺信息,不會受到系統化無序信息影響,最高召回率為0.91、最高準確率為0.89。
文中設計了一個基于模糊聚類算法的工業智能應用平臺信息自動分類系統,用模糊聚類方法生成模糊類,解決了模糊類中多類嚴重重疊和信息系統混亂等問題,可以對工業智能應用平臺的海量信息進行自動分類,具有識別效率高、訓練速度快、分類準確率高等特點,是解決信息分類分類問題的有效途徑。
盡管所設計的自動分類系統具有較高的效率,但還存在一些不足,例如現有的模糊聚類算法都是低維計算,缺少特征降維處理,因此,為了提高信息提取精準度,在未來應研究特征提取和降維技術是非常必要的。