蔣彧琛 方鵬程



摘 要:車間生產數據,以零件加工為例,幾乎所有的零件都具有十幾項乃至幾十項屬性或特征,因此每個零件都可以視為高維空間上的點。由于高維空間通常是違背人類直覺的,而且當數據的維度非常高時,必然引發“維數災”,導致許多數據挖掘算法不能正常執行,因此從原始數據中很難直觀地發現數據中所包含的信息。放射性可視化技術就是將高維數據進行“降維”,運用力學原理和數學方法對高維數據進行轉換,映射成二維散點圖,從而對零件進行分析和可視化管理。
關鍵詞:放射性可視化;數據挖掘
中圖分類號:TP391.41 文獻標識碼:A 文章編號:2096-4706(2018)02-0176-03
The Application of Radioactivity Visualization Algorithm on Analysis of
Workshop Production Data
JIANG Yuchen,FANG Pengcheng
(Beihang University,Beijing 100191,China)
Abstract:Workshop production data,for example of parts processing,almost all parts have more than ten or even dozens of attributes or features,so each part can be regarded as a point on high dimensional space.Because the high dimensional space is usually contrary to human intuition,and when the dimension of the data is very high,it will inevitably lead to "dimension disaster",which causes many data mining algorithms to not be executed normally,so it is difficult to find the information contained in the data from the original data.The technology of radioactivity visualization is to“reduce the dimension”of the high dimensional data,and use the mechanics principle and mathematical method to transform the high dimensional data,map into the two-dimensional scatter plot,so as to analyze and visualize the parts.
Keywords:radioactivity visualization algorithm;data mining
1 零件樣本及其描述
表1是生產車間的一組零件樣本,為了便于說明問題,共選取20個零件,經過數據預處理工作的數據特征提取,設定每個零件包含4項主要特征。
1.1 單件大小
反映零件的體積:1級最小,4級最大。零件的體積范圍是根據生產車間自身的特點設定的,零件體積的大小對零件庫存、緩沖區零件數量有重要的影響,進而影響車間的調度排產。
1.2 計劃等級
零件的計劃等級反映了零件的排產和調度的優先級別:2級最低,8級最高。
1.3 零件材料
表1中的零件均為合金鋼材,主要包含碳、鉻。這兩種元素對鋼組織性能的影響如下[1]:
(1)鉻元素與鋼的淬透性相關,并且能與碳生成Cr3C,并且會以顆粒狀的形式彌散性分布在金屬基體上,使零件的強度、硬度、耐磨性有顯著性提高,但會降低零件的塑性和韌性。
(2)碳元素與鋼的淬硬性相關,零件的強度和硬度一般會隨著碳含量的增加而上升;零件的塑性和韌性一般會隨著碳含量的增加而下降,當零件中的含碳量大于1%時,零件便具有很大的脆性。
綜上所述,碳、鉻元素的含量對零件強度、硬度、塑性和韌性影響較大。在一定含量范圍內,材料的加工難度和兩種元素的含量成正相關關系。
1.4 校檢周期
校檢周期是指在零件的生產加工檢驗過程中允許的最長間隔時間,是車間生產周期管控層面的一項關鍵績效指標。[2]
2 數據準備
觀察零件的各個屬性,其中既包含數值型變量,又包含非數值型變量,而且度量單位和物理意義均不相同,無法進行統一的數學運算。因此,需要對表1中的數據進行標準化處理,使標準化后的各個屬性均以數值的形式分布在區間[0,1]上。
本文采用最小—最大標準化方法。[3]設屬性Km的數值,其中;。是經過標準化后的數據。
對于非數值型屬性K3(零件材料),根據鋼的牌號計算鉻元素和碳元素的總含量以衡量零件的加工難度系數。
3 放射性可視化原理及算法
放射性可視化原理是利用胡克定律,將高維空間上的點映射到二維平面,進而形象化地挖掘數據中的隱含信息。
4個屬性對應四維空間,每個零件分別對應四維空間上的一點,即 , 是該零件經過4個屬性綜合作用后映射到二維平面上的投影點。其中,表示單個屬性對該零件的影響,;;。
如圖1所示,將零件的4個屬性順時針、等間隔固定在平面坐標軸的4個點上。利用胡克定律在四維空間和二維空間之間建立映射關系。
四維空間上的每個點 同時受四個力F1n,F2n,F3n,F4n的綜合作用,其中n=1,2,…,20。根據胡克定律:F1n是系數和點 與點 之間的距離向量的乘積,即:
同理:
對于點Pn(xn,yn),由于所受合力為零,即F1n+F2n+
F3n+F4n=0,因此:
即:
得到 點的橫縱坐標:
4 數據分析
零件信息二維散點如圖2所示:
4.1 象限上的點
兩個相鄰的坐標值遠大于其他坐標值的點經過映射后,位于某個象限上。例如 的二維坐標是 ; 的二維坐標是 ,兩個點均在第四象限上。
4.3 坐標軸附近的點
兩個有間隔的坐標值遠大于其他坐標值的點經過映射后,位于坐標軸附近。
4.4 圓周附近的點
如果四維空間上的點只受某個維度作用,例如,那么該點經過映射后將剛好位于圓周上的一個固定點 上,可以表示為該零件的單件體積小、計劃等級低、校檢周期短,但是加工難度大。
5 結 論
放射性可視化算法強調的是維度值之間的關系,即零件四個屬性的綜合作用,而不是各個維度的絕對值,例如編號為16的零件,在四維空間的坐標值互相接近,為 ,合力幾乎為零,其在平面上的投影點為 ,該點位于圓心附近,表示單件大小、計劃等級、加工難度以及校檢周期對16號零件的作用“勢均力敵”。
將高維數據點映射成直觀的二位散點圖,更便于將零件進行聚類分析以及發現特殊零件。該算法對于具有更多屬性、更高維度以及更多類型的數據同樣適用。
參考文獻:
[1] 張彥華.工程材料學 [M].北京:科學出版社,2010:34-35+119.
[2] SP95ISA-95,企業系統與控制系統集成國際標準 [S].美國:儀表、系統和自動化協會,1995.
[3] Cios,K.J.,W.Pedrycz,R.W.Swiniarski,L.A.Kurgan,DataMining:AKnowledge Discovery Approach,Spinger,New York,2007.