999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

數據子空間提取方法研究及應用

2023-12-13 09:48:50司立娜顏志強劉祖耀劉路朱亮
微型電腦應用 2023年11期
關鍵詞:分類方法

司立娜, 顏志強, 劉祖耀, 劉路, 朱亮

(1.深圳長城開發科技股份有限公司, 廣東, 深圳 518035;2.西安電子科技大學, 機電工程學院, 陜西, 西安 710000)

0 引言

工業數據本身具有規模大、數據產生更新速度快、類型多而雜、價值密度低的特征,電子產品生產制造過程中也是如此,并且產品的過站工序合格率通常可達99%,異常的數據少,因為異常數據往往只會偶發于某個工序或某臺機器設備或某一段未知的短暫時間段內,這就使得所產生的數據大多數為合格數據,異常數據占比非常小,這種不平衡狀態分布的數據容易使得異常數據中的價值信息被掩藏,為進一步識別工藝參數改善因子,需要考慮如何從這種不平衡數據中提取出有價值的數據子空間進行研究。

數據子空間是相對于數據全空間而言,在刻畫數據的所有特征屬性中提取少量關鍵屬性來組成新的數據空間,尤其是對高維的不平衡數據進行分析時,顯得尤為重要。文獻[1]使用PSO-SPLOF算法來探討研究局部離群數據的子空間劃分,文獻[2]給出了使用信息增益的決策樹算法應用到網絡高維軟子空間聚類中,文獻[3]給出了一種基于基尼指標加權的離群子空間數據挖掘方法,文獻[4]為解決實際財務數據分布的不平衡性,提出了將馬田系統與集成分類算法(AdaBoost)相結合的算法設計,此算法可實現自動調節分類器樣本的概率來更正平衡度。這些方法的應用也表明了數據挖掘的方法在提取和挖掘處理數據子空間及數據平衡分布中發揮著重要的作用,所以對于實際應用的工業數據,提出了基于傳統CART樹和CART樹改進方法研究提取數據子空間。

1 研究方法與應用

傳統的機器學習方法在具有超低價值率的工業數據挖掘中發揮著重要作用,如何從大量無規律的、超低價值率的數據空間中提取出具有明顯規律特征的子空間數據集是本文的主要研究出發點,基于實際應用案例的需求,探索使用數據挖掘算法,包括傳統的機器學習算法(CART)和改進的算法(雙CART)來進行研究。

1.1 分類回歸樹(CART)

分類回歸樹(CART)算法最早由BREIMAN等[5]提出,目前已在統計領域和數據挖掘技術中普遍使用。它是用基尼系數代替熵模型,將最大化不純度降低(或等價地,具有最小基尼指數)的屬性選擇為分裂屬性,由CART算法構建的決策樹在很多情況下比常用的統計方式構建的代數預測更加準確,而且數據越復雜,變量越多,算法的優越性越顯著。

CART算法又稱CART決策樹算法,是應用于分類的一種樹結構,其中每個內部節點代表某一屬性的一次測試,每條邊代表一個測試結果,葉子節點代表某個類或類的分布。CART算法基于基尼指標求出作為根節點的屬性,然后自上而下以遞歸的方法構建模型,直至每個樣本集在劃分后都是完全純凈的,則停止建樹。基尼指標用于度量樣本的雜質度,對于樣本集合D,定義[6]如式(1)

(1)

基尼指數考慮每個屬性的二元劃分,當考慮二元劃分裂時,計算每個結果分區的不純度的加權和,如果A的二元劃分將D劃分成D1和D2,則給定該劃分,D的基尼指數為

(2)

1.2 分類回歸樹的改進(雙CART)

在實際應用的工業數據中,傳統的CART算法主要表現為分類準確率偏低,算法計算量偏大等情況,所以對傳統CART方法進行改進,即提出了雙CART法,增加人工設定閾值的方向進行后剪枝和兩次CART分類樹創建,目的是減小計算量,使得分類更加精確。雙CART具體算法步驟如下:

Step 1 對所選原始超限數據構建第一棵CART樹,得到葉子數據集{s1,s2,…,sn},每個葉子中均包含正負樣本兩類(即超上限類和超下限類);

Step 2 設定樣本量初始閾值N0(一般選取總樣本量的10%)和正負樣本比例值初始閾值R0(一般初始選擇60%,對第一步所產生的葉子數據集進行篩選,得到滿足條件的候選數據子集{h1,h2,…,hk};

Step 3 對第二步所篩選得到的候選數據子集繼續構建CART樹,得到k棵CART分類樹,計算每棵分類樹的AUC,并設定AUC閾值,選擇出最優分類路徑和此路徑的葉子數據集的樣本量N及R;

Step 4 根據新的樣本量N及R定為最終設定樣本量和正負樣本比例值閾值選取,返回Step 2繼續,得到最終最優分類路徑和最優數據子空間。

1.3 實例應用

機加工關鍵尺寸是公司產品生產工序中最重要的質量控制參數,將雙CART分析方法應用到了尺寸數據分析當中,進一步篩選出尺寸異常數據的影響因子,指導生產現場工藝參數優化,目的是提高產品生產工藝能力指數,滿足客戶需求目標。

機加工關鍵尺寸數據的相關影響因子有機臺號、停機時間、車間溫度與測試溫度之差(又稱溫度差)、抽檢時間與測試時間之差(又稱時間差)、真空值等。使用雙CART方法,在第一步CART分類時設定初始閾值候選數據集數據量為最小30,葉子節點的正負樣本比例最小60%,篩選出風險路徑為超下限候選數據集路徑5、路徑7、路徑10,超上限候選數據集路徑1、路徑4、路徑6、路徑9、路徑13。繼續對這些路徑的葉子數據進行第CART分類,選擇分類準確性AUC大于0.9的路徑為最優分類路徑,即風險最大路徑,迭代優化得出選擇候選數據集時設定樣本量閾值N最小為50,R最小為70%,同步得到最優分類路徑為機臺號、待機時間、機臺號,路徑分析發現主要影響因子集中于機臺號(2,9,16,22,23,37,41,46)和停機時間(小于2426 s內,即停機重啟后2426 s內),這些是需要重點關注和改善的方面。雙CART方法有效提取到了異常數據的屬性子空間,同時也減少了傳統CART算法的冗余計算量,并識別到了機加工關鍵尺寸數據的主要影響因子和改善方向。

圖1 CART樹輸出結果

表1 雙CART輸出路徑(初始N0和R0)部分示意表

表2 雙CART輸出最優路徑結果(AUC閾值>0.9)

2 總結

本文提出了使用雙CART方法進行數據子空間提取處理分析,并應用到機加工關鍵尺寸數據分析,實例表明雙CART方法應用分類效果顯著,可以從大量無規則的數據中提取有強相關的數據子空間,并且使用雙CART方法識別到了影響尺寸質量的主要屬性因子及風險路徑,明確了機加工設備長時間停機重啟后的重點監控時段時長,給出了在此時段內需要進行特殊監控的建議,即現場工藝人員重點關注此時段產出質量并持續調整機加工設備關鍵參數,結果驗證了改善措施實施后工藝能力指數得到了提升。

猜你喜歡
分類方法
分類算一算
垃圾分類的困惑你有嗎
大眾健康(2021年6期)2021-06-08 19:30:06
學習方法
分類討論求坐標
數據分析中的分類討論
教你一招:數的分類
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
賺錢方法
給塑料分分類吧
主站蜘蛛池模板: 亚洲女同欧美在线| 老熟妇喷水一区二区三区| 自慰高潮喷白浆在线观看| 成人免费午间影院在线观看| 四虎影院国产| 999在线免费视频| 国产91麻豆视频| 国产亚洲欧美在线中文bt天堂| 亚洲精品国产日韩无码AV永久免费网 | 亚洲日韩高清在线亚洲专区| 久久99热66这里只有精品一 | 精品亚洲国产成人AV| 国产成人在线小视频| 成人午夜免费视频| 91精品国产综合久久香蕉922 | 免费无码AV片在线观看国产| 国产精品综合色区在线观看| 婷婷六月在线| 激情综合婷婷丁香五月尤物| 成人福利在线观看| 波多野结衣一区二区三区四区| 亚洲中文无码av永久伊人| 全部免费毛片免费播放| 亚洲男人的天堂在线观看| 日韩第一页在线| 综合人妻久久一区二区精品 | 亚洲福利片无码最新在线播放| 色综合久久无码网| 九色视频最新网址 | 日韩精品一区二区三区视频免费看| 亚洲欧美国产视频| 色精品视频| 真实国产乱子伦高清| 综合色区亚洲熟妇在线| 日本一本正道综合久久dvd | 免费在线国产一区二区三区精品| 免费国产不卡午夜福在线观看| 男女男免费视频网站国产| 国产97视频在线| 欧美激情视频一区| 国产精品亚洲αv天堂无码| 亚洲伊人天堂| 欧美一区中文字幕| 国产在线视频福利资源站| 国产原创演绎剧情有字幕的| 一区二区日韩国产精久久| a级毛片免费看| 免费一看一级毛片| 国产对白刺激真实精品91| 久久综合九色综合97婷婷| 日本成人在线不卡视频| 国产永久无码观看在线| 亚洲成a人在线播放www| 久久亚洲天堂| 亚洲人成影院午夜网站| 欧美 亚洲 日韩 国产| 经典三级久久| 亚洲一区二区三区麻豆| 国产成人av大片在线播放| a亚洲视频| 日韩大乳视频中文字幕| 国产精品粉嫩| 澳门av无码| www.亚洲国产| 香蕉精品在线| 看国产一级毛片| 中文字幕 91| 色久综合在线| 成人毛片免费观看| 国产亚洲欧美在线专区| 手机在线看片不卡中文字幕| 2020久久国产综合精品swag| 亚洲天堂免费在线视频| 性69交片免费看| 亚洲日本中文字幕乱码中文| 美女一级免费毛片| 无码啪啪精品天堂浪潮av| 欧美一级特黄aaaaaa在线看片| 国产视频大全| 欧美日韩国产综合视频在线观看 | 久久性妇女精品免费| 青青草91视频|