季益萍,楊云輝,黃少君
(1.天津工業大學 紡織學院,天津 300387;2.天津工業大學 先進紡織復合材料教育部重點實驗室,天津 300387;3.天津工業大學 計算機科學與軟件學院,天津 300387)
羊絨因其獨特的手感、光澤和優良的品質受到消費者的青睞。由于羊絨產量低、價位高,市場上出現了很多羊絨羊毛混紡產品假冒純羊絨制品銷售的情況[1-2],因此,如何準確、快速、經濟地鑒別羊絨纖維顯得十分重要。由于羊毛在結構、外觀形態、理化性能上都與羊絨較為接近[3-4],直到目前,對羊絨與羊毛的鑒別一直沒有一套科學的方法和完整的國際標準[5-6]。
目前,對羊絨與羊毛鑒別的研究主要是基于傳統統計方法,本文將數據挖掘思想引入羊絨與羊毛纖維的鑒別研究中,提出采用單根纖維上的多元指標作為分類研究的特征屬性,從新的視角對羊絨與羊毛鑒別研究進行探索。采用數據挖掘中經典的決策樹算法,對羊絨和羊毛進行分類鑒別研究,完成相應的數學建模和評估。結果表明,基于決策樹算法所建分類模型具有很好的羊絨與羊毛鑒別能力。
數據挖掘中的分類預測就是通過向現有已知數據學習,使建立的數學模型具備對未來新數據的分類預測能力。這需要對現有類別已知數據所包含的分類規律進行歸納和提煉,并進行有指導性的學習才能實現。
分類任務的輸入數據是記錄的集合。每條記錄可以用元祖(x,y)表示,x是屬性集,y是類標號。例如,本文中屬性集即羊絨與羊毛特征參數的集合,包含纖維細度、鱗片高度等;而類標號就是用+1和0表示羊絨和羊毛。本文采用數據挖掘的思想與其他羊絨與羊毛纖維鑒別研究不同的是所取的特征值都是在1根纖維上的數值,也就是從1根纖維獲取二元甚至多元的指標數據進行分類鑒別。
分類的任務就是通過對訓練集學習得到1個分類數學模型f,把每個屬性集x映射到1個預先定義的類標號y。解決分類問題的一般方法:首先,使用類標號已知的訓練集通過不同的算法建立多個分類模型,然后通過驗證集評價每個分類模型的性能,比較模型并選出最適合的1個(在某些算法里,驗證集還可用來自動調節和改進所建模型)。該模型將運用于類標號未知的檢驗集,用于檢驗所選模型在新數據上的真實性能[7]。
決策樹是數據挖掘中一種簡單、經典且廣泛應用的分類技術。它是使用樹結構算法對數據進行分類預測的方法。本文通過羊絨與羊毛纖維的特征參數值來判斷所測試樣是否是羊絨。
決策樹主要包含2個過程:第一,樹生成,即利用訓練集完成決策樹建立的過程;第二,樹剪枝,即利用驗證集對形成的決策樹進行精簡的過程。
樹生成是以樣本為基礎的歸納學習方法,其表現形式是類似于流程圖的樹結構,在決策樹的內部節點進行屬性值測試,并根據屬性值判斷由該節點引出的分支,在葉節點得到結論。其基本算法是貪心算法,采用自頂向下的遞歸方式構造決策樹,主要策略如下。
1)樹以代表單個訓練樣本的節點開始;
2)如果樣本都在同一個類,則該節點成為樹葉,并用該類標記;
3)否則,算法使用成為信息增益的基于熵的度量作為啟發信息,選擇能將樣本進行最佳分類的屬性;
4)對測試屬性每個已知的值,創建1個分枝,并據此劃分樣本;
5)算法使用同樣的過程,遞歸的形成每個劃分上的樣本判定樹,一旦一個屬性出現在1個節點上,就不必在該節點的任何后代上考慮該屬性。
遞歸劃分步驟僅當下列條件之一成立時停止:1)給定節點的所有樣本屬于同一類;2)沒有剩余屬性可以用來進一步劃分樣本,在此情況下,使用多數表決所得的類編號將節點轉化為樹葉;3)如果某個分枝沒有樣本,則以其劃分前的訓練樣本的多數類創建 1 個樹葉[8]。
在決策樹創建時,由于數據中包含噪聲和離群點,許多分支反映的是訓練集中的異常。樹剪枝就是處理這種過分擬合的數據問題。通常,這種方法使用統計度量,剪去最不可靠的分枝。
常見的決策樹剪枝方法分為先剪枝和后剪枝。先剪枝主要用來限制決策樹的充分生長,后剪枝則是待決策樹充分生長后再進行剪枝。
采用不同的樹生成策略和不同的樹剪枝策略,就形成了很多不同的決策樹算法,常見算法有C5.0、CART、CHAID 和 QUEST 等[9]。
本文以鄂爾多斯集團提供的羊絨和如意集團提供的羊毛為樣本,各取100根纖維作為建模依據。因為掃描電鏡所取圖像質量遠遠好于光學顯微鏡,為了盡量保證數據的準確性,本文通過掃描電鏡獲取羊絨與羊毛纖維的數字圖像(見圖1)。經過圖像預處理后,本文采用數學形態學細化算法提取羊絨與羊毛纖維的中軸線,并基于此中軸線進行纖維細度與鱗片高度的提取。這種改進的方法采用真實的中軸概念,即使纖維彎曲,也能反映其彎曲的特征。經過多點平均,可以盡量減少誤差[10]。

圖1 掃描電鏡下羊絨與羊毛纖維對比Fig.1 Comparison of wool and cashmere under SEM
測量每根羊絨與羊毛纖維的細度和鱗片高度,并推算其徑高比。本文以這3個識別指標為基礎對羊絨與羊毛纖維進行鑒別研究。
羊絨與羊毛的纖維直徑與徑高比散點圖如圖2所示。通過該圖可以把握特征參數的集中趨勢和離散程度,可以看出羊絨的徑高比在1.0附近,而羊毛徑高比大部分高于1.0,即使在1.0附近,其纖維直徑也比羊絨高。但是也可以看出中間交叉區域有部分纖維數據相當接近,這是影響纖維鑒別準確性最主要的因素。

圖2 羊絨和羊毛的直徑與徑高比散點圖Fig.2 Scatter diagram of diameter and diameter-height ratio of wool and cashmere
采用IBM Modeler 14.2對獲取的數據進行建模仿真。圖3示出基于C5.0算法的羊絨和羊毛分類實驗模型。從決策樹上可以直接獲得推理規則,并得到每個節點所包含的樣本量及置信度。本文2種纖維各有100根樣本參與分析,從中隨機抽取近50%作為訓練樣本,其余樣本為檢驗集。本次實驗所得是1棵3層決策樹,根節點包含100個樣本(羊絨47根,羊毛53根)。徑高比是第1個最佳分組變量,并以此形成二叉樹,因此,幾個指標中它是分類決策中最重要的指標。分析結論如下:
1)徑高比≤1.115時(45個樣本),分類為羊絨,置信度為97.778%;

圖3 基于C5.0算法的羊絨和羊毛分類模型Fig.3 Classification model of wool and cashmere based on C5.0 algorithm
2)徑高比 >1.323時(47個樣本),分類為羊毛,置信度為100%;
3)1.115<徑高比≤1.323,且纖維直徑≤15.476(4個樣本),則分類為羊絨,置信度為75%;
4)1.115<徑高比≤1.323,且纖維直徑 >15.476(4個樣本),則分類為羊毛,置信度為100%。
表1、2分別示出該模型的準確率矩陣和混淆矩陣。可以看出其識別正確率在95%左右。

表1 基于C5.0算法的羊絨和羊毛的準確率矩陣Tab.1 Accuracy matrices of wool and cashmere based on C5.0 algorithm

表2 基于C5.0算法的羊絨和羊毛的混淆矩陣Tab.2 Confusion matrices of wool and cashmere based on C5.0 algorithm
本文還采用其他3種決策樹算法(CART、CHAID和 QUEST)進行了建模仿真,如圖 4~6所示。

圖4 基于CART算法的羊絨和羊毛分類模型Fig.4 Classification model of wool and cashmere based on CART algorithm
本文比較了每個模型的混淆矩陣、信息增益等評價指標,結果如圖7所示。結果表明C5.0算法比其他算法更為精確和穩定,可用于對實際羊絨與羊毛纖維的鑒別分類。

圖5 基于CHAID算法的羊絨和羊毛分類模型Fig.5 Classification model of wool and cashmere based on CHAID Algorithm

圖6 基于QUEST算法的羊絨和羊毛分類模型Fig.6 Classification model of wool and cashmere based on QUEST algorithm

圖7 4個模型的信息增益對比圖Fig.7 Comparison of information gain of wool and cashmere in four models.(a)Trian set;(b)Test set
本文基于數據挖掘技術,對羊絨與羊毛纖維進行鑒別研究,采用經典的決策樹算法進行數學建模。對比了4種典型的決策樹算法,結果表明C5.0算法比其他3種算法更為精確和穩定,可用于對實際羊絨與羊毛纖維的鑒別分類。這種新的思路對于纖維鑒別的相關研究也具有一定的指導意義。
[1]SPILHAUS Karl. CCMI and cashmere fiber identification[C]//ZHANG Zhi.The 4th International Cashmere Determination Technique Symposium Paper Collection[s.l.],2008:1-19.
[2]LANGLEY D Kenneth.Practical issues in identifying cashmere[C]//ZHANG Zhi.The 2th International Cashmere and Wool Determination Seminar,2003:24-39.
[3]VINEIS Claudia,ALUIGI Annalisa,TONIN Claudio.Outstanding traits and thermal behaviour for the identification of speciality animal fibres[J].Textile Res J,2010,81(3):1-9.
[4]鄧麗麗,姜風琴.山羊絨與相似毛絨類纖維鑒別方法的比較[J].大連輕工業學院學報,2003(3):203-205.
DENG Lili,JIANG Fengqin.Comparison of identification means for cashmere and similar villiform fibers[J].Journal of Dalian Institute of Light Industry,2003(3):203-205.
[5]KURABAYASHI T,SAITOH F,WATANABE N,et al.Identification of textile fiber by terahertz spectroscopy[C]//Proceedings of IRMMW-THz,2010:1-2.
[6]JWIF. Analysis of sheep wool and goat fiber characteristics using scanning electron microscopy and study on the differentiation method[C]//ZHANG Zhi.The 4th International Cashmere Determination Technique Symposium Paper Collection,2008:88-98.
[7]TAN Pangning,STEINBACH Michael.Introduction to Data Mining[M].Beijing:The People's Posts and Telecommunications Press,2011:108-119.
[8]HAN Jaiwei, KAMBER Micheline. Data Mining Concepts and Techniques[M].Beijing:China Machine Press,2011:188-192.
[9]龐素琳,鞏吉璋.C5.0分類算法及在銀行個人信用評級中的應用[J].系統工程理論與實踐,2009(12):94-104 PANG Sulin,GONG Jizhang.C5.0 classification algorithm and its application on individual credit score for banks[J].Systems Engineering-Theory & Practice,2009(12):94-104.
[10]JI Yiping,WANG Rui.An improved algorithm of measuring diameter of wool and cashmere based on the medial axis[J].Advanced Materials Research,2011:1158-1161.