摘 要:野外調查得到的錐栗屬性特征數據具有區間分布的特征。為了使區間值算法的理論與研究成果應用到具體實踐中,在錐栗數據的挖掘和分析中發現更有價值的知識,更好進行錐栗的分類研究,提出區間值聚類的數據挖掘模型。
關鍵詞:錐栗;區間值;聚類;數據挖掘
錐栗(Castanea henryi)是我國南方栽培馴化最早、利用最久的經濟林樹種之一,屬于殼斗科栗屬,是栗屬三大中國特有種之一。錐栗在栗屬植物的起源和進化研究中占有重要的地位,是世界食用栗屬品種改良的重要基因來源,對世界栗屬植物的資源保護和利用具有重要意義。
在許多實際問題中,由于被聚類的信息估計不精確或測量誤差等原因,常常以區間數形式來表示。在傳統解決具有精確數值信息的最大樹模糊聚類方法的基礎上,針對聚類對象特征指標值及指標權重均為區間數的多指標信息聚類問題,提出一種新的聚類分析方法即區間值聚類,并且采用區間值數據庫中的信息挖掘。
1 數據挖掘概述
1.1 數據挖掘
數據挖掘是指從大量數據中提取出可信的、新穎的、有效的并能被人理解的模式的高級處理過程。數據挖掘把人們對數據的應用從低層次的簡單查詢,提升到從數據中挖掘知識,提供決策支持服務。數據挖掘過程可分為:問題定義、數據提取、數據預處理、數據挖掘以及結果的解釋和評估等階段。由此可見,數據挖掘只是數據庫中知識發現的一個步驟,但又是最重要的一步。
1.2 區間值聚類
聚類分析的基本思想:按照數據的相似性和差異性,將數據劃分為若干組,同組的數據盡量相似,不同組的數據盡量相異,這種對數據進行自動組織的方法稱為聚類。聚類是一個無監督學習過程,其類別不是人為指定的,完全由計算機自動進行,不需要人工干預。
在許多實際問題中,由于被聚類的信息估計不精確或測量誤差等原因,常常以區間數形式來表示。本文在傳統解決具有精確數值信息的最大樹模糊聚類方法的基礎上,針對聚類對象特征指標值及指標權重均為區間數的多指標信息聚類問題,提出一種新的聚類分析方法即區間值聚類。
1.3 數據庫信息挖掘模型
本文研究方法采用區間值數據庫中的信息挖掘,與一般數據庫信息挖掘的不同之處在于它引入區間值數據庫的概念。
定義1(區間值關系數據庫):設D1,D2,…,Dn為N個實數域F(D1),F(D2),…,F(Dn)分別為D1,D2,…,Dn上一些區間構成的集合,把它們作為所要定義的關系的屬性的值域。做笛卡爾積:F(D1)×F(D2)×…×F(Dn),稱該笛卡爾集的一個子集為一個記錄屬性具有區間值的關系,此時的數據庫稱為區間值關系數據庫。一個記錄可以表示為t=(x1,x2,…,xn),這里xi∈F(Di)(i=1,2,,…,n)是Di上的區間。
定義2(閉區間距離):設[a,b],[c,d]是任意兩個閉區間,兩個閉區間的距離定義為d([a,b],[c,d])= .
區間值數據庫的挖掘是將F(Di)用“區間值聚類法”進行聚類,最后對數據庫進行整合消去多余的維數(屬性),轉化為普通的數量型數據庫進行挖掘。
其算法如下所示:第一步:將數據庫中屬性Di對應之值域F(Di)通過泛化抽象轉化為可比較類型;第二步:在轉換后的數據庫中,在任意一個F(Di)中兩兩數據之間求其區間距離,該距離作為其相似程度的度量。并由此產生相似矩陣;第三步:根據區間值聚類法對其進行歸類;第四步:判斷是否達到指定閾值,否則重復第三步;第五步:整合聚類結果;第六步:挖掘數量型關聯規則。
2 錐栗數據分析及其預處理
2.1 錐栗數據概況
本文所使用的錐栗數據源是殼斗科栗屬的一部分,數據由錐栗的基本屬性構成,反映錐栗的外觀基本特征。錐栗基本屬性有:葉長、葉寬、葉柄長、葉齒數、葉脈數、苞刺長、果苞厚、果苞干重、苞果數、果側徑、果橫徑、果縱徑、底座橫徑、底座側徑、花柱長、柱頭分叉、果重、果形系數、果頂毛比等。這些數據大部分是野外調查獲取,從中選取一些具有代表性屬性做為研究對象。
原始ID數據庫的數據量大,內容豐富,但雜亂冗余的數據難以直接應用于數據挖掘。為了保證數據挖掘算法的有效性,提高挖掘效率,從中選擇部分與挖掘任務相關的數據,并對這部分數據進行有效的預處理,使其更適合挖掘算法,從而減少挖掘過程中的障礙,提高挖掘模式的質量,縮短挖掘過程需要的時間。
2.2 數據預處理分析
2.2.1 數據預處理技術
數據挖掘的算法對其處理的數據集合一般都有一定的要求,而現實世界中的數據一般都極易受噪聲數據、空缺數據和不一致數據的侵擾,很少能直接滿足數據挖掘算法的要求,因此需要對數據進行預處理。數據預處理技術可以改進數據的質量,有助于提高其后挖掘過程的精度和性能。高質量的決策必然依賴于高質量的數據,因此數據預處理是數據挖掘過程的重要步驟,往往能占到總工作量的60%左右。
2.2.2 屬性選擇
數據挖掘所處理的都是大規模的數據,在海量的數據上進行復雜的數據分析和挖掘將需要很長時間,有時會使得這種分析不現實或不可行。屬性選擇即選擇與挖掘任務相關的屬性,減少數據量,提高挖掘效率。
葉的特征在分類中具有重要的價值。錐栗的葉較狹長,板栗的葉較寬,因此葉寬或葉形系數(葉長比葉寬)是重要的分類性狀,葉脈多少曾被早期學者視為關鍵特征之一,然而據標本分析,發現這是易變化的性狀,葉脈數目常隨葉片增寬而增多。葉質在不同品種中也不同,最明顯的是豬嘴榛的葉質為草質,不同于其它品種的薄革質。另外,葉柄長、葉齒數、葉脈數等也具有一定的分類價值,而每苞堅果數、果形系數(堅果縱徑與橫徑之比)在分類上具有更重要的意義。
根據前面的介紹可以看出,在數據庫中,錐栗信息表中的屬性值有些區分較為明顯,有些相似,我們目標是對錐栗進行聚類,因此可以去掉這些不主要的相似屬性。在領域專家的建議下,決定從數據庫中去掉這些屬性,另外葉長和葉寬、底座橫徑和底座側徑、葉齒數和葉脈數等,因為它們之間大致成一定比例,因此都可以進行合并計算,故可以去除這幾個屬性,可以減少數據量。
2.2.3 數據清洗
在整理數據庫過程中,發現有些數據存在明顯的錯誤,為了進一步減少數據量,消除錯誤數據的干擾,編寫相應算法,對數據進行清洗。
剔除錯誤數據算法:⑴選定一個品種。⑵選定該品種的一個屬性,查詢出它的所有記錄數,然后把該記錄數乘以精度(暫時定為千分之五),取大約的整數n。⑶先按屬性值降序排列,取出最大的n+1個數。把這n+1個數中最大的數除以最小的數,如果所得值>2.1,則該最大數為錯誤數據,接著把次大的數除以最小的數……直到所得值>2.1。刪除所有被判定為錯誤的數據。⑷再按屬性值降序排列,取出最小的n+1個數。把這n+1個數中最大的數除以最小的數,如果所得值>2.1,則該最小數為錯誤數據,接著把最大的數除以次小的數……直到所得值>2.1。刪除所有被判定為錯誤的數據。⑸接著判斷該品種的下一個屬性,轉第二步。⑹選定下一個品種,轉第一步。
3 親緣關系探討
3.1 品種的屬性密集區選取
對于錐栗的每一個屬性,它們之間存在屬性相似,這也就是我們通常所說的品種之間的親緣關系。運用SQL數據庫工具,編寫相關算法,求得品種的屬性密集區,從中找到錐栗品種之間的親緣關系。
算法描述如下:⑴在已經剔除錯誤數據的基礎上,用SQL語句求出所有品種各個屬性的最大值、最小值、平均值。⑵選定一個品種。⑶選定該品種的一個屬性。⑷用SQL語句搜索出該屬性所有介于最大值和平均值之間的記錄數M。然后計算:N=M*精度(暫時定為80%)。⑸用二分查找法的原理計算:搜索介于上限值High(初值為(最大值-平均值/2)與下限值Low(初值為平均值)之間的記錄數Q。如果Q
3.2 權重的選擇
品種的屬性密集區已經計算完畢,現在要考慮的就是各個屬性權重的選取。一個屬性越能把各個品種區分開,該屬性的權重就越大。所以,考慮計算兩兩品種各個屬性之間的重疊區百分比,如果總值越小,說明該屬性越能區分各個品種,它所占的權值越大。
設計算法描述如下:
3.3 親緣關系分析結果
經過一系列操作,分析具有代表性的樣本數據,我們認為苞果數本身就是區分不同栗屬品種的一個關鍵特征。在栗屬分類上,中國板栗和茅栗以每栗苞內3個堅果為代表特征分在真栗組,而錐栗每栗苞內為1個堅果,分在Hypocastanon組。因此首先可以直接將7號板栗區分出來,再將所研究的代表性的屬性區間數據值進行分析,以一棵完整的親緣關系樹來表示出來,非常的直觀,可以一目了然的看出各個品種之間的親緣關系,如圖表1。
4 結束語
本文以錐栗信息數據庫為應用背景,對區間值聚類算法進行分析,極大地提高聚類分析效率,實現對錐栗信息數據庫的聚類分析,得出并分析聚類結果。研究人員就可以在聚類結果的基礎上,對不同的錐栗品種實施差別化、科學化的管理和種植策略,帶來經濟效益。
[參考文獻]
[1]雷日平,陳輝,等.錐栗不同品種親緣關系的系統分析研究.經濟林研究,2002,20(2):61~99.
[2]沈永寶,施季森,林同龍,等.RAPD標記鑒定錐栗栽培品種.林業科技開發,2004,18(4):24~25.
[3]郎萍,黃宏文,等.栗屬中國特有種居群的遺傳多樣性及地域差異.植物學報,1999,41(6):651~657.
[4]尹云飛,鐘智,張師超.一種區間值聚類的數據挖掘模型.計算機與現代化,2004年第10期.
[5]于春海,樊治平.一種基于區間數多指標信息的聚類方法.東北大學學報,2004年第2期.