高山武,李迎江,朱永彬
紅河學院,云南 蒙自 661100
推理理論和文法在解決實際問題的應用是當前的一個研究熱點,基于實例推理(Case-Based Reasoning,簡稱CBR)的基本思想在于從以往的成功設計中尋找與當前問題最為接近的實例作為問題的初始解,并經過對舊的實例的調整,使之滿足新問題的要求,從而生成一個當前問題的解。由于基于實例推理與傳統的基于規則推理的方法主要區別在于尋找問題解的過程中直接從以往設計中吸取經驗,而不是通過把知識歸納成問題求解的一系列規則,依靠一定的事件去觸發規則來搜索、產生問題的解。然而許多問題領域——譬如機械系統設計的方案設計問題的這種規則的歸納和提取具有很大的難度,使之成為基于規則推理系統實現的一個瓶頸,基于實例推理的文法的實現為克服這不足提供了可能性。
通常用距離測度法進行最相似實例的評判,這種相似度量的計算方法沒有從系統的組成要素及相互關系角度出發進行系統分析,忽視了組成要素的特性的相似性,導致算出的相似系數不能很好地反映實例的相似程度,而相似學經過長期研究,形成了完整的相似理論和方法,并用數學公式比較準確地刻畫了兩個相似系統之間的相似程度。本文直接采用相似學中的相似度計算公式算出新問題和實例庫中所有實例的相似度,再由相似度排序進行最相似實例的檢索,這種方法簡單有效。但在相似度量時,特征屬性的權重值一般在實際中很難確定,通常是在先驗知識的基礎上通過事先假設或是采用平權的辦法來處理,這種權重值的處理方法都無法證明其正確性,無疑會給最相似實例檢索的準確性造成影響,必須先解決這個問題,這就要用到粗集理論,對特征集進行約簡。粗集(Rough Set)理論是從知識分類的角度出發的一種新的數據推理方法,主要用于知識的約簡和屬性依賴性的分析。用粗集理論處理相似度量中屬性權重值問題,可以不用事先假定的信息,只利用已有的信息來判斷所有的屬性,在特定的分類下是否具有同等的重要性,某個特征性的重要性也就是重要程度該特征屬性在相似配置中的權重。
相似學并不是現代產生的,早期人們在探索自然規律的過程當中,就已經逐漸形成了研究相似現象的方法和理論。牛頓、柯西(Cauchy)等都曾把相似模型成功的應用于工程問題。相似三定理則奠定了相似理論的理論基礎。周美立在《相似學》、《相似系統論》兩部著作中,建立了新的學科——相似學(Similology),研究自然界中相似現象的本質,相似性形成原理和演變動力,系統相似的一般規律及其應用。相似學的基本概念定義:相似要素指兩個或兩個以上系統間存在著共有屬性或特征,在數值上存在著差異。將這些共有屬性和特征稱為相似屬性或相似特征,通稱為相似要素。
相似元:系統間存在一個相似要素,便在系統間構成一個相似單元,簡稱相似元,計作:

通過計算相似元的數值量化相似要素的相似程度。設A、B兩個系統間某個相似元具有m個特征,計Uj(ai)為要素ai對于第j個特征的特征值,Uj(bi)為要素bi相對于第j個特征的特征值。其比例系數,其中各特征值可以為確定的數,也可以為一個模糊數。
相似元的數值:

式(1)中ui為系統間第i個相似元,wij為第i個相似元中第j個特征的權重。
相似系統A、B間的相似程度則由相似度QA-B表示,相似度的計算公式為:

式(2)中:k,l——A、B系統的要素個數;n——相似元的個數;βi——第i個相似元的權重。式中項表示系統間相似元個數對系統相似度的影響。βiq(ui)項表示第i個相似元數值對系統相似度的影響。
分析基于實例推理的實例檢索是根據新問題的描述進行模式匹配的過程,新問題常常被定義成一組特征屬性,檢索的目標就是從相似實例庫中找出一個最相似的實例。其檢索過程是先根據新問題的初始條件中提取特征屬性作為檢索目標,再用新問題的特征屬性值和相似實例集中的每個實例對應的特征屬性進行相似度量,算出相似度的大小,找出相似度最大的實例就是最相似的實例。
相似度量時實例的各特征屬性所起的作用是不同的,有的起關鍵作用,有的作用很小,甚至不起作用,而且這種作用的重要性會隨著分類的改變而變化。在進行某一分類檢索時,利用粗集理論能夠算出實例屬性重要程度,并且可以根據這種重要程度對各個公有相似特征屬性的權重值賦值,如果某些特征屬性被認為沒有起到預期作用,干擾了實例檢索,可以將其刪除。
采用粗集理論的知識表達系統S=(U,A)來表示實例,其中,U為非空的有限論域,在實例庫中是所有實例的集合;A為非空的屬性有限集,包含條件屬性C和決策屬性D,即C∪D=A,C∩D= φ,C中某一屬性a∈A,Va是屬性a的值域。
實例集的屬性一般均為定性屬性,對于定量分析問題可以先采用離散處理,變成定性問題,然后再用粗集理論進行處理。屬性的重要性可以用以下兩個公式來進行判斷,即

去掉屬性以后,為

其中,card (·)表示集合的基,用rC-a(D)來判斷某一屬性a的重要程度,當從條件屬性中去掉屬性a以后再對庫中實例進行分類時,分類U/D的正定域將受到較大影響。
以集裝箱大車行走機構為例,我們取其中的3個屬性進行討論。在進行實例檢索并建立不同的索引時,對應的實例中各屬性的重要性會有較大差別,如表1。

表1 大車實例定量特征屬性表
假設從實例庫中檢索1組相似實例特征屬性參數,論域U由編號為1~5的實例組成,現對5個實例的定量屬性進行粗略的離散處理,使其變成定性屬性,離散處理結果見表2所列。其中,C={a,b,c},D=g0gggggg,屬性 a、b、c中的定性值域0、1、2分別代表各屬性的不同定量范圍,決策屬性d是建立索引時根據動力性能優劣劃分的分類,其中,0代表好,1代表一般,2代表較差。

表2 大車實例定性特征屬性表
根據(3)式、(4)式,則有


從分析結果可以看出屬性b和c對于建立的性能索引是重要的,它將U/D的正域改變得最多,去掉它將不能把3、4實例劃入UD的性能分類。因此,屬性(b,c)是按性能分類時最重要的兩個屬性。由于屬性a對于UD的正域改變不明顯,可以在相似度量時將其去除。按屬性(b,c)分別計算所有庫中實例和新問題的相似度大小,根據(1)式,n=k=l=3,β1=β1=1/2,設有新問題的描述向量為

將屬性a去除后變為

通過檢索和相似度量,確定了實例3所對應的大車特征屬性和設計的大車特征屬性相似度最大,可以調用對應的相關資料作為設計參考依據。
[1]劉長毅,徐誠.機械方案設計中實例檢索相似性的研究[J].計算機應用,2000,8:1093-1095.
[2]劉曉冰,董建華.產品配置中相似實例模糊優選法的研究[J].高技術通訊,2003,2:65-69.
[3]王玉,邢淵,朱莉萍,阮雪榆.支持重用的層次智能CBR檢索模型[J].機械科學與技術,2000,19:164-168.
[4]周美立.相似學[M].北京:中國科學技術出版社,1993:11-32.
[5]周美立.相似系統論[M].北京:科技文獻出版社,1994:27-42.
[6]駱敏舟,周美立.基于特征參數度量的相似系統設計及其應用[J].機械設計與研究,2001,3:11-13.
[7]譚建榮,李濤,戴若夷.支持大批量定制的產品配置設計系統的研究[J].計算機輔助設計與圖形學黨報,2003,15(8):931-937.