尹安琪 關世杰
摘 ?要:隨著因素空間理論的誕生和不斷完善,其為知識表示和人工智能的發展奠定了基礎并且得到了廣泛的應用。該文針對因素空間進行了因素空間的展開與收攏和優化因素兩個方面的研究,其中因素空間的展開與收攏主要體現了因素空間、因素和屬性之間的層次性關系,根據決策樹算法和聚類算法對因素之間的關系進行優化,凸顯出重要的因素,可以對高維數據降維節省存儲空間和判別的時間。
關鍵詞:因素空間 ?因素 ?屬性
中圖分類號:TP311 ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 文獻標識碼:A ? ? ? ? ? ? ? ? ? ? ? ? 文章編號:1672-3791(2019)06(a)-0237-02
因素空間是汪培莊教授提出的以智能描述為主題的數學理論,曾在知識表示和人工智能領域發揮過重要作用,近年來,又以數據科學為重點,為大數據處理提供堅實的數學基礎[1]。因素將事物抽象到同一個維度上,將分析的維度命名為因素,也是分析事物的角度。將因素的取值命名為屬性,屬性是對事物分類結果的內涵描述。當對一個事物進行描述時,該事物就被描述為一個點,描述該事物時可以從多個角度進行分析,將每個維度的因素進行交叉綜合后,形成了事物描述的一種普適性坐標架,即因素空間[2]。因素空間的理論不僅是應用因素,還應挑選因素。在分析事物過程中,在眾多因素中把真正起作用的因素凸顯出來,因此需要對因素空間中的因素進行篩選,篩選后可以將高維度的數據進行降維。該文對因素空間的展開與收攏和因素之間的關系進行了研究和說明。
1 ?因素空間的展開與收攏的研究
因素空間與因素之間的關系,因素與屬性之間的關系具有遞進的層次關系。它們之間的關系與WordNet中的名詞網絡的中的上位關系、下位關系和同位關系以及整體部分關系相類似。以WordNet中椅子(chair)為例,其下位詞包含的是扶手椅、理發椅、折疊椅、平板扶手椅等,這些是椅子的種類,就椅子的功能而言,扶手椅繼承了椅子的功能,即下位詞繼承了上位詞的屬性,而下位詞相比于上位詞更加具體。在整體與部分的關系中,靠背和椅子腿是組成椅子的部分,即椅子包含靠背和椅子腿,它們之間是相互包含的關系。但是整體與部分關系改變了原有的事物本身,而在上下位的關系中所表示的仍然是同一事物,事物本身并沒有發生改變。
WordNet中上下位關系與整體部分關系是等級關系,可以理解為因素空間的展開與收攏的方式。將因素空間中所有因素進行羅列,即對因素空間進行了展開,每個因素逐層向下級進行展開后,最終可以得到屬性。如圖1所示,因素空間展開后類似于樹狀結構,與中心點距離相同的是同一等級的因素。反向進行,將因素聚攏得到因素空間。在實際應用中,將因素空間進行展開后,事物的分析結果會更加具體,將因素空間進行收攏后,事物的分析結果更加具有概括性。因此,因素的思考維度有多少之分,考慮的維度越少,區分事物的難度變大,考慮的維度越多,事物能夠彼此分離,區分的難度越小。
2 ?因素空間的優化研究
在機器學習、深度學習領域已經出現了粗糙集的屬性約簡,這為在因素空間中篩選因素提供了參考。在分析一個事物時,可以從多個維度進行思考,這些維度即因素。但是面面俱到的考量會浪費時間和存儲空間,因此需要對因素進行篩選,選擇重要的幾個因素,這樣在比較區分兩個事物時會節省時間,并且降低的數據的維度,節省的存儲的空間。本章節將從決策樹算法和聚類算法兩個方面研究因素與因素之間的關系,對因素進行篩選,完成對數據的降維。
2.1 決策樹算法在因素空間中的應用
決策樹算法是基于樹狀結構進行決策判斷的,這種判斷機制與人類進行決策的機制相類似。決策樹算法的重點在于怎樣選擇數據集中起決定性作用的屬性,并且隨著不斷進行的劃分過程,盡可能地將相同類型的數據劃分在一個數據子集內,即決策樹結點的“純度”越高。
在因素空間中可以運用決策樹算法挑選出最優的因素,使用決定度大的因素對事物進行劃分,從而化簡了多維因素,能夠快速地對事物進行分類決策。在應用決策樹算法時需要考慮因素之間具有相互關聯性,因此篩選出的幾個最優的劃分因素之間的冗余度要小,這樣才能達到化簡因素空間的目的。
2.2 聚類算法在因素空間中的應用
聚類算法通過計算樣本數據之間的距離,經過比較距離后將樣本劃分成多個不相交的子集,每個子集是一個“簇”,并且使簇中的數據的距離盡可能的小(即同一簇數據之間相似度較高),不同簇之間的數據的距離盡可能的遠。可以根據這一原理對因素空間中的因素進行聚類,再應用聚類后的結果對事物進行劃分,從而縮短了比較的時間。
首先將因素空間中每個因素看作一個簇,計算簇與簇之間的距離,比較距離值并將距離較近的兩個簇劃分到一起,構成新的簇。以此類推,可以將因素空間中的因素劃分為幾個簇,再進行比較,這樣就節省了判斷的時間。
3 ?結語
該文對因素空間的展開與收攏和根據因素之間的關系對因素進行優化兩個方面分別進行了闡述說明。在區分不同事物時可以根據因素空間逐級進行比較,同時可以對因素進行篩選,選擇重要的因素,這樣節省了比較的時間和存儲空間,為今后因素空間理論的完善和數據處理奠定了基礎。
參考文獻
[1] 曲國華,李春華,張強.因素空間中屬性約簡的區分函數[J].智能系統學報,2017,12(6):889-893.
[2] 汪培莊.因素空間與因素庫[J].遼寧工程技術大學學報:自然科學版,2014,32(10):1-8.
[3] 魏浩,丁要軍.一種基于屬性相關的C4.5決策樹改進算法[J].中北大學學報:自然科學版,2014,35(4):402-406.