趙 健,劉 磊
(1.吉林大學計算機科學與技術學院,130012長春;2.長春工程學院軟件學院,130012長春)
在知識工程中,知識被理解為以不同方式將概念、事件、過程關聯并組織起來的結構.知識是現實世界在人的意識中所形成的映像,人通過對知識的獲取和處理來認識及分析現實世界,并解決其中的各種問題.基于對人類思維能力的不同理解,已經建立了多種理論對意識在獲取知識及處理問題的方式上進行模擬,比如粒計算等[1]理論就將復雜的問題分解為不同粒度的簡單問題來求解.而為了對知識進行更有效的組織和處理,就要對知識進行合理的表示,首先要對知識的形成進行研究.
人們對知識的獲取主要來源于兩種情況:1)來源于感覺經驗,即通過對現實世界中事物的觀察而獲得的印象;2)來源于人們對知識空間中的諸多知識對象的采納與融合,這里的知識空間是指所有承載知識的知識主體所共同構成的網絡化系統,而這個系統中所包含的知識對象是具有邊界和結構的單元.本文中,無論是現實世界中的事物表象,還是知識空間中的知識對象,都被理解為由“現象”作為基本材料所構成的,如自然界中可觀察的現象,或意識形態等現象.在第1種情況中,人對客觀世界中的現象進行觀察從而獲得整體的、連續的印象,比如對一支鉛筆的觀察而獲得的外形、材質、顏色等整體印象.在第2種情況中,人對知識空間中大量的知識現象進行關聯,并進行排異處理,或吸附出諸多具有共性的特征,從而形成具有知識內核及邊界的知識共同體.同時,由于整個知識空間并不是靜態的,而是動態的擴展并演化的,所以還要描述在時間進程中知識的狀態.
本文首先將現象的變化理解為發生在某時間片斷內,并基于FCA給出了時間片斷及時序的形式化表示.基于FCA[2-3]和RS[4-5]理論之間的同構關系對現象的內容進行形式化表示,并嵌入了時間要素,同時研究了現象之間的關聯性質及關聯邏輯.
根據哲學的認識,本文將現象分為3種范疇:“概念范疇”、“直觀范疇”以及“關聯邏輯”.于是,知識的獲得就可以簡單描述為:人們將直觀的框架作用在客觀現象上,并通過使用該現象的概念范疇與其他概念范疇之間的關聯邏輯,進行概念層面上的融合或排異,從而形成知識對象.
根據粒計算的觀點,人類的智能具有全局分析能力,即處理不同粒度世界中問題的能力,可以在不同粒度下對客觀現象進行觀察和分析[6].而“粒度”則指的是該現象中蘊含的所有內容可根據不可分辨性或相似性在不同層次下組織起來.
定義1(粒結構)粒結構用一個三元組(EG,ⅠG,R)來描述.這里EG和ⅠG是集合,EG和ⅠG相應地被稱為粒外延和粒內涵.二元關系R?EG×ⅠG稱為蘊含關系,表示粒結構在特殊背景下的上下文關系.
粒結構作為表示現象中3種范疇的基礎形式.在某特定背景下,粒外延表示在論域中被某粒結構所涵蓋的元素;粒內涵則表示粒結構中元素所具有的屬性及其相似性等,而蘊含關系反映了粒外延與粒內涵之間具有的特定關系.
首先構造現象的概念范疇以作為最基本的知識表示,這種形式表示給定論域中對象的集合,這些對象通過不可辨關系聚合在一起,體現了粒內對象彼此之間的相似性和一致性.本文將基于RS理論和FCA理論的同構性來構造概念范疇的粒結構.粗糙集理論通過不可辨關系來處理不完備和不充分的信息,可以將知識論域劃分為不同的等價類,即根據現象的不同屬性或特征將其分類,從而使其具有了顆粒性.同時,FCA中的標尺理論能夠刻畫對象與屬性之間的精確關系.下面先給出這兩種理論的同構關系.
命題1給定任意知識庫(U,A),U為論域,A:={Bm|m∈M}.已知S(U,A):=((U,A,W,Ⅰ),(SB|B∈A)),其中SB為額定標尺,其導出背景(U,N,J),令γ為背景(U,N,J)的對象概念映射,于是,如果(u,v)∈ⅠND(P)((u,v)∈U2,P?A),則有γ(u)=γ(v).
證明設[v]P={v∈U|uJ(m,n)?vJ(m,n),P?A}.且v∈[u]P,往證[u]P=[v]P,(u,v∈U).
事實上,如果(u,v)∈ⅠND(P),則對任意m∈P,有Ⅰ(u,m)=Ⅰ(v,m)=w,其中,w∈Wm,且有wⅠmn(n∈Mm),由uJ(m,n)?vJ(m,n),知v∈[v]P,即[u]P?[v]P.另外,如果v∈[v]P,由uJ(m,n)?vJ(m,n)可知必存在w1,w2∈m(U),有Ⅰ(u,m)=w1且w1Ⅰmn?Ⅰ(v,m)=w2且w2Ⅰmn.于是w1=n?w2=n,w1=w2=n,Ⅰ(u,m)=Ⅰ(v,m).根據不可辨關系定義,有(u,v)∈ⅠND(P),v∈[u]P,即[v]P?[u]P,于是有[u]P=[v]P.從而對?B∈P,有[u]B=[v]B.
于是可重新定義J,有[u]B=[v]B?B(u)J[v]B?uJ(B,[v]B).即S(U,A)的導出背景(U,N,J)可表示為(U,{(B,[u]B)|B∈A,[u]B∈U/B},J).同時可得,(u,v)∈ⅠND(B)?uJ(B,[v]B)?γ(u)=γ(v).證畢.
由命題1可知,給定知識庫(U,A),則在標尺算子作用下可產生多值背景,且多值背景的導出背景為:(U,{(B,[u]B)|B∈A,[u]B∈U/B},J).即知識庫(U,A)可通過形式概念多值背景的導出背景來表示,從而在形式上表征了兩種理論中基礎概念的一致性,同時也作為構建粒結構的基礎.基于該命題,給出概念范疇的形式化描述,稱之為概念元.
定義2(概念元及其粒結構)給定一知識庫(U,A),概念元是一個四元組:χ:=(G,M,W,Ⅰ).其中,有M?A,G?U/M,W:={[u]B|u∈G,B∈M},且Ⅰ?G×M×W.概念元的粒結構為其額定標尺的導出背景:(G,{(B,[u]B)|B∈M,[u]B∈U/B},J).滿足:uJ(B,[v]B)?[u]B=[v]B.其中,?u,v∈U且u≠v.
為保證某現象單元的個體持續性及唯一性,必須闡明其狀態的定義以及其狀態的改變是發生在時間維度下的,比如,要確定一個新鮮的蘋果和腐爛的蘋果是同一個對象,需要在時間和狀態上給予重新確認.于是,本文認為現象的直觀范疇即是由狀態片斷和時間片斷所共同構成的.
首先考慮對時間的定義.在真實的世界中現象在時間中的變化是連續的,如生物的成長和衰敗過程,或太陽在時間的流逝中“平滑”地落到地平線以下,等等.
而在本文設定的語境下,即知識空間中,時間是離散的.知識對象由于環境的改變,隨著時間而從一個狀態躍遷到另一個狀態,所以說,知識的運動存在于一種“時間片斷”之中,而不是物理世界的均勻時間之中.為了將時間也納入到粒結構中,首先將這種時間片斷形式化地定義為一個多值形式背景(如表1所示),τ:=((GT,MT,WT,ⅠT),(St|t∈MT)).

表1 時間片斷的多值形式背景表示
在表1中,1、2、3分別為時間論域Gτ中的元素,代表了時間片斷,稱之為時間對象.Gτ為一個間隔內所有時間點的集合,其元素可以使用序數表示,也可以使用如“1010914(代表2010年10月9日14時)”的字符串表示有含義的時間點.其他的時間屬性是對時間對象(年、月、日)的具體描述.該多值背景可以按不同粒度的需求使用多種標尺(scale),比如可以使用額定標尺對時間的粒度性進行精確的表示,也可以使用其他標尺(如順序標尺)對時間進行模糊表示.
其次討論“狀態”的概念.在真實世界的系統中,對狀態的定義是多維度的.比如一個正在運動中的人的狀態可以在物理學、生物學或心理學等角度進行描述.如需要研究某物體的機械運動狀態,則將其理想化為一個質點,其狀態可以簡單地用位置和動量來描述.而在充滿現象的知識空間中,某現象的“狀態”蘊含在某時間片斷下的概念范疇當中,即需要給出現象的時間-狀態描述.
在某一時間點下,在討論“概念元的兩個狀態相同”的情況時,可將其理解為在兩個不同時間點的概念元具有的“狀態值”[7-8]相等.由于概念元是由FCA的多值背景描述的,所以概念元的值是由其標尺Sm:=(Wm,Mm,Ⅰm),(m∈Mχ)來表達的,即如果?m,n∈Wm是等值的,當且僅當m,n在Sm中具有相同的對象概念.于是,如果在兩個不同時間點g1,g2下概念元χ的兩個狀態是相同的,即相應的對象概念的內涵是相同的.所以概念元的狀態用對象概念的內涵來表示.
定義3(時間-概念元的粒結構及其狀態)給定一知識庫(U,A)以及時間論域Gτ.給定概念元χ:=(Gχ,Mχ,Wχ,Ⅰχ).則定義時間-概念元為χ:=(G,Mχ,Wχ,Ⅰχ).其中G=Gχ×Gτ.則其粒結構為導出背景:Kχ:=(G,{(B,[u]B)|B?A,[u]B∈U/B},J).對?g∈Gτ,并定義概念元χ的狀態為形式背景Kχ的對象概念γχ(g)的內涵.
在定義3中,可將粒結構賦予給時間,即一個時間“粒”是一個時間片斷(時間論域Gτ),其中包含了若干時間點.本文將時間“織入”到概念元內部,即G=Gχ×Gτ為時間-概念元的對象論域.而概念元的狀態用對象概念γχ(g)的內涵來表示,即表示在某時間點下某對象所包含的不同類別屬性的集合.
現象之間的關聯關系是現象之間進行聚合,構成更高級的組織,以及進一步構成知識空間的基礎.本文將現象之間的的關聯理解為現象中知識層面,即概念范疇(概念元)之間的關聯.
定義4(概念元關聯)在知識庫(U,A)下,給出任意兩個概念元χ:=(G,M,W,Ⅰ)和χ':=(G',M',W',Ⅰ').兩概念元的粒結構為其相應的額定標尺導出背景,分別為(G,{(B,[u]B)|B∈M,[u]B∈W},J)以及(G',{(B',[v]B')|B'∈M',[v]B'∈W'},J'),且有?C?M,?C'?M'.如果滿足以下條件:

稱兩概念元是關聯的.并將C(C')稱為概念元χ(χ')中的相關知識集.其中的元素稱為相關知識.
定義5在給定知識庫(U,A)下,給出任意兩個概念元χ:=(G,M,W,Ⅰ)和χ':=(G',M',W',Ⅰ').兩概念元的相應額定標尺的導出背景分別為(G,{(B,[u]B)|B∈M,[u]B∈W},J)和(G',{(B',[v]B')|B'∈M',[v]B'∈W'},J').如果在概念元χ、χ'分別存在相關知識集C、C',則存在B∈C,若滿足:

則稱B為M中M'-可約知識,否則稱B為M中M'-不可約知識.同樣也可定義M'中M-可約知識.
定義6(知識核)如果對于任意兩個概念元χ:=(G,M,W,Ⅰ)和χ':=(G',M',W',Ⅰ').B∈M(B'∈M'),B(B')既是不可約知識又是相關知識,則稱知識B(B')為核內知識.所有關聯概念元的核內知識組成一個集合,稱之為知識核,記為core(A).
知識核同時也作為具有關聯關系的現象所形成的更高級知識粒的邊界及特征標識.
為了模擬人類對現象進行加工整理從而形成知識的過程,以及在某特定領域對知識的推理,除了對現象的直觀范疇及概念范疇進行形式化表示,還要研究現象之間如何互相吸納整合而形成了粒狀的知識“塊”.以上所給出的關聯關系體現了現象之間所存在的“先天”關系,而要體現現象之間運動的本質,就需要提供相應的規則和邏輯,從而使各個現象有機的聯絡起來.
關聯邏輯表達了這樣的事實:“每個具有知識集A的現象,就一定具有知識集B”,或使用現象的概念范疇(概念元)來表述,“概念元χ中的元素u具有知識B,意味著概念元χ'中的元素v具有知識B'”.
在定義4中,條件2反映了在各自子論域下的兩個概念元的相關性取決于相關知識背景下論域中元素的相關性,為了不失一般性,將兩個子論域元素之間的相關關系記為RU:如果?u∈G,?v∈G',滿足uRUv.在這里將G和G'的元素之間的相關關系RU用一個多值映射關系η來表示:η:G→2G'.即η(u)={v∈G'|uRUv}.反之也成立.η(u)是G'中所有與u相關的元素的集合,η映射反映了在兩個概念元知識相關的前提下,G中的子集與G中元素相關的G'中的元素所組成的子集是相交(包含)的.
定義7給定知識庫(U,A),其中兩概念元χ:=(G,M,W,Ⅰ),χ':=(G',M',W',Ⅰ')是關聯的,兩概念元的相應粒結構分別為(G,{(B,[u]B)|B∈M,[u]B∈W},J)和(G',{(B',[v]B')|B'∈M',[v]B'∈W'},J').則有相關知識集C?M,C'?M',一個關聯邏輯是由〈C,C'〉表示.如果滿足:(?B∈C)[uJB]?(?B'∈C')[η(u)J'B'],則稱概念元χ中的元素u符合關聯邏輯〈C,C'〉.
例
1)如關聯邏輯〈{a,b},a〉在任何情況下都成立,將這種關聯邏輯稱為平凡的.
2)有〈C,C'〉,則當C″?C'就會產生〈C,C″〉,這種關聯邏輯是由其他關聯邏輯產生的.
3)設有指標集N,對i∈N,如有〈Ci,C'i〉,則會產生,,稱之為并集邏輯.
定義8給定知識庫(U,A),設M?A,M與關聯邏輯〈C,C'〉相關是指C?M或C'?M.設L是一個關聯邏輯的集合,如果M與L中每一個關聯邏輯都相關,則稱M與L相關.如果每一個Mi都與〈C,C'〉相關,則稱〈C,C'〉在集合{M1,M2,…}中成立.如果〈C,C'〉在現象的狀態(概念對象內涵)組成的集合中成立,則稱〈C,C'〉在知識庫(U,A)中成立.
定義9如果每個在知識庫(U,A)中成立的關聯邏輯都可以由(U,A)中某個關聯邏輯的集合Ⅰ產生,即與Ⅰ相關的每個M?A都是知識庫(U,A)中某概念元的一個概念對象內涵,則稱Ⅰ是完備的.
為了說明Ⅰ的完備性,首先去除一些顯而易見的規則,如平凡的、由其他關聯邏輯所產生的,以及并集邏輯.為此,命題2中在(U,A)下構造一個最小的相關知識集C',使其包含在f(g(C))中但不包含在C中或C的真子集閉包中,同時證明基于這種構造的Ⅰ的完備性.
命題2(關聯邏輯集合I的完備性)知識庫(U,A)中的某相關知識集C?A,令C'=,則規則集合Ⅰ:={〈C,C'〉|C'≠?}是完備的.
證明令A'是A的有限子集,設A'與{〈C,C'〉|C'≠?}中的每一個〈C,C'〉都相關,往證A'是內涵,即f(g(A'))=A'.因為A'與{〈C,C'〉|C'≠?}中的每一個〈C,C'〉都相關,當C?A'時有C'?A',即有∪{〈C,C'〉|C'≠?}?A',于是有∪{〈C,C'〉|C'≠?∧C?A'}∪A'=C'.假設f(g(A'))≠A',則顯然有A'?f(g(A')),設a∈f(g(A')),且a?A',取滿足a∈f(g(C)),同時a?f(g(C″))(其中C″是C的任何真子集).因為a?A',C?A',所以a?C,有因為a?f(g(C″)),所以a?f(g(C-{c})),于是有顯然a∈A',即C'≠?.由于a是f(g(A'))-A'中的任一元素,又a∈C',且C'≠?,于是∪{C'|C'≠?∧C?A'}∪A'=A'=f(g(A')),所以A'是內涵,即每個與{〈C,C'〉|C'≠?}相關的A的子集A'都是內涵,由定義9可知{〈C,C'〉|C'≠?}是完備的.證畢.
以上給出了現象及其范疇的形式化表示,由上述討論可知,現象的直觀范疇表現為時間-狀態,而其中狀態是由現象的概念范疇來體現的,即概念元中對象概念的內涵.同時,關聯邏輯作用于對象概念的內涵.于是,現象的這3種范疇被納入到了統一的粒結構框架中.
1)基于形式概念分析(FCA)與粗糙集構造了概念元作為現象的概念范疇,即在FCA的多值背景下加入不可辨關系,使概念范疇具有處理不完備和不充分信息的能力,即可以根據現象的不同屬性或特征將其分類的能力.
2)在此基礎上加入了時間元素,將現象的直觀范疇描述為不同時間點下概念元中所蘊含的等價類的集合.
3)同時,將現象之間的關聯理解為其概念范疇的關聯,并給出了關聯的條件及規則,并證明了關聯邏輯集合Ⅰ的完備性.關聯邏輯可作為構造相對現象更高級的知識粒結構以及研究知識在時間中運動的基礎.
[1]YAO Y Y.Granular computing:basic issues and possible solutions[C]//Proceedings of the 5th Joint Conference on Information Sciences.Atlantic,NJ:Association for Intelligent Machinery,2000:186-189.
[2]GANTER B,WILLE R.Formal concept analysis:mathematical foundations[M].Berlin:Springer,1999:15-37.
[3]GANTER B,WILLE R.Conceptual scaling[C]//Applications of Combinatorics and Graph Theory to the Biological and Social Sciences.New York:Springer-Verlag,1989:139-167.
[4]PAWLAK Z,SKOWRON A.Rough sets:some extensions[J].Information Sciences,2007,177(1):28-40.
[5]SKOWRON A,STEPANIUK J,PETERS J F.Rough sets and infomorphisms:towards approximation of relations in distributed environments[J].Fundamenta Informaticae,2003,54(2/3):263-277.
[6]YAO Y Y.A partition model of granular computing[J].Transactions on Rough Sets,2004,(1):232-253.
[7]WOLFF K E.A conceptual view of knowledge bases in rough set theory[C]//Proceedings of the Second International Conference on Rough Sets and Current Trends in Computing.Berlin:Springer,2000:188-192.
[8]WOLFF K E.Temporal concept analysis[C]//Proceedings of the 9th International Conference on Conceptual Structures.USA:Stanford University,2001:91-107.