〔摘 要〕本文闡述知識集合的存貯功能,從概念之間的關系、物元的發散性和發散性在檢索上的運用三方面分析知識集合的檢索功能,提出參數的運用與結構化的知識集合。
〔關鍵詞〕知識集合;存貯功能;檢索功能
〔中圖分類號〕G250 〔文獻標識碼〕A 〔文章編號〕1008-0821(2009)05-0015-05
Analysis on Store and Retrieval Function of Knowledge SetXue Qinglin
(Library,Commercial College,Guangdong University of Technology,Guangzhou 511495,China)
〔Abstract〕This paper described store function of knowledge set and analysis retrieval function of knowledge set from three aspects of the relationship between the concept,matter element extension and using the extension in the retrieval and pointed out parameter applicaion and structured knowledge set.
〔Keywords〕knowledge set;store function;retrieval function
知識集合本身有其宏觀與微觀的內涵,它有三大功能:存貯功能、檢索功能和優控功能,也體現了知識集合不是一個靜態的集合體,它還包括了知識是如何集合起來的以及對其運用與優化控制的過程和方法。本文闡述知識集合的存貯功能,從概念之間的關系、物元的發散性和發散性在檢索上的運用三方面分析知識集合的檢索功能,提出參數的運用與結構化的知識集合。
1 知識集合的存貯功能
知識存儲是組織知識循環過程中的關鍵環節。如果沒有對顯性知識的系統化、集成化的存儲,知識的整理、傳遞、共享等都無從談起。知識集合的有序存貯是指將一批事物按某種規則進行組織整理,使其排列和聯系具有某種規律性。也就是說按什么規律分類是關鍵,以字典為例,如果按形體結構的特點分類,目前多數用部首法來檢字;如果按語音符號順序排列,可以用漢語拼音法檢字,在這種方法中,首先按漢語拼音的第一個字母排,第一個字母相同時,在按該條目的第二個字母排,其余類推,讀音相同時,則按聲調次序排。在分類法中,有按學科系統的分類(等級列舉法),也有按事物性質的分類。按學科體系分類,便于查找同一科學門類的文獻資料,有利于統計、排架、搜集以及閱覽工作等。古代的四分法、六分法就屬于此類,目前常用的圖書分類法也多用這種方法:如中圖法、人大法、科圖法以及杜威十進分類法等。這些分類法,也可以說是事物(或文獻)按一定特點組成的集合,這些集合多數包含子集。以中圖法為例,它分為5大部分,也就是說5大集,下面包含22個子集,子集中還包括子集,這種蘊含關系我們用“”來表示。當集合{A1,A2,A3……An}存在,必有集合{B1,B2,B3……Bn}存在時,記作{A1,A2,A3……An}{B1,B2,B3……Bn};并稱{B1,B2,B3……Bn}為上位域,{A1,A2,A3……An}為下位域。
復雜的蘊含關系可以樹形結構表示構成樹形圖,樹形集合蘊含關系具有如下特性:(1)可壓縮性:蘊含系的最下位元素的全體蘊含其上位元素。(2)可膨脹性:蘊含系若從第I層某處插入一些上下蘊含關系成立的元素,仍為一蘊含系。(3)可截斷性:蘊含系若從第I層截斷,仍為一蘊含系。
這種在分類法中的上位、下位的蘊含概念,我們用集合中的“”表示組成樹形圖,它還可以運用于某些處理問題、進行決策等方面。在研究蘊含系或其中的元素的增減時,對其可行度不僅可進行一般研究性分析,也可運用某些數學方法輔助分析。
2 知識集合的檢索功能
2.1 概念之間的關系
檢索語言是整序和檢索時使用的符號系統,通常指的是表示信息內容特征的語言。實際上,檢索的廣義涵義包括存貯與檢索2個過程。存貯時,標引人員根據信息(文獻)的主題概念,通過類號或規范化的語詞標示出信息(文獻)的內容特征存入檢索系統;檢索時,檢索人員根據對檢索課題的分析,確定代表信息需求的標識,從檢索工具中找到目標源。
在文獻揭示中是運用概念加以科學揭示,概念是事物本質屬性的概括。它的外延則是它所指的一切事物,即概念的適用范圍。概念都有內涵與外延,其內涵和外延之間成反變關系,內涵越淺(即概括的事物本質屬性少),其外延就越廣;反之,概念的內涵越深,則它的外延就越窄。因此,每個概念都反映了一定數量的事物屬性和一定數量和一定本質的事物(外延)。
概念之間的關系,按其外延是否有相同部分,可以分為相容關系和不相容關系兩大類。如果兩個概念的外延至少有一部分相重合,則兩者之間是相容關系;如果2個概念的外延沒有一部分相重合,則兩者之間是不相容關系。下面我們用集合的方法來描述這些關系。如圖1所示。
相容關系:
機},B={電腦},它們之間的關系為同一的關系,我們可用A=B來表示。同一關系絕大多數是同義詞之間、學名與俗稱之間、正名與綽號之間的關系。同一關系的集合在檢索中必須合并以避免同一主題的文獻分散在多個標識下而造成漏檢。
若A={文學作品},B={小說},它們之間的關系是隸屬關系記為這類關系可理解為上下位關系,也可用“”來表示;又A={內科學文獻},B={腎病學文獻},它們的關系屬于全面與部分之間的關系,也屬于隸屬關系,因此可記為AB。
若A={英國文學},B={詩歌},這2個概念之間的關系是交叉關系,因為在英國文學中有些是詩歌,而在詩歌中也有些是英國文學,因此可記為A∩B=AB(AB={英國詩歌})。如若A={導電體},B={絕緣體},兩者的外延總和小于其上位概念全部外延的總和,因為除此之外還有“半導體”這一概念。它們的關系屬于對立關系。
2.2 物元的發散性
由于概念本身作為知識集合中的元素,為了能更好地運用,我們采用物元模型中的“一物多征,一征多物,一值多物”的基本特點來描述,表示如下:
“一物多征”:指概念(我們仍沿用事物的符號N)有一個特征C,也可具有多個特征c
“一物一征多值”指對于不同的參數t,一事物關于某一特征可以取不同的量值。
可記為(N,C,V)┤{(N,c,v(t1)),(N,c,v(t2)),……,(N,c,v(tn))}
例如在對文學作品的描述上,我們可以看到物元發散性特點:
“一物多征”:R ┤{(文學作品A,時代,古代),(文學作品A,國家,中國),(文學作品A,體裁,小說)}
“一征多物”:R ┤{”(文學作品A,時代,古代),(文學作品B,時代,近代),(文學作品C,時代,古代),(文學作品D,時代,現代),……}
R ┤{(文學作品A,國家,中國),(文學作品B,國家,英國),(文學作品C,國家,中國),(文學作品D,國家,美國),(文學作品E,國家,法國)……}
“一特征元多物”:R ┤{”(文學作品A,體裁,小說),(文學作品C,體裁,小說),(文學作品E,體裁,小說),……}
R ┤{”(文學作品B,體裁,詩歌),(文學作品D,體裁,詩歌),(文學作品F,體裁,
(1)黑白無聲16毫米普通新聞電影片;
(2)彩色有聲35毫米寬銀幕兒童電影片;
(3)彩色立體聲35毫米寬銀幕藝術電影片;
(4)彩色有聲8毫米普通科技電影片;
(5)黑白有聲35毫米寬銀幕新聞電影片;
(6)彩色無聲8毫米普通新聞電影片;
(7)彩色有聲16毫米普通新聞電影片。
我們統一建立物元模型如下:
獻名,類型,電影片]R51=[電影片,色彩,黑白]
上面的物元模型可用通式Ri=[Nicivi]
建立衡量條件集M={(Ci,Vi )}和條件集M={(Cij,Vij)}
幕)(Ci5,新聞)},查找寬銀幕新聞電影片,得到的檢索結果為R5。
如果檢索的課題為{(Ci1,彩色),(Ci2,有聲),(Ci4,普通)}即查找彩色有聲普通銀幕電影片,則得到的檢索結果為R4和R7。
目前在數據庫信息模型理論中,廣為應用的是E—R方法(Entity—Relationship)即實體——聯系圖方法,它的三要素為:實體、屬性、聯系。如果用物元模型對知識集合中的元素加以描述,以便檢索處理,那么E—R圖轉換為物元圖,屬性與實體就構成了一個有機的集合,因為任何事物必定與其特征同時存在的,所以物元方式的E—R圖對信息和知識的描述會更明確、更系統。
3 參數的運用與結構化的知識集合
3.1 最小知識子集的存在與劃分
前面我們已經論述了文獻本身也是一個知識的集合,對于文獻而言,是否它就是最小的知識集合元素呢?是否還存在著比文獻這個知識集合更小的集合元素呢?也就是說,這個文獻的知識子集是否存在。如果我們從一本圖書的結構來看,它一般包含不同的章、節。有些圖書、著作中的章節相對來說較為獨立,即便把這些章節獨立分割后,也不會對內容的理解產生太大的影響。那么,這些文獻中的章節就是知識子集。當然,也有些文獻從開始到結束,它的論述是混然一體的,章節是相互牽連、相互影響的,所以這種類型的文獻的知識子集就是它自己。大部分的文藝作品是屬于這類的。
研究最小知識子集的意義究竟何在呢?在前面我們已闡述了圖書館學的研究對象是知識集合,它不是只停留在知識載體的層面上,研究知識子集可以對知識集合進行劃分,并按知識子集的知識屬性進行組織、存貯與檢索。它可以說是步入了對文獻資料的知識化研究領域。對于一些邊緣學科或交叉學科的文獻,可以把它們分拆,放入已有的不同的學科領域的知識子集層面。研究知識子集還可以運用概念的關聯分析,對知識子集進行重組。而對于某學科研究甚深的讀者來說,他可以直接在知識子集層面檢索,得到需要的知識。
最小知識子集的劃分一般可以從作者寫作的章節來進行劃分。最小知識子集必須具有模塊的性質,即有自己相對獨立的主題,是相對完整的片段。而且還要具備可重裝的性質,因為它是從文章中劃分而得的有相對獨立主題的片段,所以它可以進行知識的重組。根據上述的劃分原則,我們獲得的最小知識子集,可能是一本書,也可能是書中的一章,甚至是一節。
3.2 物元模型中參數對概念嵌套的表達
為了更好的描述知識元的復雜多變性,我們曾引入參變量t,此時R記為R(t):
R(t)=(N(t),C,V(t))
或R(t)=(N(t),C,C(N(t))))
下面以具體實例來介紹知識子集的描述。對于《Constructing Intelligent Agents with Java》一書,它包含“The Java Programming Language”“Knowledge Representation”“Reasoning Systems”“Learning systems”“Intelligent Agents”5個章節。則物元模型的表示如下:
R(t)=[Constructing Intelligent Agents with Java,分類號,TP242.6]
R(t1)=[The Java Programming Language,分類號,TP312JA]
R(t2)=[Knowledge Representation”,分類號,TP182]
R(t3)=[Reasoning Systems”,分類號,TP181]
R(t4)=[Learning systems,分類號,TP181]
R(t5)=[Intelligent Agents,分類號,TP242.6]
3.3 結構化的知識子集的實現
知識子集的結構化在描述上可用XML語言來實現。XML(eXtensible Markup Language,可擴展標識語言)是SGML的子集。它同HTML一樣,是從所有標識語言的元語言SGML中派生出來的。HTML在近年來因特網的發展以及信息、知識的流通中起了舉足輕重的作用。但它極度缺乏對文獻、信息內涵的表達,只有少數幾個用來表達內容和文義的標簽〈p〉、〈address〉、〈title〉、〈strong〉,這樣數據庫中文獻的重要信息架構在轉成HTML后蕩然無存。XML則可自由定義標簽,如定義
XML文件的下一層對象可形成一個集合,稱為ITEM,集合中的元素編號也是從零開始計
參考文獻
[1]馬恒通.關于知識集合論幾個問題的探討[J].圖書情報工作,2002,(2):11-14.
[2]姜玉聲,孫秀清.集合思想的演變及在當代中國的發展[M].北京:科學技術文獻出版社,1995.11:112.
[3]青義學.論物元分析對數學的開拓[M].北京:科學技術文獻出版社,1995.11:14.
[4]蔡文.物元模型及其應用[M].北京:科學技術文獻出版社,1994:3-8.
[5]葉惠新.關于物元分析的哲學思考[M].北京:科學技術文獻出版社,1995.11:63.