李躍新,張 瑞,洪宗祥
(1.湖北大學 數學與計算機科學學院,湖北 武漢 430062;2.商丘師范學院 計算機與信息技術學院,河南 商丘 476000)
語義網絡是奎廉(J.R.Quillian)于1968年在他的博士論文中作為人類聯想記憶的一個顯式心理學模型最先提出的[1]。隨后在他設計的可教式語言理解器TLC(Teacher Language Comprehended)中用作知識表示,1972年西蒙將其用于自然語言理解系統。目前,人工智能和知識工程許多領域廣泛地應用語義網絡,這種知識表示方法表達能力強并且靈活多變。
當前國內外語義網絡的存儲和使用的工具,多是基于本體的知識體系的, 如 Sesame、Jena、3store、SquishQL 等幾種存儲管理系統。 JENA語言,是以RDF(Resource Description Framework)API為核心的,可以用來實現語義網的一種方便的語言[2]。JENA支持RDF的創建、操作和查詢等多項功,也支持很多不同的數據存儲技術。SquishQL語言從名字就可以看出與SQL語言有聯系。這是一種基于SQL的RDF查詢語言,使用比較簡便,并且有兩種約束類,可以用來表達模式和過濾,可以直接將Web作為數據庫使用[3]。從定義上來看,本體是一種基于理論的知識體系,在理論研究中被廣泛用來描述領域知識[4]。所以應以本體理論為依據,根據實際的需要,制定規劃相應的知識管理方案和策略[5]。作者正在研究本體論表示領域的知識體系,語義網絡表示領域的具體知識。
文中以關系數據模型為基礎,并借助于關系數據庫管理系統強大的存儲和處理能力以及良好的可靠性,介紹語義網絡知識表示方法,在關系數據庫支持下的存儲、使用和維護的技術方法并討論和分析這種技術下的存取效率。
語義網絡主要是將概念及其語義關系用圖的方式來表示一種知識結構。單純從圖論的來看,它其實就是一個“有方向的圖”。下圖是一個最簡單的語義網絡,用三元組來表示:


圖1 基本語義網元的圖表示Fig.1 Basic semantic elements
其中node1、node2表示知識領域中的事物、概念和事件等,arc表示事物、概念和事件等之間的聯系??捎萌鐖D1所示方法表示。node i用矩型圖表示,arc用有向直線表示。主要的聯系有:
1)隸屬關系——is a;
2)聚集關系——a part of;
3)分類關系——a kind of;
4)推論關系——derived from;
5)活動或行為關系——action or take part in;
6)時間、空間等關系——before、after、behind、in、at。
語義網絡系統是多結點的有向圖表示領域完整的知識系統。其定義如下:

其中V表示知識系統中的結點集合,E表示結點間的聯系集合。
語義網絡的不確定性表示,這里需要從3個方面進行:
1)語義聯系的不確定性;
2)結點的不確定性;
3)語義網絡結構的不確定性。
文中考慮語義網絡節點聯系的不確定性,為此提出二元組:

其中,G為(2)式表示的有向圖,V是語義網絡中結點的集合:V=(v1,v2,…,vn)。
若 E(vi,vj)存在,E 為 G 中的邊集合,定義

μi是 E(vi,vj)的隸屬度,表示結點(vi,vj)聯系的模糊度、重要度等;F是V×V上的一個模糊關系。
二元關系模型可描述語義網中的有向邊的起始節點和終止節點之間的關系:
Start_Node(NodeID,NodeName,NodeArcIndex)
End_Node(NodeID,NodeName,ArcAttribute, Membership)
Start_Node關系描述了語義網中有向邊的起始節點,其屬性分別為NodeID節點ID,NodeName節點名稱。End_Node為有向邊的末端節點,其屬性分別為NodeID有向邊末端節點ID,ArcAttribute節點的關系,Membership關系的隸屬度。用數學語言抽象兩個關系構成一個二維矩陣,Start_Node為行元素,End_Node為列元素,ArcAttribute為元素的值(Membership也可是元素的值,這時元素的值將是一個二元組)。
有如下所述的關于小明和小麗的事實[6]:
小明和小麗是XX小學6年級學生,他倆是興園小區的鄰居。小明養有一只小狗,名叫“笨笨”,小明的媽媽每天下午7點鐘在小區內遛狗,她可以看到小區內有很多中老年人在鍛煉身體。
上述事實可抽象出的概念有(含時間概念):小明、小麗、XX小學、6年級、鄰居、狗、笨笨、小明的媽媽、中老年人、興園小區、下午、7點等,可抽象出的事件或活動:飼養、遛狗、鍛煉身體等。因此關于小明和小麗的事實可用如圖3所示的語義網絡描述。

圖2 關于小明和小麗事實語義網表示Fig.2 Bob and Mary's facts are described with the semantic network
關于小明和小麗事實語義網絡表示的數據庫關系表可依照Start_Node和End_Node關系建立如圖3所示的數據表,其中End_Node_Table最多有n個,由于結點的關系為確定關系,屬性Membership省略 。

圖3 小明和小麗事實語義網絡的數據庫關系表Fig.3 Bob and Mary’s facts are described with the database relationship table
現在分析一下基于關系模型的語義網知識表示的空間資源耗費情況。設知識領域的語義網表示的圖G=(V,E)中,V的結點數為n,Start_Node_Table表記錄的個數最大為 n,最壞的情況下每個結點i有指向所有結點的有向邊,End_Node_Tablei表的個數i為n,而表中的記錄個數也是n,因此知識領域的語義網表示的關系數據庫實現時最壞情況下的記錄數為:S(n)=O(n2)。 可以看出雖然 S(n)為多項式,但還是比較大的,因此如何優化數據庫查詢提高知識使用效率將是后續研究的重點。
文中提出了給予關系模型的語義網的知識表示,并用關系數據庫表表示了一段的事實,可以看出這種方法很好的解決了用二維關系表表示多維非結構性知識的問題。因論文的篇幅有限,文中沒有涉及如何查詢數據庫(如何使用知識),即利用事實推理得到與事實相關的事實以及如何得到隱含在事實中的事實。另外由于語義網表示知識本身也有缺陷,如表示知識的方法不統一、表示一個完整的、規模較大的知識體系比較困難[7-8]。這些問題正在進行深入的研究,研究的結果將發表在另外的論文中。
[1]陸建江,張亞非,苗壯,等.語義網原理與技術[M].北京:科學出版社,2007.
[2]鄧志鴻,唐世渭,張銘,等.Ontology研究綜述[J].北京大學學報:自然科學版,2002,38(5):730-738.DENG Zhi-hong,TANG Shi-wei,ZHANG Ming,et al.Ontology research[J].Journal of Peking University:Natural Science Edition,2002,38(5):730-738.
[3]Neches R,Fikes R Finin T,et a1.Enabling technology for knowledge sharing[J].AI Magazine,1991,12(3):36-56.
[4]Pan Z,Zhang X,Heflin J.DLDB2:A Scalable Multi-Perspective Semantic WebRepository[C]//In W1 08:Proceedings of the International Conference on WebIntelligence.IEEE Computer Society Press,IEEE,2008:489-495.
[5]Haarslev V,Moiler R.RACER System Description[C]//Proc.of the International Joint Conference on Automated Reasoning.Heidelberg:Springer-Overflag,2002.
[6]李躍新,胡婕.知識工程基礎與應用案例[M].北京:科學出版社,2006.
[7]Gruber T R.Toward Principles for the Design of Semantic network Used for Knowledge Sharing[C]//Revision:August 23,2005.
[8]李曼,王琰,趙益宇,等.基于關系數據庫的大規模本體的存儲模式研究[J].華中科技大學學報,2005(12):217-220.LI Man,WANG Yan,ZHAO Yi-yu.Research of large-scale storage model ontology based on relational database[J].Journal of Huazhong University of Science and Technology,2005(12):217-220.