[摘要] 科學的產品分類體系是企業信息化成功的基礎,可顯著提高企業采購管理、陳列管理、銷售管理等日常經營活動的效率。我們借鑒信息科學中的刻面分類方法,對產品進行多刻面分類,以表達產品豐富的和不同側面的信息。我們采用基于語義的刻面劃分方法來克服傳統刻面分類方法需要人工建立和維護術語空間的缺陷,減少了工作量并增加了分類的客觀性。
[關鍵詞] 產品分類 刻面 語義 本體
一、引言
科學的產品分類體系可顯著提高企業采購管理、陳列管理、銷售管理等日常經營活動的效率,是企業信息化成功的基礎。產品的分類指為滿足某種需要選擇適當的分類標志和特征,將產品系統地劃分為不同的類別。我們借鑒信息科學中的刻面分類方法,嘗試對產品進行多刻面分類,以表達產品豐富的和不同側面的信息。傳統刻面分類方法的缺點是需要人工建立和維護術語空間,工作量大且含有主觀成分。我們采用的基于語義的刻面劃分方法有效地克服了這一缺陷。
二、多刻面的產品分類方法
現代刻面分類檢索法是 Prieto-Diaz 和 Freeman 在 1987 年提出的,它通過反映對象本質特性的視角(刻面)對對象進行精確的分類。一個刻面分類模式 (Faceted Scheme) 由一組描述對象本質特征的刻面組成,每個刻面從不同的側面對待分類對象進行分類。每個刻面由一組術語 (Term) 構成,術語間由一般特殊關系和同義詞關系而形成結構化結構關系,稱為術語空間 (Term Space),在術語空間中游歷可以幫助訪問者理解特定領域。
構件的描述術語僅限在給定的刻面之中選取,稱為對象的描述子 (Descriptor),見定義1。通過用戶構造描述子形成的查詢條件,可在對象庫中檢索符合條件的對象。
定義1.對象描述子其中,D為描述子,T為術語。
刻面分類檢索方法能否取得較好的檢索效果,相當程度上取決于刻面的劃分,但目前刻面分類模式的制定還是憑借領域專家的經驗或通過開發者反復的測試修改,工作量十分巨大。而且由于專家的知識是語境相關的,功能強大但難免比較片面,不可避免地具有主觀性。
三、詞匯間語義相似度
詞網(WordNet)是一個詞匯關系數據庫,詞網所描述的基本概念被稱為詞位(Synset),詞網是以揭示詞位之間關系為基本內容的常識知識庫,WordNet 的詞位 (Synset) 構成一個樹狀結構,如圖 1 所示。從知識本體的角度來看,詞網是一個語言知識本體。如果WordNet中的兩個詞位中,一個詞位是另一個詞位的次類,那么就說它們之間存在上下位關系(hyponymy)。例如,car (小汽車) 是 vehicle (交通工具)的下位詞,而 vehicle 是 car 的上位詞。
圖1 語義分類樹形圖
本文基于WordNet來計算術語間的語義距離,采用的是概念距離計算詞匯語義相似度的算法。定義詞語距離為0時,其相似度為1;詞語距離為無窮大時,其相似度為0;相似度為詞語距離的單調遞減函數。若將兩詞語O1和O2的相似度記為Sim(O1,O2),其詞語間距離記為Dis(O1,O2),可得以下定義:
定義2.詞匯語義相似度
其中l1,l2是O1,O2分別所處的層次,α是相似度為0.5時 ,之間的距離,α是可調參數,一般有α>0。
由定義可知,詞語的語義距離越大,其相似度越低,如圖1 所示,O10與O16的相似度為,而O12與O3的相似度為。因α>0,所以。
另外,由定義知詞語所處的節點的深度和該深度上節點密度對相似度計算也有影響,同樣距離的兩個詞語間相似度隨著他們所處層次總和的增加而增加。假設根節點為“酒”,O1為“葡萄酒”,O2為“白酒”,O10為“紅葡萄酒”,O12為“白葡萄酒”。雖然,Dis(O10,O12)和Dis(O1,O2)同為2,但O10和O12間的相似度更大,即。層次總和的增加意味著分類趨向細致,和同樣詞語距離層次總和較小的詞語對比較,其相似程度更高。
四、基于語義聚類的產品刻面劃分
我們采用基于語義聚集的刻面劃分方法和基于語義的產品檢索技術來克服傳統刻面分類方法需要人工建立和維護術語空間的缺陷。
1.刻面評價指標
通過借鑒信息領域刻面分類模式的開發經驗,并結合商業領域的特點,我們制定了基于刻面產品分類模式應滿足的幾個一般性原則;①一致性原則;②精簡的原則;③刻面正交的原則;④完備性原則;⑤易于理解的原則。依照上述分類原則,結合本文利用語義網絡進行刻面抽取方法的技術特點,主要通過下列指標對待選刻面進行評價。
(1)刻面覆蓋率:目標集合中共有N個對象,假如該待選刻面能夠對其中K個對象進行劃分,則刻面覆蓋率可定義為
定義3.刻面覆蓋率:
依照刻面分類的全面性原則,一個有效的待選刻面的覆蓋率必須為100%。
(2)刻面分類平衡度:對目標集合進行分類,目的是為了將來更易于對該集合進行查找等操作,因而我們希望分類樹的結構接近平衡樹的形態。假定該待選刻面分類樹共有m個子樹,且各子樹高度為Hi,可得如下定義。
定義4.刻面分類平衡度,(為子樹平均高度)
2.刻面劃分步驟
將以上制定刻面分類模式的原則和方法應用到產品管理領域,遵循以下的步驟,完成基于語義的刻面分類模式的確定。
(1)構建 “詞—產品描述” 矩陣。構建“詞—產品描述” 矩陣前首先要對產品描述進行預處理,主要是將產品描述轉化為詞,并去除連詞、介詞等虛詞,以便后續處理。本文方法中借助WordNet作為詞庫進行分詞,將每一產品描述分割為一個N元組(W1,W2,…,Wn),其中的Wi為WordNet中的詞位,允許單個詞位重復出現。
詞的權重的計算方法采用TFIDF(Term Frequency Inverse Document Frequency)方法,其中TF為詞(Term)在產品描述中出現的頻度,IDF則表示為詞在所有產品描述中中出現的頻率,它反映了詞位區分不同產品的能力。
定義5.權重TFIDF 公式:
其中,tfij表示詞ti在產品描述dj中出現的頻率,M表示全部產品描述集合中的產品數量,mi表示全部產品描述集合中出現詞ti的文檔數目。
圖2“詞-產品描述”矩陣
利用定義5逐次統計各個詞在產品描述中的分布,則可以得到如圖2所示的”詞—文檔”矩陣。其中Wij為第i個詞在第j個產品描述中的權重。假定在k 種產品描述中共有m個不同的詞位,矩陣的每一行代表一個詞位向量,它顯示了每一個詞位在k個產品描述中的權重,矩陣的每一列代表了一個產品描述向量,它顯示了一個產品描述中所有詞位的權重。
(2)“產品描述詞” 語義樹抽取算法。“產品描述詞”語義樹為反映 “詞—產品描述” 矩陣中所有產品描述詞間上下位關系的語義網絡,呈樹形結構,下文簡稱為描述詞義樹。根據WordNet建立產品描述詞義樹的算法如下。
算法1. 產品描述詞義樹抽取算法
輸入:“詞—產品描述” 矩陣。 輸出:產品描述詞義樹。
(1) 取得 “詞—產品描述” 矩陣中一行產品描述詞向量;
(2) 取得該行中的一個描述詞位;
(3) 如果該詞位的權重為0,則轉第(5)步;
(4) 將該詞位加入到當前描述詞位集合中;
(5) 若“詞—產品描述”矩陣有未完,則轉第(1)步;
(6)
(7) 從描述詞集合中取得一個描述詞;
(8) 將該描述詞加入詞位語義鏈表表頭;
(9) 用該描述詞的上位詞替換該描述詞;
(10) 若描述詞非空,則轉第(8)步;
(11) 將描述詞語義鏈表歸并入當前的描述詞語義樹;
(12) 若描述詞集合未完,則轉第(7)步;
(13)
(14) 從描述詞語義樹中取得一個描述詞;
(15) 若該描述詞節點的出度不為1,則轉第(17)步;
(16) 刪除該描述詞;
(17) 若描述詞語義樹未完,則轉第(14)步。
該算法(1~5)步生成描述詞集合;(7~12) 步從WordNet中抽取描述詞相關的上下位語義關系并添加至描述詞義樹中;(14~17) 步對描述詞義樹進行精煉,刪去樹中沒有子節點的非葉子節點。假設所得描述詞集合為圖1中的{O6,O14,O15},則抽取過程如圖3所示。
圖3 產品描述詞義樹抽取計算過程
圖3(a)為從WordNet中抽取的的語義鏈(ROOt→O2→O6),圖3(b)為將O14的語義鏈(Root→O3→O7→O14)歸并后的描述詞義樹,圖3(c)為O15的語義鏈(Root→O3→O7→O15)歸并后所得的描述詞義樹,圖3(d)顯示了描述詞義樹精煉過程中所刪去的節點O2,O3。
(3)語義篩法確定刻面
產品描述詞義樹提示了所有描述詞間的語義聯系,這為我們構建產品分類刻面模式提供了線索。在討論根據產品描述詞義樹確定分類刻面的過程之前,我們先給出刻面篩選算法,然后證明該算法所構建的刻面是正交且完備的。
算法2. 基于描述語義樹的刻面篩選算法
輸入:產品描述詞義樹。輸出:優選刻面分類模式。
(1) 取得出產品描述詞義樹的根節點;
(2) 利用定義4計算根節點刻面的平衡度;
(3) 將該節點刻面及其平衡度參數加入待選刻面集合;
(4)
(5) 取出待選刻面集合中的一個刻面節點;
(6) 利用定義3計算該刻面節點的所有孩子節點的刻面的覆蓋率,如果不為100%,則轉第(9)步;
(7) 利用定義4計算該刻面節點的所有子節點的刻面平衡度;
(8) 若所有孩子節點的平衡度均高于原父節點,則用子節點刻面及其平衡度參數替換待選刻面集合中的父節點;
(9) 若有其他刻面節點,轉第(5)步。
根據產品描述詞義樹構建過程,可知所有的產品描述詞均為描述詞義樹中的節點。故算法2中第 (1~3) 步選擇描述詞義樹的根節點作為刻面,以樹中其余節點作為該刻面中的術語,此刻面顯然將覆蓋全待分類對象集,因此該刻面是完備的。而算法2中第 (5~9) 步對覆蓋率參數的計算,決定了第 (8) 步每次替換后的待選刻面集合依然是完備的。同時,算法所得優選刻面的術語為原描述詞義樹中位于刻面節點之下的葉子節點,由于每一葉子節點在樹中僅出來一次,故各刻面術語間顯然無交集,即本算法構建的待選刻面模式是正交的。
五、總結
刻面分類模式已經應用到許多學科的信息組織和管理中,但對刻面分類模式的研究,尤其是針對產品管理領域的刻面分類模式的研究,理論和實踐上都還不夠成熟,刻面分類模式的制定還多是憑借領域專家的分類經驗。本文討論的分類刻面確定方法是將刻面分類與詞匯語義網絡結合起來的一種嘗試。這種方法擺脫了傳統建立受控術語空間過程對領域專家的完全依賴。
利用術語間的語義聯系,對術語空間進行消岐、精煉和修訂以促使刻面分類模式達到成熟,是我們下一步的研究方向。
本文中所涉及到的圖表、注解、公式等內容請以PDF格式閱讀原文。