999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于語義的產品分類刻面自動抽取

2007-12-31 00:00:00宋海濤孫延明鄭時雄
商場現代化 2007年7期

[摘要] 科學的產品分類體系是企業信息化成功的基礎,可顯著提高企業采購管理、陳列管理、銷售管理等日常經營活動的效率。我們借鑒信息科學中的刻面分類方法,對產品進行多刻面分類,以表達產品豐富的和不同側面的信息。我們采用基于語義的刻面劃分方法來克服傳統刻面分類方法需要人工建立和維護術語空間的缺陷,減少了工作量并增加了分類的客觀性。

[關鍵詞] 產品分類 刻面 語義 本體

一、引言

科學的產品分類體系可顯著提高企業采購管理、陳列管理、銷售管理等日常經營活動的效率,是企業信息化成功的基礎。產品的分類指為滿足某種需要選擇適當的分類標志和特征,將產品系統地劃分為不同的類別。我們借鑒信息科學中的刻面分類方法,嘗試對產品進行多刻面分類,以表達產品豐富的和不同側面的信息。傳統刻面分類方法的缺點是需要人工建立和維護術語空間,工作量大且含有主觀成分。我們采用的基于語義的刻面劃分方法有效地克服了這一缺陷。

二、多刻面的產品分類方法

現代刻面分類檢索法是 Prieto-Diaz 和 Freeman 在 1987 年提出的,它通過反映對象本質特性的視角(刻面)對對象進行精確的分類。一個刻面分類模式 (Faceted Scheme) 由一組描述對象本質特征的刻面組成,每個刻面從不同的側面對待分類對象進行分類。每個刻面由一組術語 (Term) 構成,術語間由一般特殊關系和同義詞關系而形成結構化結構關系,稱為術語空間 (Term Space),在術語空間中游歷可以幫助訪問者理解特定領域。

構件的描述術語僅限在給定的刻面之中選取,稱為對象的描述子 (Descriptor),見定義1。通過用戶構造描述子形成的查詢條件,可在對象庫中檢索符合條件的對象。

定義1.對象描述子其中,D為描述子,T為術語。

刻面分類檢索方法能否取得較好的檢索效果,相當程度上取決于刻面的劃分,但目前刻面分類模式的制定還是憑借領域專家的經驗或通過開發者反復的測試修改,工作量十分巨大。而且由于專家的知識是語境相關的,功能強大但難免比較片面,不可避免地具有主觀性。

三、詞匯間語義相似度

詞網(WordNet)是一個詞匯關系數據庫,詞網所描述的基本概念被稱為詞位(Synset),詞網是以揭示詞位之間關系為基本內容的常識知識庫,WordNet 的詞位 (Synset) 構成一個樹狀結構,如圖 1 所示。從知識本體的角度來看,詞網是一個語言知識本體。如果WordNet中的兩個詞位中,一個詞位是另一個詞位的次類,那么就說它們之間存在上下位關系(hyponymy)。例如,car (小汽車) 是 vehicle (交通工具)的下位詞,而 vehicle 是 car 的上位詞。

圖1 語義分類樹形圖

本文基于WordNet來計算術語間的語義距離,采用的是概念距離計算詞匯語義相似度的算法。定義詞語距離為0時,其相似度為1;詞語距離為無窮大時,其相似度為0;相似度為詞語距離的單調遞減函數。若將兩詞語O1和O2的相似度記為Sim(O1,O2),其詞語間距離記為Dis(O1,O2),可得以下定義:

定義2.詞匯語義相似度

其中l1,l2是O1,O2分別所處的層次,α是相似度為0.5時 ,之間的距離,α是可調參數,一般有α>0。

由定義可知,詞語的語義距離越大,其相似度越低,如圖1 所示,O10與O16的相似度為,而O12與O3的相似度為。因α>0,所以。

另外,由定義知詞語所處的節點的深度和該深度上節點密度對相似度計算也有影響,同樣距離的兩個詞語間相似度隨著他們所處層次總和的增加而增加。假設根節點為“酒”,O1為“葡萄酒”,O2為“白酒”,O10為“紅葡萄酒”,O12為“白葡萄酒”。雖然,Dis(O10,O12)和Dis(O1,O2)同為2,但O10和O12間的相似度更大,即。層次總和的增加意味著分類趨向細致,和同樣詞語距離層次總和較小的詞語對比較,其相似程度更高。

四、基于語義聚類的產品刻面劃分

我們采用基于語義聚集的刻面劃分方法和基于語義的產品檢索技術來克服傳統刻面分類方法需要人工建立和維護術語空間的缺陷。

1.刻面評價指標

通過借鑒信息領域刻面分類模式的開發經驗,并結合商業領域的特點,我們制定了基于刻面產品分類模式應滿足的幾個一般性原則;①一致性原則;②精簡的原則;③刻面正交的原則;④完備性原則;⑤易于理解的原則。依照上述分類原則,結合本文利用語義網絡進行刻面抽取方法的技術特點,主要通過下列指標對待選刻面進行評價。

(1)刻面覆蓋率:目標集合中共有N個對象,假如該待選刻面能夠對其中K個對象進行劃分,則刻面覆蓋率可定義為

定義3.刻面覆蓋率:

依照刻面分類的全面性原則,一個有效的待選刻面的覆蓋率必須為100%。

(2)刻面分類平衡度:對目標集合進行分類,目的是為了將來更易于對該集合進行查找等操作,因而我們希望分類樹的結構接近平衡樹的形態。假定該待選刻面分類樹共有m個子樹,且各子樹高度為Hi,可得如下定義。

定義4.刻面分類平衡度,(為子樹平均高度)

2.刻面劃分步驟

將以上制定刻面分類模式的原則和方法應用到產品管理領域,遵循以下的步驟,完成基于語義的刻面分類模式的確定。

(1)構建 “詞—產品描述” 矩陣。構建“詞—產品描述” 矩陣前首先要對產品描述進行預處理,主要是將產品描述轉化為詞,并去除連詞、介詞等虛詞,以便后續處理。本文方法中借助WordNet作為詞庫進行分詞,將每一產品描述分割為一個N元組(W1,W2,…,Wn),其中的Wi為WordNet中的詞位,允許單個詞位重復出現。

詞的權重的計算方法采用TFIDF(Term Frequency Inverse Document Frequency)方法,其中TF為詞(Term)在產品描述中出現的頻度,IDF則表示為詞在所有產品描述中中出現的頻率,它反映了詞位區分不同產品的能力。

定義5.權重TFIDF 公式:

其中,tfij表示詞ti在產品描述dj中出現的頻率,M表示全部產品描述集合中的產品數量,mi表示全部產品描述集合中出現詞ti的文檔數目。

圖2“詞-產品描述”矩陣

利用定義5逐次統計各個詞在產品描述中的分布,則可以得到如圖2所示的”詞—文檔”矩陣。其中Wij為第i個詞在第j個產品描述中的權重。假定在k 種產品描述中共有m個不同的詞位,矩陣的每一行代表一個詞位向量,它顯示了每一個詞位在k個產品描述中的權重,矩陣的每一列代表了一個產品描述向量,它顯示了一個產品描述中所有詞位的權重。

(2)“產品描述詞” 語義樹抽取算法。“產品描述詞”語義樹為反映 “詞—產品描述” 矩陣中所有產品描述詞間上下位關系的語義網絡,呈樹形結構,下文簡稱為描述詞義樹。根據WordNet建立產品描述詞義樹的算法如下。

算法1. 產品描述詞義樹抽取算法

輸入:“詞—產品描述” 矩陣。 輸出:產品描述詞義樹。

(1) 取得 “詞—產品描述” 矩陣中一行產品描述詞向量;

(2) 取得該行中的一個描述詞位;

(3) 如果該詞位的權重為0,則轉第(5)步;

(4) 將該詞位加入到當前描述詞位集合中;

(5) 若“詞—產品描述”矩陣有未完,則轉第(1)步;

(6)

(7) 從描述詞集合中取得一個描述詞;

(8) 將該描述詞加入詞位語義鏈表表頭;

(9) 用該描述詞的上位詞替換該描述詞;

(10) 若描述詞非空,則轉第(8)步;

(11) 將描述詞語義鏈表歸并入當前的描述詞語義樹;

(12) 若描述詞集合未完,則轉第(7)步;

(13)

(14) 從描述詞語義樹中取得一個描述詞;

(15) 若該描述詞節點的出度不為1,則轉第(17)步;

(16) 刪除該描述詞;

(17) 若描述詞語義樹未完,則轉第(14)步。

該算法(1~5)步生成描述詞集合;(7~12) 步從WordNet中抽取描述詞相關的上下位語義關系并添加至描述詞義樹中;(14~17) 步對描述詞義樹進行精煉,刪去樹中沒有子節點的非葉子節點。假設所得描述詞集合為圖1中的{O6,O14,O15},則抽取過程如圖3所示。

圖3 產品描述詞義樹抽取計算過程

圖3(a)為從WordNet中抽取的的語義鏈(ROOt→O2→O6),圖3(b)為將O14的語義鏈(Root→O3→O7→O14)歸并后的描述詞義樹,圖3(c)為O15的語義鏈(Root→O3→O7→O15)歸并后所得的描述詞義樹,圖3(d)顯示了描述詞義樹精煉過程中所刪去的節點O2,O3。

(3)語義篩法確定刻面

產品描述詞義樹提示了所有描述詞間的語義聯系,這為我們構建產品分類刻面模式提供了線索。在討論根據產品描述詞義樹確定分類刻面的過程之前,我們先給出刻面篩選算法,然后證明該算法所構建的刻面是正交且完備的。

算法2. 基于描述語義樹的刻面篩選算法

輸入:產品描述詞義樹。輸出:優選刻面分類模式。

(1) 取得出產品描述詞義樹的根節點;

(2) 利用定義4計算根節點刻面的平衡度;

(3) 將該節點刻面及其平衡度參數加入待選刻面集合;

(4)

(5) 取出待選刻面集合中的一個刻面節點;

(6) 利用定義3計算該刻面節點的所有孩子節點的刻面的覆蓋率,如果不為100%,則轉第(9)步;

(7) 利用定義4計算該刻面節點的所有子節點的刻面平衡度;

(8) 若所有孩子節點的平衡度均高于原父節點,則用子節點刻面及其平衡度參數替換待選刻面集合中的父節點;

(9) 若有其他刻面節點,轉第(5)步。

根據產品描述詞義樹構建過程,可知所有的產品描述詞均為描述詞義樹中的節點。故算法2中第 (1~3) 步選擇描述詞義樹的根節點作為刻面,以樹中其余節點作為該刻面中的術語,此刻面顯然將覆蓋全待分類對象集,因此該刻面是完備的。而算法2中第 (5~9) 步對覆蓋率參數的計算,決定了第 (8) 步每次替換后的待選刻面集合依然是完備的。同時,算法所得優選刻面的術語為原描述詞義樹中位于刻面節點之下的葉子節點,由于每一葉子節點在樹中僅出來一次,故各刻面術語間顯然無交集,即本算法構建的待選刻面模式是正交的。

五、總結

刻面分類模式已經應用到許多學科的信息組織和管理中,但對刻面分類模式的研究,尤其是針對產品管理領域的刻面分類模式的研究,理論和實踐上都還不夠成熟,刻面分類模式的制定還多是憑借領域專家的分類經驗。本文討論的分類刻面確定方法是將刻面分類與詞匯語義網絡結合起來的一種嘗試。這種方法擺脫了傳統建立受控術語空間過程對領域專家的完全依賴。

利用術語間的語義聯系,對術語空間進行消岐、精煉和修訂以促使刻面分類模式達到成熟,是我們下一步的研究方向。

本文中所涉及到的圖表、注解、公式等內容請以PDF格式閱讀原文。

主站蜘蛛池模板: 国产又大又粗又猛又爽的视频| 亚洲AⅤ综合在线欧美一区| 亚洲国产91人成在线| 久久视精品| 日韩免费毛片| 中文字幕永久在线观看| 国产欧美高清| 中文字幕亚洲电影| 欧美自拍另类欧美综合图区| 无码区日韩专区免费系列 | 国产特级毛片| 91黄视频在线观看| 欧美在线三级| 狠狠色狠狠色综合久久第一次| 全免费a级毛片免费看不卡| 亚洲精品无码久久久久苍井空| 欧美一级大片在线观看| 国产av无码日韩av无码网站| 丝袜国产一区| 亚洲无码精品在线播放| 久久久四虎成人永久免费网站| 中文字幕色站| 亚洲AV电影不卡在线观看| 欧美a在线| 亚洲一区色| 丁香六月激情综合| 蜜臀av性久久久久蜜臀aⅴ麻豆| 中文字幕乱妇无码AV在线| 一级毛片在线播放免费| 国产精品所毛片视频| 亚洲日韩第九十九页| 日本高清在线看免费观看| 国产乱视频网站| 日韩欧美91| 亚洲人成人伊人成综合网无码| 精品国产Av电影无码久久久| 国产精品视频a| 一级一级一片免费| 国产视频自拍一区| 国产精品欧美日本韩免费一区二区三区不卡 | 欧美一级在线看| 国产成人亚洲无码淙合青草| 欧洲熟妇精品视频| 97精品伊人久久大香线蕉| 国产超碰在线观看| 操国产美女| 亚洲午夜国产片在线观看| 一级黄色欧美| 国产成人综合网| 又爽又黄又无遮挡网站| 91久久青青草原精品国产| 国产精品播放| 国产性精品| V一区无码内射国产| 欧美不卡视频在线| 激情国产精品一区| 91精品国产自产91精品资源| 日韩欧美国产三级| 成人在线观看一区| 在线精品视频成人网| 曰AV在线无码| www.91在线播放| 四虎国产精品永久一区| 婷婷五月在线| 伊人91在线| 色婷婷成人网| 欧美19综合中文字幕| 久久亚洲中文字幕精品一区| 精品国产www| 午夜欧美在线| 亚洲欧洲一区二区三区| 久久无码av一区二区三区| 极品尤物av美乳在线观看| 精品视频一区二区观看| 深爱婷婷激情网| 国内精品小视频福利网址| 91毛片网| 制服丝袜无码每日更新| 免费一级α片在线观看| 久久精品无码一区二区日韩免费| 亚洲最大综合网| V一区无码内射国产|