999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

一種構(gòu)建個(gè)性化網(wǎng)絡(luò)購(gòu)物搜索引擎模型研究

2010-01-01 00:00:00李世威錢(qián)曉東

摘 要:通過(guò)分析在電子商務(wù)環(huán)境下購(gòu)物搜索引擎所面臨的問(wèn)題,提出了一種跨網(wǎng)站式的模糊識(shí)別多媒體信息購(gòu)物搜索引擎的模型架構(gòu)方案,并結(jié)合用戶(hù)個(gè)性化的需求進(jìn)行學(xué)習(xí)和調(diào)整來(lái)提高用戶(hù)的搜索滿(mǎn)意度,以提升其購(gòu)物意愿,進(jìn)而促進(jìn)電子商務(wù)的發(fā)展。運(yùn)用相關(guān)檢索指標(biāo)對(duì)該模型進(jìn)行效能評(píng)估,以證明模型的可行性和有效性,并通過(guò)分析模型的局限性,提出未來(lái)的改進(jìn)方向。

關(guān)鍵詞:網(wǎng)絡(luò)購(gòu)物搜索引擎; 模糊識(shí)別; 個(gè)性化; 信息檢索; 模型架構(gòu); 評(píng)估

中圖分類(lèi)號(hào):TP302文獻(xiàn)標(biāo)志碼:A

文章編號(hào):1001-3695(2010)06-2176-05

doi:10.3969/j.issn.1001-3695.2010.06.052

Model of personalized online shopping search engine

LI Shiweia, QIAN Xiaodongb

(a.School of Traffic Transportation, b.School of Economic Management, Lanzhou Jiaotong University, Lanzhou 730070, China)

Abstract:This paper analyzed the problems faced by shopping search engine in ecommerce environment, presented a crosssite type model architecture program of shopping search engine based on fuzzy recognition multimedia information, and combined with the user personality demand to learning and adjusting the model, in order to improve the user’s search satisfaction and enhance their shopping wishes, thus contributing to the development of ecommerce. And the study used the retrieval norms to evaluate performance of the model, to demonstrate its feasibility and effectiveness, and proposed improvement direction of the model for future by analyzing its limitations.

Key words:online shopping search engine; fuzzy recognition; personality; information retrieval; model architecture; evaluation

隨著電子商務(wù)的蓬勃發(fā)展,網(wǎng)絡(luò)上充斥著海量的多媒體信息,用戶(hù)如何全面有效地查詢(xún)到所需信息已成為當(dāng)前信息檢索的重要課題之一。本文提出了一種跨網(wǎng)站式的模糊識(shí)別多媒體信息購(gòu)物搜索引擎模型,通過(guò)構(gòu)建相關(guān)主題的知識(shí)庫(kù)與主題詞匯庫(kù),并對(duì)HTML、XML、VRML、ASP、JSP、CGI等語(yǔ)言描述的相關(guān)網(wǎng)頁(yè)進(jìn)行特征萃取,建立了相對(duì)應(yīng)主題的網(wǎng)頁(yè)資料庫(kù),然后通過(guò)與用戶(hù)交互式的學(xué)習(xí),進(jìn)行相關(guān)特征比對(duì)和主題分類(lèi)分配,模糊識(shí)別用戶(hù)個(gè)性化的查詢(xún)需求,建立相應(yīng)的初始化隸屬度函數(shù),并制定規(guī)則來(lái)約束搜索的例外情況,以建立能較好地滿(mǎn)足用戶(hù)個(gè)性化需求的多媒體信息搜索引擎。

1 個(gè)性化信息檢索背景

1.1 信息檢索

信息檢索(information retrieval)從1950年開(kāi)始發(fā)展至今,產(chǎn)生了許多查詢(xún)方式,大致可分為以下三類(lèi):

a)布爾邏輯檢索(Boolean model)[1]。在面對(duì)用戶(hù)明確的檢索需求時(shí),可以處理不同層次的數(shù)據(jù)或相同層次的多個(gè)關(guān)鍵字。布爾邏輯模式可以迅速縮小檢索范圍,但這種模式最大的問(wèn)題在于無(wú)法判斷不同文件對(duì)于檢索條件的適應(yīng)度和重要程度。因此,通常會(huì)出現(xiàn)檢索結(jié)果滿(mǎn)足檢索條件,但與用戶(hù)實(shí)際需求不符的狀況。

b)信息過(guò)濾檢索(information filtering)[1]。這種檢索模式是由用戶(hù)事先向系統(tǒng)提供個(gè)人的信息需求,再由系統(tǒng)主動(dòng)搜集符合需求的相關(guān)信息,以定期或不定期的方式呈現(xiàn)給用戶(hù)。在信息過(guò)濾檢索模式中,用戶(hù)的查詢(xún)需求較為固定,其檢索結(jié)果也較為符合用戶(hù)的個(gè)性化查詢(xún)需求。

c)對(duì)話(huà)反饋檢索[1]。這種檢索模式結(jié)合了人機(jī)交互式以及漸進(jìn)式查詢(xún)模式,用戶(hù)通過(guò)界面與查詢(xún)系統(tǒng)進(jìn)行對(duì)話(huà),系統(tǒng)通過(guò)語(yǔ)法分析用戶(hù)的信息需求意圖,然后利用解析器進(jìn)行實(shí)際檢索,并將結(jié)果反饋給用戶(hù),當(dāng)用戶(hù)再對(duì)反饋結(jié)果作出相關(guān)響應(yīng)時(shí),系統(tǒng)將根據(jù)這些響應(yīng)信息作出進(jìn)一步檢索,并調(diào)整檢索策略以符合用戶(hù)需求。

隨著互聯(lián)網(wǎng)上信息量的指數(shù)倍激增,用戶(hù)對(duì)于網(wǎng)絡(luò)搜索引擎的依賴(lài)也越來(lái)越深。目前,一般搜索引擎(Google、Yahoo、Alta Vista等)都會(huì)提供三種基本功能:具有利用關(guān)鍵字搜尋所需信息的功能;具有數(shù)據(jù)更新的功能;當(dāng)搜索引擎檢索到數(shù)據(jù)后,具有提供相關(guān)網(wǎng)頁(yè)基本信息的功能。

1.2 多媒體信息檢索發(fā)展趨勢(shì)

隨著網(wǎng)絡(luò)信息的多元化發(fā)展,互聯(lián)網(wǎng)上充斥著大量的多媒體信息,不再局限于傳統(tǒng)的文字信息。如何有效地檢索到用戶(hù)所需的多媒體信息已成為信息檢索發(fā)展的主要趨勢(shì)。Web查詢(xún)語(yǔ)言就此孕育而生,在這個(gè)領(lǐng)域中著名的研究成果有WISE[2]、WEBSQL[3]等。這些研究是將互聯(lián)網(wǎng)視為一個(gè)海量的數(shù)據(jù)庫(kù),將網(wǎng)頁(yè)內(nèi)文件的特征(如關(guān)鍵字、卷標(biāo)、錨點(diǎn)等)作為網(wǎng)頁(yè)查詢(xún)時(shí)的基礎(chǔ),以開(kāi)發(fā)出類(lèi)似TSQL語(yǔ)言來(lái)查詢(xún)網(wǎng)頁(yè)數(shù)據(jù)庫(kù)。這種方法將搜索引擎的適用范圍延伸到世界范圍的任何領(lǐng)域,因此該模式的檢索規(guī)則在于所有網(wǎng)頁(yè)的共同特性而不再局限于個(gè)別領(lǐng)域所規(guī)定的特殊處理流程。但是互聯(lián)網(wǎng)上存在著大量的非結(jié)構(gòu)化和半結(jié)構(gòu)化的信息,且不同領(lǐng)域、不同類(lèi)型的數(shù)據(jù)格式存在著巨大差異,這就使得在檢索過(guò)程中很難設(shè)計(jì)一種標(biāo)準(zhǔn)的查詢(xún)語(yǔ)言進(jìn)行檢索;此外,如何為缺乏專(zhuān)業(yè)知識(shí)背景的用戶(hù)設(shè)計(jì)出友好的交互系統(tǒng)也是信息檢索發(fā)展亟待解決的問(wèn)題。

1.3 個(gè)性化搜索引擎

隨著互聯(lián)網(wǎng)的日益普及,用戶(hù)對(duì)于信息的要求也逐漸由大眾化需求轉(zhuǎn)換為個(gè)性化需求[4],Magedanz等學(xué)者提出了信息檢索的研究將朝著個(gè)性化方向發(fā)展,而智能代理器(intelligent agent)的功能正好能夠滿(mǎn)足用戶(hù)的個(gè)性化檢索要求。Chang等學(xué)者在智能代理器的定義中提到:設(shè)計(jì)智能代理器的目的是要讓系統(tǒng)具備了解用戶(hù)的工作范圍并學(xué)習(xí)用戶(hù)處理工作的習(xí)慣,達(dá)到主動(dòng)分擔(dān)用戶(hù)工作的目的[2]。用戶(hù)將自己的信息需求提交給智能代理器,代理器代替用戶(hù)到各相關(guān)數(shù)據(jù)庫(kù)檢索數(shù)據(jù),然后將結(jié)果集反饋給用戶(hù),這種檢索模式最大的優(yōu)勢(shì)在于:檢索無(wú)時(shí)空限制、系統(tǒng)能夠自組織自學(xué)習(xí)、信息處理過(guò)程完全自動(dòng)化。

目前,絕大多數(shù)搜索引擎提供的個(gè)性化服務(wù)大致可以分為兩類(lèi)[6]:

a)直接定義法。通過(guò)直接對(duì)用戶(hù)信息需求的規(guī)定來(lái)獲取用戶(hù)的個(gè)性化需求信息,如要求用戶(hù)填寫(xiě)相關(guān)表格和問(wèn)卷。直接定義法的優(yōu)點(diǎn)在于可以收集到用戶(hù)的基本信息,但缺點(diǎn)在于需要用戶(hù)的高度配合。

b)隱藏式數(shù)據(jù)萃取法。由系統(tǒng)特定功能模塊擔(dān)當(dāng)感應(yīng)器的角色,學(xué)習(xí)用戶(hù)對(duì)于事物的反應(yīng)及處理流程,進(jìn)而模擬用戶(hù)隱藏的特征。通常可以根據(jù)以下規(guī)則來(lái)識(shí)別用戶(hù)的隱藏特征:(a)用戶(hù)對(duì)于該網(wǎng)頁(yè)所停留的時(shí)間;(b)用戶(hù)是否使用滾動(dòng)條來(lái)瀏覽該網(wǎng)頁(yè)信息;(c)用戶(hù)是否點(diǎn)擊該網(wǎng)頁(yè)中的超鏈接來(lái)瀏覽其他相關(guān)信息。

2 模糊邏輯理論

自1965年美國(guó)控制論專(zhuān)家Zadeh 提出了模糊集思想起,模糊集合(fuzzy sets)、模糊法則、推論機(jī)制與推論模式[7]被廣泛地應(yīng)用于許多領(lǐng)域。1995年我國(guó)學(xué)者首次提出公理模糊集理論(axiomatic fuzzy sets,AFS),成為模糊集理論一個(gè)新的研究方法[8]。公理模糊集理論應(yīng)用AFS代數(shù)和AFS 結(jié)構(gòu)來(lái)描述自然語(yǔ)言語(yǔ)義的不確定性和原始數(shù)據(jù)隨機(jī)分布的不確定性,為模糊度隸屬函數(shù)及其邏輯運(yùn)算提供了客觀統(tǒng)一的確定方法,克服了傳統(tǒng)研究方法中隸屬函數(shù)確定的主觀性和模糊邏輯算子選擇的隨意性[9]。近年來(lái),AFS理論與概率理論相結(jié)合使用,將人類(lèi)主觀的模糊性和客觀的不確定性有機(jī)地統(tǒng)一起來(lái),成為新的應(yīng)用方向。

2.1 AFS代數(shù)

定義1[10,11] 設(shè)X1,X2,…,Xn,M是n+1個(gè)非空集合,則將集合EX1…XnM定義為

EX1…XnM={∑i∈I(u1iu2i…uniAi)|Ai∈2M,uri∈2Xr}

其中:r=1,2,…,n,I是一個(gè)非空指標(biāo)集,當(dāng)n=0時(shí),上述公式可變換為

EM={∑i∈IAi|Ai∈2M,i∈I}

其中:I是一個(gè)非空指標(biāo)集。

定義2[10,11] 設(shè)X1,X2,…,Xn,M是n+1個(gè)非空集合,在EX1…XnM上的一個(gè)二元關(guān)系R定義為

∑i∈I(u1iu2i…uniAi),∑j∈J(v1jv2j…vnjBj)∈EX1…XnM

則有∑i∈I(u1iu2i…uniAi)R∑j∈J(v1jv2j…vnjBj)

(1)(u1iu2i…uni)Ai,(v1hv2h…vnh)Bh使得AiBh,urivrh。其中i∈I,h∈J,1≤r≤n。

(2)(v1j,v2j,…,vnj)Bj,(u1ku2k…unk)Ak使得BjAk,vrjurk。其中j∈J,k∈I,1≤r≤n。

EX1…XnM/R記為

EX1…XnM#8226;∑i∈I(u1i…uniAi)=∑j∈J(v1j…vnjBj)

該等式表示∑i∈I(u1iu2i…uniAi)和∑j∈J(v1jv2j…vnjBj)有關(guān)系R下等價(jià)。

定理1[10,11] 設(shè)X1,X2,…,Xn, M是n+1個(gè)非空集合,(EX1…XnM,∧,∨)在如下定義的∧,∨二元運(yùn)算下,成為一個(gè)完全分配格:

∑i∈I(u1iu2i…uniAi),∑j∈J(v1jv2j…vnjBj)∈EX1…XnM有∑i∈I(u1iu2i…uniAi)∧∑j∈J(v1jv2j…vnjBj)=∑i∈I,j∈J[(u1i∩v1j)(u2i∩v2j)…(uni∩vnj)(Ai∪Bj)]和∑i∈I(u1iu2i…uniAi)∨∑j∈J(v1jv2j…vnjBj)=∑k∈I∪J(ω1kω2k…ωnkCk)其中:k∈(I∪J),(I∪J)是I與J的不交并,如果k∈I則Ck=Ak,ωrk=urk;如果k∈J則Ck=Bk,ωrk=vrk,1≤r≤n。此時(shí),(EX1…XnM,∧,∨)被稱(chēng)為X1,X2,…,Xn和M上的EIn+1代數(shù),X1…XnΦ是EX1…XnM的最大元,Φ…ΦM是EX1…XnM的最小元,當(dāng)n=0時(shí),上述EIn+1代數(shù)就成為EI代數(shù)(EM,∧,∨)。

此方法可以將少數(shù)的幾個(gè)模糊概念生成用EM表示的非常多的概念,∧和∨是這些模糊概念的交、并運(yùn)算,且EM中每個(gè)元素都有確切的語(yǔ)意[11]。因此,本文將EIn+1代數(shù)引入搜索引擎的模式識(shí)別,可以從用戶(hù)所提交的較少信息中生成新的概念模式,從而進(jìn)一步充分識(shí)別用戶(hù)的個(gè)性化需求。

2.2 AFS模糊邏輯系統(tǒng)

定義3[11,12] 設(shè)ξ是論域X上的一個(gè)屬性或概念,ξ與X上的一個(gè)二元關(guān)系Rξ(即RξX×X)相對(duì)應(yīng)。其中(x,y)∈Rξ,說(shuō)明x以某種程度屬于ξ且x屬于ξ的程度要強(qiáng)于或等于y屬于ξ的程度。

定義4[11,12] 設(shè)X為集合,R是集合X上的二元關(guān)系。如果對(duì)于x,y∈X且x≠y,若R滿(mǎn)足:

a)如果(x,y)∈R,則(x,x)∈R;

b)如果(x,x)∈R,(y,y)R,則(x,y)∈R;

c)如果(x,y)∈R,(y,z)∈R,則(x,z)∈R;

d)如果(x,x)∈R,(y,y)∈R,則或(x,y)∈R,或(y,x)∈R。

則稱(chēng)R為弱偏好關(guān)系(subpreference relation),與弱偏好關(guān)系對(duì)應(yīng)的概念稱(chēng)為簡(jiǎn)單概念,反之稱(chēng)為復(fù)雜概念。

定義5[10~12] 設(shè)X、M為兩個(gè)集合,2M是M的冪集,τ=X×X→2M,如果對(duì)于任意的x1,x2,x3∈X,τ滿(mǎn)足下面的公理:

AX1:τ(x1,x2)τ(x1,x1);

AX2:τ(x1,x2)∩τ(x2,x3)τ(x1,x3),

則將(M,τ,X)稱(chēng)為一個(gè)AFS結(jié)構(gòu),X稱(chēng)為論域,M稱(chēng)為屬性域,τ稱(chēng)為結(jié)構(gòu)。在實(shí)際應(yīng)用中,通常構(gòu)造的M是論域X上的簡(jiǎn)單屬性組合,所以定義如下公式來(lái)構(gòu)造AFS結(jié)構(gòu)[11]:

τ(x,y)={m|m∈M,(x,y)∈Rm}

定義6[11~14] 對(duì)邏輯非(′)運(yùn)算作如下定義:

∑i∈JAi∈EM,有∑i∈IAi′=∧i∈I{∨a∈Ai(a′)}

其中:a∈M,a′是簡(jiǎn)單概念a的非。

根據(jù)以上定義,將代數(shù)系統(tǒng)(EX1…XnM,∧,∨,′)稱(chēng)為AFS模糊邏輯系統(tǒng)。在構(gòu)建搜索引擎用戶(hù)個(gè)性化學(xué)習(xí)模塊中,采用AFS模糊邏輯系統(tǒng)可以從用戶(hù)較少的自然語(yǔ)言描述中獲得最大的信息需求特征,進(jìn)而最大限度地匹配用戶(hù)所需要的網(wǎng)頁(yè)資料。

2.3 AFS模糊集隸屬函數(shù)

定理2[11,12] 設(shè)X、M為兩個(gè)集合,(M,τ,X)是一個(gè)AFS結(jié)構(gòu),BX,AM,定義符號(hào):

A(B)={y|y∈X,τ(x,y)A,x∈B}

對(duì)于給定的x∈X,如果存在映射關(guān)系x:EM→EXM,∑i∈IAi∈EM,使得:

x(∑i∈IAi)=∑i∈IAi({x})Ai∈EXM成立,則稱(chēng)x是從(EM,∧,∨)到(EXM,∧,∨)上的代數(shù)同態(tài)。

定義7[11,12] 設(shè)X是一個(gè)集合,S是X上的σ代數(shù),存在ρ:X→R+=[0,∞),0<∑x∈Xρ(x)<∞,對(duì)任意的A∈S,使得:

m(A)=∑x∈Aρ(x)∑x∈Xρ(x)成立,則稱(chēng)m為S上的由ρ導(dǎo)出的測(cè)度。

由于搜索引擎在模糊識(shí)別用戶(hù)所提交的自然語(yǔ)言過(guò)程中,絕大多數(shù)情況下屬性是離散的,本文只討論離散情況下的模糊測(cè)度的導(dǎo)出。文獻(xiàn)[12]對(duì)連續(xù)情況下的模糊測(cè)度導(dǎo)出進(jìn)行了詳細(xì)地闡述。

定義8[8,11,12] 設(shè)ξ是X上的一個(gè)簡(jiǎn)單概念,且存在ρξ:X→R+=[0,∞),如果ρξ滿(mǎn)足下列條件:

a)ρξ(x)=0(x,x)Rξ,x∈X;

b)(x,y)∈Rξρξ(x)≥ρξ(y),(x,y)∈X,

則將ρξ稱(chēng)為簡(jiǎn)單概念ξ的隸屬度函數(shù)。

定義9[8,11,12] 設(shè)X為論域,M是X上的一些簡(jiǎn)單概念構(gòu)成的一個(gè)集合,S是X上的σ代數(shù),對(duì)于α∈M,mα是由α的隸屬度函數(shù)ρα導(dǎo)出的S上的測(cè)度,對(duì)于∑i∈IaiAi∈EXM,如果滿(mǎn)足ai∈S,i∈I,則定義∑i∈IaiAi的范數(shù)為

M(∑i∈IaiAi)=supi∈I∏α∈Aimα(ai)∈[0,1]

對(duì)于在半認(rèn)知空間(M,τ,X,S)中,可測(cè)的模糊概念∑i∈IAi∈EM,定義其表示模糊概念的Zadeh模糊集隸屬函數(shù)為x∈X。

μ∑i∈IAi(x)=M((∑i∈IAi)(x))=M(∑i∈IAi(x)Ai)∈[0,1]

3 網(wǎng)絡(luò)購(gòu)物搜索引擎模型構(gòu)建

3.1 模型框架

用戶(hù)在商品信息搜索過(guò)程中,存在很大的不確定性,而且以往簡(jiǎn)單的文本信息不再滿(mǎn)足用戶(hù)的需求。如何從用戶(hù)簡(jiǎn)單的自然語(yǔ)言中識(shí)別用戶(hù)的需求,進(jìn)而將豐富的多媒體信息呈現(xiàn)給用戶(hù),成為當(dāng)今購(gòu)物搜索引擎發(fā)展的主要趨勢(shì)。

因此基于上述理論,本文構(gòu)建了一種能夠較好地滿(mǎn)足用戶(hù)個(gè)性化查詢(xún)需求的網(wǎng)絡(luò)購(gòu)物搜索引擎模型,該模型框架如圖1所示。

1)原始網(wǎng)頁(yè)資料的收集與整理 由于互聯(lián)網(wǎng)上的信息量是極其龐大的,如果用戶(hù)搜集相關(guān)網(wǎng)頁(yè)信息時(shí),系統(tǒng)實(shí)時(shí)初始化原始網(wǎng)頁(yè)資料庫(kù),則會(huì)導(dǎo)致檢索服務(wù)器的傳輸帶寬嚴(yán)重不足,致使檢索系統(tǒng)無(wú)法順暢運(yùn)行。為了避免這種情況,借鑒大多數(shù)搜索引擎的運(yùn)作方式,采用離線運(yùn)作模式進(jìn)行原始網(wǎng)頁(yè)資料的收集與整理。根據(jù)不同主題,先通過(guò)全文搜索引擎搜集相關(guān)主題的網(wǎng)頁(yè)資料,如果收集到該主題信息的URL時(shí),通過(guò)網(wǎng)絡(luò)下載軟件LAN Spider(或Teleport Pro、LAN Search Pro),進(jìn)行該主題資料的收集,統(tǒng)一集中到本系統(tǒng)的服務(wù)器上,并將收集到的資料按相關(guān)主題進(jìn)行分類(lèi)匯總。

2)建立主題知識(shí)庫(kù)和主題詞匯庫(kù) 為了使系統(tǒng)具有對(duì)特定領(lǐng)域內(nèi)的信息進(jìn)行處理和相關(guān)推理的能力,就需要根據(jù)相關(guān)主題領(lǐng)域的特征和規(guī)則構(gòu)建主題知識(shí)庫(kù)。本文針對(duì)數(shù)碼產(chǎn)品領(lǐng)域內(nèi)的特征、行業(yè)報(bào)告,以及根據(jù)主要的生產(chǎn)商和零售商對(duì)相關(guān)產(chǎn)品的使用說(shuō)明和促銷(xiāo)宣傳文件進(jìn)行分詞處理,建立了以數(shù)碼產(chǎn)品型號(hào)為單位的主題知識(shí)庫(kù)。由于數(shù)碼產(chǎn)品種類(lèi)繁多,本研究只針對(duì)行業(yè)內(nèi)核心企業(yè)的產(chǎn)品,構(gòu)建相關(guān)主要產(chǎn)品的主題知識(shí)庫(kù)。

當(dāng)用戶(hù)輸入自然語(yǔ)言進(jìn)行檢索時(shí),檢索系統(tǒng)需要分析出其中對(duì)于查詢(xún)結(jié)果具有影響的詞與字,為了實(shí)現(xiàn)這種語(yǔ)言解析的功能,進(jìn)而輔助模糊集隸屬函數(shù)的構(gòu)建,就必須建立相關(guān)領(lǐng)域內(nèi)的完整主題詞匯庫(kù)。建立主題詞匯方法很多,本文依照主題知識(shí)庫(kù)構(gòu)建基本的主題詞匯庫(kù),然后采用問(wèn)卷調(diào)查和用戶(hù)訪談的形式來(lái)擴(kuò)充數(shù)碼產(chǎn)品的詞匯庫(kù)。當(dāng)系統(tǒng)運(yùn)行后,根據(jù)與用戶(hù)的交互式學(xué)習(xí)、例外狀況的判斷以及相關(guān)主題網(wǎng)頁(yè)資料的更新來(lái)進(jìn)一步豐富該主題的詞匯庫(kù)。主題知識(shí)庫(kù)與主題詞匯庫(kù)構(gòu)建過(guò)程如圖2所示。

3)特征比對(duì)及分類(lèi) 因?yàn)槭占瘉?lái)的網(wǎng)頁(yè)資料含有大量的信息,且是不同的Web語(yǔ)言(如HTML、XML、VRML、ASP、JSP、CGI等)編譯而成,因此就需要根據(jù)所建立的主題知識(shí)庫(kù)和主題詞匯庫(kù)對(duì)每個(gè)網(wǎng)頁(yè)資料進(jìn)行特征識(shí)別,并將其核心信息分類(lèi)存放在服務(wù)器的數(shù)據(jù)庫(kù)里。例如,對(duì)于HTML形式的網(wǎng)頁(yè),可以通過(guò)〈TITLE〉來(lái)識(shí)別網(wǎng)頁(yè)標(biāo)題、IMG SRC=來(lái)識(shí)別圖片名稱(chēng)、ALT=來(lái)識(shí)別相關(guān)圖片說(shuō)明、〈P〉〈BR〉〈TR〉〈TD〉來(lái)識(shí)別網(wǎng)頁(yè)內(nèi)容等等。通過(guò)特征比對(duì)與分類(lèi),可以建立相關(guān)主題詞匯與網(wǎng)頁(yè)資料的關(guān)聯(lián),進(jìn)而提高系統(tǒng)的檢索效率。

4)建立主題網(wǎng)頁(yè)資料庫(kù) 通過(guò)特征比對(duì)與分類(lèi)模塊,將相關(guān)主題的網(wǎng)頁(yè)按照與主題知識(shí)和主題詞匯相關(guān)聯(lián)的規(guī)則,存放在本系統(tǒng)的數(shù)據(jù)庫(kù)服務(wù)器上,形成相關(guān)主題的網(wǎng)頁(yè)資料庫(kù)。

5)建立用戶(hù)的模糊集隸屬函數(shù) 設(shè)X為相關(guān)主題的網(wǎng)頁(yè)資料集合,M是X上的簡(jiǎn)單屬性集合(即相關(guān)主題詞匯集合),τ是用戶(hù)相關(guān)的檢索結(jié)構(gòu),A是用戶(hù)相關(guān)的檢索要求,(M,τ,X)是一個(gè)AFS結(jié)構(gòu),因此可以根據(jù)上述的AFS理論建立用戶(hù)相關(guān)的模糊集隸屬函數(shù)[8,11,12]:

μ∑i∈IAi(x)=M((∑i∈IAi)(x))=M(∑i∈IAi(x)Ai)∈[0,1]

其中:1表示該網(wǎng)頁(yè)真正符合用戶(hù)的檢索要求;0表示該網(wǎng)頁(yè)不符合用戶(hù)的檢索要求。

6)例外狀況處理 若主題詞匯庫(kù)從用戶(hù)的自然語(yǔ)言中無(wú)法解析任何關(guān)鍵字,那么系統(tǒng)將存儲(chǔ)該語(yǔ)句,并調(diào)用該主題的通用查詢(xún)語(yǔ)句來(lái)顯示查詢(xún)信息。例如,數(shù)碼相機(jī)+佳能+索尼+奧林巴斯+…+最新+…。用戶(hù)可以修改這個(gè)查詢(xún)語(yǔ)句得到最終查詢(xún)結(jié)果,然后系統(tǒng)將所保存的未解析的語(yǔ)句,與修改后的查詢(xún)語(yǔ)句和查詢(xún)結(jié)果關(guān)聯(lián),進(jìn)而擴(kuò)充該主題的詞匯庫(kù)。

7)用戶(hù)個(gè)性化學(xué)習(xí) 不同用戶(hù)在搜索商品時(shí),所提出的需求因個(gè)人偏好會(huì)有很大的差異,但不同用戶(hù)又有自身的消費(fèi)定式,如何識(shí)別用戶(hù)的消費(fèi)定式,就成為個(gè)性化購(gòu)物搜索引擎構(gòu)建的關(guān)鍵。在此,模型采用隱藏式數(shù)據(jù)萃取法[6],通過(guò)制定規(guī)則、監(jiān)測(cè)用戶(hù)的網(wǎng)上行為來(lái)識(shí)別用戶(hù)潛在的消費(fèi)偏好,并結(jié)合所定義的模糊集隸屬函數(shù),讓用戶(hù)對(duì)于檢索結(jié)果進(jìn)行判定,進(jìn)而修正該用戶(hù)的隸屬函數(shù),以達(dá)到對(duì)其消費(fèi)定式較好的識(shí)別。

8)用戶(hù)需求信息結(jié)果顯示 通過(guò)樣本集的訓(xùn)練,如果達(dá)到用戶(hù)檢索的滿(mǎn)意度,那么系統(tǒng)基本上識(shí)別了該用戶(hù)的消費(fèi)定式,并確定了相關(guān)的模糊集隸屬函數(shù),從而系統(tǒng)就可以為用戶(hù)提供個(gè)性化的檢索功能,并按照用戶(hù)的偏好顯示檢索結(jié)果。

9)主題網(wǎng)頁(yè)資料庫(kù)更新 由于本系統(tǒng)采用的是離線運(yùn)作方式,而且互聯(lián)網(wǎng)的信息是不斷動(dòng)態(tài)變化的,為了有效更新主題資料庫(kù),而又不影響用戶(hù)檢索效率,系統(tǒng)采用分布式服務(wù)器的方式,單獨(dú)構(gòu)建一個(gè)更新主題網(wǎng)頁(yè)資料的服務(wù)器,運(yùn)用網(wǎng)絡(luò)下載軟件LAN Spider(或Teleport Pro、LAN Search Pro)進(jìn)行相關(guān)主題網(wǎng)頁(yè)收集,然后在用戶(hù)訪問(wèn)量較少的時(shí)間段更新原始主題資料庫(kù),通過(guò)主體知識(shí)庫(kù)和主題詞匯庫(kù)對(duì)新的網(wǎng)頁(yè)資料進(jìn)行特征比對(duì)和分類(lèi),最后根據(jù)用戶(hù)的模糊集隸屬函數(shù)與用戶(hù)檢索偏好建立關(guān)聯(lián)。

3.2 模型效能評(píng)估

為了對(duì)該購(gòu)物搜索引擎模型的效能進(jìn)行評(píng)估,作如下定義來(lái)計(jì)算系統(tǒng)信息檢索的正確率、錯(cuò)誤率和漏檢率。

設(shè)Attain_H(L)為該購(gòu)物搜索引擎檢索到的與用戶(hù)需求相關(guān)度高(低)的產(chǎn)品信息數(shù);Correct_H(L)為該搜索引擎檢索到的與用戶(hù)需求相關(guān)度高(低)且符合用戶(hù)需要的產(chǎn)品信息數(shù);Error_H(L)為該搜索引擎檢索到的與用戶(hù)需求相關(guān)度高(低)且不符合用戶(hù)需要的產(chǎn)品信息數(shù),因此有Error_H(L)=Attain_H(L)-Correct_H(L);A_Page_H(L)為該購(gòu)物搜索引擎檢索到的與用戶(hù)需求相關(guān)度高(低)的網(wǎng)頁(yè)數(shù);C_Page_H(L)為該購(gòu)物搜索引擎檢索到的與用戶(hù)需求相關(guān)度高(低)且符合用戶(hù)需要的網(wǎng)頁(yè)數(shù);E_Page_H(L)為購(gòu)物該搜索引擎檢索到的與用戶(hù)需求相關(guān)度高(低)且不符合用戶(hù)需要的網(wǎng)頁(yè)數(shù),因此有E_Page_H(L)=A_Page_H(L)-C_Page_H(L);Total_Page為用戶(hù)從原始資料庫(kù)中手工檢索到相關(guān)產(chǎn)品的網(wǎng)頁(yè)總數(shù);Miss_Page為購(gòu)物該搜索引擎漏檢到的網(wǎng)頁(yè)數(shù),有Miss_Page=Total_Page-C_Page_H(L);CH(L)為檢索信息相關(guān)度高(低)的正確率;EH(L)為檢索信息相關(guān)度高(低)的錯(cuò)誤率;CPH(L)為檢索網(wǎng)頁(yè)相關(guān)度高(低)的正確率;EPH(L)為檢索網(wǎng)頁(yè)相關(guān)度高(低)的錯(cuò)誤率;MPH(L)為檢索網(wǎng)頁(yè)相關(guān)度高(低)的漏檢率。則定義如下式:

CH(L)=Correct_H(L)Attain_H(L)(1)

EH(L)=Error_H(L)Attain_H(L)(2)

CPH(L)=C_Page_H(L)A_Page_H(L)(3)

EPH(L)=E_Page_H(L)A_Page_H(L)(4)

MPH(L)=Miss_PageTotal_Page(5)

為了檢驗(yàn)系統(tǒng)檢索的準(zhǔn)確性,隨機(jī)抽取若干個(gè)用戶(hù)樣本進(jìn)行系統(tǒng)學(xué)習(xí),形成樣本各自偏好的模糊集隸屬函數(shù),然后用戶(hù)通過(guò)系統(tǒng)檢索自身偏好的商品,并通過(guò)人工判斷來(lái)識(shí)別檢索結(jié)果的正確性,進(jìn)而來(lái)分析該檢索系統(tǒng)的效能。表1和2是經(jīng)過(guò)系統(tǒng)反復(fù)學(xué)習(xí)后生成的所有樣本平均效能指標(biāo)值。從表1和2中可以看出,在高相關(guān)的檢索條件下,系統(tǒng)檢索網(wǎng)頁(yè)的正確率為0.986,在低相關(guān)的檢索條件下,系統(tǒng)檢索網(wǎng)頁(yè)的正確率為0.904,說(shuō)明系統(tǒng)能夠很好地滿(mǎn)足用戶(hù)的檢索要求。

表1 相關(guān)產(chǎn)品信息數(shù)檢索效能表

CHEHCLEL

0.8290.1710.7940.206

表2 相關(guān)產(chǎn)品網(wǎng)頁(yè)數(shù)檢索效能表

CPHEPHMPHCPLEPLMPL

0.9860.0140.2950.9040.0960.059

但是,在高相關(guān)的檢索條件下,系統(tǒng)的漏檢率MPH同樣也是比較高(0.295),進(jìn)一步分析研究發(fā)現(xiàn),在進(jìn)行相關(guān)主題網(wǎng)頁(yè)特征比對(duì)和分類(lèi)時(shí),對(duì)自然語(yǔ)言的解析過(guò)于片斷化,這樣做的目的是過(guò)濾不符合要求的錯(cuò)誤網(wǎng)頁(yè)(容錯(cuò)率),但同時(shí)也導(dǎo)致了漏檢網(wǎng)頁(yè)數(shù)量的增加。如何有效地過(guò)濾掉不符合主題詞匯的網(wǎng)頁(yè)信息并降低網(wǎng)頁(yè)的漏檢率,是該模型改進(jìn)的方向。

4 結(jié)束語(yǔ)

根據(jù)上述分析,針對(duì)不同用戶(hù)的個(gè)性化需求,建立了一種基于AFS模糊識(shí)別方法的購(gòu)物搜索引擎模型,能夠通過(guò)與用戶(hù)的交互式學(xué)習(xí)發(fā)現(xiàn)其消費(fèi)定式,生成符合用戶(hù)需求偏好的模糊集隸屬函數(shù),能夠很好地為用戶(hù)檢索提供個(gè)性化需求信息。但是,模型也存在一些不足,如何在容錯(cuò)率和漏檢率之間尋求一個(gè)平衡并結(jié)合用戶(hù)的需求偏好建立一個(gè)多目標(biāo)函數(shù)是該模型嘗試改進(jìn)的方向。

參考文獻(xiàn):

[1]BELKIN N J, CROFT W B. Information filtering and information retrieval: two sides of the same coin[J]. Communication of the ACM, 1992, 35(6): 29-38.

[2]MOHAGEG M F, GRAPHICS S. The influence of hype rtext linking structures on the efficiency of information retrieval[J]. Human Factors, 1992, 34(3): 351-367.

[3]DOUG R. An architecture of integrated agents[J]. Communication of the ACM, 1994, 37(7): 106-116.

[4]BUDI Y, LEE D L. A world wide web resource database system[J]. IEEE Trans on Knowledge and Data Engineering, 1996, 8(4): 548-554.

[5]ZUMBACH J. Enhancing learning from hypertext by inducing a goal orientation: comparing different approaches[J]. Instructional Science, 2002, 30(4): 243-267.

[6]CALISIR F, GUREL Z. Influence of text structure and prior knowledge of the learner on reading comprehension, browsing and perceived control[J]. Computer in Human Behavior, 2003, 19(2): 135-145.

[7]ZADEH L A. Fuzzy sets[J]. Information and Control, 1965(8): 338-353.

[8]LIU Xiaodong. A new fuzzy model of pattern recognition and hitch diagnoses of complex systems[J]. Fuzzy Sets and Systems, 1999, 104: 289-297.

[9]LIU Xiaodong, WANG Wei, CHAI T Y. The fuzzy clustering analysis based on AFS theory[J]. IEEE Trans on Systems, Man and Cybernetics Part B, 2005, 35(5): 1013-1027.

[10]LIU Xiaodong. The fuzzy theory based on AFS algebras and AFS structure[J]. Journal of Mathematical Analysis and Applications, 1998, 217: 459-478.

[11]REN Yan, SONG M L, LIU X D. New approaches to the fuzzy clustering via AFS theory[J]. Internal Journal of Information and Systems Sciences, 2007, 3(2): 307-325.

[12]LIU Xiaodong. The fuzzy sets and systems based on AFS structure[J]. Fuzzy Sets and Systems, 1998,95(2): 179-188.

[13]LIU Xiaodong, CHAI Tianyou, WANG Wei. Approaches to the representations and logic operations for fuzzy concepts in the framework of axiomatic fuzzy set theory II[J]. Information Sciences: an International Journal, 2007, 177(4): 1027-1045.

[14]LIU Xiaodong, CHAI Tianyou, WANG Wei. AFS fuzzy logic system and its applications to model and control[J].International Journal of Information And Systems Sciences, 2006, 2(3): 1-21.

[15]LIU Xiaodong. The development of AFS theory under probability theory[J]. International Journal of Information And Systems Sciences, 2007, 3(2): 326-348.

[16]FERNANDEZ E, LEYVA J C. A method based on multiobjective optimization for deriving a ranking from a fuzzy preference relation[J]. European Journal of Operational Research, 2004, 154(1): 110-124.

[17]PENEVA V, POPCHEV I. Properties of the aggregation operators related with fuzzy relations[J]. Fuzzy Sets and Systems, 2003, 139(3): 615-633.

[18]HERRERA F, HERRERAVIEDMA E, CHICLANA F. Militiperson decisionmaking based on multiplicative preference relations[J]. European Journal of Operational Research, 2001, 129(2): 372-385.

[19]HERRERAVIEDMA E. Modeling the retrieval process of an information retrieval system using an ordinal fuzzy linguistic approach[J]. Journal of the American Society for Information Science and Technology, 2001, 52(6): 460-475.

[20]HERRERAVIEDMA E, HERRERA F, CHICLANA F, et al. Some issues on consistency of fuzzy preference relations[J]. European Journal of Operational Research, 2004, 154(1): 98-109.

[21]GAO J Q. A personalized WWW imagetext shopping engine: a case study on cellular phones[D]. Taiwan: DaYeh University, 2000.

[22]PASI G. Modeling users’ preferences in systems for information access[J]. International Journal of Intelligent Systems, 2003, 18(7): 793-808.

[23]Van De WALLE B. A relational analysis of decision makers’ preference[J]. International Journal of Intelligent Systems, 2003, 187: 775-791.

主站蜘蛛池模板: 国产精品高清国产三级囯产AV| 免费人成网站在线高清| 国产精品毛片一区| 538精品在线观看| 黑人巨大精品欧美一区二区区| 波多野结衣的av一区二区三区| 欧美国产菊爆免费观看| 久久久久亚洲AV成人网站软件| 国产色婷婷| 精品国产电影久久九九| 九九免费观看全部免费视频| 99中文字幕亚洲一区二区| 国产精品毛片一区视频播| 国产综合网站| 9966国产精品视频| 婷婷六月综合网| 激情無極限的亚洲一区免费| 欧美成人怡春院在线激情| 亚洲天堂网站在线| 免费精品一区二区h| 亚洲精品无码久久毛片波多野吉| 久久窝窝国产精品午夜看片| 五月天天天色| 最新国产麻豆aⅴ精品无| 五月天天天色| 国产制服丝袜91在线| 欧美亚洲一区二区三区导航| 香蕉网久久| 亚洲av无码人妻| 在线播放国产99re| 中文字幕av一区二区三区欲色| 亚洲国产成人久久精品软件| 真实国产乱子伦视频| 在线看片中文字幕| 欧美一区二区三区香蕉视| 欧美福利在线| 国产成人免费| 亚洲精品桃花岛av在线| 天天视频在线91频| 国产9191精品免费观看| 亚洲综合狠狠| 永久免费无码成人网站| 亚洲v日韩v欧美在线观看| 国产精品对白刺激| 精品久久久久久中文字幕女| 亚洲国产精品一区二区高清无码久久| 亚洲福利一区二区三区| 亚洲日韩日本中文在线| 日本午夜三级| 黄色成年视频| 国产成在线观看免费视频| 国产在线98福利播放视频免费| 91九色国产porny| 久久狠狠色噜噜狠狠狠狠97视色 | 中文字幕 欧美日韩| 亚洲综合色婷婷| 久久免费精品琪琪| 91网址在线播放| 99精品视频九九精品| 最新加勒比隔壁人妻| 原味小视频在线www国产| 最新加勒比隔壁人妻| 亚洲高清免费在线观看| 亚洲天堂视频在线观看免费| 久久91精品牛牛| 日本免费福利视频| 五月婷婷精品| 日本免费福利视频| 91视频日本| 无码精品国产dvd在线观看9久| 日韩A级毛片一区二区三区| 国产日韩AV高潮在线| 亚洲无码精品在线播放| 亚洲人成网站在线观看播放不卡| 一本一道波多野结衣av黑人在线| 亚洲二区视频| 欧美黑人欧美精品刺激| 国产swag在线观看| 久久无码av一区二区三区| 亚洲天堂自拍| 日本一本正道综合久久dvd| 91免费观看视频|