999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

一種具有屬性集成/融合能力的搜索策略

2008-01-01 00:00:00吳早亮徐凌宇嚴(yán)黃文濤

摘要:針對(duì)搜索結(jié)果數(shù)量過多、各信息源——網(wǎng)頁的屬性值不一致的特點(diǎn),提出一種具有屬性融合/集成能力的搜索策略,擬建立自動(dòng)搜索生成系統(tǒng)取代人工分揀。通過對(duì)檢索出來的網(wǎng)頁作信息抽取、對(duì)比、統(tǒng)計(jì),進(jìn)行集成/融合,最終提交給用戶統(tǒng)一的信息視圖,保證了信息完備性與權(quán)威性。用該方法建立的微機(jī)性能/報(bào)價(jià)檢索示范系統(tǒng)的試運(yùn)行與測(cè)試數(shù)據(jù)表明,該系統(tǒng)基本能夠從繁重的人工檢索中解脫出來,提高了自動(dòng)化程度。

關(guān)鍵詞:檢索;搜索引擎;Web信息抽??;數(shù)據(jù)集成/融合

中圖分類號(hào):TP391文獻(xiàn)標(biāo)志碼:A

文章編號(hào):1001-3695(2008)01-0087-03

搜索引擎是Web信息檢索的重要方法和手段。目前,以Google、Baidu為代表的基于關(guān)鍵字查詢的搜索引擎,搜索出來的結(jié)果存在以下特點(diǎn):a)相關(guān)網(wǎng)頁數(shù)量龐大,容易導(dǎo)致信息過載[1,2]。一方面逐一查看和比對(duì)所有搜索結(jié)果的工作量過大,超出了人工分揀的能力;另一方面倘若隨機(jī)任意選取部分結(jié)果查看,則獲得的信息存在片面性,不能完全包含用戶所需信息。b)一致性問題。雖然網(wǎng)頁信息內(nèi)容能夠重組,但不同的信息源提供的信息存在沖突,主要體現(xiàn)在不同網(wǎng)頁中相同屬性項(xiàng)的值不一致。面對(duì)這些信息,用戶會(huì)茫然而無從選擇?;谏鲜鼍窒扌?,使得用戶不易有效地利用海量檢索結(jié)果。為此,研究一種能夠自動(dòng)生成完備信息視圖的方法,將用戶從繁重的人工檢索中解脫出來,成為目前檢索的關(guān)鍵。

本文針對(duì)檢索結(jié)果的特點(diǎn),為了有效地提高人工分揀的查準(zhǔn)率[3~5]和信息的綜合利用率,構(gòu)建了具有屬性融合/集成能力的搜索策略模型。該模型能夠自動(dòng)對(duì)搜索出的網(wǎng)頁進(jìn)行屬性提取和融合——加權(quán)計(jì)算,最終提交給用戶的是檢索得到的信息整體情況和集成/融合后屬性項(xiàng)的信息,提供了權(quán)威的信息參考。該模型取代了大量的人工查看和比對(duì),提高了自動(dòng)化程度。

1搜索模型

該模型借助于搜索引擎技術(shù),對(duì)搜索的中間結(jié)果進(jìn)行信息抽取,抽取成特定的數(shù)據(jù)集,并將這些數(shù)據(jù)集進(jìn)行集成/融合;最后將集成/融合后的結(jié)果提交給用戶,以適應(yīng)用戶的需要。設(shè)計(jì)的模型如圖1所示。

Web信息抽取是該模型的基礎(chǔ),搜索得到的頁面經(jīng)過信息抽取,得到特定的數(shù)據(jù)集合和文本集合;同時(shí)可以將相關(guān)的信息定義在相應(yīng)的數(shù)據(jù)集合中。

數(shù)據(jù)集成/融合是該模型的實(shí)現(xiàn)核心。數(shù)據(jù)集成/融合的好壞直接關(guān)系到用戶得到集成/融合后視圖的好壞。數(shù)據(jù)集合中的數(shù)據(jù)經(jīng)過對(duì)比/統(tǒng)計(jì),融合兩個(gè)步驟,最后將融合后的數(shù)據(jù)提交給用戶。

歷史記錄是該模型的一個(gè)優(yōu)勢(shì)補(bǔ)充。用戶使用關(guān)鍵字進(jìn)行商品搜索,在首次搜索時(shí),需要進(jìn)行信息抽取和數(shù)據(jù)集成/融合。如果在數(shù)據(jù)庫還未更新前,用戶搜索的內(nèi)容以前搜索過(歷史記錄集中有記錄),可以直接從歷史記錄集中檢索出相應(yīng)的項(xiàng),提交給用戶。

2集成/融合策略

2.2Web信息抽取策略

得到搜索的中間結(jié)果網(wǎng)頁時(shí),需要對(duì)網(wǎng)頁進(jìn)行信息抽取。信息抽取的結(jié)構(gòu)如圖2所示。

Web信息抽取技術(shù)分多種分類方式[7],如根據(jù)自動(dòng)化程度就可以分為人工方式的信息抽取、半自動(dòng)方式的信息抽取和全自動(dòng)方式的信息抽取三大類。根據(jù)各種工具所采用的原理將現(xiàn)有的工具分為五類[8,9]:包裝器歸納方式的信息抽取、基于HTML結(jié)構(gòu)的信息抽取、基于自然語言處理方式的信息抽取、基于ontology方式的信息抽取和基于Web查詢的信息抽取??紤]到抽取商品購物網(wǎng)頁的特點(diǎn)是基本上趨于結(jié)構(gòu)化的。例如,搜索筆記本電腦價(jià)格,一般是這樣的結(jié)構(gòu):筆記本品牌、型號(hào)、CPU、內(nèi)存、硬盤、顯示屏等??紤]到上述特點(diǎn)及HTML文檔的特征(HTML文檔由標(biāo)題head和主體body兩部分組成,并且都有相對(duì)應(yīng)的結(jié)束符/head和/body)。因此,采用基于HTML結(jié)構(gòu)的信息抽取方法。

信息抽取過程如下:

a)構(gòu)建模式庫。模式庫包含待抽取信息的表述、特征項(xiàng)等。比如商品的屬性、價(jià)格等。

通過信息抽取,過濾了檢索結(jié)果中不滿足條件的信息源——網(wǎng)頁,最后得到所需要的兩個(gè)集合F、S。

2.3屬性集成/融合策略

屬性集成/融合是將抽取得到的數(shù)據(jù)集合進(jìn)行集成/融合處理,提交給用戶的是完備的信息視圖。屬性集成/融合的結(jié)構(gòu)如圖3所示。

屬性集成/融合主要分為以下兩部分:

a)對(duì)比/統(tǒng)計(jì),是屬性集成/融合的基礎(chǔ)。在進(jìn)行數(shù)據(jù)集成/融合之前,需要對(duì)數(shù)據(jù)集合中的數(shù)據(jù)進(jìn)行對(duì)比,同時(shí)對(duì)相同數(shù)據(jù)的數(shù)目進(jìn)行統(tǒng)計(jì)。

b)集成/融合,是屬性集成/融合的核心。數(shù)據(jù)集合經(jīng)過對(duì)比/統(tǒng)計(jì)后,根據(jù)數(shù)據(jù)的可信度對(duì)集合中的數(shù)據(jù)進(jìn)行融合,得到融合后的數(shù)據(jù)。同時(shí)又將數(shù)據(jù)值最小的(最低的價(jià)格)和出現(xiàn)次數(shù)最多的數(shù)據(jù)(可信度最高的價(jià)格)提取出來。最后提交給用戶的是經(jīng)過融合后的數(shù)據(jù)視圖。

集成/融合算法如下:

3實(shí)驗(yàn)結(jié)果及分析

本次實(shí)驗(yàn)中,以搜索筆記本電腦價(jià)格為例。筆記本電腦的屬性值為處理器、內(nèi)存、硬盤、光驅(qū)、顯卡等。輸入關(guān)鍵字“IBM ThinkPad T60 2007BT1的價(jià)格”,取前20個(gè)有效的信息源——頁面。實(shí)驗(yàn)結(jié)果如圖4所示。

由界面顯示可以看出,選取的信息源中,屬性價(jià)格有一致的,也有沖突的。屬性價(jià)格還與時(shí)間有關(guān)系,不同的時(shí)間段有不同的價(jià)格。經(jīng)過模型的集成/融合,最后得到權(quán)威的參考:模型的融合價(jià)格21 780元,出現(xiàn)最多的價(jià)格為18 700元,最低價(jià)格為17 800元。

4結(jié)束語

本文針對(duì)搜索結(jié)果中信息量過大、各信息源——網(wǎng)頁的屬性值(價(jià)格)不一致的特點(diǎn),利用信息融合技術(shù)集成一個(gè)統(tǒng)一格式的信息完備的視圖,采用集成/融合方法,提供權(quán)威參考。用戶利用該方法可以清楚地知道檢索內(nèi)容的總體情況及系統(tǒng)集成/融合后的情況。該方法取代了大量的人工查看與比對(duì),在一定程度上提高了自動(dòng)化程度。

參考文獻(xiàn):

[1]王繼成,楊曉江,潘金貴,等.基于元數(shù)據(jù)與Z39.50的分布協(xié)作式Web信息檢索[J].軟件學(xué)報(bào),2001,12(4):621-622.

[2]王繼成,楊曉江,潘金貴,等.Web信息檢索研究進(jìn)展[J].計(jì)算機(jī)研究與發(fā)展,2001,38(2):188 189.

[3]胡建強(qiáng),鄒鵬,王懷民,等.Web服務(wù)描述語言QWSDL和服務(wù)匹配模型研究[J].計(jì)算機(jī)學(xué)報(bào),2005,28(4):507-509.

[4]陳治平,林亞平,童調(diào)生.基于N層向量空間模型的信息檢索法[J].計(jì)算機(jī)研究與發(fā)展,2002,39(4):1235 1237.

[5]徐如志,錢樂秋,程建平,等.基于XML的軟件構(gòu)建查詢匹配算法研究[J].軟件學(xué)報(bào),2003,14(7):1196 1197.

[6]張兵,盧煥章.多傳感器自動(dòng)目標(biāo)識(shí)別中的沖突證據(jù)組合方法[J].系統(tǒng)工程與電子技術(shù),2006,28(6):858-859.

[7]LAENDER A H F,RIBEIRO NETO B A.A brief survey of Web data extraction tools[J].SIGMOD Record,2002,31(2):84-93.

[8]KOLUKYSAOLU H.Data extraction from repositories on the Web[J].Semi Automatic Approach,2003,7(4):13-23.

[9]LAM M I,GONG Zhi guo.Web information extraction[C]//Proc of IEEE International Conference on Information Acquisition.New York:ACM Press,2005:596-598.

“本文中所涉及到的圖表、注解、公式等內(nèi)容請(qǐng)以PDF格式閱讀原文”

主站蜘蛛池模板: 国产在线98福利播放视频免费| 国精品91人妻无码一区二区三区| 欧美一级在线| 草草线在成年免费视频2| 9999在线视频| A级毛片高清免费视频就| 亚洲电影天堂在线国语对白| 国产黄色爱视频| 国内嫩模私拍精品视频| AV色爱天堂网| 亚洲熟女偷拍| 国产欧美日韩18| 日韩性网站| 熟妇人妻无乱码中文字幕真矢织江| 91精品国产自产在线老师啪l| 婷婷激情亚洲| 精品少妇人妻一区二区| 中日韩一区二区三区中文免费视频| 日韩无码白| 国产精品jizz在线观看软件| 亚洲国产清纯| 久久美女精品国产精品亚洲| 波多野结衣亚洲一区| 成年午夜精品久久精品| 久久青草视频| 国产在线观看一区精品| 成年A级毛片| 国产打屁股免费区网站| 国产精品不卡片视频免费观看| 亚洲天堂成人| 久久国产热| 这里只有精品在线播放| 日韩美女福利视频| 亚洲视频四区| 国产精品一区二区在线播放| 亚洲女人在线| 蜜桃臀无码内射一区二区三区| 伊人久久福利中文字幕| 亚洲三级电影在线播放 | 亚洲一级色| 99视频只有精品| 在线日韩一区二区| 国产免费久久精品99re不卡| 亚洲区欧美区| 欧美精品xx| 欧美成人aⅴ| 国产第八页| 免费国产在线精品一区| 无码粉嫩虎白一线天在线观看| 欧美一道本| 欧美无遮挡国产欧美另类| 日韩不卡高清视频| 蜜芽一区二区国产精品| 亚洲中文无码h在线观看| 免费观看欧美性一级| 不卡视频国产| 免费在线成人网| 欧美亚洲中文精品三区| 激情综合网址| 午夜综合网| 黄色三级毛片网站| 青青草国产在线视频| 亚洲无码在线午夜电影| 国产一区亚洲一区| 免费在线看黄网址| AV无码国产在线看岛国岛| 一级毛片免费不卡在线| 欧美全免费aaaaaa特黄在线| 免费Aⅴ片在线观看蜜芽Tⅴ| 亚洲第一成年人网站| 成人精品视频一区二区在线| 91无码网站| 亚洲综合色婷婷中文字幕| 国产区成人精品视频| 少妇露出福利视频| 97国产成人无码精品久久久| 亚洲成人在线网| 黄色网站在线观看无码| 亚洲一级毛片| 日韩精品一区二区三区视频免费看| www.av男人.com| 久久精品丝袜|