999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

搜索引擎的文本聚類研究

2014-06-18 21:38:37王佳樂
商業(yè)經(jīng)濟(jì) 2014年3期
關(guān)鍵詞:搜索引擎展望

王佳樂

[摘 要] 近年來,隨著信息技術(shù)的發(fā)展,越來越多的學(xué)者開始關(guān)注搜索引擎聚類。國內(nèi)研究相比國外較晚,還處于發(fā)展的初級(jí)階段,存在著數(shù)據(jù)庫依附性過強(qiáng)、搜索速度緩慢、用戶的個(gè)性化服務(wù)需要提升等問題。有關(guān)網(wǎng)站可建立自己獨(dú)立的數(shù)據(jù)庫或與專業(yè)搜索引擎公司合作,建立專有數(shù)據(jù)庫或?qū)ag標(biāo)簽應(yīng)用到網(wǎng)頁中,以加快搜索引擎聚類的速度并滿足不同用戶的需要,以促進(jìn)搜索引擎聚類在搜索引擎中可持續(xù)健康快速發(fā)展。

[關(guān)鍵詞] 搜索引擎;文本聚類;發(fā)展局限;展望

[中圖分類號(hào)] F27.4 [文獻(xiàn)標(biāo)識(shí)碼] B

一、前言

2013年7月發(fā)布的CNNIC第32次互聯(lián)網(wǎng)報(bào)告顯示,截止2013年6月止,我國網(wǎng)民規(guī)模達(dá)5.91億,半年共計(jì)新增網(wǎng)民2656萬人。互聯(lián)網(wǎng)普及率為44.1%,較2012年底提升了2.0個(gè)百分點(diǎn)。從2009年到2013年,互聯(lián)網(wǎng)普及率逐年上升,從28.9%上升到44.1%。計(jì)算機(jī)的普及,使人們?cè)絹碓揭蕾囉谠儐柣ヂ?lián)網(wǎng)。面對(duì)浩瀚的信息海洋,如何獲得用戶真正有用的信息,成為了一個(gè)炙手可熱的話題。從最早的門戶網(wǎng)站方式到現(xiàn)在的谷歌、百度全文本搜索,對(duì)待信息的獲取方式已經(jīng)有了很大的改變。然而,隨著互聯(lián)網(wǎng)越來越普及,網(wǎng)絡(luò)中存儲(chǔ)的信息,出現(xiàn)很多冗雜信息,僅僅依靠傳統(tǒng)的搜索方式,并不能滿足用戶的需要。從2000年開始,以Vivisimo為代表,越來越多的學(xué)者開始注意到,聚類能更準(zhǔn)確的定位搜索結(jié)果。

二、聚類

聚類是指將抽象或物理對(duì)象組成集合,將集合中類似對(duì)象組成多個(gè)類的過程。由聚類所生成的簇可以看做是一組數(shù)據(jù)對(duì)象的集合,這些對(duì)象與同一個(gè)簇中的其他對(duì)象彼此相似,而與其他簇中的對(duì)象不同。聚類分析又被叫做群分析,是針對(duì)分類問題的一種統(tǒng)計(jì)分析方法。由一個(gè)度量的向量或多維空間中的一個(gè)點(diǎn)構(gòu)成模式,再由多個(gè)模式構(gòu)成聚類分析。聚類分析可以追溯于分類學(xué),不過聚類并不是單純的分類。聚類與分類最大的的不同之處是,劃分為聚類的類是未知的。

聚類作為一種有效的分類方法,可以從龐大的消費(fèi)者數(shù)據(jù)庫區(qū)分屬性、目標(biāo)不同的消費(fèi)群體,再概括出這些消費(fèi)群體的消費(fèi)模式也就是普通意義上的習(xí)慣。它作為數(shù)據(jù)挖掘中的一個(gè)模塊,可以作為一個(gè)單獨(dú)的工具以發(fā)現(xiàn)數(shù)據(jù)庫中分布的一些深層的信息,并且概括出每一類的特點(diǎn),或者把注意力放在某一個(gè)特定的類上以作進(jìn)一步的分析;并且,在數(shù)據(jù)挖掘算法時(shí),聚類算法可以作為對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,再用其他分析算法處理。聚類分析的算法可以分為層次法(Hierarchical Methods)、基于網(wǎng)格的方法(grid-based methods)、基于密度的方法(density-basedmethods)、劃分法(Partitioning Methods)、基于模型的方法(Model-Based Methods)。

三、搜索引擎聚類國內(nèi)外發(fā)展進(jìn)程

國外對(duì)于搜索引擎聚類方面的研究最早發(fā)生在1996年,HearstMA,PedersenJO學(xué)者研究開發(fā)的Scatter/Gather系統(tǒng)是世界上第一個(gè)將聚類引入搜索引擎的系統(tǒng)。2000年開發(fā)的Vivisimo元搜索引擎系統(tǒng),采用自主開發(fā)的啟發(fā)式算法來集合并聚類原文文獻(xiàn)。這種算法吸收了傳統(tǒng)人工智能思想,對(duì)檢索結(jié)果進(jìn)行更好描述和聚類。它的文獻(xiàn)聚類技術(shù)首先將文本內(nèi)容自動(dòng)分類,劃分為等級(jí)式排列的目錄之后進(jìn)行聚類。作為一種完全自動(dòng)化的聚類技術(shù),不需要人為干擾收集數(shù)據(jù),也不需要進(jìn)行數(shù)據(jù)維護(hù)。SnakeT在前者研究的基礎(chǔ)上,開發(fā)了能完整將搜索引擎聚類化的系統(tǒng),并且可以向用戶展示帶有明確標(biāo)簽的層次型結(jié)構(gòu)。Grouper是利用后綴樹聚類(STC,Suffix Tree Clustering)算法專門針對(duì)文檔摘要進(jìn)行聚類的搜索引擎系統(tǒng)。SHoc是首個(gè)面向文本信息進(jìn)行聚類功的搜索引擎。Sergio系統(tǒng)應(yīng)用改進(jìn)過的k均值算法對(duì)兩個(gè)搜索引擎結(jié)果進(jìn)行聚類處理。在新聞處理方面,Nesrec系統(tǒng)提取Altzvista新聞的新聞?wù)?,短時(shí)間內(nèi)進(jìn)行層次聚類,并使之成為擁有良好可讀性的類標(biāo)簽。而Newsblaster系統(tǒng)針對(duì)每天的新聞進(jìn)行聚類處理,文本生成等處理之后,產(chǎn)生摘要文檔。WhatsonWeb是應(yīng)用拓谷驅(qū)動(dòng)和圖像聚類算法來構(gòu)建搜索引擎聚類系統(tǒng),具有良好的可視化效果,同時(shí)支持處理無效標(biāo)簽。

國內(nèi)的研究要相對(duì)較晚,最早開始于20005年,但是隨著科技發(fā)展,取得了很不錯(cuò)的優(yōu)秀成果。2005年的PinkySearch利用后綴樹算法和相同詞聚類對(duì)多個(gè)搜索引擎的結(jié)果進(jìn)行聚類處理,最后獲得搜索結(jié)果。在2007年成立的國內(nèi)首家搜索引擎聚類公司比比貓(Bbmao),采用先進(jìn)的聚類和去重技術(shù),不僅帶給用戶快捷、智能的體驗(yàn)經(jīng)歷,還引領(lǐng)創(chuàng)新了聚類技術(shù)。國內(nèi)高水準(zhǔn)的數(shù)據(jù)挖掘研究所論壇上,提出了web挖掘算法、分類聚類,應(yīng)用方案等聚類應(yīng)用技術(shù)。

四、搜索引擎聚類分析

搜索引擎形式從最早的目錄式搜索到基于Robot搜索引擎,再到現(xiàn)在的聚類搜索引擎,其對(duì)象不僅僅是對(duì)資源進(jìn)行搜索,也開始關(guān)注用戶體驗(yàn),如何使用戶能更為便捷的找到自己所需內(nèi)容。搜索引擎聚類發(fā)展已有十余年,通過對(duì)國內(nèi)外相對(duì)比較成熟的聚類搜索引擎作為研究對(duì)象,從劃分類型、基本功能、聚類算法角度分析。

1.劃分類型分析

根據(jù)分類標(biāo)準(zhǔn)不同,搜索引擎聚類劃分的種類也不同。根據(jù)提供的服務(wù)劃分成社區(qū)型(比如貝殼網(wǎng))和搜索型(如第易搜)。按照信息的來源即是否擁有獨(dú)立的數(shù)據(jù)庫,聚類搜索引擎能劃分為寄生型(Vivisimo)和原生型(如CNKI搜索)。按照搜索引擎來源的數(shù)目,聚類搜索引擎可以劃分為單一型來源搜索引擎(如TouchGraph)和多來源搜索引擎,即元搜索引擎(如Bbmao)。

2.基本功能分析

在對(duì)國內(nèi)外具有代表性的搜索引擎聚類分析后,發(fā)現(xiàn)其搜索對(duì)象不僅僅為網(wǎng)頁,更延伸到網(wǎng)頁、新聞、目錄、摘要、博客,可應(yīng)用于商業(yè)、政府工作、新聞搜集等多種多樣。另外,在提供個(gè)性化搜索的同時(shí),用戶還可根據(jù)自己的喜好,在游戲、旅游、博客等大類下選擇的信息源,在右側(cè)會(huì)自動(dòng)呈現(xiàn)圖片、新聞、購物等搜索結(jié)果。

3.聚類算法角度分析

目前的網(wǎng)頁聚類算法根據(jù)其針對(duì)的方向分為3種,即基于鏈接分析、基于網(wǎng)頁內(nèi)容、基于用戶搜索日志的聚類算法。

基于鏈接分析的聚類和傳統(tǒng)的搜索引擎搜索有一定相似之處,對(duì)任一網(wǎng)頁,必有本網(wǎng)頁指向其他網(wǎng)頁的鏈接和其他網(wǎng)頁指向本網(wǎng)頁的鏈接。若這些其他網(wǎng)頁都包含有同一個(gè)網(wǎng)頁的鏈接,則被認(rèn)為同音關(guān)系,具有相似性,進(jìn)而依次聚類?;诰W(wǎng)頁內(nèi)容的聚類即是對(duì)網(wǎng)頁的內(nèi)容直接聚類,傳統(tǒng)的聚類算法是對(duì)網(wǎng)頁內(nèi)容去標(biāo)點(diǎn)、化復(fù)數(shù)形式為單數(shù)、去掉前后綴。然而這些方法是針對(duì)單個(gè)文字的聚類,并沒有考慮詞間含義,也不能真實(shí)的反映網(wǎng)頁內(nèi)容。于是出現(xiàn)了STC算法即后綴樹算法,通過將網(wǎng)頁進(jìn)行處理,得到詞組,再依賴于后綴樹,辨別擁有相同詞義的詞組,將他們作為基本類,合并形成高層次的類,進(jìn)行高效的聚類。隨著搜索引擎的發(fā)展,研發(fā)者開始考慮到對(duì)用戶行為分析,構(gòu)建用戶模型,出現(xiàn)了基于用戶搜索日志的聚類算法。通過用戶對(duì)搜索結(jié)果網(wǎng)頁進(jìn)行聚類。

上述三種聚類算法各有優(yōu)缺點(diǎn),基于用戶搜索日志的算法注重用戶體驗(yàn),基于網(wǎng)絡(luò)內(nèi)容的算法注重搜索對(duì)象,而基于鏈接分析的聚類注重相似網(wǎng)頁之間的鏈接。在以后聚類搜索引擎發(fā)展中,這三種方法將會(huì)結(jié)合使用。

五、發(fā)展局限及展望

國外的搜索引擎聚類最早開始于1996年,而國內(nèi)的發(fā)展相對(duì)較晚。然而由于還處于發(fā)展的初始階段,還存在一定的局限性。中國第一家元搜索聚類引擎公司是2007年的比比貓(Bbmao)公司,可以直接搜尋文檔,搜索結(jié)果匯集各大搜索引擎結(jié)果,具有強(qiáng)大網(wǎng)絡(luò)收藏夾等多元功能。然而由于局限性,只存在了較短的時(shí)間。必須綜合考慮搜索引擎聚類的問題,才可能使之長遠(yuǎn)發(fā)展。

1.數(shù)據(jù)庫依附性過強(qiáng)

目前的搜索引擎的聚類技術(shù)多是將已有的搜索引擎檢索出的結(jié)果進(jìn)行聚類分析,得到更準(zhǔn)確的結(jié)果,呈現(xiàn)給用戶。其存在形式多為衍生性搜索引擎,這就意味著需鏈接已有搜索引擎的數(shù)據(jù)庫,然而搜索引擎本就是依靠搜索結(jié)果獲得收入。對(duì)于第三方間接使用其搜索結(jié)果,原搜索引擎必然會(huì)采取限制,這也就造成數(shù)據(jù)的無法獲得。國內(nèi)成立的比比貓公司就是由于依附性太強(qiáng),最后導(dǎo)致無法繼續(xù)生存下去。建立自己獨(dú)立的數(shù)據(jù)庫不失為一個(gè)好的解決辦法,然而由于獨(dú)立數(shù)據(jù)庫所需強(qiáng)大的技術(shù)支持,還可以與專業(yè)搜索引擎公司合作。

2.搜索速度緩慢

由于當(dāng)前搜索引擎的聚類技術(shù)對(duì)搜索結(jié)果進(jìn)行聚類,實(shí)質(zhì)上也就是進(jìn)行二次加工、聚類、排序,最后呈現(xiàn)搜索結(jié)果。勢必影響其搜索速度。值得探討的是直接建立轉(zhuǎn)有數(shù)據(jù)庫,是可以解決的方法之一;此外隨著技術(shù)發(fā)展,越來越多的Tag標(biāo)簽應(yīng)用到網(wǎng)頁中,這也對(duì)準(zhǔn)確了解網(wǎng)頁內(nèi)容、屬性產(chǎn)生裨益,從而加速搜索引擎聚類的速度。

3.用戶的個(gè)性化服務(wù)還需提升

搜索引擎的最終結(jié)果是為了使用戶使用,即服務(wù)于用戶。目前搜索引聚類還不夠成熟,如何使搜索結(jié)果更加滿足用戶的個(gè)性化需要還有很大的研究空間。記錄用戶的搜索歷史,在聚類時(shí),返回符合用戶個(gè)性的聚類。將聚類和用戶行為結(jié)合起來,完美的實(shí)現(xiàn)聚類結(jié)果的個(gè)性化服務(wù),滿足用戶需要。

總之,雖然針對(duì)搜索引擎的聚類分析還存在一定問題,可是基于聚類能更加精確、準(zhǔn)確的提供搜索結(jié)果,能更好的反映用戶需求,隨著科技的發(fā)展,問題終將得到解決,搜索引擎聚類也勢必是搜索引擎的大勢所趨。

[參 考 文 獻(xiàn)]

[1]第32次中國互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告[R].北京:中國互聯(lián)網(wǎng)絡(luò)信息中心,2013

[2]Liu W, Xue G R, Huang Set al. Interactive Chinese Search Results Clustering for Personalization. Lecture Notes in Computer Science. 2005, 3739:676-681

[3]靖培棟,田亮.聚類在搜索引擎中的應(yīng)用[J].信息系統(tǒng),2006(4):493-496

[4]韓建福.文檔聚類在搜索引擎結(jié)果中的應(yīng)用研究[D].北京交通大學(xué)碩士論文,2006

[責(zé)任編輯:劉玉梅]

猜你喜歡
搜索引擎展望
我國環(huán)境會(huì)計(jì)研究回顧與展望
移動(dòng)機(jī)器人導(dǎo)航技術(shù)現(xiàn)狀與展望
國內(nèi)外森林生物量碳儲(chǔ)量估測現(xiàn)狀存在問題及展望
園林綠化植物應(yīng)用現(xiàn)狀與展望
國內(nèi)延續(xù)性護(hù)理現(xiàn)狀及展望
考試周刊(2016年77期)2016-10-09 12:37:53
網(wǎng)絡(luò)搜索引擎亟待規(guī)范
Nutch搜索引擎在網(wǎng)絡(luò)輿情管控中的應(yīng)用
基于Nutch的醫(yī)療搜索引擎的研究與開發(fā)
廣告主與搜索引擎的雙向博弈分析
“展望” ——阿倫德
主站蜘蛛池模板: 日韩毛片免费| 制服无码网站| 国产精品一区二区不卡的视频| 97超级碰碰碰碰精品| 日韩国产亚洲一区二区在线观看| 婷婷综合在线观看丁香| 免费欧美一级| 婷婷激情五月网| 国产一级裸网站| 女人18毛片水真多国产| 国产av剧情无码精品色午夜| 久久久久久久久18禁秘| 亚洲一区国色天香| 亚洲精品无码成人片在线观看| 爽爽影院十八禁在线观看| 欧美亚洲一区二区三区导航| 国产欧美精品一区aⅴ影院| 久久99热这里只有精品免费看| 国产精品嫩草影院视频| 亚洲国产AV无码综合原创| 国产高颜值露脸在线观看| 中国毛片网| 国产精品99r8在线观看| 亚洲天堂视频在线观看免费| 亚洲成a人片| 亚洲国产日韩视频观看| 亚洲综合一区国产精品| 亚洲AV无码久久天堂| 婷婷六月综合网| 国产AV无码专区亚洲精品网站| 亚洲日韩精品伊甸| 国产自视频| 精品三级网站| 国产精品视频导航| 免费人成在线观看视频色| 伊人福利视频| 网久久综合| 久久精品国产亚洲AV忘忧草18| 天堂中文在线资源| 无码日韩人妻精品久久蜜桃| 亚洲天堂网在线播放| 在线五月婷婷| 日本a级免费| 狼友视频一区二区三区| 九九热精品在线视频| 亚洲国产日韩一区| 女人av社区男人的天堂| 91在线无码精品秘九色APP| 91小视频版在线观看www| 最新加勒比隔壁人妻| 国产一区二区三区在线观看免费| 青青草国产免费国产| 亚洲国产在一区二区三区| 青青青视频免费一区二区| 久久亚洲天堂| 国产成人精品在线1区| 免费毛片视频| 欧美一级在线看| 香蕉久人久人青草青草| 亚洲成人黄色在线观看| 亚洲Av激情网五月天| 69综合网| 国产97视频在线观看| 园内精品自拍视频在线播放| 男人天堂亚洲天堂| 91福利免费| 国产一级裸网站| 五月天香蕉视频国产亚| 国产自在线拍| 欧美成人精品在线| 国产欧美日韩va| 欧美一区二区精品久久久| 国产精品色婷婷在线观看| 伊人久综合| 亚洲一级毛片在线播放| 女人毛片a级大学毛片免费| 久久99热这里只有精品免费看| 欧美国产视频| 国产精品成人第一区| 无码精品一区二区久久久| 青青草久久伊人| 亚洲成年人网|