999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

信息可視化技術(shù)在搜索引擎結(jié)果知識體系化輸出應(yīng)用方案設(shè)計

2015-12-31 13:45:24聶晨光龍文磊沈春青
中國管理信息化 2015年13期
關(guān)鍵詞:搜索引擎可視化用戶

李 睿,聶晨光,龍文磊,沈春青,徐 征

(南京航空航天大學(xué),南京 210016)

1 當下的搜索引擎技術(shù)發(fā)展現(xiàn)狀

搜索引擎成為我們最為常用的信息檢索工具已經(jīng)成為了不爭的事實,到2014年底,我國的網(wǎng)民規(guī)模已達6.5億。有超過82%的用戶使用百度等常用搜索引擎作為獲取信息的主要手段。顯而易見,搜索引擎技術(shù)的發(fā)展對于推動互聯(lián)網(wǎng)的進步和發(fā)展具有重要的意義。然而,目前的搜索引擎還存在著很大的局限性。

其一是結(jié)果呈現(xiàn)形式,其二是語義。主流搜索引擎呈現(xiàn)形式以列表為主,其主要工作原理是利用網(wǎng)絡(luò)爬蟲,通過用戶輸入的關(guān)鍵字,遍歷信息集并采集相關(guān)條目,根據(jù)相關(guān)性順序列表展現(xiàn)。用戶根據(jù)列表,依次瀏覽搜索結(jié)果的標題和摘要來確定他們所感興趣的信息。由于語義多義性廣泛存在,用戶也時常無法準確地表達自身需求,導(dǎo)致歧義的搜索結(jié)果混合在一起。用戶在瀏覽搜索結(jié)果時需要人為將不感興趣的結(jié)果篩選出來并定位自己感興趣的信息,大大降低效率。[1]

2 信息可視化技術(shù)的發(fā)展

可視化技術(shù)的概念在20世紀80年代中被提出,而“信息可視化”的概念最初出現(xiàn)在1989年。總的來說,信息可視化技術(shù)是可視化技術(shù)在非空間數(shù)據(jù)領(lǐng)域的應(yīng)用,其核心是一個將數(shù)據(jù)和數(shù)據(jù)包含的信息轉(zhuǎn)化為直觀的符合人思維習(xí)慣的圖形的過程。信息可視化技術(shù)使用戶能夠以直觀的方式實現(xiàn)對數(shù)據(jù)和數(shù)據(jù)間的關(guān)系進行觀察,進而更全面地發(fā)現(xiàn)數(shù)據(jù)中隱藏的特征、關(guān)系和模式。

經(jīng)過近20年的發(fā)展,信息可視化技術(shù)已經(jīng)被細化到多個領(lǐng)域,包括:基于幾何的可視化方式;基于圖標的可視化方式;基于時間序列的可視化方式;基于層次的可視化方式等。本文將著重闡述基于層次的可視化方式。

層次信息是一種常見的信息類型。我們每天接觸的文本信息就包含許多層次。層次信息的可視化主要包含節(jié)點連接圖和樹圖兩種方法。

節(jié)點鏈接圖:節(jié)點鏈接圖[2]是將層次信息組織成一個樹狀圖,根據(jù)層次的類屬關(guān)系分別形成父類和子類節(jié)點,以樹狀結(jié)構(gòu)連接,節(jié)點和連接線分別用來表示信息項和它們之間的關(guān)系。節(jié)點鏈接圖的優(yōu)點是能清晰直觀地展現(xiàn)層次數(shù)據(jù)內(nèi)的關(guān)系。缺點是子類分支之間的空白會浪費展示空間。

樹圖:樹圖的概念(treemap)由Johnson等在1991年提出[3]。樹圖依靠一系列的圖塊的嵌套來展示信息和信息的層。,其優(yōu)點是能夠在有限的空間下展示更多的信息數(shù)據(jù)。其缺點是難以展示節(jié)點的內(nèi)容細節(jié)。

3 可視化技術(shù)在搜索引擎結(jié)果知識體系化輸出的方案設(shè)計

本方案的總體功能結(jié)構(gòu)如圖1所示,主要由用戶交互、網(wǎng)頁檢索、聚類處理、可視化處理和全文搜索引擎數(shù)據(jù)庫組成。矩形方框處為本方案的核心框架。搜索引擎首先從用戶交互界面接收用戶在界面中輸入的目標字詞,將目標發(fā)送到檢索模塊并從數(shù)據(jù)庫中返回相應(yīng)的結(jié)果集合。聚類處理模塊將對返回結(jié)果先進行預(yù)處理,將預(yù)處理結(jié)果完成聚類并把聚類結(jié)果傳遞至可視化處理模塊,經(jīng)過可視化處理后通過用戶界面返回至用戶。接下來將繼續(xù)闡述本文的重點,即聚類處理模塊與可視化處理模塊。

圖1 總體功能結(jié)構(gòu)

3.1 聚類模塊設(shè)計

聚類模塊先對搜索結(jié)果信息進行預(yù)處理,然后對預(yù)處理過后的統(tǒng)一格式的數(shù)據(jù)集利用聚類算法對搜索結(jié)果進行聚類。將相似度較高的搜索結(jié)果歸為一類并為每一個類定義一個具體的聚類標簽,根據(jù)聚類后的結(jié)果子集使用排序算法依照相關(guān)性再排序。因此搜索結(jié)果聚類模塊的總體設(shè)計主要由三部分組成:數(shù)據(jù)預(yù)處理子模塊,聚類生成子模塊和聚類子集排序模塊。

3.1.1 文本預(yù)處理

(1)文檔分詞。分詞的過程是將文檔中的語句按照語言的相應(yīng)規(guī)則劃分為詞語或短語的過程。分詞結(jié)果的質(zhì)量也影響著后續(xù)短語的提取和聚類標簽的生成。基于詞典或詞庫的分詞過程包括:詞典初始化、文本輸入、文本結(jié)構(gòu)化處理、分詞/粗分、消除歧義與識別未登錄詞、更新詞典和結(jié)果保存。

(2)詞干解析。詞干解析對于處理英文文本的意義要大于處理中文文本的意義。英文單詞的衍生詞和詞的形態(tài)變化十分常見。例如play是一個詞干,它能衍生出player,plays,played,playing等等不同時態(tài)不同人稱但意義相同的詞。

(3)去除停詞。通過文檔分詞,文檔已經(jīng)被劃分為一系列的單詞。但是這一過程并沒有過濾掉文檔的無效信息。一些語氣詞、虛詞和助詞的詞頻很高,但與用戶需求匹配度低。有時這些詞出現(xiàn)次數(shù)較多會影響接下來高頻詞提取和聚類標簽生成的過程。可以在搜索引擎運行前預(yù)先將停詞表加載到內(nèi)存中,在分詞后使用停用詞接口方法判定單詞是否在停用詞表中。

(4)高頻短語提取。提取文檔高頻短語的目的是高度概述文檔并提供有限個聚類標簽的候選者。因此,高頻短語提取的準確信直接關(guān)系到聚類標簽生成的效果。針對這些要求,后綴數(shù)組是一種高效準確的方法。設(shè)一個文檔T,長度為N。T的后綴數(shù)組s是指將T所有的后綴按照字符順序排序,而令后綴起始的位置(按排序后的順序)構(gòu)成的數(shù)組。[4]

3.1.2 聚類處理

我們把頻率超過一定閾值的詞條定義為高頻短語。這可以從預(yù)處理結(jié)果中獲取。通過這些數(shù)據(jù)再利用向量空間模型對文檔建模。通過隱含語義索引技術(shù)和矩陣降維可以發(fā)現(xiàn)文檔之間的主題相關(guān)性以及相關(guān)主題。根據(jù)主題對文檔進行聚類,完成對預(yù)處理結(jié)果的二次處理。

(1)生成聚類標簽。通過預(yù)處理我們已經(jīng)得到了文檔的高頻短語,創(chuàng)建特征詞-文檔矩陣T,對矩陣T進行奇異值分解(SVD),得到一個正交基向量U。根據(jù)該正交基向量與高頻短語(候選聚類標簽)的匹配結(jié)果,確定出最終的聚類標簽。

(2)聚類生成。根據(jù)VSM建立的文檔模型,我們已經(jīng)可以直接通過k-means方法對文檔進行聚類。

(3)聚類內(nèi)部排序。聚類的標簽生成后。可以看見標簽下包含著一個文檔集。最后根據(jù)之前的特征詞-文檔矩陣計算得到的文檔對于聚類標簽詞的TFIDF值的大小降序排列。還可以結(jié)合用戶行為統(tǒng)計數(shù)據(jù)進行加權(quán)分析,調(diào)整最終排序結(jié)果。

3.1.3 可視化處理

本方案中的用戶交互界面設(shè)計采用輻射圖和樹圖兩種方法進行結(jié)果的展示。樹狀結(jié)構(gòu)是輸出聚類結(jié)果的最好選擇。就單次搜索聚類得到的結(jié)果而言,可以生成一棵簡單的以搜索關(guān)鍵詞為父節(jié)點,結(jié)果聚類標簽為子節(jié)點的樹。對于結(jié)果聚類較多的情況可以星射狀的樹結(jié)構(gòu)完成輸出。這對后面映射到樹圖的結(jié)果不會產(chǎn)生很多影響。

可視化模塊的另一個關(guān)鍵構(gòu)件是用戶行為統(tǒng)計。對每次聚類結(jié)果輸出后用戶選擇的領(lǐng)域方向進行記錄。在一段時間后,積累了個體用戶對于某一領(lǐng)域的多次搜索記錄后,通過不同記錄樹節(jié)點的語義消歧和識別,可以生成一棵用戶近期對于某一領(lǐng)域探索的知識樹。這棵樹為用戶提供了一個時間維的視角來審視自己對于某個領(lǐng)域的了解發(fā)現(xiàn)過程,真正形成搜索結(jié)果的知識體系化輸出。

4 結(jié)束語

時下主流的搜索引擎工具均是單純以列表的形式為用戶呈現(xiàn)搜索結(jié)果。這一顯示方式降低了用戶尋找目標信息的效率,并且這個問題對于學(xué)術(shù)研究人員的負面影響更為顯著。

本設(shè)計方案的主要創(chuàng)新之處在于添加了用戶行為統(tǒng)計模塊修正樹狀可視化結(jié)構(gòu)的個性化模塊,并且還提供了不同的可視化方式進行聚類結(jié)果的呈現(xiàn),另外,基于用戶在同一領(lǐng)域中多次搜索聚類結(jié)果生成知識樹,為用戶提供了審視自己階段性工作成果的能力。

[1]趙宇.計算機檢索工具的發(fā)展與應(yīng)用[J].中小企業(yè)管理與科技,2011(4):271-272.

[2]G Robertson,S K Card,J D Mackinlay.The Congnitive Coprocessor Architecture for Interactive User Interfaces[C].Proceedings of the 2nd Annual ACM SIGGRAPH Symposium on User interface Software and Technology,New York,1989.

[3]張昕,袁曉如.樹圖可視化[J].計算機輔助設(shè)計與圖形學(xué)學(xué)報,2012,24(9):1113-1124.

[4]朱光楠.基于聚類的搜索可視化呈現(xiàn)系統(tǒng)的設(shè)計與實現(xiàn)[D].北京:北京郵電大學(xué),2012.

[5]周登朋.搜索引擎搜索結(jié)果的聚類研究[D].上海:上海交通大學(xué),2007.

猜你喜歡
搜索引擎可視化用戶
基于CiteSpace的足三里穴研究可視化分析
基于Power BI的油田注水運行動態(tài)分析與可視化展示
云南化工(2021年8期)2021-12-21 06:37:54
基于CGAL和OpenGL的海底地形三維可視化
“融評”:黨媒評論的可視化創(chuàng)新
傳媒評論(2019年4期)2019-07-13 05:49:14
關(guān)注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
關(guān)注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
關(guān)注用戶
商用汽車(2016年4期)2016-05-09 01:23:12
網(wǎng)絡(luò)搜索引擎亟待規(guī)范
如何獲取一億海外用戶
基于Nutch的醫(yī)療搜索引擎的研究與開發(fā)
主站蜘蛛池模板: 久久国产精品嫖妓| 国产精品分类视频分类一区| 亚洲国产日韩视频观看| 日韩AV无码一区| 成人免费一区二区三区| 这里只有精品在线播放| 在线日本国产成人免费的| 欧美区一区| 精品国产美女福到在线不卡f| 欧美高清三区| 亚洲无码视频喷水| 91年精品国产福利线观看久久| 欧美精品v日韩精品v国产精品| 日本尹人综合香蕉在线观看| 一级毛片免费观看久| 日本人妻丰满熟妇区| 精品撒尿视频一区二区三区| 日韩视频福利| 97视频在线精品国自产拍| 在线观看国产精美视频| 午夜视频www| 蜜芽国产尤物av尤物在线看| 91视频区| 欧美精品高清| 精品免费在线视频| 性视频久久| 成人在线观看不卡| 制服无码网站| a欧美在线| 国产女人综合久久精品视| 视频一区亚洲| 久久精品波多野结衣| 美女裸体18禁网站| 欧美亚洲综合免费精品高清在线观看| 国产综合在线观看视频| 亚洲无码四虎黄色网站| 欧美在线国产| 亚洲三级电影在线播放| 91午夜福利在线观看精品| 中文字幕久久精品波多野结| 高清无码手机在线观看| 成人av专区精品无码国产| 成年人福利视频| 国产亚洲高清在线精品99| 国产福利微拍精品一区二区| 国产真实二区一区在线亚洲| 亚洲日产2021三区在线| 欧美综合在线观看| 女人18一级毛片免费观看| 天天干天天色综合网| 情侣午夜国产在线一区无码| 亚洲人成人伊人成综合网无码| 性视频久久| 五月丁香在线视频| 亚洲精品无码抽插日韩| 色香蕉影院| 亚洲欧美日韩综合二区三区| 在线视频亚洲欧美| 92午夜福利影院一区二区三区| 国产97视频在线观看| 免费女人18毛片a级毛片视频| 中国国产高清免费AV片| 成人国产精品一级毛片天堂| 激情無極限的亚洲一区免费| 亚洲中文在线视频| 精品伊人久久久久7777人| 日韩大乳视频中文字幕| 久久精品一卡日本电影| 77777亚洲午夜久久多人| 狠狠操夜夜爽| 91麻豆国产视频| 亚洲一区波多野结衣二区三区| 久久窝窝国产精品午夜看片| 亚洲一区网站| 久久亚洲国产视频| 亚洲日韩久久综合中文字幕| 日韩久久精品无码aV| 国产免费高清无需播放器| 国产嫩草在线观看| 国产一区自拍视频| 亚洲国产成人在线| 91麻豆精品国产91久久久久|