999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

數據挖掘技術在智能搜索引擎中的應用

2018-01-29 10:30:36劉思皖
科技創新與應用 2018年36期
關鍵詞:搜索引擎智能

劉思皖

摘 要:隨著大數據技術的不斷發展,構建智能化搜索引擎是滿足現代網絡應用的重要舉措。傳統的搜索引擎所提供的信息比較多,不利于精準服務,因此文章提出一種將數據挖掘技術應用到搜索引擎體系中,以此實現搜索引擎智能化,為用戶提供最精準的信息搜索模型。

關鍵詞:數據挖掘技術;智能;搜索引擎

中圖分類號:TP391.3 文獻標志碼:A 文章編號:2095-2945(2018)36-0039-02

Abstract: With the continuous development of big data technology, the construction of intelligent search engine is an important measure to meet the needs of modern network applications. Traditional search engines provide more information, which is not conducive to accurate services, so this paper proposes a data mining technology applied to the search engine system, in order to achieve intelligent search engines and provide users with the most accurate information search model.

Keywords: data mining technology; intelligence; search engine

引言

隨著互聯網技術的不斷發展,尤其是大數據技術在社會各領域的應用,網絡已經成為人們獲悉信息的主要渠道。傳統的搜索引擎功能需要從大量的信息數據庫中獲得需要的信息,這樣一來容易出現搜索的信息數量比較大,有用信息較少的現象。而且依賴于傳統檢索技術查詢的信息顯示比較混亂,有效性比較差,影響用戶的使用,因此本文利用數據挖掘技術的優勢,將數據挖掘技術應用到搜索引擎中,以此改善檢索結果的組織,提高檢索的準確性與有效性,增強用戶的滿意度。

1 數據挖掘技術與搜索引擎的概述

數據挖掘就是從大量的數據中挖掘用戶感興趣的或者存在潛在價值的知識。隨著大數據技術的不斷發展,數據挖掘技術成為當前互聯網領域研究的熱點課題。一般數據挖掘模式主要包括:(1)廣義知識;(2)關聯知識,就是反映了數據庫中一個屬性和其它屬性之間的存在關系;(3)分類知識;

(4)偏差型知識等等。數據挖掘技術作為數據分析的有力工具,其主要需要滿足以下功能,例如可以準確的表達出不同數據的關聯性,能夠從多抽象層交互挖掘知識等等。

搜索引擎就是在眾多的網絡信息中搜索對自己有用的信息,以此滿足需要。搜索引擎由四個部分組成:搜索器、索引器、檢索器以及用戶接口。搜索引擎已經成為用戶瀏覽網絡所必須的服務工具。其工作原理就是當用戶以關鍵詞查找信息時,搜索引擎會在數據庫中進行搜索,以便快速的找到與用戶需求相匹配的網站,并且采取特殊的算法按照一定的排序順序等將其反饋給用戶。實現搜索引擎需要完成以下三個步驟:在網絡中發現并且搜集網頁信息;對信息進行提取并且組織建立索引數據庫;在利用檢索器對數據進行查詢,并且計算相關度,將輸出的結果反饋給用戶。

2 數據挖掘技術在智能搜索引擎中的應用

隨著用戶需求的精確性要求,實現個性化、智能化搜索引擎是大數據網絡發展的主要趨勢。傳統的搜索引擎在精確性、個性化服務上存在缺陷。因此本文利用數據挖掘技術的特性設計一款基于數據挖掘的個性化信息檢索系統(PIRSBDM),重點是為用戶提供精確化、個性化的信息查詢結果。在該系統中主要應用數據挖掘中的類別規則挖掘、基于關鍵詞向量的文檔分類挖掘以及基于SOM文檔聚類挖掘方法以此滿足個性化信息需求。具體的步驟為:首先通過對用戶的個人信息的觀察后,對用戶的興趣進行提取、描述等建立“用戶個性化信息庫”,對用戶的訪問日志采取關聯規則的挖掘方法,同時不斷地更新用戶數據庫。用戶經過反饋將感興趣的文檔進行聚類挖掘,以此更新用戶個性特征向量表。

2.1 PIRSBDM系統體系結構

基于數據挖掘技術的智能搜索引擎系統的結構運行流程為:首先用戶根據自己的信息需求提交查詢請求,中介數據庫對用戶查詢主題進行模式化、以此產生精準化的檢索模式,結合用戶個人的特征向量表、關鍵詞表等給用戶提供最佳的搜索引擎模塊;其次對于提供的最佳搜索引擎模塊信息會提交“信息檢索中心”,當然檢索中心所提供的信息可能會存在不符合用戶興趣的內容,因此結合用戶的個性興趣等,例如數據挖掘技術中的分類挖掘等技術將重復的信息或者對用戶不感興趣的信息過濾掉,以此得到個性化的信息。

(1)用戶。為了幫助用戶準確的查詢到自己感興趣的信息,設計用戶輸入模塊,其主要包括:模板、詞典、關鍵詞以及同義詞。用戶模塊是智能搜索引擎構建的基礎,也是智能搜索引擎設計的關鍵。

(2)最優檢索式最優搜索引擎模塊。該模塊主要接收經過中介索引庫轉化的用戶請求,將其變為能夠被搜索引擎識別的格式,結合用戶關鍵詞表,如果用戶搜索的關鍵詞在該數據庫中說明用戶查詢過,對此系統就會直接為用戶提供相應的查詢結果。但是如果該關鍵詞在數據中沒有,則表明用戶沒有查詢過,對此系統就會對該關鍵詞進行歸類,如果在“關鍵詞表”中存在該類別,則只需要將該關鍵詞作為已有的屬性值,如果沒有則需要添加,以此更新“關鍵詞表”。本模塊主要完成的功能是,接收用戶的轉換后的“查詢請求”,結合“用戶個性化信息庫”和“搜索引擎信息庫”選擇最優搜索引擎進行搜索,同時可以不斷的更新“用戶查詢關鍵詞表”。

(3)聚類挖掘模塊。該模塊的主要功能就是更新“用戶信息庫”中的用戶特征向量表。實現個性化搜索引擎的關鍵就是根據用戶的特征為其提供相應的信息,例如該模塊所具備的跟蹤用戶學習、記憶用戶興趣可以增強搜索引擎的效率。實現該模塊的方法主要是用戶將自己感興趣的信息按照特定的格式提交系統或者用戶興趣學習。

(4)關聯規則挖掘模塊。該模塊出于用戶與用戶數據庫之間,其作用主要是通過對用戶日志的挖掘,尋求用戶各個檢索關鍵詞之間的關聯規則,以此發現用戶潛在的興趣,并且更新用戶關鍵詞表信息。挖掘的對象是以關鍵詞作為列的內容,而以每次的檢索事務中所查詢的關鍵詞組合成一行,通過對日志的挖掘形成的“用戶查詢關鍵詞表”,挖掘出的用戶的個性化信息。

(5)搜索引擎信息庫。信息庫是支撐搜索引擎的基礎,搜索引擎信息庫能夠及時根據用戶檢索需求而提供相應的數據。搜索引擎信息庫的構建應該具備網站、中文名字等等信息。

2.2 PIRSBDM系統關鍵技術

構建基于數據挖掘技術的智能搜索引擎需要重點利用以下關鍵技術:

(1)關聯規則挖掘

該技術是數據挖掘技術的重要組成部分,它可以發現數據庫中項或屬性間的有趣關系。由于這些關系具有隱蔽性或者預先未知,因此難以依靠數據庫邏輯實現,必須要通過關聯規則挖掘技術進行實現。關聯規則挖掘的過程分成兩個步驟。第一步發現所有的頻繁項目集,即支持度大于給定最小支持度閾值的項集;第二步根據所獲得的頻繁項目集產生關聯規則,根據定義,這些規則必須滿足最小置信度閾值。對于關聯規則的算法主要采取的是Apriori算法。首先找出頻繁1-項集,記為L1;然后利用L1來挖掘L2,即頻繁2-項集;不斷如此循環下去直到無法發現更多的頻繁k-項集為止。每挖掘一層Lk就需要掃描整個數據庫一遍。

(2)基于關鍵詞向量的文檔分類挖掘

文檔分類是實現智能搜索引擎的關鍵,文檔顧名思義就是用來描述一定規則的文檔,文檔歸類就是將大量的文檔按照一個主題進行歸類的過程。因此文檔的分類直接關系到搜索引擎體系的構建。文檔分類就是根據數據庫信息種類屬性進行特征歸類,以此準確的為用戶提供信息檢索服務。當然在文檔歸類挖掘前必須要對文檔相識度進行計算以及保證文檔歸類的合理性。例如文檔相識度越接近,這樣就可以更好的對屬性相同的文檔進行統一歸類,便于提高檢索速度,提升用戶的滿意度。

(3)基于SOM的Web文檔層次聚類方法

聚類是一種無監督分類法,在聚類之前沒有預先指定的類別。SOM網絡的優點在于:可以實現實時學習,網絡具有自穩定性,無須外界給出評價函數,能夠識別向量空間中最有意義的特征,抗噪音能力強。Web文檔的聚類:首先訓練SOM網絡。構造SOM聚類神經網絡:以訓練樣本的N個(N=182)特征詞作為SOM網絡的輸入神經元,人為限定M個(M=10)文檔類別作為SOM網絡的輸出神經元,構成一個二層的Web文檔自組織聚類訓練SOM網絡。提取文檔特征詞,構造輸入向量序列Xk。將輸入向量逐一輸入SOM網絡,進行學習訓練;其次聚類用戶感興趣的文檔。聚類用戶感興趣文檔的處置流程為:中文文檔經過預處理提取主題詞,然后生成輸入模式向量、文檔自組織映射。預處理模塊的主要作用就是為了利用SOM方法對文檔進行有效地編碼,例如在預處理模塊需要對文檔中的圖形、非文字等信息進行處理,以此保證可以準確的提取到關鍵詞,最終輸入到訓練好的SOM網絡中進行層次聚類。對于輸入向量,則是通過SOM網絡所進行點積運算,以此獲得相應的輸出獲勝結點,該結點也就是聚類中心。相應的聚類中心所構成的文檔會形成同一類別的文檔。如果某文檔所包含的文檔越多,說明用戶對該方面的信息需求比較多。在實際的系統應用設計中需要注意以下兩個問題:一是由于SOM屬于多層次系統,因此可以采取多層聚類,這樣可以減少系統的計算工作任務,以此更好的提高運行效率;二是要對用戶的文檔進行定時機制設計,例如可以設計夜里執行層次聚類的模式,這樣可以增強信息儲存量。

3 結束語

總之基于大數據技術的發展,用戶對搜索引擎性能的要求越來越高,如何為用戶提供個性化的信息檢索是當前搜索引擎發展的主要趨勢。數據挖掘技術依托自身存在的優勢應用到搜索引擎體系建設中,不僅實現了精確化信息檢索服務,而且還為用戶構建了個性化的服務模式,大大提高了信息檢索的速度,提高了用戶的滿意度。

參考文獻:

[1]李娟.數據挖掘技術在智能搜索引擎中的應用[D].長春理工大學,2010.

[2]楊子墨.智能技術在搜索引擎中的應用[J].科技與創新,2017(03).

[3]趙丁.數據挖掘技術在船舶邊檢管理信息系統中的應用[D].河北科技大學,2017.

[4]Jason Bell,等.ASP.NET程序員參考手冊[M].清華大學出版社,2002.

[5]韓家煒,Kamber M.數據挖掘:概念與技術[M].北京:機械工業出版社,2001.

猜你喜歡
搜索引擎智能
智能制造 反思與期望
智能前沿
文苑(2018年23期)2018-12-14 01:06:06
智能前沿
文苑(2018年19期)2018-11-09 01:30:14
智能前沿
文苑(2018年17期)2018-11-09 01:29:26
智能前沿
文苑(2018年21期)2018-11-09 01:22:32
智能制造·AI未來
商周刊(2018年18期)2018-09-21 09:14:46
網絡搜索引擎亟待規范
中國衛生(2015年12期)2015-11-10 05:13:38
Nutch搜索引擎在網絡輿情管控中的應用
警察技術(2015年3期)2015-02-27 15:37:09
基于Nutch的醫療搜索引擎的研究與開發
廣告主與搜索引擎的雙向博弈分析
主站蜘蛛池模板: 国产流白浆视频| 免费一级α片在线观看| 91久久国产成人免费观看| 久久久久国产精品熟女影院| 2021国产在线视频| 亚洲欧美日韩天堂| 国产美女自慰在线观看| 在线看片中文字幕| 日韩不卡高清视频| 久久99蜜桃精品久久久久小说| 国产网友愉拍精品视频| 国产毛片一区| 色综合色国产热无码一| 国产欧美日韩另类| 亚洲中文字幕在线观看| 亚洲一区二区三区在线视频| yjizz国产在线视频网| 国产一区二区人大臿蕉香蕉| www.国产福利| 精品国产成人三级在线观看| 国产精品极品美女自在线| 正在播放久久| 波多野结衣中文字幕久久| 欧美在线国产| 免费jjzz在在线播放国产| 伊人久久综在合线亚洲2019| 久久久久亚洲精品成人网| 精品第一国产综合精品Aⅴ| 69免费在线视频| 日韩精品一区二区三区大桥未久| 日韩精品专区免费无码aⅴ| 国产一级在线播放| 3344在线观看无码| 国产福利大秀91| 久久免费精品琪琪| 天天躁夜夜躁狠狠躁图片| 国模粉嫩小泬视频在线观看| 国产一级小视频| 99re经典视频在线| 97在线国产视频| 久热这里只有精品6| 欧美三级视频在线播放| 久久人妻系列无码一区| 欧美日韩一区二区在线免费观看| 久久成人18免费| 亚洲免费毛片| 91在线视频福利| 强奷白丝美女在线观看| 亚洲一区第一页| 国产黑丝视频在线观看| 亚洲精品黄| 亚洲综合在线网| 99视频精品在线观看| 乱色熟女综合一区二区| 成人国产精品一级毛片天堂| 夜夜操国产| 国产精品内射视频| AV不卡在线永久免费观看| 91久久偷偷做嫩草影院| 国产在线观看精品| 日韩福利在线观看| 人人澡人人爽欧美一区| 激情六月丁香婷婷| 国产综合在线观看视频| 好紧好深好大乳无码中文字幕| 美女无遮挡免费视频网站| 99这里只有精品6| 国产拍在线| 日韩亚洲高清一区二区| 无码电影在线观看| 亚洲人成成无码网WWW| 欧美日韩中文字幕二区三区| 中文字幕 欧美日韩| 91系列在线观看| 久久午夜影院| 亚洲电影天堂在线国语对白| 欧美精品成人一区二区在线观看| 国产午夜在线观看视频| 日本免费精品| 草草影院国产第一页| 国产白浆视频| 亚洲国产日韩在线成人蜜芽|