楊 婧
如今,使用搜索引擎是獲取信息的主要渠道,搜索引擎的應用十分廣泛,其不僅便利了用戶,同時對社會的發展也產生了極大影響。而數據挖掘技術的開發和應用進一步完善了搜索引擎功能,實現了智能化搜索,提高了搜索質量和效率。
數據挖掘技術在各行各業中都有應用,互聯網的出現也導致其應用更加廣闊,使用數據挖掘原理深入挖掘網絡數據,獲取網絡知識,使網絡信息檢索技術逐漸實現了智能化發展。而隨著大數據技術的發展,數據挖掘技術已經成為互聯網的重點研究技術。數據挖掘技術涉及的知識包括關聯、廣義、分類以及偏差型等知識,該技術作為人工智能發展的表現之一,基本定義就是在數據庫中發現知識信息,而知識發現過程則是依據數據準備利用數據挖掘方式所得規律,最后將結構分析表達出來。在準備數據的時候,需要在數據源中提取需求信息,并將其整合為統一整體,發送到數據挖掘工具中。通過數據挖掘技術分析并解讀信息潛在含義,提取關鍵部分,并通過關聯、規則匹配數據庫,通過分析處理將最終解釋表達出來,便于操作人員了解信息。對于當前的信息檢索環境而言,數據挖掘要求更高,用戶通過數據挖掘技術解讀用戶檢索信息,挖掘潛在含義,并匹配準確的數據庫,為用戶準確的提供所需信息。
搜索引擎是指網頁全文搜索,其記錄了各個網頁中的關鍵詞,并將其存儲到索引表中,用戶在搜索關鍵詞時,引擎會按照索引表只能夠的關鍵詞查找相關網頁。根據信息搜索方法以及服務方式可以將搜索引擎分為3 種,分別為目錄式、機器人和元搜索3 類,例如雅虎為目錄式、百度為機器人式等。
搜索引擎主要分為搜索器、索引器、用戶接口以及檢索器4 個模塊。
1)搜索器就是依據網頁搜集規劃,通過對運行網頁調度實現自動搜索,快速有效的搜索互聯網網頁,并將其存儲到引擎網頁數據庫內。一般使用的索引策略有3 種,分別為利用種子URL 進行搜索;利用網站受歡迎情況規劃URLS 進行搜索;利用網站名稱或編碼劃分WEB 空間完成搜索。
現代搜素引擎數據過于龐大,無法將用戶查詢與數據庫直接連接進行檢索,需要通過索引系統進行分析處理,這是搜索器的關鍵技術。當前我們使用的搜索系統是依據用戶查詢條件進入到索引庫中展開查詢,這就能夠更好更快的得到結果。
2)索引器則是對搜索器搜索到的信息進行理解,從中選取索引項,并用文檔和文檔庫索引表來表示,索引器實現了集中式和分布式兩種索引算法。對于索引器而言,其關鍵技術就是排序和分詞這兩個技術。質量好的搜索引擎先要能夠迅速準確的對網頁內容以及用戶查詢條件作出理解,這就是分詞技術。計算機系統開發都是由英文實現的,單位我國當前使用的軟件基本都是中文版本,而中英文之間的差距導致軟件功能與效率受到了影響,因此必須要根據中英文特征采用分詞技術對其進行切分,確保系統能夠更好的分析、理解網頁內容。中文網頁理解和信息的提取處理與漢字知識相關,且中國人本身獨特的搜索習慣和表達形式也使得中文搜索引擎開發更加困難,這對其他語言的搜索引擎開發的應用提出了不小的挑戰。
3)用戶接口主要用于用戶輸入查詢、顯示解雇、提供反饋機制,便于用戶采用搜索引擎進行查詢,且能夠及時便利的從搜索中獲得更多的信息。
4)檢索器則是依據用戶查詢檢索出索引庫中的信息,并評價信息及其查詢信息的相關情況,將檢索的結果排序,之后進行用戶相關性反饋。通常采用的信息檢索模型包括了集合理論、概率、代數和混合四種模型。
為了滿足用戶的精細化信息檢索需求,本文利用數據挖掘技術特征設計了個性化檢索系統,突出為用戶提供個性化和精確化的信息檢索結果。該系統是基于大數據技術設計得到的,其先對用戶信息進行觀察,提取用戶興趣,建立個性化的用戶信息庫,利用關聯規則挖掘用戶的訪問日志,實時更新用戶信息,將其興趣文檔實行聚類挖掘,進而更新用戶向量表。
在智能搜索引擎系統匯總應用數據挖掘技術,首先,用戶會依據需求請求查詢,中間數據庫會進行用戶查詢主體模式化操作,并形成精準檢索模式,根據用戶個人向量表等為用戶提供準確的搜索模塊。其次,提供的準確搜索模塊信息會提供給信息檢索中心,檢索中心根據提供的信息與用戶興趣相結合,過濾掉不符合用戶個性興趣的信息,傳輸給用戶所需要的信息。
1)用戶模塊,為了使用戶所查詢的信息符合自己的要求,需要針對用戶設計專門的輸入模塊,其中涉及了模板、關鍵詞、詞典、同義詞等,該模塊也是基于智能搜索引擎所建立起來的,是智能搜索引擎設計的重點。
2)最優檢索模塊,其是用于接收中介檢索庫索轉化的用戶請求,轉變請求格式,使其能夠被搜索引擎識別,根據用戶關鍵詞表判斷用戶的查詢記錄,之后系統會為用戶提供相應的信息。但是,若是詞表中沒有該關鍵詞,就表示用戶并沒有這項查詢記錄,系統就會自動將其歸類,并將其作為屬性值,可以實時添加更新。該模塊用于接收用于請求,根據用戶個性信息庫以及搜索引擎信息庫來實現最優檢索。
3)關聯規則模塊,其位于用戶及其數據庫中間,主要是通過挖掘用戶日志掌握用戶與關鍵詞間存在的關聯規則,了解用戶興趣,更新用戶關鍵詞表。挖掘對象是將關鍵詞作為一列,每次檢索的關鍵詞會形成一行,這就形成了用戶關鍵詞表,進而挖掘用戶的潛在個性興趣信息。
4)聚類挖掘模塊,其是用于更新用戶信息庫內的用戶向量表的。個性化搜索引擎是按照用戶特征提供對應檢索信息。
5)信息庫模塊。對于搜索引擎而言,信息庫是其基礎模塊,信息庫根據用戶需求提供所需要的信息數據,該模塊的構建需要具備中文名字、中文網站等。
1)關聯規則技術。該技術會發現數據庫內各屬性間關系,其首先發現頻繁項目集,之后按照項目集形成關聯規則,按照定義滿足最小置信度閾值。
2)文檔分類挖掘技術。對于智能搜索引擎而言,文檔分類是十分重要的技術,其將大量文檔根據主題要求歸類,文檔歸類直接影響了搜索引擎的建立。文檔歸類是按照數據庫信息屬性來歸類的,進而為用戶提供更加準確的信息檢索服務。但是,文檔歸類前需要計算文檔相識度,并確保規律是合理的。
3)文檔層次聚類法。本文使用的是SOM 基礎上的聚類法,其具有實時性、穩定性,并具有較強的抗噪音性。該方法下,其會對中文文檔進行預處理,并提取關鍵詞,之后形成輸入模式向量以及文檔自組織映射。文檔預處理是為了讓SOM 來編碼文檔,以便提取更為準確的關鍵詞,最后輸入到SOM網絡中實現文檔的層次聚類。而就輸入向量來說,利用SOM 網絡實行點積運算,進而獲取輸出結點,這就是聚類中心。但是,在實際的運行中,需要注意SOM 由于是多層次系統,需要實行多層聚類,這在一定程度上能夠減少系統計算量,提高系統運行效率,同時,用戶文檔還需要設計定時機制。
綜上,隨著大數據技術的信使費按照,用戶也提出了更高的信息檢索要求,這對于搜索引擎來說既是挑戰又是機會。為滿足用戶的個性化信息檢索需求,利用數據挖掘技術構建智能搜索引擎,提高信息檢索的精準度,同時也為用戶提供了更加個性化的檢索服務,使得信息檢索速度和質量大大提升。