李國海 程瀟
摘要:隨著計算機快速發展,數字化的生活和溝通方式會信息的產生與堆積產生大量的數據,為了將這些大量的數據轉化成需要的、可以利用的信息和知識,便形成了數據挖掘。數據挖掘是人工智能和大數據的結合,其可以從大量冗雜混亂的信息挖掘出需要的信息。通過分析、整合、挖掘大量的數據,可以使人們更加有效地獲得有用的信息,方便了企業信息流通速度,精簡了商務管理的過程,使信息的獲取變得高效起來。在搜索引擎上應用數據挖掘技術更可以使搜索變為極為方便簡潔。文章先介紹數據挖掘和搜索引擎的概念和原理,論述了數據挖掘給搜索引擎帶來的方便,為網上的用戶提供了有效的查詢服務,提高了搜索引擎的效率。
關鍵詞:數據挖掘??搜索引擎??互聯網??web數據挖掘
中圖分類號:TP391.3;TP311.13????文獻標識碼:A
Research?on?the?Application?of?Data?Mining?Technology?in?Search?Engines
LI?Guohai1???CHENG?Xiao2
(1.Guangxi?Minzu?University,?Nanning?,?Guangxi?Zhuang?Autonomous?Region,?530000?China;2.Hubei?Minzu?University,Enshi,Hubei?Province,445000?China)
Abstract:?With?the?rapid?development?of?computers,?digital?ways?of?life?and?communication?lead?to?the?creation?and?accumulation?of?information,?generating?a?large?amount?of?data.?In?order?to?transform?these?large?amounts?of?data?into?the?information?and?knowledge?we?need?and?can?use,?data?mining?is?formed.?Data?mining?is?a?combination?of?artificial?intelligence?and?big?data,?which?can?mine?the?information?we?need?from?a?large?amount?of?messy?information.?By?analyzing,?integrating,?and?digging?up?large?amounts?of?data,?people?can?get?useful?information?more?effectively,?which?facilitates?the?speed?of?enterprise?information?circulation,?streamlines?the?process?of?business?management,?and?makes?information?acquisition?more?efficient.?Applying?data?mining?technology?to?the?search?engine?can?make?the?search?extremely?convenient?and?concise.?This?article?first?introduces?the?concepts?and?principles?of?data?mining?and?the?search?engine,?and?discusses?the?convenience?brought?by?data?mining?to?search?engines,?provides?effective?query?services?for?online?users,?and?improves?the?efficiency?of?search?engines.
Key?Words:?Data?mining;?Search?engine;?Internet;?Web?data?mining
在20世紀90年代,數據庫系統的大量應用、互聯網技術的快速發展、硬件技術不斷的更新,由此產生了大量的信息,這些信息包括圖像、音頻、文字、視頻等,過多的信息使信息的查詢、整合利用變得極為麻煩,數據庫可以存儲數據,對數據進行索引和查詢處理等服務,但是無法高效地處理海量的數據,在這樣的環境下,數據挖掘便由此誕生。數據挖掘的出現滿足了用戶對信息高精度、準確度、高效性的需求,同時也極大地促進了搜索引擎的發展。目前數據挖掘已是搜索引擎的關鍵技術之一,文章將在探討搜索引擎的基礎上,對數據挖掘進行研究,為數據挖掘在搜索引擎上的應用提出參考。
1?搜索引擎概念及闡述
1.1?搜索引擎的定義
搜索引擎(Search?Engine)是指用戶根據自己的需求,通過程序固定的算法從互聯網中提供搜索用戶所需要的信息。搜索引擎是一個交互式的尋求信息過程,在搜索過程中用戶需要提供自己所要信息的關鍵部分,然后計算機根據所要信息的關鍵字等,從互聯網上通過搜索程序抓取符合相關條件的信息,然后將符合的信息呈現到搜索用戶面前。在搜索引擎運行的過程中需要處于聯網狀態,它是一種處于互聯網的應用搜索工具,搜索引擎設計的目的是為用戶更加方便、快捷地查找利用信息,所得到的信息不僅包括文字、圖片、音頻等[1]。
1.2?搜索引擎的分類
1.2.1?全文搜索引擎
通常人們生活中最常用到的搜索引擎就是全文搜索引擎,全文搜索引擎就是用戶提供搜索的關鍵信息,然后搜索引擎根據用戶所提供的信息進行搜索檢查。
全文搜索引擎就是我們提供所需要的信息,搜索程序通過數據庫進行相關搜索,在數據庫找到相關信息,根據信息相關度與權重,將信息進行排列,然后呈現出來。通常這個權重與用戶瀏覽量、點擊量成正比,即網上用戶點擊越多、瀏覽越多的信息,在搜索與之相關的信息的時候,越容易出現在你的面前。反正點擊越少、瀏覽越少的信息就排名越低[2]。
1.2.2?目錄搜索引擎
目錄,搜索引擎將網上屬性相同的資源信息分類,搜索用戶可以在界面通過搜索引擎已經分類好的資源逐步獲得需要的信息。這種搜索引擎不需要用戶的輸入查詢,類似于人們的視頻App,將電影分類,如喜劇片、科幻片等,然后根據自己的喜好選擇想要看的已經分類好的電影[3]。
1.2.3?元搜索引擎
指搜索引擎在接受用戶搜索要求后,在多個不同的其他搜索引擎上進行多元搜索,并將多個搜索引擎的搜索結果按照一定規則排序然后呈現到用戶眼前。
1.3?工作原理
1.3.1?信息的收集
搜索結果引擎通常會自動派出一個在網際互聯網上進行收集、抓取搜索信息的應用程序,這個抓取程序一般被人們稱為蜘蛛(spider)。蜘蛛搜索程序引擎會按照搜索程序中的要求周期性地獲取信息,然后將蜘蛛收集的這些信息全部儲存在一個搜索程序引擎的蜘蛛數據庫里,在蜘蛛抓取這些信息的整個過程中,搜索程序引擎通過一個蜘蛛爬行程序搜索爬行尋找到一個網頁,然后從該頁的網頁開始繼續搜索爬行尋找到下一頁的網頁,一般會對某些權重高的網頁優先爬行。在蜘蛛程序爬行的過程中,也會對爬行獲取的內容進行重復的檢查,當檢查到大量重復的內容時,有可能就會停止爬行。此外,爬行程序在運到已經爬行過的網站也會停止爬行[4]。
1.3.2?索引的建立
在搜索引擎爬行結束,完成對互聯網上信息的收集后,便開始對收集的信息進行處理,這個過程包括對網站信息文字與圖片等信息的提取、網站類型的分類、相同內容的刪除等。其中,最為復雜的是建立索引數據庫,搜索引擎程序須要對所獲得的信息進行提純處理,即從大量的信息中提取網站信息的關鍵詞,關鍵詞是搜索引擎更具網站相關度算法,對網站信息進行大量復雜計算的結果。最后搜索程序將關鍵詞與網頁進行關聯,完成最后索引數據庫的建立。
1.3.3?排序
建立索引數據庫后,就搜索引擎就需要給關鍵詞與所對應的網站進行排名。排名的先后順序與搜索引擎技術關鍵詞與網站的相關度有關,通常情況下關聯度度越高的排名位置越靠前。此外,隨著網上用戶的增多,網站的先后排名還與搜索用戶的點擊量和瀏覽時間有關,當一個網站的瀏覽量和點擊量高時,其對應的排名會有所提升[5]。
2?搜索引擎上數據挖掘過程及步驟
2.1?數據挖掘
數據挖掘是指從大量復雜、不清楚、繁雜的信息中,尋到挖掘用戶所需要的可以利用的信息。數據挖掘的本質是對信息的分析提取,從廣泛的信息中提取出有用的信息。
2.2?數據挖掘基本步驟
2.2.1?挖掘目標與信息收集
在進行數據挖掘時需要足夠信息,數據挖掘是為了處理大量數據而形成的技術,少量的數據沒有挖掘的必要,有一個清楚明確的挖掘對象是數據挖掘的前提,只有清楚地知道挖掘對象,才能有效制定挖掘方式及算法,這是能夠很好發揮數據挖掘作用的關鍵。在進行數據挖掘的時候,必須明確挖掘的具體目標,然后才能進一步了解挖掘相關知識的重點,了解挖掘信息的關鍵內容,制定合理的挖掘策略。再者,信息品質也會影響數據挖掘的結果好與壞,高品質的信息,會帶來高品質的挖掘結果。很多錯誤的挖掘結果,大多是信息有誤導致的。
2.2.2?數據預處理
在確定挖掘的對象后,就要開始對挖掘數據進行預處理,數據預處理是指對收集到的信息進行一個優化加工的過程。
(1)數據清理。數據挖掘就是類似從垃圾場找到有價值的東西,因為數據挖掘收集到的數據多而繁雜,甚至部分數據可能出現重復、錯誤等,如空缺數據、噪聲數據、不一致數據。這些數據便須要將其將其清理成系統可以利用的數據。例如:將全局常量代替空缺數據,或者用評價值代替空缺數據,對含有噪聲的數據用回歸算法等[6]。
(2)數據集成。當一個類型的數據有多個數據源的時候,需要對信息進行一個集合處理。以筆者為例,“我的姓名:李國海→英文名字:Liguohai→廣西民族大學學號:2020211255001369”,這3個信息都是指向我的一個信息,在數據的實體識別上要屬于同一實體。此外數據格式不同的信息和數據冗余也要進行集合處理,例如:某些信息用“kg”來表示物體的重量,而某些信息來源用“g”或者“斤”等表示物體重量,雖然寫法不同但都是重量的計量單位。
(3)數據規約。數據挖掘的執行是一件需要大量時間的計算過程,而某些大類型的數據更是需要時間。數據規約是在保證數據完整性的條件下,有條件地減少數據分析量,加快數據挖掘計算過程,而且對最終產生的結果幾乎沒有影響。
(4)數據變換。數據變換也稱數據轉換,就是將復雜或者某些不好計量的數據轉換成計算機可以識別的高效利用的數據。例如:用0來表示性別為男,用1表示性別為女等。
2.2.3?數據挖掘算法設計
數據挖掘的算法設計是數據挖掘的核心,挖掘目的、挖掘領域的不同,所要用的算法也不同,對不同類型的數據要采取的挖掘算法也不盡相同,越是復雜的知識對于算法的要求也越高。
2.2.4?挖掘評估
對數據挖掘的結果進行評估,看挖掘結果是非達到預期目的,如果沒有挖掘出想要的結果,需要對挖掘算法及數據進行重新設計處理,直到挖掘達到滿意的結果[7]。
3?數據挖掘在搜索引擎上的應用
3.1?數據挖掘在搜索引擎上的應用方法
隨著互聯網的發展,數據挖掘技術的不斷進步,數據挖掘也不僅局限于固定的數據庫系統里進行挖掘,Web挖掘便是數據挖掘在互聯網上的應用。
數據挖掘起初只是用于在固定資料上的數據挖掘,類似于人們生活中的在沒有聯網上的計算機系統,尋找已經儲存事實上存在的資料。而隨著互聯網的發展,數據變得越來越多,人們對于數據的儲存方式、利用方式也慢慢發生改變。在以前人們習慣將資料存儲在固定的硬盤里面,科技的改革和網絡的便攜化在網上儲存資料和尋找資料已經成為了比較普遍的現象,例如,人們日常觀看的視頻都是直接儲存在互聯網上的,不需要下載在指定的硬盤里,可以通過移動網絡直接利用,對于其他資料也是如此。Web挖掘便是數據挖掘在互聯網上的應用[8]。Web挖掘是面向萬維網信息挖掘知識提取的過程,互聯網里面包含著大量的信息,很多信息無法被用戶直接識別利用,這時便需要對信息進行精練和提純,Web挖掘便是對信息進行篩選的過程。
3.2?Web挖掘在搜索引擎的子任務
(1)資源發現:資源發現是從互聯網中尋找資源,主要是搜索那些用戶名難以找到與利用的有用信息,這是數據挖掘在互聯網模式下的信息收集過程。
(2)信息提取:從已經尋找的資源中,進而提取到可以被人們能夠理解利用的信息,這也是數據挖掘的核心部分。
(3)概括:對挖掘的信息進行系統化的轉述,變成人們可以理解利用的信息資源。
總體來說,Web挖掘和數據挖掘并沒有區別,Web挖掘是數據挖掘在互聯網上衍生品,是將數據挖掘作用于互聯網上的新技術,數據挖掘包含著Web挖掘[9]。
3.3?Web數據挖掘搜索引擎中的種類
3.3.1?Web內容挖掘
Web內容挖掘是指直接挖掘網頁頁面內容,以及網頁后臺、數據庫等各個來源的信息。Web內容挖掘是從網站現有的數據內容中發現有用的信息。Web內容挖掘還可以挖掘各網站之間的結構和鏈接關系。Web內容挖掘有兩大分類,即Web文本挖掘和Web多媒體挖掘。Web文本挖掘是對網頁上的大量文本集合的內容進行總結、分析、篩選等。Web多媒體挖掘是指從多媒體數據挖掘相關的內容,著寫信息包括音頻、視頻、數據和圖像等。目前,Web內容挖掘多于Web文本挖掘,相比較Web多媒體挖掘,Web內容挖掘更加容易,使用的也更多。在內容挖掘上,可以利用文檔上標題和開頭提高挖掘的效率和準確性。
3.3.2?Web日志挖掘
Web日志挖掘也被稱為Web使用記錄挖掘,Web日志挖掘是指通過挖掘服務器上用戶的使用記錄作為數據源,對其進行分析作為,從中尋找到有用的信息。這些用戶的使用記錄不僅包含瀏覽地址、頁面、頁面訪問時間和日期、用戶點擊、存留時間等。在進行日志挖掘時,可以通過兩種方法尋找出使用者的點擊、瀏覽記錄。一類是對日志文件進行預處理,對其進行數據挖掘;另一種是對用戶點擊過程進行收集分析發現其行為過程。Web日志挖掘可以在大量的樣本基礎上,為用戶提供準確的參考信息,可以使檢索的結果向大眾普遍喜好的方向靠攏,對個性化搜索引擎的方向起到里促進的作用。根據日志挖掘的信息,調用個性化的搜索方式,可以有效地提高用戶的搜索滿意度,甚至可以根據用戶提供的搜索條件和點擊等為用戶提供感興趣的知識與信息等。
3.3.3?Web結構挖掘
信息使用者不僅能從網頁上獲取的信息,也能從超鏈接獲得信息。超鏈接是有一定聯系的,通過超鏈接用戶可以更大、更廣范圍地尋找有用的信息。但是對于個人用戶而言更想找到質量更高,更加準確和權威的信息可利用Web結構挖掘便是對網頁的超鏈接結構進行挖掘,有用的信息不僅包含在網站頁面的內容中,而且也包含在頁面的鏈接結構之中。對于給定的網站,可以通過結構挖掘發現其中包含、引用或者從屬關系。Web結構挖掘主要有以下兩種方法。
4?數據挖掘在搜索引擎上的發展前景與挑戰
4.1?發展前景
如今信息溝通交流方式以及極為便捷,信息儲存和下載變得廉價和高效。手機電腦也由以前的奢侈品,變成人們能夠普遍購買一般消費品。在此基礎上,對于搜索引擎也有了更高的要求,即個性化搜索引擎。在信息化的現代,不同人的之間存在的較大的興趣偏差、文化差異等。不同的瀏覽者對信息和數據的要求存在變化,從整體到個人的角度上看,用戶對信息的需求是隨機變化的,對于同一搜索結果,人們的滿意度也是不同的。
個性化搜索引擎是搜索引擎未來發展的重要趨勢,個性化搜索引擎成立的先決條件之一就是個人用戶數據的保留。也就是說保留個人用戶的活動信息,這點現今已經能夠做到,例如:通過賬號注冊成為百度用戶,就可以保留自己在搜索器上的活動信息,通過保留用戶的活動數據,發現用戶對于搜索結果的偏好,提供用戶滿意的結果,這便是個性化搜索引擎。
個性化搜索引擎的形成要求在數據挖掘過程中,必選全面地挖掘出各種偏差信息,以滿足不同用戶的差異化需求。在進行數據挖掘的過程中,加入更多的參數變化,如瀏覽歷史、偏好、性別等,然后通過關聯、分析建立相應的模型,實現針對用戶的全方位挖掘。另外,還可以根據同類用戶的相同需求進行關聯,建立相應的關聯數據庫,從而優化數據挖掘的過程[11]。
4.2?未來挑戰
搜索引擎誕生至今已經有著很大的進步,從前只能用文字搜索,到現在已出現圖片搜索功能,但仍面臨著很多調整。數據挖掘更是搜索引擎的關鍵技術,一個好的數據挖掘算法可以為用戶更加精準地提供搜索信息。目前數據挖掘在搜索引擎上面臨的挑戰有以下幾點。
4.2.1?數據抓取
以前的互聯網只有小部分人是數據的提供者,只有一小部分人產生制作信息,5G技術的到來意味著信息更加泛濫,人人都能制作信息,小到寫一篇小說,大到拍一個小視頻等。這便要求數據挖掘過程中對信息收集的高效率要求,此外互聯的信息是流動的,一個信息在一天前是熱點,但過一段時間便會消散,要信息的權重比便因此發生了改變。因此需要時刻挖掘信息,重新排列權重比。
4.2.2?海量數據的誕生
硬件的更新換代,存儲空間的不斷擴大,互聯網上的信息只可能不斷增多。這對于信息的檢索和挖掘帶來巨大的麻煩,一些大型網站上面甚至有千萬級別的頁面,檢索這些頁面變得耗時、耗力。
5?結語
搜索引擎是數據挖掘集大成者,它們都有著相同的目標—為使用者尋找有用的信息,數據挖掘為搜索引擎的發展提供了借鑒的方向,是搜索引擎的關鍵技術。數據挖掘應用于搜索引擎上可以為搜索引擎提供更加精準無誤地反饋結果,也提高了搜索引擎搜索的廣度和深度。
參考文獻
[1] 霍雨佳.基于大數據的數據挖掘技術在智能制造中的應用探究[J].數碼世界,2019,12(2):16-17.
[2] 鄭亦梁.Web數據挖掘和個性化搜索引擎研究[J].通訊世界,2016,8(5):11-13.
[3] 苗雷.Web數據挖掘技術在信息管理中的應用[J].黑龍江科學,2021,15(9):32-33.
[4] 程斐斐,王子牛,侯立鐸.決策樹算法在Weka平臺上的數據挖掘應用[J].微型電腦應用,2015,6(6):22-24.
[5] 郭偉偉,吳文臣,隋亮.大數據時代的數據挖掘技術與應用[J].數字技術與應用,2020,10(8):38-40.
[6] 王彬彬.“互聯網+”時代下數據挖掘技術在軟件工程中的應用研究[J].北京印刷學院學報,2021,12(4):41-42.
[7] 劉武萍.數據挖掘技術的應用研究[J].無線互聯科技,2022,10(1):3-4.
[8] 王麗麗.大數據背景下數據挖掘技術的應用[J].計算機與網絡,2021,14(20):15-16.
[9] 王春明.在軟件工程中數據挖掘技術的應用探索[J].科技資訊,2021,12(19):42-44.
[10] 董倩玉.基于傳播學視角研究搜索引擎的發展[D].北京:北京外國語大學,2021(6):32-33.
[11] 孫雨生,李沁蕓,劉陽,等.國內可視化搜索引擎研究進展:領域應用與系統實現[J].圖書館理論與實踐,2018(3):14-15.