馮 雷 魏巍巍
北京信息職業技術學院 100018
數據挖掘及其在網絡信息檢索中的運用
馮 雷 魏巍巍
北京信息職業技術學院 100018
網絡信息檢索對于幫助人們迅速獲取有效信息,提升知識儲備具有非常重要的意義。數據挖掘技術在網絡信息檢索中的應用將能夠有效提升檢索效率。這項技術的應用將能夠使得網絡信息檢索變得更加精準、更加個性化和智能化。本文將重點探討數據挖掘在網絡信息檢索中的運用情況。
數據挖掘;網絡信息;結構挖掘
在互聯網技術快速發展的背景下,人們看到的信息也是海量增長。在海量信息海洋中如何快速有效獲取自身有用信息是人們高效率工作的關鍵。為了能夠達到這一目的就需要提升網絡信息檢索水平,通過利用數據挖掘技術從而達到快速獲取有用信息的目的。
所謂數據挖掘實際上就是要從大量數據中利用專門算法來搜索隱藏其中的特定信息的過程。在互聯網時代數據挖掘技術在實際工作中所發揮的影響越來越大,加強對這門技術的研究已經成為當務之急。通過數據挖掘就是要把那些沒有加工的數據轉變成有用信息。在網絡信息檢索過程中利用數據挖掘技術間將能夠進一步增強信息檢索能力。不僅如此還能夠實現對數據未來走勢的科學預測。應該看到數據挖掘是一種比信息檢索層次更高的技術。信息時代數據挖掘技術所發揮的影響將會越來越大。
當前互聯網已經成為人們日常生活中不可或缺的一部分,以互聯網依靠,各種信息實現了快速傳播。網絡信息資源變得異常豐富,在互聯網上人們將能夠獲取各種信息。當前的網絡信息已經成為知識和信息的集合,已經成為當前一種非常寶貴的財富。同傳統信息相比,網絡信息有其自身特點,深入分析就會發現其具有以下特點:
(一)數量龐大、種類繁多以及傳播范圍廣。互聯網上的信息是非常龐大的,從種類上來看也能夠分為多種類別。圖文、文本、數據、視頻、圖像以及音頻是典型的信息傳播載體。從信息內容上來看不僅有健康信息,同時也是有虛假和有害信息的。有害和虛假信息將會對人們產生很大危害。因此就需要采取措施來對這些信息進行有效甄別。網絡信息分類的一個很重要的功能就是要防止這些信息流傳。
(二)管理困難。從當前實際情況來看網絡信息資源更新快、傳播范圍廣、影響更大。再這樣的背景下要想實現對網絡信息的有效管理就顯得非常難。網絡信息本身是自由發布的,從信息來源上來看也是非常廣泛的,信息源的差異性就會對信息質量產生直接影響,信息質量難以得到保證是網絡信息的典型特征。對此在今后工作中必須要引起認識。
(三)管理機制多樣。從當前對網絡信息的管理來看,目前還沒有統一的管理機制,因此這就會使得網絡信息安全會缺乏一定保障。不少大型網絡公司雖然設計了一些管理制度,但是從實際情況來看仍然存在著管理機制多樣化的問題。這樣在實際管理過程中就會變得困難。
數據挖掘技術在網絡信息檢索中的應用已經成為今后發展的必然趨勢,在實際應用過程中所發揮的影響將會變得越來越大。對于其具體應用情況,本文認為主要是表現在以下幾個方面:
(一)結構挖掘。結構挖掘是數據挖掘在網絡信息檢索中的典型應用,結構挖掘實際上就是要挖掘Web潛在鏈結構模式,之后通過Web組織結構和鏈接關系將能夠提供豐富的信息,這些信息大多是關于Web內容相關質量、結構方面的信息。通過結構挖掘將能夠發揮非常重要的作用。
結構挖掘本身可以分為網絡引用挖掘和網絡結構挖掘這兩種形式。引用挖掘實際上就是要對各個Web站點之間的鏈接關系來進行分析,通過對這一關系的分析將能夠使得人們了解哪些網頁被連接次數最多,這樣就能夠分析出哪些網頁是比較重要的。結構挖掘實際上就是要對網站結構進行科學分析。
(二)內容挖掘。所謂內容挖掘實際上就是要從網絡內容、數據、文檔中來發現有用信息。從實際情況來看Web資源分布范圍是非常廣泛且類型多樣的。在實際工作中為了能夠準確獲取信息就需要網絡頁面內容挖掘和搜索結果再挖掘。對于頁面內容通常是要采用文本挖掘的方式,利用文本挖掘來直接挖掘Web文檔內容或者關鍵信息,之后還要通過間接形式來對文檔內容進行摘要或者解釋。對于搜索結果的挖掘實際上就是要利用其他信息檢索工具來對檢索結果進行再次挖掘。有些系統就是通過對搜索引擎查詢結果的分析從而來提煉出更加合適的結果。URL、內容類型、超文本鏈接等都是可以進行專門提煉的。在提煉之后則是要對其分類并且文檔可視化從而顯示出來。
(三)使用挖掘。通過網絡信息用法挖掘,可以充分的了解用戶的網絡數據實際意義。網絡信息內容挖掘和網絡信息結構挖掘主要是針對原始數據的,而網絡信息用法挖掘主要是針對用戶和網絡交互的過程中產生的數據。這些數據類型包括很多:用戶對網絡服務器的訪問記錄、瀏覽器日志記錄、用戶的個人信息、用戶額交易信息等等。運用網絡信息用法挖掘技術能夠有效的從服務器以及瀏覽器端的日志記錄中發現隱藏在網絡數據中的一些無法通過索引獲取的模式信息,還可以了解用戶對網絡系統的訪問模式以及在網絡上所進行的行為模式,從而對其作出預測性分析。
數據挖掘在網絡信息檢索中的應用是時代發展的必然趨勢,在今后工作中為了能夠滿足實際需要就應該加強對數據挖掘技術的研究,通過對此研究從而來了解今后發展趨勢。
[1]李村合.網絡信息挖掘技術及其應用研究[J].情報科學,2008.
[2]葉云,萬明明.網絡信息挖掘技術探討[J].廣西大學學報,2007.
[3]黃曉斌.網絡信息挖掘[M].北京:電子工業出版社,2005.1.
馮雷(1978-),女,北京人,北京信息職業技術學院軟件與信息工程學院,教師,工程碩士,從事計算機信息管理專業,市場調查等方向研究。
魏巍巍(1980-),女,北京人,北京信息職業技術學院軟件與信息工程學院,教師,工程碩士,從事計算機信息管理專業,空間信息技術等方向研究。