【摘 要】隨著網絡信息的迅速發展,網絡信息量日益增加,怎樣從海量的網絡上提取有用的信息是Web文本挖掘技術的重要應用方向。本文提出一種Web文本挖掘系統的設計模型,為實現更深層次的信息處理做準備。
【關鍵詞】文本挖掘 Web 信息處理
【中圖分類號】TP393 【文獻標識碼】A 【文章編號】1674-4810(2011)10-0032-01
一 引言
Web挖掘從數據挖掘發展而來,因此,其定義與我們熟知的數據挖掘定義相類似。但是,Web挖掘與傳統的數據挖掘相比有許多獨特之處,Web挖掘的對象是大量、異質、分布的Web文檔。由于Web文檔本身是半結構化或無結構的,且缺乏機器可理解的語義,因此,有些數據挖掘技術并不適用于Web挖掘,即使可用也需要建立在對Web文檔進行預處理的基礎之上。
二 Web文本挖掘系統的設計
Web文本挖掘系統能自由漫游Web站點,在Web上能按照某種策略進行遠程數據的搜索與獲取,并將挖掘文本集合在系統的本地數據庫中。系統原型圖,見圖1。
1.文檔采集器
利用信息訪問技術將分布在多個Web服務器上的待挖掘文檔集成在Web挖掘系統的本地數據庫中。
2.文本預處理器
利用啟發式規則和自然語言處理技術從文本中抽取出代表其特征的元數據,并存放在文本特征庫中,作為文本挖掘的基礎。
3.文本分類器
利用其內部知識庫,按照預定義的類別層次,對文檔集合或者其中的部分子集合內容進行分類。
4.文本聚類器
利用其內部知識庫對文檔集合或其中的部分子集的內容進行聚類。
5.多維文本分析引擎
Web文本挖掘系統以引進文本超立方體模型和多維文本分析技術,為用戶提供關于文檔的多維視圖。多維文本分析引擎還具有統計、分析功能,從而能夠揭示文檔集合的特征分布和趨勢。此外,多維文本分析引擎還可以對大量文檔的集合進行特征修剪,包括橫向文檔選擇和縱向特征投影兩種方式。
6.用戶接口模塊
在用戶與多維文本分析引擎之間起橋梁作用。它為用戶提供可視化的接口,將用戶的請求轉化為專用語言傳遞給多維文本分析引擎,并將多維文本分析引擎返回的多維文本視圖和文檔展示給用戶。
三 Web文檔的采集
1.Web文檔采集器的設計
文檔采集器設計圖如圖2所示,搜索代理模塊相當于搜集控制模塊的子進程。功能是從管道里獲取URL,通過操作系統提供的SOCKET套接字STREAMS通訊方式,利用HTTP協議,獲取指定URL的HTML文檔。此模塊也是一個客戶進程,它向遠程WWW服務器發出請求,再根據返回狀態信息進行處理。
通過對HTML文檔的遍歷,發現文檔中ANCHOR所對應URL于它的相關值。系統中維護一個URL鏈表,若URL是符合要求的,就把它和相關值寫入URL鏈表。否則忽略掉它,最后把URL鏈表傳給搜集控制模塊。
2.Web抓取
搜集代理模塊讀取管道中URL,根據一個個URL調用loadfile下載網頁,同時將這些下載后的HTML文檔和圖片保持原有的相對關系,放在應用程序所在的目錄之下。
搜集代理模塊直接對放入管道的URL進行分析,將不符合條件的URL剔除。將符合條件的URL根據它的路徑信息一級一級地創建文件夾,在創建的同時改變路徑,最后調用loadtofile從URL指定的Web站點上獲取一個被請求的文檔或圖片。當管道中所有URL都處理完后,下載完畢。
四 結論
通過對Web文本挖掘,從來自異構數據源的大規模文本信息資源中,在知識層面上更加準確地過濾和提取符合需要的部分,整理成簡潔、精煉、可理解的知識,從側面提高信息化的水平,為國家的信息化建設服務。
參考文獻
[1]史忠植.中國計算機學會學術著作叢書:知識發現[M].北京:清華大學出版,2002
〔責任編輯:王以富〕
注:本文中所涉及到的圖表、注解、公式等內容請以PDF格式閱讀原文