999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

WEB文本信息的提取

2011-12-31 00:00:00易麗萍章勝江
學園 2011年10期

【摘 要】隨著網絡信息的迅速發展,網絡信息量日益增加,怎樣從海量的網絡上提取有用的信息是Web文本挖掘技術的重要應用方向。本文提出一種Web文本挖掘系統的設計模型,為實現更深層次的信息處理做準備。

【關鍵詞】文本挖掘 Web 信息處理

【中圖分類號】TP393 【文獻標識碼】A 【文章編號】1674-4810(2011)10-0032-01

一 引言

Web挖掘從數據挖掘發展而來,因此,其定義與我們熟知的數據挖掘定義相類似。但是,Web挖掘與傳統的數據挖掘相比有許多獨特之處,Web挖掘的對象是大量、異質、分布的Web文檔。由于Web文檔本身是半結構化或無結構的,且缺乏機器可理解的語義,因此,有些數據挖掘技術并不適用于Web挖掘,即使可用也需要建立在對Web文檔進行預處理的基礎之上。

二 Web文本挖掘系統的設計

Web文本挖掘系統能自由漫游Web站點,在Web上能按照某種策略進行遠程數據的搜索與獲取,并將挖掘文本集合在系統的本地數據庫中。系統原型圖,見圖1。

1.文檔采集器

利用信息訪問技術將分布在多個Web服務器上的待挖掘文檔集成在Web挖掘系統的本地數據庫中。

2.文本預處理器

利用啟發式規則和自然語言處理技術從文本中抽取出代表其特征的元數據,并存放在文本特征庫中,作為文本挖掘的基礎。

3.文本分類器

利用其內部知識庫,按照預定義的類別層次,對文檔集合或者其中的部分子集合內容進行分類。

4.文本聚類器

利用其內部知識庫對文檔集合或其中的部分子集的內容進行聚類。

5.多維文本分析引擎

Web文本挖掘系統以引進文本超立方體模型和多維文本分析技術,為用戶提供關于文檔的多維視圖。多維文本分析引擎還具有統計、分析功能,從而能夠揭示文檔集合的特征分布和趨勢。此外,多維文本分析引擎還可以對大量文檔的集合進行特征修剪,包括橫向文檔選擇和縱向特征投影兩種方式。

6.用戶接口模塊

在用戶與多維文本分析引擎之間起橋梁作用。它為用戶提供可視化的接口,將用戶的請求轉化為專用語言傳遞給多維文本分析引擎,并將多維文本分析引擎返回的多維文本視圖和文檔展示給用戶。

三 Web文檔的采集

1.Web文檔采集器的設計

文檔采集器設計圖如圖2所示,搜索代理模塊相當于搜集控制模塊的子進程。功能是從管道里獲取URL,通過操作系統提供的SOCKET套接字STREAMS通訊方式,利用HTTP協議,獲取指定URL的HTML文檔。此模塊也是一個客戶進程,它向遠程WWW服務器發出請求,再根據返回狀態信息進行處理。

通過對HTML文檔的遍歷,發現文檔中ANCHOR所對應URL于它的相關值。系統中維護一個URL鏈表,若URL是符合要求的,就把它和相關值寫入URL鏈表。否則忽略掉它,最后把URL鏈表傳給搜集控制模塊。

2.Web抓取

搜集代理模塊讀取管道中URL,根據一個個URL調用loadfile下載網頁,同時將這些下載后的HTML文檔和圖片保持原有的相對關系,放在應用程序所在的目錄之下。

搜集代理模塊直接對放入管道的URL進行分析,將不符合條件的URL剔除。將符合條件的URL根據它的路徑信息一級一級地創建文件夾,在創建的同時改變路徑,最后調用loadtofile從URL指定的Web站點上獲取一個被請求的文檔或圖片。當管道中所有URL都處理完后,下載完畢。

四 結論

通過對Web文本挖掘,從來自異構數據源的大規模文本信息資源中,在知識層面上更加準確地過濾和提取符合需要的部分,整理成簡潔、精煉、可理解的知識,從側面提高信息化的水平,為國家的信息化建設服務。

參考文獻

[1]史忠植.中國計算機學會學術著作叢書:知識發現[M].北京:清華大學出版,2002

〔責任編輯:王以富〕

注:本文中所涉及到的圖表、注解、公式等內容請以PDF格式閱讀原文

主站蜘蛛池模板: 韩国自拍偷自拍亚洲精品| 国产成人福利在线| 中文字幕亚洲无线码一区女同| 亚洲欧美综合在线观看| 日韩午夜福利在线观看| 久久窝窝国产精品午夜看片| 亚洲VA中文字幕| 久精品色妇丰满人妻| 欧美精品在线视频观看| 99伊人精品| 一级毛片在线播放免费| 黄色网页在线播放| 99热这里只有精品免费| 国产免费福利网站| 欧美国产综合色视频| 欧美伦理一区| 97国产在线播放| 亚洲一道AV无码午夜福利| 国产毛片高清一级国语| 91色在线视频| 亚洲天堂视频在线播放| 黑色丝袜高跟国产在线91| 欧美成人日韩| 国内精品久久久久鸭| 国产自无码视频在线观看| 国产成人欧美| 亚洲日韩精品伊甸| 九色免费视频| 在线观看精品自拍视频| 精品人妻AV区| 国产成人av大片在线播放| 一本大道无码日韩精品影视| 在线无码九区| 亚洲欧美精品一中文字幕| 亚洲综合色区在线播放2019| 第一区免费在线观看| 亚洲天堂高清| 亚洲色图在线观看| 首页亚洲国产丝袜长腿综合| 免费不卡在线观看av| 她的性爱视频| 久久www视频| 久久黄色免费电影| 美女一级免费毛片| 亚洲无码37.| 18禁色诱爆乳网站| 亚洲国产综合第一精品小说| 国产玖玖视频| 欧美精品在线视频观看| 十八禁美女裸体网站| 免费看的一级毛片| 国产性精品| 亚洲一区免费看| 免费人成在线观看成人片| 亚洲无码不卡网| 国产欧美日韩专区发布| 亚洲精品无码AⅤ片青青在线观看| 久久99精品久久久久纯品| 国产精品久久久精品三级| 麻豆AV网站免费进入| 久久综合色88| 欧美午夜视频在线| 蜜臀AV在线播放| 91在线日韩在线播放| m男亚洲一区中文字幕| 免费在线播放毛片| 欧美精品三级在线| 精品亚洲欧美中文字幕在线看| 亚洲综合在线最大成人| 69综合网| 亚洲人成人无码www| 国产欧美日韩精品综合在线| 久久6免费视频| 国产成人精品免费视频大全五级| 美女无遮挡免费视频网站| 成人一级黄色毛片| 伦伦影院精品一区| 99久久成人国产精品免费| 992tv国产人成在线观看| 91免费在线看| 青草国产在线视频| 国产第一页免费浮力影院|