999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

面向語義文本的WEB數據挖掘研究

2009-09-29 08:58:18
新媒體研究 2009年14期

王 靜

[摘要]針對傳統的面向語義文本的WEB數據挖掘研究集中在文本信息特征處理方面而忽略了文本信息預處理的現狀,結合語義文本的WEB挖掘流程,采用最大匹配法對語義文本進行預處理,通過建立語義文本的索引機制減少對數據庫的訪問,從而提高文本WEB挖掘的效率,對于語義文本的WEB挖掘優化研究具有一定的借鑒意義。

[關鍵詞]語義化 WEB挖掘 算法研究

中圖分類號:TP3 文獻標識碼:A 文章編號:1671-7597(2009)0720053-01

一、引言

隨著網絡的飛速發展,傳統Web在信息顯示和處理上的不足之處也更加顯著,而語義網作為一種新型的網絡結構,較好地克服了這些問題,而基于語義的Web挖掘作為與這一趨勢相適應的技術,也必將成為Web挖掘研究的新熱點。

Web文本數據的挖掘是對Web頁面上的數據內容進行挖掘,它是從WWW的組織結構和鏈接關系中推導知識。Web內容挖掘通過分析一個網頁上的內容,建立數據庫,通過不同的數據庫之間的元記錄之間的關聯性獲得有關不同頁面間相似度和關聯度的信息規則,從而實現對WEB網頁上的語義內容的挖掘。

二、面向語義化的WEB文本挖掘分析

(一)挖掘流程。文本的WEB挖掘并不是一件容易的事情,尤其是在分析方法方面還有很多需要研究的專題。面向語義化的WEB文本挖掘一般可以分為以下幾個流程:

1.特征的抽取建立。與數據庫中的結構化數據相比,文檔無法直接提取結構,此外,現有的數據挖掘技術無法直接應用于文本數據,因此,需要對文本進行特征抽取,抽取代表其特征的元數據,這些特征可以用結構化的形式保存,作為文檔的中間表示形式。

2.特征集的縮減。當我們將文檔轉化為一種類似于關系數據庫中記錄的較規整且能反映文檔內容特征的表示文檔特征向量后,我們會發現一個不合人意的地方:文檔特征向量具有驚人的維數,使得特征集的縮減成為文本數據挖掘中必不可少的一步。

3.學習與知識模式的提取。完成文檔特征向量維數的縮減后,便可利用機器學習的各種方法來提取面向特定應用目的的知識模式。

4.模型質量的評價。對所獲取的知識模型進行質量評價,若評價的結果滿足一定的要求,則存儲該知識模式,否則返回到以前的某個環節分析改進后進行新一輪的挖掘工作。

(二)文本信息處理的優化設計。目前對于面向語義的文本WEB挖掘研究的較多,但是大多是面向如何提高特征的抽取效率及特征集的縮減而設計不同的算法,將算法集中在文本的特征抽取和特征集的建立上,對于文本內容的預處理方面,幾乎很少涉及,忽略了文本信息的索引機制,這也是造成目前面向語義文本的WEB挖掘算法效率偏低的主要原因。

在對文檔進行特征提取前,需要先進行文本信息的預處理,主要包括英文文本的stemming處理和中文文本的詞條切分。

在本論文中對中文自動分詞采用最大匹配算法。最大匹配法的思想是:從輸入流中取最大長度(本系統中取6)字符串,在詞典中進行查找,匹配則輸出,繼續取,否則,回溯,繼續查找,直到長度為1,此時需在輸入流中前進一格,此過程進行到取完輸入流。由此可以看出,此方法的思想簡單明了,便于實現,但該算法效率不會很高,因為需要頻繁進行數據庫查找。若能在匹配過程中減少數據庫操作,則有可能使效率提高。

我們在實現最大匹配法時,作了如下考慮:

Step1:對詞典建索引,并將輸入流放入字符串變量中;

Step2:取輸入流的當前字符,查找詞典將以當前字符開頭的詞條取出,放入記錄集變量中;

Step3:按照傳統的算法,在記錄集變量中進行匹配,并根據匹配情況將輸入流移動;

Step4:重復第2步,直至輸入流結束,退出。

由上面的處理過程可以看出,通過對詞典建索引,并將匹配操作均在記錄集中進行,從而避免了最大匹配法頻繁查找詞典的缺陷。這樣在允許一定的分詞錯誤率的情況下,通過減少查找數據庫的時間(特別是在詞典龐大的情況下),能使分詞速度提高。

文本信息經過上述的預處理,再采用目前主流的特征抽取算法及特征集的分類算法,即可實現面向語義文本的WEB快速挖掘。

(三)挖掘算法性能測試。為了比較本論文所提出的面向語義文本的預處理方法的有效性,將該方法與傳統的采用Apriori算法進數據挖掘的方法進行了對比仿真。用VisualC++在內存為512MB的C41.7G計算機上實現了Apriori算法與本論文提出的文本挖掘方法的性能比較。測試數據集共包括2個數據層各含有5個屬性,每個屬性泛化后有2~10個屬性值,采用的元模式形如P(t,x)∧Q(t,y)→R(t,z),而各層的最低支持度均為12%,最低信任均為50%。

測試了算法的隨記錄的增加時間的變化(時間復雜性),將測試數據庫的元組數從1000開始,逐漸遞增到5000。兩算法的時間復雜性數據曲線如圖1所示,從圖中可以發現,兩個算法的時間復雜性均較好,不過隨數據庫規模的增大,本論文所采用的挖掘方法,由于對文本信息進行了預處理,因而在執行時間更為迅速,而且在時間的增長上更為平緩一些,所以本論文提出的挖掘方法是可行的。

三、結語

語義Web上的數據挖掘算法可以應用于各種領域。例如當前Web上的搜索引擎主要是使用基于關鍵詞的查找策略,這使得查找效率非常低下,本研究課題通過運用對語義化的內容進行預處理實現了語義化的WEB快速挖掘,從而大大提高了Web搜索的工作效率。下一步的研究重點是在Web挖掘中如何利用語義Web上的本體知識,從而從本質上大大改進Web挖掘的結果和提高Web挖掘的效率。

參考文獻:

[1]Wang Jicheng,Huang Yuan,Wu Gangshan,Zhang Fuyan.Web mining:knowledge discovery on the Web Systems[C].Man,and Cybernetics,1999.IEEE SMC'99 Conference Proceedings.1999,116-121.

[2]T.R.Gruber.Towards Principles for the Design of Ontologies used for Knowledge Sharing[J].International Journal of Human-Computer Studies,1995,43:907-928.

[3]Ying Ding,Dieter Fensel.Ontology Library Systems:The Key to sueeessful Ontology Reuse.In The First Semantie Web Working SymPosium[C].Stanford University,California,USA,2001,(l):104-111.

[4]Chen J P,Bian F L,Fu Z L,et al.An Imp roved Algorithm of Apriori[J].Geomatics and Information Science of Wuhan University,2003,(1):94-99.

作者簡介:

王靜,女,北京人,長春理工大學光電信息學院-信息工程分院,助教。

主站蜘蛛池模板: 1024你懂的国产精品| 国产成人盗摄精品| 欧美一区国产| 视频二区欧美| 全裸无码专区| 欧美亚洲国产日韩电影在线| 夜夜拍夜夜爽| 国产浮力第一页永久地址| 精品人妻AV区| 久久精品人人做人人爽97| 波多野结衣无码中文字幕在线观看一区二区| 欧美成人午夜影院| 欧美一级大片在线观看| AⅤ色综合久久天堂AV色综合| 久久精品人人做人人爽97| 国产97视频在线观看| 青青青伊人色综合久久| 91人妻日韩人妻无码专区精品| 国产极品嫩模在线观看91| 中文字幕免费在线视频| 精品国产www| 国产成人福利在线视老湿机| 亚洲女人在线| 97免费在线观看视频| 午夜欧美在线| 成年片色大黄全免费网站久久| 免费一级无码在线网站| 久草性视频| 免费又黄又爽又猛大片午夜| 欧美三级不卡在线观看视频| 免费观看三级毛片| 亚洲福利网址| 手机看片1024久久精品你懂的| 国产亚洲高清在线精品99| 婷婷久久综合九色综合88| 欧美精品1区2区| 欧美成人亚洲综合精品欧美激情| 国产精品刺激对白在线| 中国成人在线视频| 久久久波多野结衣av一区二区| 久久人搡人人玩人妻精品| 日韩精品无码不卡无码| 97色婷婷成人综合在线观看| 欧美亚洲第一页| 在线国产91| 国产精品自在自线免费观看| 在线国产毛片| 国产97视频在线观看| 精品亚洲麻豆1区2区3区| 一本久道久综合久久鬼色| 亚洲欧美国产五月天综合| 国产人人射| 国产亚洲精久久久久久久91| 久久综合九九亚洲一区 | 欧美日韩第三页| 免费一级大毛片a一观看不卡| 亚洲国产精品成人久久综合影院| 国产成人一区在线播放| 久久精品日日躁夜夜躁欧美| 在线播放国产99re| 成年人久久黄色网站| 欧美日韩另类国产| 欧美激情视频一区| 99久久免费精品特色大片| 亚洲丝袜第一页| 国内精品自在自线视频香蕉| 666精品国产精品亚洲| 国产欧美专区在线观看| 免费毛片视频| 国产成人8x视频一区二区| 日韩二区三区无| 国产精品九九视频| 亚洲精品国产乱码不卡| 亚洲国产精品日韩专区AV| 国产亚洲欧美在线人成aaaa| 欧美成人综合在线| 日本亚洲国产一区二区三区| 香蕉久久永久视频| 亚洲天堂网视频| 色偷偷一区| 91欧美在线| 亚洲男人天堂2020|