面向語義文本的ＷＥＢ數據挖掘研究

2009-09-29 08:58:18王靜

新媒體研究 2009年14期

王　靜

[摘要]針對傳統的面向語義文本的WEB數據挖掘研究集中在文本信息特征處理方面而忽略了文本信息預處理的現狀，結合語義文本的WEB挖掘流程，采用最大匹配法對語義文本進行預處理，通過建立語義文本的索引機制減少對數據庫的訪問，從而提高文本WEB挖掘的效率，對于語義文本的WEB挖掘優化研究具有一定的借鑒意義。

[關鍵詞]語義化 WEB挖掘算法研究

中圖分類號：TP3 文獻標識碼：A 文章編號：1671－7597（2009）0720053－01

一、引言

隨著網絡的飛速發展，傳統Web在信息顯示和處理上的不足之處也更加顯著，而語義網作為一種新型的網絡結構，較好地克服了這些問題，而基于語義的Web挖掘作為與這一趨勢相適應的技術，也必將成為Web挖掘研究的新熱點。

Web文本數據的挖掘是對Web頁面上的數據內容進行挖掘，它是從WWW的組織結構和鏈接關系中推導知識。Web內容挖掘通過分析一個網頁上的內容，建立數據庫，通過不同的數據庫之間的元記錄之間的關聯性獲得有關不同頁面間相似度和關聯度的信息規則，從而實現對WEB網頁上的語義內容的挖掘。

二、面向語義化的WEB文本挖掘分析

（一）挖掘流程。文本的WEB挖掘并不是一件容易的事情，尤其是在分析方法方面還有很多需要研究的專題。面向語義化的WEB文本挖掘一般可以分為以下幾個流程：

1．特征的抽取建立。與數據庫中的結構化數據相比，文檔無法直接提取結構，此外，現有的數據挖掘技術無法直接應用于文本數據，因此，需要對文本進行特征抽取，抽取代表其特征的元數據，這些特征可以用結構化的形式保存，作為文檔的中間表示形式。

2．特征集的縮減。當我們將文檔轉化為一種類似于關系數據庫中記錄的較規整且能反映文檔內容特征的表示文檔特征向量后，我們會發現一個不合人意的地方：文檔特征向量具有驚人的維數，使得特征集的縮減成為文本數據挖掘中必不可少的一步。

3．學習與知識模式的提取。完成文檔特征向量維數的縮減后，便可利用機器學習的各種方法來提取面向特定應用目的的知識模式。

4．模型質量的評價。對所獲取的知識模型進行質量評價，若評價的結果滿足一定的要求，則存儲該知識模式，否則返回到以前的某個環節分析改進后進行新一輪的挖掘工作。

（二）文本信息處理的優化設計。目前對于面向語義的文本WEB挖掘研究的較多，但是大多是面向如何提高特征的抽取效率及特征集的縮減而設計不同的算法，將算法集中在文本的特征抽取和特征集的建立上，對于文本內容的預處理方面，幾乎很少涉及，忽略了文本信息的索引機制，這也是造成目前面向語義文本的WEB挖掘算法效率偏低的主要原因。

在對文檔進行特征提取前，需要先進行文本信息的預處理，主要包括英文文本的stemming處理和中文文本的詞條切分。

在本論文中對中文自動分詞采用最大匹配算法。最大匹配法的思想是：從輸入流中取最大長度（本系統中取6）字符串，在詞典中進行查找，匹配則輸出，繼續取，否則，回溯，繼續查找，直到長度為1，此時需在輸入流中前進一格，此過程進行到取完輸入流。由此可以看出，此方法的思想簡單明了，便于實現，但該算法效率不會很高，因為需要頻繁進行數據庫查找。若能在匹配過程中減少數據庫操作，則有可能使效率提高。

我們在實現最大匹配法時，作了如下考慮：

Step1：對詞典建索引，并將輸入流放入字符串變量中；

Step2：取輸入流的當前字符，查找詞典將以當前字符開頭的詞條取出，放入記錄集變量中；

Step3：按照傳統的算法，在記錄集變量中進行匹配，并根據匹配情況將輸入流移動；

Step4：重復第2步，直至輸入流結束，退出。

由上面的處理過程可以看出，通過對詞典建索引，并將匹配操作均在記錄集中進行，從而避免了最大匹配法頻繁查找詞典的缺陷。這樣在允許一定的分詞錯誤率的情況下，通過減少查找數據庫的時間（特別是在詞典龐大的情況下），能使分詞速度提高。

文本信息經過上述的預處理，再采用目前主流的特征抽取算法及特征集的分類算法，即可實現面向語義文本的WEB快速挖掘。

（三）挖掘算法性能測試。為了比較本論文所提出的面向語義文本的預處理方法的有效性，將該方法與傳統的采用Apriori算法進數據挖掘的方法進行了對比仿真。用VisualC++在內存為512MB的C41.7G計算機上實現了Apriori算法與本論文提出的文本挖掘方法的性能比較。測試數據集共包括2個數據層各含有5個屬性，每個屬性泛化后有2～10個屬性值，采用的元模式形如P(t，x)∧Q(t，y)→R(t，z)，而各層的最低支持度均為12%，最低信任均為50%。

測試了算法的隨記錄的增加時間的變化（時間復雜性），將測試數據庫的元組數從1000開始，逐漸遞增到5000。兩算法的時間復雜性數據曲線如圖1所示，從圖中可以發現，兩個算法的時間復雜性均較好，不過隨數據庫規模的增大，本論文所采用的挖掘方法，由于對文本信息進行了預處理，因而在執行時間更為迅速，而且在時間的增長上更為平緩一些，所以本論文提出的挖掘方法是可行的。

三、結語

語義Web上的數據挖掘算法可以應用于各種領域。例如當前Web上的搜索引擎主要是使用基于關鍵詞的查找策略，這使得查找效率非常低下，本研究課題通過運用對語義化的內容進行預處理實現了語義化的WEB快速挖掘，從而大大提高了Web搜索的工作效率。下一步的研究重點是在Web挖掘中如何利用語義Web上的本體知識，從而從本質上大大改進Web挖掘的結果和提高Web挖掘的效率。

參考文獻：

[1]Wang Jicheng,Huang Yuan,Wu Gangshan,Zhang Fuyan.Web mining:knowledge discovery on the Web Systems[C].Man,and Cybernetics,1999.IEEE SMC'99 Conference Proceedings.1999,116-121.

[2]T.R.Gruber.Towards Principles for the Design of Ontologies used for Knowledge Sharing[J].International Journal of Human-Computer Studies,1995,43:907-928.

[3]Ying Ding,Dieter Fensel.Ontology Library Systems:The Key to sueeessful Ontology Reuse.In The First Semantie Web Working SymPosium[C].Stanford University,California,USA,2001,(l):104-111.

[4]Chen J P,Bian F L,Fu Z L,et al.An Imp roved Algorithm of Apriori[J].Geomatics and Information Science of Wuhan University,2003,(1):94-99.

作者簡介：

王靜，女，北京人，長春理工大學光電信息學院-信息工程分院，助教。

新媒體研究2009年14期

新媒體研究的其它文章: 中國小城鎮建設的協調發展; 淺談遵義市水文現代化建設; 學習、創新、實干; 校園平安的三道“防火墻”; 三維電腦動畫技術概論; 淺談中日園林的造園共性