時態文本挖掘的關聯規則研究

2012-04-12 00:00:00張春燕孟志青袁沛

現代營銷·學苑版 2012年10期

摘要：由于現代企業的數據庫頻繁更新，且大部分數據庫為文本數據庫，所以需要挖掘時態文本的關聯規則。本文以時態文本為對象進行了時態關聯規則的研究，最后通過實驗進行了有效性驗證，結果表明該研究方法是正確可行的。

關鍵詞：文本時態關聯規則垂直數據有效時間

引言

現代化的企業搜集了大量時態文本數據，但信息超載和無結構化，使得企業決策部門無法有效利用現存的信息，時態數據挖掘技術便應運而生。目前有關時態關聯規則算法已較多，但是如果運用到時態文本關聯規則的挖掘中則時間復雜度都太高。所以本文將對時態文本關聯規則挖掘進行研究。

1.時態文本預處理

1.1時態文本處理

在挖掘時態文本關聯規則之前，需要先對文本進行預處理，對英文而言需進行Stemming處理[5]，中文的情況則不同，因為中文詞和詞之間沒有固定的間隔，需進行分詞處理。

對于本文研究的是醫學病毒論文數據庫，是一個英文數據庫，文本預處理的具體內容如下：

①英文大寫換小寫（都以小寫字母表示，方便文本識別）；②刪除空白記錄；③將論文信息中的標題和摘要進行（可以提高關鍵詞的比重，增加提取文本向量的精度）；④處理論文發表時間DP列，只保留年份數字，方便提取有效時間；⑤對于記錄太多的庫，適當拆分表格（否則在程序處理時會內存溢出）；⑥根據文本內容提取合適的停用詞表，對文本內容進行去停用詞處理。

1.2 時態文本表示

在對時態文本進行清理后，需將其進行表示。在文本處理時我們已提取論文的發表時間，所以將時間和文本分列處理，然后將文本單獨表示。本文采用向量空間模型（VSM，Vector Space Model）進行表示[6]。

2.時態關聯規則算法概述

以前的算法不能有效應用到時態文本數據庫中，主要原因有：1）這些算法計算時時間復雜度仍太高。2）沒有考慮每個獨立文本項各自存在的有效時間；3）每個項目缺少一個合理的可以浮動的支持度數。所以本文根據時態事件模型及Apriori原則，本文在快速更新算法思想上產生新的算法：SPFM（Segment-Progressive-Filter-Miner）

該算法主要包括三步：1.數據庫不斷更新；2.對數據庫按不同時間段進行劃分；3.對每個時間段的事務集挖掘頻繁項集。拆分后的數據庫，每個階段部分有不同的支持度閾值，我們按不同的支持度閾值進行計算來產生候選項集。

SPFM算法主要有三個特點：1）算法預處理時將文本數據轉換成垂直數據格式，可大大提高程序效率；2）在挖掘時態數據庫的頻繁項集時，通過更新不同時間粒度的支持度數來確定頻繁項集，并判斷頻繁項集在時間粒度上的連續性；3）如2）所述，時態數據庫是和時間粒度有關的，那么從時態數據庫挖掘出的關聯規則也應該是和時間粒度有關的，即存在“有效時間”，本算法引入一種判斷機制，使得發現的有效時間是由頻繁項集本身決定的，最終我們獲得的是一組浮動的“有效時間”。

3.實驗測試

為了測試SPFM的算法性能，用Visual C++進行編程。對象為醫學病毒論文數據庫中1970～2010年間約50萬條的記錄，每條記錄的屬性包括fileno（論文標號）、TI（標題）、AB（摘要）、DP（發表時間）等。以“年”作為時間粒度，將數據庫劃分為40個階段部分。minsup為0.5‰，minconf為35%，然后進行頻繁項集的挖掘，并確定每個頻繁項集的有效時間，依次循環直至2010年為止。

比如rous（含鐵血黃素）和sarcoma（1979年、1981年、1983年），都是強關聯規則，且COS判斷值為0.8165>0.5，說明該規則有意義，這兩者在1979～1983年是一個共同研究熱點，它們之間有可能存在一些密切的聯系，在醫學上也可以深入研究。

通過對醫學文本數據庫的挖掘，我們挖掘出上百條時態文本關聯規則，從這些規則當中我們能得到近40年學者們對病毒研究的規律以及病毒的發展規律，這些規律會是對以往病毒研究的較好總結，也會有助于更有效地治療已產生的病毒。

在文本數據挖掘技術已經日漸成熟的背景下，把時態數據與文本挖掘聯合起來，可將時態文本數據挖掘應用于醫學、經營、管理等各個方面，通過對海量的時態文本數據進行關聯分析，為管理者做決策提供參考數據；還能為新的經營模式提供目標和思路，減少盲目性，以獲得更大利益。

4.結束語

本文提出了對醫學病毒論文數據庫中的時態文本如何進行預處理，需先將時間和文本分為不同的列，將文本表示為向量空間模型。然后確實頻繁項集的有效時間，將文本數據轉換成垂直數據格式，再通過新的算法挖掘頻繁項集，最后對時態文進行強關聯規則的挖掘。該實驗是對時態文本進行預處理后再進行關聯規則挖掘的，最后驗證了該算法的有效性。

參考文獻：

[1] 潘定.持續時態數據挖掘及其實現機制[M].北京：經濟科學出版社，2008：36

作者簡介：

張春燕（1987- ），女，碩士生，主要研究方向為數據挖掘；

孟志青（1962- ），男，博士，教授，博士生導師，主要研究方向為數據挖掘與數據倉庫、管理信息系統、最優化理論、信用風險；

袁沛（1988- ），男，博士生，主要研究方向為計算機圖形。

現代營銷·學苑版2012年10期

現代營銷·學苑版的其它文章: 淺議吉林省農村低保的進展情況及成效; 基于中國企業社會責任現狀分析及建議; 個人消費者在電子商務模式下消費心理淺析; 淺析2008年以來的財政政策對廣東中小企業的影響; 我國公益出版服務模式的多元化探析; 煤炭企業產品營銷存在問題剖析及改進策略探討