摘要:由于現代企業的數據庫頻繁更新,且大部分數據庫為文本數據庫,所以需要挖掘時態文本的關聯規則。本文以時態文本為對象進行了時態關聯規則的研究,最后通過實驗進行了有效性驗證,結果表明該研究方法是正確可行的。
關鍵詞:文本 時態 關聯規則 垂直數據 有效時間
引言
現代化的企業搜集了大量時態文本數據,但信息超載和無結構化,使得企業決策部門無法有效利用現存的信息,時態數據挖掘技術便應運而生。目前有關時態關聯規則算法已較多,但是如果運用到時態文本關聯規則的挖掘中則時間復雜度都太高。所以本文將對時態文本關聯規則挖掘進行研究。
1.時態文本預處理
1.1時態文本處理
在挖掘時態文本關聯規則之前,需要先對文本進行預處理,對英文而言需進行Stemming處理[5],中文的情況則不同,因為中文詞和詞之間沒有固定的間隔,需進行分詞處理。
對于本文研究的是醫學病毒論文數據庫,是一個英文數據庫,文本預處理的具體內容如下:
①英文大寫換小寫(都以小寫字母表示,方便文本識別);②刪除空白記錄;③將論文信息中的標題和摘要進行(可以提高關鍵詞的比重,增加提取文本向量的精度);④處理論文發表時間DP列,只保留年份數字,方便提取有效時間;⑤對于記錄太多的庫,適當拆分表格(否則在程序處理時會內存溢出);⑥根據文本內容提取合適的停用詞表,對文本內容進行去停用詞處理。
1.2 時態文本表示
在對時態文本進行清理后,需將其進行表示。在文本處理時我們已提取論文的發表時間,所以將時間和文本分列處理,然后將文本單獨表示。本文采用向量空間模型(VSM,Vector Space Model)進行表示[6]。
2.時態關聯規則算法概述
以前的算法不能有效應用到時態文本數據庫中,主要原因有:1)這些算法計算時時間復雜度仍太高。2)沒有考慮每個獨立文本項各自存在的有效時間;3)每個項目缺少一個合理的可以浮動的支持度數。所以本文根據時態事件模型及Apriori原則,本文在快速更新算法思想上產生新的算法:SPFM(Segment-Progressive-Filter-Miner)
該算法主要包括三步:1.數據庫不斷更新;2.對數據庫按不同時間段進行劃分;3.對每個時間段的事務集挖掘頻繁項集。拆分后的數據庫,每個階段部分有不同的支持度閾值,我們按不同的支持度閾值進行計算來產生候選項集。
SPFM算法主要有三個特點:1)算法預處理時將文本數據轉換成垂直數據格式,可大大提高程序效率;2)在挖掘時態數據庫的頻繁項集時,通過更新不同時間粒度的支持度數來確定頻繁項集,并判斷頻繁項集在時間粒度上的連續性;3)如2)所述,時態數據庫是和時間粒度有關的,那么從時態數據庫挖掘出的關聯規則也應該是和時間粒度有關的,即存在“有效時間”,本算法引入一種判斷機制,使得發現的有效時間是由頻繁項集本身決定的,最終我們獲得的是一組浮動的“有效時間”。
3.實驗測試
為了測試SPFM的算法性能,用Visual C++進行編程。對象為醫學病毒論文數據庫中1970~2010年間約50萬條的記錄,每條記錄的屬性包括fileno(論文標號)、TI(標題)、AB(摘要)、DP(發表時間)等。以“年”作為時間粒度,將數據庫劃分為40個階段部分。minsup為0.5‰,minconf為35%,然后進行頻繁項集的挖掘,并確定每個頻繁項集的有效時間,依次循環直至2010年為止。
比如rous(含鐵血黃素)和sarcoma(1979年、1981年、1983年),都是強關聯規則,且COS判斷值為0.8165>0.5,說明該規則有意義,這兩者在1979~1983年是一個共同研究熱點,它們之間有可能存在一些密切的聯系,在醫學上也可以深入研究。
通過對醫學文本數據庫的挖掘,我們挖掘出上百條時態文本關聯規則,從這些規則當中我們能得到近40年學者們對病毒研究的規律以及病毒的發展規律,這些規律會是對以往病毒研究的較好總結,也會有助于更有效地治療已產生的病毒。
在文本數據挖掘技術已經日漸成熟的背景下,把時態數據與文本挖掘聯合起來,可將時態文本數據挖掘應用于醫學、經營、管理等各個方面,通過對海量的時態文本數據進行關聯分析,為管理者做決策提供參考數據;還能為新的經營模式提供目標和思路,減少盲目性,以獲得更大利益。
4.結束語
本文提出了對醫學病毒論文數據庫中的時態文本如何進行預處理,需先將時間和文本分為不同的列,將文本表示為向量空間模型。然后確實頻繁項集的有效時間,將文本數據轉換成垂直數據格式,再通過新的算法挖掘頻繁項集,最后對時態文進行強關聯規則的挖掘。該實驗是對時態文本進行預處理后再進行關聯規則挖掘的,最后驗證了該算法的有效性。
參考文獻:
[1] 潘定.持續時態數據挖掘及其實現機制[M].北京:經濟科學出版社,2008:36
作者簡介:
張春燕(1987- ),女,碩士生,主要研究方向為數據挖掘;
孟志青(1962- ),男,博士,教授,博士生導師,主要研究方向為數據挖掘與數據倉庫、管理信息系統、最優化理論、信用風險;
袁沛(1988- ),男,博士生,主要研究方向為計算機圖形。