999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

時態文本挖掘的關聯規則研究

2012-04-12 00:00:00張春燕孟志青袁沛
現代營銷·學苑版 2012年10期

摘要:由于現代企業的數據庫頻繁更新,且大部分數據庫為文本數據庫,所以需要挖掘時態文本的關聯規則。本文以時態文本為對象進行了時態關聯規則的研究,最后通過實驗進行了有效性驗證,結果表明該研究方法是正確可行的。

關鍵詞:文本 時態 關聯規則 垂直數據 有效時間

引言

現代化的企業搜集了大量時態文本數據,但信息超載和無結構化,使得企業決策部門無法有效利用現存的信息,時態數據挖掘技術便應運而生。目前有關時態關聯規則算法已較多,但是如果運用到時態文本關聯規則的挖掘中則時間復雜度都太高。所以本文將對時態文本關聯規則挖掘進行研究。

1.時態文本預處理

1.1時態文本處理

在挖掘時態文本關聯規則之前,需要先對文本進行預處理,對英文而言需進行Stemming處理[5],中文的情況則不同,因為中文詞和詞之間沒有固定的間隔,需進行分詞處理。

對于本文研究的是醫學病毒論文數據庫,是一個英文數據庫,文本預處理的具體內容如下:

①英文大寫換小寫(都以小寫字母表示,方便文本識別);②刪除空白記錄;③將論文信息中的標題和摘要進行(可以提高關鍵詞的比重,增加提取文本向量的精度);④處理論文發表時間DP列,只保留年份數字,方便提取有效時間;⑤對于記錄太多的庫,適當拆分表格(否則在程序處理時會內存溢出);⑥根據文本內容提取合適的停用詞表,對文本內容進行去停用詞處理。

1.2 時態文本表示

在對時態文本進行清理后,需將其進行表示。在文本處理時我們已提取論文的發表時間,所以將時間和文本分列處理,然后將文本單獨表示。本文采用向量空間模型(VSM,Vector Space Model)進行表示[6]。

2.時態關聯規則算法概述

以前的算法不能有效應用到時態文本數據庫中,主要原因有:1)這些算法計算時時間復雜度仍太高。2)沒有考慮每個獨立文本項各自存在的有效時間;3)每個項目缺少一個合理的可以浮動的支持度數。所以本文根據時態事件模型及Apriori原則,本文在快速更新算法思想上產生新的算法:SPFM(Segment-Progressive-Filter-Miner)

該算法主要包括三步:1.數據庫不斷更新;2.對數據庫按不同時間段進行劃分;3.對每個時間段的事務集挖掘頻繁項集。拆分后的數據庫,每個階段部分有不同的支持度閾值,我們按不同的支持度閾值進行計算來產生候選項集。

SPFM算法主要有三個特點:1)算法預處理時將文本數據轉換成垂直數據格式,可大大提高程序效率;2)在挖掘時態數據庫的頻繁項集時,通過更新不同時間粒度的支持度數來確定頻繁項集,并判斷頻繁項集在時間粒度上的連續性;3)如2)所述,時態數據庫是和時間粒度有關的,那么從時態數據庫挖掘出的關聯規則也應該是和時間粒度有關的,即存在“有效時間”,本算法引入一種判斷機制,使得發現的有效時間是由頻繁項集本身決定的,最終我們獲得的是一組浮動的“有效時間”。

3.實驗測試

為了測試SPFM的算法性能,用Visual C++進行編程。對象為醫學病毒論文數據庫中1970~2010年間約50萬條的記錄,每條記錄的屬性包括fileno(論文標號)、TI(標題)、AB(摘要)、DP(發表時間)等。以“年”作為時間粒度,將數據庫劃分為40個階段部分。minsup為0.5‰,minconf為35%,然后進行頻繁項集的挖掘,并確定每個頻繁項集的有效時間,依次循環直至2010年為止。

比如rous(含鐵血黃素)和sarcoma(1979年、1981年、1983年),都是強關聯規則,且COS判斷值為0.8165>0.5,說明該規則有意義,這兩者在1979~1983年是一個共同研究熱點,它們之間有可能存在一些密切的聯系,在醫學上也可以深入研究。

通過對醫學文本數據庫的挖掘,我們挖掘出上百條時態文本關聯規則,從這些規則當中我們能得到近40年學者們對病毒研究的規律以及病毒的發展規律,這些規律會是對以往病毒研究的較好總結,也會有助于更有效地治療已產生的病毒。

在文本數據挖掘技術已經日漸成熟的背景下,把時態數據與文本挖掘聯合起來,可將時態文本數據挖掘應用于醫學、經營、管理等各個方面,通過對海量的時態文本數據進行關聯分析,為管理者做決策提供參考數據;還能為新的經營模式提供目標和思路,減少盲目性,以獲得更大利益。

4.結束語

本文提出了對醫學病毒論文數據庫中的時態文本如何進行預處理,需先將時間和文本分為不同的列,將文本表示為向量空間模型。然后確實頻繁項集的有效時間,將文本數據轉換成垂直數據格式,再通過新的算法挖掘頻繁項集,最后對時態文進行強關聯規則的挖掘。該實驗是對時態文本進行預處理后再進行關聯規則挖掘的,最后驗證了該算法的有效性。

參考文獻:

[1] 潘定.持續時態數據挖掘及其實現機制[M].北京:經濟科學出版社,2008:36

作者簡介:

張春燕(1987- ),女,碩士生,主要研究方向為數據挖掘;

孟志青(1962- ),男,博士,教授,博士生導師,主要研究方向為數據挖掘與數據倉庫、管理信息系統、最優化理論、信用風險;

袁沛(1988- ),男,博士生,主要研究方向為計算機圖形。

主站蜘蛛池模板: 欧美日韩中文国产| 精品人妻一区无码视频| 麻豆精品在线播放| 国产欧美日韩精品综合在线| 精品一区国产精品| 在线网站18禁| 国产丰满大乳无码免费播放| 欧美高清三区| 一区二区理伦视频| 免费国产一级 片内射老| 99re精彩视频| 久久夜色精品| 亚洲第一页在线观看| 久久免费观看视频| 国产欧美日韩资源在线观看| 国产精品夜夜嗨视频免费视频 | 天天色综网| 精品国产成人av免费| 亚洲欧美日韩另类在线一| 在线免费看黄的网站| 3D动漫精品啪啪一区二区下载| 国产主播一区二区三区| 中文国产成人精品久久| 狠狠色狠狠色综合久久第一次| 欧美亚洲一二三区| 日韩欧美网址| 五月婷婷综合网| 亚洲男人的天堂网| 国产精品福利导航| 成人另类稀缺在线观看| 日韩精品成人网页视频在线 | 亚洲天堂精品在线观看| 粗大猛烈进出高潮视频无码| 亚洲高清中文字幕在线看不卡| 欧美亚洲欧美区| 精品视频一区二区观看| 九九热视频精品在线| 亚洲第一天堂无码专区| 老司机aⅴ在线精品导航| 国产成人免费| 毛片基地视频| 国产精欧美一区二区三区| 国产美女在线免费观看| 久久国产精品夜色| 欧美精品另类| 国产主播在线观看| 在线亚洲精品福利网址导航| 极品国产一区二区三区| 久久精品国产国语对白| 亚洲国语自产一区第二页| 亚洲综合精品香蕉久久网| 日本欧美视频在线观看| 99在线视频精品| 国产真实乱了在线播放| 在线毛片网站| 亚洲色图欧美一区| 99久久国产综合精品2020| 亚洲码一区二区三区| 久久国产精品波多野结衣| 少妇被粗大的猛烈进出免费视频| 亚洲AV一二三区无码AV蜜桃| 中文字幕在线永久在线视频2020| 91在线播放国产| 中文字幕日韩视频欧美一区| 日本不卡在线播放| 天天综合天天综合| 伊人网址在线| 天天综合天天综合| 国产午夜福利亚洲第一| 久久91精品牛牛| 亚洲欧美日韩成人高清在线一区| 亚洲人成日本在线观看| 日韩高清欧美| 国产免费自拍视频| 69视频国产| 久久国产高清视频| 日韩黄色精品| 一本一道波多野结衣av黑人在线| 亚洲Va中文字幕久久一区 | 四虎亚洲国产成人久久精品| 日韩区欧美区| 99在线国产|