999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

時態文本挖掘的關聯規則研究

2012-04-12 00:00:00張春燕孟志青袁沛
現代營銷·學苑版 2012年10期

摘要:由于現代企業的數據庫頻繁更新,且大部分數據庫為文本數據庫,所以需要挖掘時態文本的關聯規則。本文以時態文本為對象進行了時態關聯規則的研究,最后通過實驗進行了有效性驗證,結果表明該研究方法是正確可行的。

關鍵詞:文本 時態 關聯規則 垂直數據 有效時間

引言

現代化的企業搜集了大量時態文本數據,但信息超載和無結構化,使得企業決策部門無法有效利用現存的信息,時態數據挖掘技術便應運而生。目前有關時態關聯規則算法已較多,但是如果運用到時態文本關聯規則的挖掘中則時間復雜度都太高。所以本文將對時態文本關聯規則挖掘進行研究。

1.時態文本預處理

1.1時態文本處理

在挖掘時態文本關聯規則之前,需要先對文本進行預處理,對英文而言需進行Stemming處理[5],中文的情況則不同,因為中文詞和詞之間沒有固定的間隔,需進行分詞處理。

對于本文研究的是醫學病毒論文數據庫,是一個英文數據庫,文本預處理的具體內容如下:

①英文大寫換小寫(都以小寫字母表示,方便文本識別);②刪除空白記錄;③將論文信息中的標題和摘要進行(可以提高關鍵詞的比重,增加提取文本向量的精度);④處理論文發表時間DP列,只保留年份數字,方便提取有效時間;⑤對于記錄太多的庫,適當拆分表格(否則在程序處理時會內存溢出);⑥根據文本內容提取合適的停用詞表,對文本內容進行去停用詞處理。

1.2 時態文本表示

在對時態文本進行清理后,需將其進行表示。在文本處理時我們已提取論文的發表時間,所以將時間和文本分列處理,然后將文本單獨表示。本文采用向量空間模型(VSM,Vector Space Model)進行表示[6]。

2.時態關聯規則算法概述

以前的算法不能有效應用到時態文本數據庫中,主要原因有:1)這些算法計算時時間復雜度仍太高。2)沒有考慮每個獨立文本項各自存在的有效時間;3)每個項目缺少一個合理的可以浮動的支持度數。所以本文根據時態事件模型及Apriori原則,本文在快速更新算法思想上產生新的算法:SPFM(Segment-Progressive-Filter-Miner)

該算法主要包括三步:1.數據庫不斷更新;2.對數據庫按不同時間段進行劃分;3.對每個時間段的事務集挖掘頻繁項集。拆分后的數據庫,每個階段部分有不同的支持度閾值,我們按不同的支持度閾值進行計算來產生候選項集。

SPFM算法主要有三個特點:1)算法預處理時將文本數據轉換成垂直數據格式,可大大提高程序效率;2)在挖掘時態數據庫的頻繁項集時,通過更新不同時間粒度的支持度數來確定頻繁項集,并判斷頻繁項集在時間粒度上的連續性;3)如2)所述,時態數據庫是和時間粒度有關的,那么從時態數據庫挖掘出的關聯規則也應該是和時間粒度有關的,即存在“有效時間”,本算法引入一種判斷機制,使得發現的有效時間是由頻繁項集本身決定的,最終我們獲得的是一組浮動的“有效時間”。

3.實驗測試

為了測試SPFM的算法性能,用Visual C++進行編程。對象為醫學病毒論文數據庫中1970~2010年間約50萬條的記錄,每條記錄的屬性包括fileno(論文標號)、TI(標題)、AB(摘要)、DP(發表時間)等。以“年”作為時間粒度,將數據庫劃分為40個階段部分。minsup為0.5‰,minconf為35%,然后進行頻繁項集的挖掘,并確定每個頻繁項集的有效時間,依次循環直至2010年為止。

比如rous(含鐵血黃素)和sarcoma(1979年、1981年、1983年),都是強關聯規則,且COS判斷值為0.8165>0.5,說明該規則有意義,這兩者在1979~1983年是一個共同研究熱點,它們之間有可能存在一些密切的聯系,在醫學上也可以深入研究。

通過對醫學文本數據庫的挖掘,我們挖掘出上百條時態文本關聯規則,從這些規則當中我們能得到近40年學者們對病毒研究的規律以及病毒的發展規律,這些規律會是對以往病毒研究的較好總結,也會有助于更有效地治療已產生的病毒。

在文本數據挖掘技術已經日漸成熟的背景下,把時態數據與文本挖掘聯合起來,可將時態文本數據挖掘應用于醫學、經營、管理等各個方面,通過對海量的時態文本數據進行關聯分析,為管理者做決策提供參考數據;還能為新的經營模式提供目標和思路,減少盲目性,以獲得更大利益。

4.結束語

本文提出了對醫學病毒論文數據庫中的時態文本如何進行預處理,需先將時間和文本分為不同的列,將文本表示為向量空間模型。然后確實頻繁項集的有效時間,將文本數據轉換成垂直數據格式,再通過新的算法挖掘頻繁項集,最后對時態文進行強關聯規則的挖掘。該實驗是對時態文本進行預處理后再進行關聯規則挖掘的,最后驗證了該算法的有效性。

參考文獻:

[1] 潘定.持續時態數據挖掘及其實現機制[M].北京:經濟科學出版社,2008:36

作者簡介:

張春燕(1987- ),女,碩士生,主要研究方向為數據挖掘;

孟志青(1962- ),男,博士,教授,博士生導師,主要研究方向為數據挖掘與數據倉庫、管理信息系統、最優化理論、信用風險;

袁沛(1988- ),男,博士生,主要研究方向為計算機圖形。

主站蜘蛛池模板: 日韩av高清无码一区二区三区| 亚洲成人黄色在线| 亚洲区视频在线观看| 日韩一级二级三级| 99er精品视频| 真实国产精品vr专区| 亚洲综合中文字幕国产精品欧美| 亚洲熟女偷拍| 亚洲天堂久久| 高清久久精品亚洲日韩Av| 免费无遮挡AV| 91九色视频网| 成人福利一区二区视频在线| 亚洲国产在一区二区三区| 一级一级一片免费| 久久久久中文字幕精品视频| 无码AV高清毛片中国一级毛片| 国产成人艳妇AA视频在线| 国产福利一区二区在线观看| 视频一区视频二区中文精品| 国产资源站| 午夜视频免费一区二区在线看| 亚洲有码在线播放| 亚洲品质国产精品无码| 丁香婷婷激情综合激情| 国产人成在线视频| 看你懂的巨臀中文字幕一区二区| 99热这里都是国产精品| 国产在线一区二区视频| 精品久久国产综合精麻豆| 亚洲欧洲一区二区三区| 天天躁狠狠躁| 四虎国产成人免费观看| 国产91色在线| 亚洲成人在线网| 一级毛片免费播放视频| 国产福利在线观看精品| 成人在线视频一区| 2020国产免费久久精品99| 久久婷婷六月| 亚洲国产中文在线二区三区免| 四虎成人精品| 国产精品香蕉在线| 青青草国产一区二区三区| 全午夜免费一级毛片| 亚洲爱婷婷色69堂| 一级在线毛片| 1级黄色毛片| 国产人碰人摸人爱免费视频| 国产免费精彩视频| 动漫精品中文字幕无码| 无码精品国产dvd在线观看9久| 国产真实自在自线免费精品| 人妻丰满熟妇αv无码| 久久精品电影| 三上悠亚在线精品二区| 成人另类稀缺在线观看| 久久夜夜视频| 亚洲精品天堂在线观看| 中文国产成人久久精品小说| 在线观看亚洲成人| 亚洲热线99精品视频| 国产免费黄| 色网站在线免费观看| 香蕉久久永久视频| 国产精品欧美亚洲韩国日本不卡| 国产jizzjizz视频| 国产精品高清国产三级囯产AV| 激情在线网| 久久久久无码国产精品不卡 | 色婷婷天天综合在线| 55夜色66夜色国产精品视频| 欧美国产精品不卡在线观看| 男女男精品视频| 一本久道热中字伊人| 午夜欧美理论2019理论| 国产视频 第一页| 国产三级精品三级在线观看| 精品偷拍一区二区| 伊人久久综在合线亚洲91| 精品国产自在在线在线观看| 国产视频a|