999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

多維關聯規則挖掘在煙草行業中的應用探索

2022-05-08 03:01:32
科技創新與應用 2022年12期
關鍵詞:數據挖掘關聯定義

楊 勇

(紅云紅河集團昆明卷煙廠,云南 昆明 650000)

煙草行業是我國國民經濟的重要支柱產業之一,為國家建設和社會發展提供了重要的支撐和保障作用。對煙草企業來說,每年有大量的生產、銷售數據可供參考和研究,如何利用現有的煙草信息資源來挖掘和掌握市場規律和消費特性,是煙草企業信息化建設的重要內容之一。目前,市場狀態瞬息萬變,相關信息和數據也是大規模的、動態的、連續變化的,傳統統計分析方法已經很難滿足現實需要;而大多數生產數據、銷售信息、消費行為的多維屬性尤為明顯。因此,通過多維規則挖掘算法對卷煙生產、銷售數據進行分析和探索,運用數字化、信息化方式幫助煙草企業實現高質量發展,打造以大數據為核心驅動要素的產業體系,為高質量發展提供有力支撐,做到精準規劃、精準發力、精準營銷。

1 關聯規則挖掘算法

1.1 數據挖掘的概念

數據挖掘(Data Mining)[1]定義是由U.M.Fayyad等人提出的:它是從大型數據集中提取出人們感興趣的知識(這些數據集可能是不完全的、有噪聲的、不確定的、各種形式存儲的),這些知識是先前未知的、對決策有潛在價值的且是隱含的,數據挖掘所提取的知識常用概念、規則、規律和模式等形式進行表示。簡單來說,數據挖掘就是指從大型復雜數據中提取和挖掘知識,以滿足人們某些實際應用需求。

一個典型的數據挖掘過程應該包括7個步驟[2],如圖1所示。

圖1 數據挖掘的主要過程

1.2 關聯規則簡介

定義1[1]數據項與數據集:設I={i1,i2,……,im}是m個不同的項目集合,每一個ik(k=1,2,……,m)稱為數據項(Item),數據項的集合I稱為數據項集(Item set),簡稱為項集,項個數稱為數據項集的長度。長度為k的數據項集稱為k維數據項集,簡稱為k-項集(k-Item set)。

定義2事務:事務T(Transaction)是數據項集I上的一個子集,表示為TI。每個事務均通過唯一的標識符TID與之相聯,不同事務全集構成全體事務集D(或事務數據庫)。

定義3數據項集的支持度:設X為項集,B為數據庫D中包含X的數量,A為數據庫D中包含的所有事務的數量,則數據項集X的支持度(Support)為:

項集X的支持度Support(X)表示項集X的出現次數在事務數據庫中所占的比例。

定義4關聯規則:關聯規則可以表示為R:X→Y,其中X?I,Y?I,且X∩Y=?,它表示如果項集X在某一事務中出現,必然會導致項集Y也會在同一事務中出現。X稱為規則的先決條件(前項),Y稱為規則的結果(后項)。

定義5關聯規則的支持度:對于關聯規則R:X→Y,其中X?I,Y?I,且X∩Y=?。規則R的支持度是指數據庫D中同時包含項集X和項集Y的數量與所有項集數量之比。

定義6關聯規則的置信度:對于關聯規則R:X→Y,其中X?I,Y?I,且X∩Y=?。規則R的置信度(Confidence)表示為:

即指數據庫D中出現項集X的時候,項集Y也同時出現的概率。

定義7最小支持度和頻繁項集最小支持度(Minimum support):表示事先規定的發現關聯規則時數據項必須滿足的最小支持閾值,它表示數據項集在某種意義下的最低重要性或者重復性,記為min_sup。當滿足最小支持度的時候,項集才可能出現在關聯規則中,支持度大于最小支持度的數據項集稱為頻繁項集或者強項集(Large item set);小于最小支持度的項集稱為非頻繁項集或者弱項集(Small item set)。

定義8最小置信度:最小置信度(Minimum confidence)表示關聯規則必須滿足的最小可信度,記為min_conf,它表示關聯規則的最低可信任性和可靠性。

定義9強關聯規則:如果Support(R)≥min_sup且Confidence(R)≥min_conf,則稱關聯規則R:X→Y,為強關聯規則。

1.3 關聯規則挖掘的主要流程

關聯規則挖掘主要包括以下2個步驟:

第一步,發現頻繁項集(Frequent Item set):找出所有支持度大于或等于最小支持度的項集(Item set)或者屬性集。

第二步,生成關聯規則(Rules):通過頻繁項集找到那些置信度大于最小置信度的強關聯規則。

關聯規則挖掘的基本工作流程如圖2所示。

圖2 關聯規則挖掘的基本流程

2 多維關聯規則挖掘

2.1 多維關聯規則的概念

多維關聯規則是指數據挖掘過程中涉及到多個謂詞或者多個屬性的關聯規則挖掘,這是根據關聯規則所涉及到的數據的屬性或維度來進行區分的[1]。

多維關聯規則又可細分為維間關聯規則(inter-dimensional association rule)和混合維關聯規則(hybriddimensional rule),這里我們把每個不同的謂詞或屬性稱作維,以此用來對關聯規則挖掘的數據復雜程度做劃分。

例如:Buys(X,“computer”)→Buys(X,“software”)中只涉及到Buys一個謂詞,因此該規則就是單維關聯規則,也可稱為維內關聯規則,即它包含單個不同謂詞(Buys)或維的多次出現。

Age(X,“30-39”)^income(X,“40K-50K”)→Buys(X,“computer”)則是涉及Age、income和Buys 3個維度的關聯規則,因此我們稱這種涉及2個或者多個謂詞或維的關聯規則為多維關聯規則。

多維關聯規則中僅出現1次的謂詞稱為不重復謂詞,我們通常把具有不重復謂詞或屬性的多維關聯規則稱作維間關聯規則,如規則:Age(X,“30-39”)^income(X,“40K-50K”)→Buys(X,“computer”)。如果在多維關聯規則中具有重復的謂詞,即它包含某些多次出現的謂詞,則稱這種關聯規則為混合維關聯規則,如規則Age(X,“30-39”)^income(X,“40K-50K”)^Buys(X,“software”)→Buys(X,“computer”)。

2.2 挖掘多維關聯規則的方法

2.2.1 將屬性靜態離散化[3]

這種方法需要預先定義概念分層,挖掘之前將量化屬性離散化,數值屬性的值可以用區間標號替換,同時,需要時可將分類屬性泛化到較高的概念層。我們可以將每一個屬性值看做一個項集,搜索所有相關屬性來找出所有的頻繁謂詞集。一般情況下,可以對單維關聯規則挖掘算法進行改進來提高挖掘效率。

2.2.2 挖掘量化關聯規則[3]

為了滿足某種挖掘標準,我們可以在挖掘過程中進行數值屬性的動態離散化,主要方法是使用關聯規則聚類系統ARCS來將量化屬性用2-D柵格來映射那些滿足分類條件的屬性,然后搜索柵格發現點簇產生關聯規則。

2.2.3 挖掘基于距離的關聯規則

根據數據點之間的距離來進行動態屬性離散化量化,是基于距離的關聯規則挖掘的關鍵,它緊扣區間的數據語義[4],不允許數值的近似操作。基于距離的關聯規則挖掘算法是針對數據分布的不均勻性和局部稠密性導致量化規則無法緊扣屬性間數據語義的缺陷進行改進的。該方法主要通過2次遍歷算法來挖掘這類關聯規則挖掘:第一次遍歷數據項集所在的數據庫,使用聚類方法找出區間或簇;第二次再次遍歷數據庫,搜索頻繁的且同時出現的簇組,從而以此得到基于距離的關聯規則。

3 多維關聯規則挖掘在煙草行業中的應用探索

隨著信息化的發展,目前在卷煙零售和批發市場中,銷售數據越來越全面,已經包含了購買者“所在地區、年齡、職業、收入、所購買卷煙品牌、價位、規格”等多維度信息,這對多維關聯規則挖掘算法在煙草行業的應用提供了基礎數據支持。同時,我們可以針對品牌信息維度細分到包裝顏色(條包、小包)、煙支粗細、長短、濾棒規格(普通、復合、中空、中空復合等)、轉接紙顏色、水松紙顏色、焦油含量、香氣、吸味等專業層面的信息,從而幫助我們進行更深層次的數據挖掘。

考慮到實際應用中會涉及到混合維關聯規則挖掘,因此本文提出2種方法來進行混合維關聯規則挖掘:

(1)針對具有重復謂詞的多維關聯規則,如果每一個事務的重復謂詞部分包含內容基本相同,僅是具體數據內容不同的時候,則可以選擇在數據預處理過程中進行屬性分離,見表1。

表1 混合維關聯規則數據實例1

經過數據預處理得到的結果見表2。這樣即可采用關聯規則(多維)進行挖掘。

表2 混合維關聯規則數據處理結果

(2)如果每行的重復謂詞部分包括不同的數據內容時,見表3,則可在進行關聯規則挖掘的同時,針對重復謂詞部分進行2次單維關聯規則挖掘,從而實現混合維關聯規則的挖掘,2種方法視具體情況選定。

表3 混合維關聯規則數據實例2

通過采用多維關聯規則數據挖掘方法,用大量消費者的個人喜好信息和購買習慣數據進行綜合分析,勾勒出不同地區、不同時期的消費者的用戶畫像,為產品設計、新品研發、區域個性化定制、營銷策略、經營措施、管理決策等提供支持。

例如:通過多維關聯規則挖掘能得到“2020年,某地30-35歲中等收入人群喜歡價位在40-60元、紅色簡約包裝、中支煙、84 mm、中空復合濾棒、焦油含量8 mg、清香”等,對產品區域定制、個性化定制、新品研發等方面提供參考。

4 結束語

綜上所述,通過多維關聯規則對卷煙生產數據、銷售數據進行挖掘,能夠針對大量消費者的個人喜好信息和購買習慣數據進行綜合分析,勾勒出不同地區不同時期的消費者的用戶畫像,為煙草行業的產品設計、新品研發[5]、區域個性化定制、營銷策略、經營措施、管理決策等提供支持。

猜你喜歡
數據挖掘關聯定義
“苦”的關聯
當代陜西(2021年17期)2021-11-06 03:21:36
探討人工智能與數據挖掘發展趨勢
奇趣搭配
基于并行計算的大數據挖掘在電網中的應用
電力與能源(2017年6期)2017-05-14 06:19:37
智趣
讀者(2017年5期)2017-02-15 18:04:18
成功的定義
山東青年(2016年1期)2016-02-28 14:25:25
一種基于Hadoop的大數據挖掘云服務及應用
基于GPGPU的離散數據挖掘研究
修辭學的重大定義
當代修辭學(2014年3期)2014-01-21 02:30:44
山的定義
公務員文萃(2013年5期)2013-03-11 16:08:37
主站蜘蛛池模板: 欧美A级V片在线观看| 日本高清免费一本在线观看 | 8090成人午夜精品| 亚洲第一页在线观看| 久久香蕉国产线看精品| 亚洲国产中文欧美在线人成大黄瓜| 国产AV毛片| 中文字幕乱妇无码AV在线| 无码人妻热线精品视频| 日本久久网站| 日韩欧美91| 美女毛片在线| 国产亚洲精品自在久久不卡 | 99久久精品视香蕉蕉| 高清久久精品亚洲日韩Av| 毛片在线区| 国产一二三区在线| 精品国产亚洲人成在线| AⅤ色综合久久天堂AV色综合| 亚洲一级毛片在线观播放| 日韩国产精品无码一区二区三区| 中国黄色一级视频| 亚洲最新网址| 欧洲免费精品视频在线| 国产呦精品一区二区三区下载| 老司机午夜精品视频你懂的| 91在线激情在线观看| 国产va在线| 中文字幕不卡免费高清视频| 日本免费a视频| 2020久久国产综合精品swag| 免费无码AV片在线观看中文| 99re视频在线| 88国产经典欧美一区二区三区| 婷婷色在线视频| 亚洲第一黄色网址| 91无码视频在线观看| 黄色国产在线| 国产人妖视频一区在线观看| 日本免费新一区视频| 亚洲av中文无码乱人伦在线r| 免费观看国产小粉嫩喷水| 亚洲天堂久久| 日韩天堂网| 中文字幕资源站| 国产成人高清在线精品| 国产精品欧美日本韩免费一区二区三区不卡| 亚洲欧洲综合| 成人字幕网视频在线观看| 久久久久九九精品影院| 人人爱天天做夜夜爽| 在线免费a视频| 日本国产在线| 欧美v在线| 欧美日韩综合网| 久久免费看片| 高清免费毛片| 中文字幕2区| 国产成人高清精品免费| 国产成人无码AV在线播放动漫| 综合色在线| 国产jizzjizz视频| 高清精品美女在线播放| 久久中文字幕av不卡一区二区| 国产精品成人啪精品视频| 国产成在线观看免费视频| 99久久精品国产综合婷婷| 国产精品55夜色66夜色| 最新亚洲av女人的天堂| 色婷婷狠狠干| 日韩高清一区 | 国产肉感大码AV无码| 国产在线一二三区| 中文字幕亚洲电影| 精品久久久久久成人AV| 欧美激情视频一区| 欧美中文字幕第一页线路一| 日韩在线影院| 国产人妖视频一区在线观看| 免费观看无遮挡www的小视频| 亚洲综合久久一本伊一区| 日本久久免费|