999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

數據挖掘技術在傳統煤礦產業中的應用

2017-04-10 21:19:54張慧萍賀紅艷陳小娟
課程教育研究·新教師教學 2016年6期
關鍵詞:數據挖掘

張慧萍+賀紅艷+陳小娟

摘要:隨著數據挖掘的興起和蓬勃發展,該技術對于大數據的分析和處理能力吸引了眾多研究者的關注。除了互聯網、移動互聯網等新技術領域,很多傳統產業同樣需要數據挖掘方法解決實際生產問題。本文首先介紹了數據挖掘常見的基本算法,然后以電子商務和用戶節點特征挖掘為例,介紹了數據挖掘技術在煤礦產業中的應用場景和具體方法,旨在啟發更多的傳統產業通過數據挖掘手段加快信息處理過程,提高信息整合效率。

關鍵詞:數據挖掘;煤礦產業;電子商務;節點特征挖掘

一、引言

數據挖掘是一個年青的、動態變化的、生機勃勃且快速成長的領域,該技術是在當前大量數據日積月累的時代背景下應運而生的[1]。“數據挖掘”一詞有廣義和狹義兩種理解:廣義的數據挖掘等同于知識發現過程,共包括數據清理、數據集成、數據選擇、數據變換、數據挖掘、模式評估、知識表示七個步驟;狹義的數據挖掘是知識發現過程中的一個基本步驟。本文的“數據挖掘”更像以上步驟中的第五步,但在此之前通常需要對獲取的數據進行清理、選擇或變換等預處理操作,為挖掘階段做準備。

隨著數據挖掘技術的興起、發展與成熟,很多研究者已將其運用到互聯網、移動互聯網、社交網絡等各個領域,用于發現海量數據中隱藏的信息。事實上,數據挖掘對于大數據的分析和處理能力同樣可以運用在傳統產業中[2],本文將從煤礦產業角度出發,介紹數據挖掘技術在傳統產業中的應用。首先,本文著重介紹數據挖掘常用的技術;其次,我們以電子商務和用戶節點特征挖掘為例,介紹數據挖掘技術在煤礦產業中的應用場景,并總結在具體應用中常見的思路和具體方法。

二、數據挖掘技術綜述

現實世界中的數據極易受到許多干擾,如噪聲、缺失值、不一致數據等,低質量的數據將直接影響挖掘的結果,因此本章將首先介紹數據挖掘中常用的預處理方法。對數據中隱藏模式的挖掘主要通過監督模型和無監督模型實現。監督模型基于對數據的先驗知識,分為分類和回歸方法;而無監督模型用于對要挖掘的模式毫無先驗知識的情況,分為聚類和關聯分析方法。本章將以分類和聚類算法為例,具體介紹數據挖掘的基本思想[3]。

1. 數據預處理

數據預處理方法很多,一般分為四個步驟:

數據清理:包括補全缺失值、光滑噪聲、識別離群點、糾正數據不一致性。

數據集成:把多種數據源的數據組合從而形成一個完整的數據集,這里的數據源可能包括多個數據庫、數據立方體及一般文件。

數據規約:通過聚集、刪除冗余特征或聚類來降低數據規模,得到數據集的規約表示,而使得信息內容的損失最小化。

數據變換:用匯總、聚集等方式,將數據變換為可挖掘的統一形式。

2. 監督模型

分類算法是監督模型中常用的算法,適用于數據集或數據集中的部分數據有標簽的情況,它從每個數據元素都包含分類標簽的訓練數據開始,通過對訓練數據的學習建立一個分類模型,用于將新的數據元素自動分類到訓練數據提供的類別中。也就是說,數據分類是一個兩階段過程,包括學習階段(構建分類模型)和分類階段(使用模型預測給定數據的類別)。常用的算法有決策樹、貝葉斯分類和基于規則的分類等[1]。

決策樹分類器:是從有分類結果標號的訓練數據中學習,從而形成一種類似流程圖的樹結構,每個內部結點表示在某一個屬性上的測試,每個分枝代表該測試的一個輸出,而每個樹葉結點代表一個分類標號。決策樹構造的主要方法是自頂向下遞歸的分治方式。

貝葉斯分類器:屬于一種統計學分類方法,用于預測類隸屬關系的概率。對分類算法的比較研究發現,樸素貝葉斯的分類結果可以與決策樹和神經網絡相媲美。

基于規則的分類器:規則是表示信息或少量知識的好方法,基于規則的分類器是通過一組IF-THEN規則指導分類結果。IF部分表示規則的前提,THEN部分表示規則的結論。

3. 無監督模型

聚類算法是無監督模型中的常見算法,適用于數據集合不包含任何標簽的情況,即每個數據元素的類標號是未知的。聚類是把數據對象集劃分成多個組或簇的過程,使簇內對象相似性很高,但與其他簇中對象相似性很低。相異性和相似性是對結果的評估,主要用距離度量。如果數據源包含大量文本內容,對其進行聚類操作時,通常將文本關鍵詞表示為矩陣形式,進而用余弦距離度量文本相似性。聚類算法可從多方面分類,如根據劃分標準、簇的分離性、所使用的相似性度量和聚類空間等。下面介紹幾種主要的基本聚類方法。

劃分方法:聚類分析最簡單、最基本的方法是劃分,它是把數據對象劃分成多個互斥的組或簇的過程。具體來說,劃分方法是將目標集合中的n個對象劃分成k個分區,每個分區即代表聚類結果中的一個簇(kn)。

層次方法:通過對數據集的層次分解完成聚類,分為凝聚聚類和分裂聚類兩種。凝聚聚類是自底向上的,首先認為每個對象各自為一個簇,然后通過迭代逐漸把初始的小簇合并成越來越大的簇,直到所有對象成為一個簇,或滿足某種終止條件。分裂聚類是自頂向下的,首先它把所有對象置于一個簇中,然后從根開始遞歸地把這些簇劃分成多個較小的子簇。

基于密度的方法:基于密度的方法在于彌補基于對象間距離的方法只能發現球狀簇的缺陷,該方法可用于發現任意形狀的簇。基于密度的方法把簇看做數據空間中被稀疏區域分開的稠密區域,當“鄰域”中的密度超過某個閾值時,該方法繼續增長給定的簇。

基于網格的方法:上述方法都是數據驅動的,它們劃分對象集并自動適應嵌入空間中的數據分布。而基于網格的方法采用空間驅動的方法,把嵌入空間劃分成獨立于輸入對象分布的單元。該方法中的網格指多分辨率的網格數據結構,它將對象空間量化成有限數目的單元而形成網格結構,在該結構上進行所有的聚類操作。

三、數據挖掘技術在傳統煤礦產業中的應用

傳統煤礦產業每天也產生著大量的數據,這些數據中同樣隱藏著各類有價值的信息,通過數據挖掘技術可以幫助分析數據中暗含的隱藏價值。本章將以電子商務和用戶特征挖掘為例,介紹數據挖掘方法在煤礦產業中的應用場景,并介紹具體求解思路和方法。

1. 煤礦電子商務的數據挖掘場景

當全球資源化越發暢通和普及,網絡技術和信息的傳播作為數據大幅增長的重要傳載體,企業中產生了以電子商務領域為主的大量業務數據。如何滿足企業運作的高效要求,是目前電子商務急需解決的問題,將數據挖掘技術完善地應用到企業電子商務中,也顯得更為必要[4]。文獻[5]從現在電子商務的的概念與特性講起,介紹了煤炭交易的電子商務活動中的數據分析和運用特點,并針對這些特點引入數據挖掘技術概念,詳細分析了煤炭交易中電子商務數據挖掘的類型及相關方法。這里我們將概括該論文的具體思路,論述數據挖掘技術在煤炭交易電子商務場景下的應用。

煤炭交易電子是利用計算機技術、計算機互聯網技術和通信技術,實現在煤炭交易的活動過程中的電子化、數字化和網絡化。煤炭交易電子商務中產生的是基于計算機和Internet的Web數據,其具有鮮明的數據新特性:動態性、海量性和直接性。在電子商務的實際運用過程中,根據用戶訪問和顧客或企業訪問產生的信息進行數據提取,大致可以分為3種數據挖掘的數據類型,即使用記錄數據、內容數據和結構數據類型。相應地,基于Web的數據挖掘技術分為:使用日志或訪問記錄的數據挖掘模式、內容數據挖掘模式、結構數據挖掘模式。數據挖掘在電子商務的應用實現過程大致分為4個步驟:數據收集、數據預處理、模型評估、解釋模型得出結論。

2. 煤礦產業中的用戶節點特征挖掘場景

社交網絡中有很多關于用戶節點特征挖掘的研究,如對用戶基本信息的挖掘、對用戶行為和人格特征的挖掘、對用戶興趣喜好的挖掘等。這類方法同樣可以借鑒到煤礦產業中,具體可以有兩類應用:一是將員工看作用戶節點,根據已記錄的員工基本信息和工作信息,推斷員工的工作習慣、興趣愛好等隱藏信息,從而對員工有更深入的了解,有助于企業人文關懷的開展;二是將煤礦資源看作用戶節點,根據已知的煤礦資源位置、屬性及特點預測其他煤礦資源的信息,并幫助預測未發掘的煤礦資源位置。

該場景最常用到的方法是統計分析、分類、聚類和推斷學習。其中,統計分析是各類方法的基礎,幾乎所有的研究都需要首先通過一定的統計分析過程發現數據規律,進而根據這一規律建模求解。分類是已知要挖掘的用戶節點標簽類別時常用的一種方法,除了本文第二章介紹的基本分類方法外,神經網絡、SVM支持向量機、遺傳算法、瀑布分類器等也都是常用的分類方法。聚類是在要挖掘的用戶標簽類別未知時常用的一種方法,除本文第二章介紹的基本聚類方法外,實際中常用的還有模糊聚類、基于概率模型的聚類等方法。推斷和學習算法是根據其他信息學習目標信息,常用的是基于概率或網絡圖譜的方法。

四、結語

在當今數據時代下,每天來自商業、社會、科學和工程、醫療以及我們日常生活的方方面面的數兆兆字節或數千兆字節的數據注入我們的計算機網絡、萬維網和各種數據存儲設備。可用數據的爆炸式增長、廣泛可用和巨大數量使得我們的時代成為真正的數據時代。急需功能強大和通用的工具,以便從這些海量數據中發現有價值的信息,把這些數據轉化成有組織的知識。這種需求導致了數據挖掘的誕生,這一技術已經并將就在我們從數據時代大步跨入信息時代的歷程中做出貢獻。

很多傳統產業也開始利用數據挖掘技術解決生產過程中的實際問題。本文首先介紹了數據挖掘的常用基本算法,然后舉例提出了在煤礦產業中可能的應用場景:一是將基于Web的數據挖掘方法應用到企業電子商務中;二是通過統計分析、分類、聚類和推斷學習方法挖掘用戶員工或煤礦資源的特征。事實上,數據挖掘理論在煤礦產業中的應用遠不止這些,對生產資料的調控與分配、安全事故的分析和預警等同樣可以通過數據挖掘技術解決。數據挖掘在傳統煤礦產業的應用在為傳統產業帶來新機遇的同時,也為理論算法的進一步完善提出了新的挑戰。

參考文獻:

[1]韓家煒,坎伯.數據挖掘:概念與技術[J].北京:機械工業出版社, 2001: 232-233.

[2] 董建新.計算機數據挖掘技術在煤礦行業的應用[J].煤炭技術,2012,31(004):87-89.

[3] Barbier G,Liu H.Data mining in social media[M]//Social Network Data Analytics.Springer US, 2011: 327-352.

[4] 劉振東.企業電子商務中數據挖掘分析及方法論[J].煤炭技術,2012,31(3):272-274.

[5] 宋浩杰,趙浩婕.煤炭電子商務的數據挖掘技術應用[J].煤炭技術,2012,31(008):273-275.

猜你喜歡
數據挖掘
基于數據挖掘的船舶通信網絡流量異常識別方法
探討人工智能與數據挖掘發展趨勢
數據挖掘技術在打擊倒賣OBU逃費中的應用淺析
基于并行計算的大數據挖掘在電網中的應用
電力與能源(2017年6期)2017-05-14 06:19:37
數據挖掘技術在中醫診療數據分析中的應用
一種基于Hadoop的大數據挖掘云服務及應用
數據挖掘在高校圖書館中的應用
數據挖掘的分析與探索
河南科技(2014年23期)2014-02-27 14:18:43
基于GPGPU的離散數據挖掘研究
利用數據挖掘技術實現LIS數據共享的開發實踐
主站蜘蛛池模板: 亚洲精品无码AV电影在线播放| 久久6免费视频| 欧美国产精品不卡在线观看| 欧美午夜理伦三级在线观看| 国产女人喷水视频| 亚洲精品人成网线在线| 国产成人一二三| 国产高潮流白浆视频| 18黑白丝水手服自慰喷水网站| 亚洲av无码成人专区| 国产第八页| 日韩在线观看网站| 亚洲精品第五页| 四虎成人精品| 婷婷午夜天| 99视频在线免费| 国产日韩欧美在线视频免费观看 | 中文精品久久久久国产网址| 亚洲欧美日韩成人高清在线一区| 国产精品久久久精品三级| 男女性色大片免费网站| 亚洲中文字幕精品| 亚洲精品国偷自产在线91正片| 日韩国产精品无码一区二区三区| 亚洲无码A视频在线| 波多野结衣一区二区三区AV| 日韩免费中文字幕| 亚洲精品波多野结衣| 四虎影视无码永久免费观看| 99在线小视频| 亚洲日韩日本中文在线| 国产精品成人免费视频99| 国产成人免费手机在线观看视频| 91人人妻人人做人人爽男同| 97se亚洲综合在线| 很黄的网站在线观看| 亚洲精品日产AⅤ| 久久精品国产免费观看频道| 在线五月婷婷| 老汉色老汉首页a亚洲| 国产亚洲欧美日韩在线一区二区三区| 亚洲精品人成网线在线| 亚洲美女一区二区三区| 欧美国产精品不卡在线观看 | 中文毛片无遮挡播放免费| 久久精品国产999大香线焦| 欧美日一级片| 亚洲精品视频免费| 五月婷婷亚洲综合| 在线观看无码av免费不卡网站| 久久这里只有精品23| 嫩草影院在线观看精品视频| 国产精品亚洲一区二区在线观看| 国产成人免费视频精品一区二区| 日韩精品久久无码中文字幕色欲| 日本亚洲欧美在线| 精品色综合| 有专无码视频| 伊人蕉久影院| 麻豆精品久久久久久久99蜜桃| 国产小视频免费观看| 欧美成人A视频| 99热最新网址| 国产在线拍偷自揄拍精品| 久久毛片免费基地| 国产成人精品一区二区不卡| 久久夜夜视频| 亚洲国产精品一区二区高清无码久久| 精品一区二区三区无码视频无码| 亚洲成年人片| 2048国产精品原创综合在线| 香蕉久久永久视频| 欧美成人午夜在线全部免费| 亚洲V日韩V无码一区二区| 国产亚洲精品97在线观看| 亚洲系列无码专区偷窥无码| 丝袜无码一区二区三区| 国产成人超碰无码| 国产精品免费福利久久播放| 精品国产欧美精品v| 69免费在线视频| 国产亚卅精品无码|