姚 鵬 李麗萍
[摘要]隨著信息化時(shí)代的到來(lái),如何在這些海量數(shù)據(jù)信息中找到用戶真正需要的內(nèi)容,對(duì)于科學(xué)研究的順利開(kāi)展有著十分重要的意義,介紹數(shù)據(jù)挖掘的相關(guān)概念、數(shù)據(jù)挖掘基本原理,并對(duì)其在環(huán)境領(lǐng)域中的應(yīng)用進(jìn)行了研究。
[關(guān)鍵詞]數(shù)據(jù)挖掘 環(huán)境 應(yīng)用
中圖分類號(hào):G31文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào):1671-7597(2009)0510098-01
一、數(shù)據(jù)挖掘概述
(一)數(shù)據(jù)挖掘的概念。數(shù)據(jù)挖掘是近年來(lái)隨著數(shù)據(jù)庫(kù)技術(shù)和人工智能技術(shù)的發(fā)展而出現(xiàn)的一種多學(xué)科交叉的全新信息技術(shù),尤其是隨著計(jì)算機(jī)網(wǎng)絡(luò)的發(fā)展和普遍使用,數(shù)據(jù)挖掘成為迫切需要研究的重要課題。數(shù)據(jù)挖掘是指從海量的數(shù)據(jù)中出潛在的、有價(jià)值的知識(shí)(模型或規(guī)則)的過(guò)程,他反復(fù)使用多種數(shù)據(jù)挖掘算法從觀測(cè)數(shù)據(jù)中確定模式或合理模型。也就是根據(jù)預(yù)定義的目標(biāo),對(duì)大量的數(shù)據(jù)進(jìn)行探索和分析,揭示其中隱含的規(guī)律,并進(jìn)一步將其模型化的先進(jìn)有效的技術(shù)過(guò)程。
數(shù)據(jù)挖掘主要做以下不同的事情:分類(classification)、估值(estimation)、預(yù)測(cè)(prediction)、相關(guān)性分組或關(guān)聯(lián)規(guī)則(affin
ity grouping or association rules)、聚類(clustering)、描述和可視化(description and visualization)。
1.分類。分類也就是區(qū)分?jǐn)?shù)據(jù)類別。首先從數(shù)據(jù)中選出已經(jīng)分好類的訓(xùn)練集,在該訓(xùn)練集上運(yùn)用數(shù)據(jù)挖掘的分類技術(shù),建分類模型,對(duì)于沒(méi)有分類的數(shù)據(jù)進(jìn)行分類。
2.估值。估值與分類類似,不同之處在于,分類描述的是離散型變量的輸出,而估值處理連續(xù)值的輸出,同時(shí)分類的類別是確定數(shù)目的,估值的量是不確定的。
3.預(yù)測(cè)。通常,預(yù)測(cè)是通過(guò)分類或估值來(lái)產(chǎn)生作用的,也就是說(shuō),通過(guò)分類或估值得出模型,該模型用于對(duì)未知變量的預(yù)言。預(yù)測(cè)其目的是對(duì)未知變量的預(yù)測(cè),這種預(yù)測(cè)是需要時(shí)間來(lái)驗(yàn)證的。
4.相關(guān)性分組或關(guān)聯(lián)規(guī)則。通過(guò)分析記錄或數(shù)據(jù)間的關(guān)系,決定哪些東西將同時(shí)發(fā)生。
5.聚類。聚類是對(duì)記錄進(jìn)行分組,把相似的記錄分在一個(gè)聚集里。聚類和分類的區(qū)別是聚類不依賴于預(yù)先定義好的類,不需要訓(xùn)練集。
6.描述和可視化。即對(duì)數(shù)據(jù)進(jìn)行歸約、概化或圖形描述等。
(二)數(shù)據(jù)挖掘的基本原理。數(shù)據(jù)挖掘的基本原理的處理過(guò)程:1. 目標(biāo)數(shù)據(jù)集就是根據(jù)用戶要求,從各種資源中提取的相關(guān)有用數(shù)據(jù),數(shù)據(jù)挖掘主要從這些數(shù)據(jù)通信中進(jìn)行數(shù)據(jù)提取;2.預(yù)處理是整理目標(biāo)數(shù)據(jù),除去明顯錯(cuò)誤和冗余的數(shù)據(jù),進(jìn)一步精簡(jiǎn)所選數(shù)據(jù)的有效部分,并將數(shù)據(jù)轉(zhuǎn)換成有效形式,以使數(shù)據(jù)通過(guò)算法和建模(包括選取合適的模型和參數(shù))構(gòu)造成模型,并用一定的方法表達(dá)成某種易于理解的形式;3.模式分析是對(duì)發(fā)現(xiàn)的模式進(jìn)行解釋和評(píng)估,必要時(shí)需返回前面處理中的某些步驟進(jìn)行反復(fù)提取,最后將發(fā)現(xiàn)的知識(shí)以能理解的方式提供給用戶。
二、數(shù)據(jù)挖掘在環(huán)境科學(xué)研究領(lǐng)域中的應(yīng)用
(一)環(huán)境科學(xué)領(lǐng)域信息化的現(xiàn)狀。隨著信息化的進(jìn)一步推廣,環(huán)境科學(xué)作為一個(gè)跟我們生活息息相關(guān)的領(lǐng)域,能快速、準(zhǔn)確獲取有用的信息,對(duì)于開(kāi)展正常的科研工作有這非同一般的意義。當(dāng)前的查詢手段(主要指搜索引擎)一般只限于一些基本的數(shù)據(jù)查詢操作,只能對(duì)數(shù)據(jù)“粗加工”,不能從這些數(shù)據(jù)中歸納出隱含的有用的知識(shí),使得這些知識(shí)不為人知和無(wú)法利用,這實(shí)際上是對(duì)網(wǎng)絡(luò)信息資源的一種浪費(fèi)。如何快速方便的獲取滿足需要的準(zhǔn)確信息一直是關(guān)注的熱點(diǎn)。
(二)通過(guò)數(shù)據(jù)挖掘技術(shù)實(shí)現(xiàn)環(huán)境信息資源最大限度的共享。根據(jù)目前環(huán)境信息資源的現(xiàn)狀和對(duì)未來(lái)環(huán)境信息管理的需求,利用數(shù)據(jù)挖掘和元數(shù)據(jù)管理、XML數(shù)據(jù)交換等技術(shù)相結(jié)合,集中政務(wù)信息、業(yè)務(wù)數(shù)據(jù)、環(huán)境監(jiān)測(cè)、環(huán)境統(tǒng)計(jì)、排污收費(fèi)、排污申報(bào)、污染源監(jiān)控等和遙感地理信息、環(huán)境科研、環(huán)保產(chǎn)業(yè)以及相關(guān)基礎(chǔ)資料數(shù)據(jù)等信息資源,實(shí)現(xiàn)全省環(huán)境信息資源共享。基本實(shí)現(xiàn)對(duì)各個(gè)地區(qū)環(huán)境信息的統(tǒng)一管理和查詢,為各級(jí)環(huán)境管理部門提供環(huán)境信息共享支持和服務(wù)。
(三)通過(guò)數(shù)據(jù)挖掘技術(shù)實(shí)現(xiàn)規(guī)范環(huán)境信息資源的科學(xué)規(guī)范管理。特別是對(duì)已有的基礎(chǔ)資料以及政務(wù)信息、環(huán)境質(zhì)量監(jiān)測(cè)和污染源管理重點(diǎn)業(yè)務(wù)應(yīng)用系統(tǒng)積累的數(shù)據(jù)進(jìn)行整理,轉(zhuǎn)化成可開(kāi)發(fā)利用的環(huán)境信息資源;改造、整合和集成各種環(huán)境數(shù)據(jù),初步建成集中-分布式省級(jí)環(huán)境數(shù)據(jù)庫(kù)體系,其中包括環(huán)境法規(guī)與標(biāo)準(zhǔn)信息數(shù)據(jù)庫(kù)、環(huán)境政務(wù)信息數(shù)據(jù)庫(kù)、環(huán)境統(tǒng)計(jì)信息數(shù)據(jù)庫(kù)、環(huán)境質(zhì)量監(jiān)測(cè)信息數(shù)據(jù)庫(kù)、排污申報(bào)信息數(shù)據(jù)庫(kù)、輻射環(huán)境管理信息數(shù)據(jù)庫(kù)、環(huán)境科技情報(bào)信息數(shù)據(jù)庫(kù)、重點(diǎn)污染源數(shù)據(jù)庫(kù)、生態(tài)環(huán)境數(shù)據(jù)庫(kù)、自然保護(hù)和生物多樣性數(shù)據(jù)庫(kù)、重大污染事故數(shù)據(jù)庫(kù)、城市環(huán)境綜合整治數(shù)據(jù)庫(kù)、環(huán)境地理信息數(shù)據(jù)庫(kù)、環(huán)境遙感數(shù)據(jù)庫(kù)等等。采用數(shù)據(jù)挖掘技術(shù),通過(guò)神經(jīng)網(wǎng)絡(luò)和近似推理等手段,建立非線性預(yù)測(cè)、分類模型研究分析各種環(huán)境數(shù)據(jù)之間的聯(lián)系與規(guī)律,并且把通過(guò)分析得來(lái)的規(guī)律和環(huán)境管理決策結(jié)合起來(lái),從而提高環(huán)境管理的科學(xué)性、客觀性和準(zhǔn)確性。
(四)通過(guò)數(shù)據(jù)挖掘技術(shù)提供科學(xué)的環(huán)境管理決策支持。通過(guò)數(shù)據(jù)挖掘分析、整合、加工各類環(huán)境信息資源,為環(huán)境信息管理工作和輔助決策提供所需的各類信息資源,對(duì)各級(jí)環(huán)境管理部門的管理者和決策者提供有效信息資源,建立可伸縮的知識(shí)分類引擎、實(shí)現(xiàn)智能的知識(shí)發(fā)現(xiàn)功能。以實(shí)現(xiàn)環(huán)境信息資源共享為出發(fā)點(diǎn),提高環(huán)境信息資源開(kāi)發(fā)利用水平、為環(huán)境信息管理與決策提供支持和服務(wù)。數(shù)據(jù)挖掘是一個(gè)活躍的研究領(lǐng)域,也是人工智能、計(jì)算機(jī)科學(xué)與技術(shù)、網(wǎng)絡(luò)技術(shù)的發(fā)展和普及所提出的迫切需要解決的重要課題。作為一項(xiàng)新技術(shù),大力開(kāi)發(fā)使用數(shù)據(jù)挖掘技術(shù),實(shí)現(xiàn)全省環(huán)境信息的統(tǒng)一收集、存儲(chǔ)、加工與發(fā)布。采取多種措施,有效利用環(huán)境信息資源,提高環(huán)境信息的資源價(jià)值,開(kāi)發(fā)和利用水平,保證最大限度地為環(huán)境管理與決策提供環(huán)境信息支持和服務(wù)。
(五)有利于指導(dǎo)環(huán)境問(wèn)題的解決。通過(guò)采集環(huán)境科研方面的各種信息數(shù)據(jù),經(jīng)過(guò)數(shù)據(jù)挖掘技術(shù)的處理和加工,可以發(fā)現(xiàn)環(huán)境的信息動(dòng)向,從而可以據(jù)此給出及時(shí)解決措施,調(diào)整環(huán)境布局,達(dá)到我們治理環(huán)境的目標(biāo)。
本文探討數(shù)據(jù)挖掘的相關(guān)知識(shí),并對(duì)在環(huán)境科研決策領(lǐng)域中如何使用數(shù)據(jù)挖掘技術(shù)進(jìn)行了一些闡述。如何進(jìn)一步發(fā)展數(shù)據(jù)挖掘,充分利用各種信息資源,勢(shì)必需要進(jìn)行更加深入的研究,數(shù)據(jù)挖掘的研究將充滿挑戰(zhàn)又極富發(fā)展?jié)摿ΑkS著數(shù)據(jù)挖掘技術(shù)的不斷發(fā)展,它將會(huì)更加廣泛的應(yīng)用在環(huán)境科學(xué)領(lǐng)域。
參考文獻(xiàn):
[1]劉富剛,環(huán)境問(wèn)題的分析與對(duì)策[J]德州學(xué)院學(xué)報(bào),2001(04).
[2]黃添強(qiáng),基于空間數(shù)據(jù)挖掘的環(huán)境調(diào)控空間決策支持系統(tǒng)研究[D].中國(guó)優(yōu)秀博碩士學(xué)位論文全文數(shù)據(jù)庫(kù)(碩士),2003(02).
作者簡(jiǎn)介:
姚鵬,男,寧夏中寧人,寧夏化工技師學(xué)院助理講師,同濟(jì)大學(xué)軟件學(xué)院在讀研究生,研究方向:信息系統(tǒng)、環(huán)境工程;李麗萍,女,寧夏工商職業(yè)技術(shù)學(xué)院助教,同濟(jì)大學(xué)軟件學(xué)院在讀研究生,研究方向:數(shù)據(jù)庫(kù)及信息管理。