999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

面向大數(shù)據(jù)的空間數(shù)據(jù)挖掘綜述

2017-02-16 02:24:24杜江毅邊馥苓
地理空間信息 2017年1期
關鍵詞:數(shù)據(jù)挖掘

杜江毅,邊馥苓

(1. 武漢大學 測繪遙感信息工程國家重點實驗室,湖北 武漢 430079;2. 湖北工業(yè)大學 計算機學院,湖北 武漢 430068;3. 武漢大學 國際軟件學院,湖北 武漢 430079)

面向大數(shù)據(jù)的空間數(shù)據(jù)挖掘綜述

杜江毅1,2,邊馥苓3

(1. 武漢大學 測繪遙感信息工程國家重點實驗室,湖北 武漢 430079;2. 湖北工業(yè)大學 計算機學院,湖北 武漢 430068;3. 武漢大學 國際軟件學院,湖北 武漢 430079)

隨著大數(shù)據(jù)時代的到來,海量空間數(shù)據(jù)與獲取手段不足的矛盾日益顯著,空間數(shù)據(jù)挖掘的地位日益提高。從大數(shù)據(jù)的含義出發(fā),分析了空間數(shù)據(jù)與大數(shù)據(jù)的關系,回顧了傳統(tǒng)空間數(shù)據(jù)挖掘存在的問題,最后從平臺和算法兩個方面探討了空間大數(shù)據(jù)挖掘的最新研究進展。

大數(shù)據(jù);空間數(shù)據(jù)挖掘;云計算

近年來,大數(shù)據(jù)已經(jīng)引起了學術界、產(chǎn)業(yè)界和政府部門的高度關注。實際上,人類第一次開始關注大數(shù)據(jù)是在1980年,當時著名的未來學家阿爾文·托夫勒就熱情洋溢地稱呼大數(shù)據(jù)為“第三次浪潮的華彩樂章”[1]。在學術界,最早關注大數(shù)據(jù)的是Nature,2008 年9月其推出“Big Data”專刊,從多門學科的角度介紹了大數(shù)據(jù)所帶來的機遇與挑戰(zhàn)[2]。Science在2011年2月也推出了名為“Dealing with Big Data”的專刊,同樣發(fā)表了與大數(shù)據(jù)相關的論點。在產(chǎn)業(yè)界,2011年5月McKinsey公司再次明確提出大數(shù)據(jù)的概念,并為企業(yè)和政府應對大數(shù)據(jù)的發(fā)展提出了自己的思考[3]。許多企業(yè)和組織也將大數(shù)據(jù)作為未來的主要業(yè)務,提出了多種大數(shù)據(jù)解決方案或應用,如IBM的InfoSphere大數(shù)據(jù)分析平臺[4]。美、英等國政府也出臺了多項政策和措施,以應對大數(shù)據(jù)的挑戰(zhàn)[5-6]。

總之,正如舍恩伯格和庫克耶[7]所說,“大數(shù)據(jù)開啟了一次重大的時代轉(zhuǎn)型”,“是人們獲得新的認知,創(chuàng)造新的價值的源泉;還是改變市場、組織機構,以及政府與公民關系的方法”。如今大數(shù)據(jù)的價值不斷被認可,它涉及到人類生活、企業(yè)發(fā)展、國家戰(zhàn)略等各個應用領域[7],而這些應用領域中的數(shù)據(jù)絕大多數(shù)與空間位置有關,如何從海量的空間數(shù)據(jù)中獲取有價值的信息(空間數(shù)據(jù)挖掘)已成為大數(shù)據(jù)的主要應用方向[8-9]。

1 大數(shù)據(jù)時代的空間數(shù)據(jù)

1.1 大數(shù)據(jù)的定義

隨著大數(shù)據(jù)在全世界的興起,大數(shù)據(jù)的定義也呈現(xiàn)多種解釋。一般來說,數(shù)據(jù)量的大小超過正常處理范圍和大小、用戶采用普通的軟件工具和處理方法難以處理的數(shù)據(jù)集,即可稱為大數(shù)據(jù)[6]。

2008年Nature中的定義為大數(shù)據(jù)“是人類認知過程的進步,規(guī)模是無法用目前的技術、方法和理論,在可容忍的時間內(nèi)獲取、管理、處理的數(shù)據(jù)集”[10]。Gartner公司認為大數(shù)據(jù)是一種體量巨大、增長極快、樣式繁多的信息價值;需要采用新的處理方法和模式,才能確保其體現(xiàn)出更強更準確的決策力、洞察力、以及優(yōu)化流程的能力[11]。這個定義最重要的意義在于明確了如何才能從這些快速增長的動態(tài)的數(shù)據(jù)集中獲取有價值的信息,即大數(shù)據(jù)是三維的:容量、多樣、速度,但它忽略了大數(shù)據(jù)具有的價值性。因此,IDC在2011 年的報告中給出了更能為人們所接受的大數(shù)據(jù)的定義:具有“4V”特點的數(shù)據(jù)集,即容量(Volume)、多樣(Variety)、速度(Velocity)和價值(Value),就是大數(shù)據(jù);同時,IDC指出,“大數(shù)據(jù)技術展現(xiàn)了一種技術及其構架的新時代,針對各種超大規(guī)模的數(shù)據(jù)集,以經(jīng)濟的方式,迅速地獲取、發(fā)現(xiàn)和分析技術,提取價值”[12]。

1.2 時空數(shù)據(jù)是大數(shù)據(jù)的基礎

大數(shù)據(jù)的復雜性,導致其難以被傳統(tǒng)的技術所利用。這些數(shù)據(jù)中的絕大多數(shù)來源于空間數(shù)據(jù),因為約80%的數(shù)據(jù)與空間位置有關[13-14]。

隨著國民經(jīng)濟的快速發(fā)展,計算機技術和空間信息技術的不斷進步和普及,具有時間屬性并隨時間變化而變化的空間數(shù)據(jù)——時空數(shù)據(jù)的獲取量急速增加,形成了具有時空屬性的大數(shù)據(jù)[15]。這些數(shù)據(jù)流客觀存在,并被人為賦予地理編碼與時間標簽,從這個角度看,時空數(shù)據(jù)不僅是大數(shù)據(jù)的重要組成部分,更可被看成是大數(shù)據(jù)的基礎。因此,時空數(shù)據(jù)與信息的存儲與處理技術本身就是大數(shù)據(jù)存儲與處理技術,只是前者更多是關注于地學領域,而后者涵蓋幾乎所有領域。

相比于傳統(tǒng)空間數(shù)據(jù),時空數(shù)據(jù)更加復雜和多樣。它描述了研究對象隨時間變化的運動軌跡,記錄了對象的空間屬性和時間屬性,即“動態(tài)”的發(fā)展過程,具有數(shù)據(jù)量龐大、非線性以及時變等特征[16]。時空大數(shù)據(jù)被廣泛地應用在國防、工業(yè)、農(nóng)業(yè)、交通、氣象等方面,如分析隨時間變化的車輛運行狀況和人流的移動規(guī)律所產(chǎn)生的時空數(shù)據(jù),有助于改善交通狀況,如圖1所示。

圖1 時空大數(shù)據(jù)的應用

時空數(shù)據(jù)形式多樣,價值巨大,具有空間性、時間性、多維性、海量性、復雜性和不確定性等特點。這些數(shù)據(jù)雖然極大地拓寬了人類可利用的數(shù)據(jù)范圍,但數(shù)量的激增和數(shù)據(jù)本身的一些不足,也極大地影響了數(shù)據(jù)的價值發(fā)現(xiàn),如垃圾多、污染重、利用難等。要提高這些數(shù)據(jù)的單位價值,就不得不進一步發(fā)展數(shù)據(jù)挖掘等技術。

2 傳統(tǒng)空間數(shù)據(jù)挖掘存在的問題

空間數(shù)據(jù)挖掘所用理論方法的好壞直接影響到所發(fā)現(xiàn)知識的質(zhì)量。可用的理論方法主要有確定集合論、擴展集合論、仿生學方法、可視化、決策樹等,其中包括:概率論、證據(jù)理論、空間統(tǒng)計學、規(guī)則歸納、聚類分析、空間分析、神經(jīng)網(wǎng)絡、遺傳算法等[9]。經(jīng)過多年研究,上述理論和算法都取得了很大的進展,但也存在一些問題:

1)目前多數(shù)的空間數(shù)據(jù)挖掘算法都是由傳統(tǒng)的數(shù)據(jù)挖掘算法移植而來,并沒有考慮空間數(shù)據(jù)與一般數(shù)據(jù)在存儲、處理和特性等方面的區(qū)別,如面對高維海量的空間數(shù)據(jù),目前的GIS不足以描述空間要素的多維信息結構,不能方便地進行多維信息的空間概括性分析,而且挖掘效率很低,因此采用傳統(tǒng)算法往往會對空間數(shù)據(jù)和空間對象的利用不足,收不到良好的挖掘效果。

2)被污染的空間數(shù)據(jù)會直接影響空間數(shù)據(jù)挖掘,使其不能提供可靠的知識、優(yōu)質(zhì)的服務和決策支持。但實際上,從現(xiàn)實世界采集的數(shù)據(jù)絕大多數(shù)都是有污染的。無論采用什么方式獲取的空間數(shù)據(jù),都無可避免的存在一些問題或錯誤。如何減少受污染的數(shù)據(jù)對最終挖掘結果的影響,一直都是空間數(shù)據(jù)挖掘需要面臨的重要問題。

3)空間數(shù)據(jù)具有明顯的不確定性。這主要是由數(shù)據(jù)采樣、數(shù)據(jù)模型抽象、空間概念和空間數(shù)據(jù)轉(zhuǎn)換導致的[9]。當前的空間數(shù)據(jù)挖掘算法一般都是基于確定集合理論研究確定數(shù)據(jù),也有一些對空間數(shù)據(jù)不確定性的研究,但主要是針對空間位置的不確定性,對數(shù)據(jù)本身的不確定性研究還顯不足。

4)目前的空間數(shù)據(jù)挖掘技術還缺少適當?shù)目臻g知識表達方法[9]。一般來說,對空間數(shù)據(jù)挖掘獲得的知識的最好的表達方法是自然語言。但是,如何用定性的自然語言來較為準確地描述定量的數(shù)值之間的關系呢?如何描述知識發(fā)現(xiàn)中的支持度、置信度、強弱規(guī)則等專業(yè)名詞呢?如何描述不確定的空間數(shù)據(jù)的隨機性和模糊性呢?這些都是亟待解決的問題。

5)空間數(shù)據(jù)挖掘產(chǎn)生的所有模式并非都是用戶需要的。因此需要一種技術來評估基于主觀度量所發(fā)現(xiàn)的模式的興趣度。這種評估根據(jù)給定用戶類,基于用戶的確信或期望,評估模式的價值。此外,通過使用興趣度度量或用戶指定的約束指導發(fā)現(xiàn)過程,也可更快更好地獲得用戶感興趣的模式。

6)空間數(shù)據(jù)挖掘能為科學發(fā)展、商業(yè)管理、政府決策等活動提供有效的幫助,但也帶來了泄露信息的風險。如何在保護空間數(shù)據(jù)隱私的前提下,進行成功的空間數(shù)據(jù)挖掘,也是目前空間數(shù)據(jù)挖掘面臨的一大問題。

除了上述典型問題之外,空間數(shù)據(jù)挖掘還存在其他問題,如空間數(shù)據(jù)挖掘的智能化。畢竟無法要求每個人都學習和掌握空間數(shù)據(jù)挖掘技術,特別是在大數(shù)據(jù)時代下,空間數(shù)據(jù)挖掘面對海量的數(shù)據(jù),要繼續(xù)以往的輝煌,還需要研究者們更大的努力。

3 大數(shù)據(jù)時代空間數(shù)據(jù)挖掘進展

如何充分利用大數(shù)據(jù),已成為當代一個新的熱點問題,空間大數(shù)據(jù)挖掘應運而生。它是體現(xiàn)大數(shù)據(jù)價值、充分利用大數(shù)據(jù)的基礎技術,可從大數(shù)據(jù)中提取信息,從信息中發(fā)現(xiàn)有價值的知識,讓大數(shù)據(jù)為社會發(fā)展發(fā)揮更大的作用。

舍恩伯格和庫克耶曾指出,在大數(shù)據(jù)時代,分析信息時面臨的第一個轉(zhuǎn)變就是我們有遠超以往數(shù)據(jù)量的更多的數(shù)據(jù)用來分析,甚至擁有與某個特別現(xiàn)象相關的所有數(shù)據(jù),而不再依賴于隨機采樣[7]。那么,如果想更快地分析更多的數(shù)據(jù),選擇優(yōu)化的并行算法,并采用適合海量數(shù)據(jù)處理的平臺,就成為人們目前最佳的選擇。

3.1 傳統(tǒng)空間數(shù)據(jù)挖掘研究進展

近年來,針對傳統(tǒng)空間數(shù)據(jù)挖掘存在的問題,很多學者提出了新的有效方法。陳銘[17]提出了一種基于相似維的高維子空間聚類方法SDSCA——首先刪除原高維數(shù)據(jù)空間中的冗余屬性,然后運用相似維來尋找彼此相似的屬性,最后在這些相似屬性所形成的子空間上運用傳統(tǒng)聚類算法進行聚類。石亞冰[18]等針對傳統(tǒng)空間聚類算法K-means“對初始種子選取的依賴性過大,也容易陷入局部極小解”的缺點,提出了一種綜合考慮空間數(shù)據(jù)對象特點的基于最大維密度選擇方案的K-means優(yōu)化算法,很好地消除了聚類結果的波動性,同時也較客觀地呈現(xiàn)了空間對象的分布規(guī)律。

針對空間數(shù)據(jù)和空間數(shù)據(jù)挖掘的不確定性,何彬彬[19]等以EM和Apriori算法為基礎,將空間數(shù)據(jù)和空間數(shù)據(jù)挖掘的不確定性進行結合,提出了一種新的挖掘算法模型,提高了挖掘的真實性和客觀性。

空間數(shù)據(jù)清理是空間數(shù)據(jù)挖掘的重要工作之一。根據(jù)空間數(shù)據(jù)清理的實際特點,Kim W[20]等提出了處理由未知屬性值造成的數(shù)據(jù)噪聲的方法。徐揚[21]等提出了一種針對重復數(shù)據(jù)的清理方法:先對所有記錄按照預先指定的屬性項進行排序,然后比較排序數(shù)據(jù),從而檢查出重復記錄的方法。

陳霞[22]和陳桂芬等利用時序算法和可視化技術,充分挖掘了大量農(nóng)業(yè)數(shù)據(jù)中的價值,為農(nóng)作物的種植提供有力的決策依據(jù),并為空間數(shù)據(jù)挖掘的利用提出了一個新的思路。

自從1999年Rakesh Aggrawal在KDD會議上提出將“隱私保護數(shù)據(jù)挖掘”作為數(shù)據(jù)挖掘領域未來研究的重點之一以來,數(shù)據(jù)挖掘中的隱私保護已成為一個研究熱點,特別是針對高維數(shù)據(jù)進行的挖掘。Nergiz M E[23]等提出了用于應對高維問題的基于聚類的MiRaCle匿名算法,該算法是基于對多關系K-匿名數(shù)據(jù)庫的嚴格假定,它匿名的過程比傳統(tǒng)方法高效。Ghinita G[24]等提出了多維數(shù)據(jù)的l-多樣性的匿名算法,能夠保證每個事物具有不同的準標志屬性和敏感值,防止高維數(shù)據(jù)在隱私保護時可能的信息丟失,也能保持準標志屬性和敏感值間的關系。針對稀疏多維數(shù)據(jù),Terrovitis M等提出了Km匿名方法——從具備部分敏感值的數(shù)據(jù)中保護數(shù)據(jù),其信息丟失也較少[25-26]。

總之,傳統(tǒng)的空間數(shù)據(jù)挖掘雖然在大數(shù)據(jù)時代遇到了新的挑戰(zhàn),但仍然有著重要的研究意義,仍然是獲取數(shù)據(jù)價值的最有效途徑之一。

3.2 基于云計算的空間大數(shù)據(jù)挖掘研究進展

面對海量的數(shù)據(jù),除了優(yōu)化傳統(tǒng)的空間數(shù)據(jù)挖掘算法,提高空間數(shù)據(jù)質(zhì)量以外,采用專門處理大數(shù)據(jù)的平臺也是一個重要的選擇,這就必須提到云計算。云計算是一種可以提供更強大的處理能力、更廉價的處理條件的完善系統(tǒng)。基于云計算的數(shù)據(jù)挖掘系統(tǒng),可以透明地為用戶服務;用戶不需要了解系統(tǒng)運行原理與過程,也不需要擔心系統(tǒng)的存儲和安全問題,只需要知道選擇合適的算法,就可以獲得有價值的知識。圖2是基于云計算的海量數(shù)據(jù)挖掘服務的層次結構圖[27]。

圖2 基于云計算的海量數(shù)據(jù)挖掘服務的層次結構圖

1)基于云計算的數(shù)據(jù)挖掘系統(tǒng)研究。中國科學院計算技術研究所開發(fā)的PDMiner是目前國內(nèi)最早的基于云計算平臺Hadoop的并行數(shù)據(jù)挖掘系統(tǒng)平臺。它實現(xiàn)了各種并行數(shù)據(jù)挖掘算法,如數(shù)據(jù)預處理、關聯(lián)規(guī)則分析以及分類、聚類等算法;能夠處理大規(guī)模數(shù)據(jù)集;整合了已有的計算資源,提高了計算資源的利用效率[28]。中國移動研究院早在2007年就開始了云計算平臺下數(shù)據(jù)挖掘系統(tǒng)的研究,啟動了“大云”的研發(fā)工作;并研發(fā)出基于Hadoop的并行數(shù)據(jù)挖掘工具——BC-PDM。廈門大學數(shù)據(jù)挖掘研究中心與臺灣銘傳大學資訊工程系、中華資料采礦協(xié)會合作開發(fā)了云端數(shù)據(jù)挖掘決策系統(tǒng)MCU Smart Score,它是一套基于云計算的數(shù)據(jù)挖掘決策支持系統(tǒng)。Weka是由Waikato大學開發(fā)的基于Java語言的數(shù)據(jù)挖掘平臺,它集成了適合數(shù)據(jù)挖掘的當今最新的機器學習算法(如分類、聚類、關聯(lián)規(guī)則、回歸等)和數(shù)據(jù)預處理工具,在兼容性和可擴展性方面有獨特的優(yōu)勢[29-30]。Apache Mahout是全新的開源項目數(shù)據(jù)挖掘平臺,主要包括推薦、聚類、分類3部分,并可通過使用Apache Hadoop 庫有效地擴展到云中[31-32]。

2)基于云計算的數(shù)據(jù)挖掘算法研究。目前國內(nèi)外針對基于云計算的數(shù)據(jù)挖掘算法的研究較多。例如,首都師范大學周麗娟教授[33]等提出的云計算環(huán)境下的基于復合鏈表挖掘的并行FP-Growth算法。該算法在傳統(tǒng)的FP-Growth算法基礎上進行了優(yōu)化,一定程度上解決了傳統(tǒng)FP-Growth算法的性能瓶頸,實現(xiàn)了更高的效率和更好的擴展性。信息工程大學的李宏偉教授[34]等則用到了概念格的理論,提出了一種基于概念格的已知空間依賴剔除策略。該策略實現(xiàn)了對冗余規(guī)則和已知空間依賴的有效剔除。CAO X J[35]利用MapReduce計算框架,并結合粒計算,實現(xiàn)了關聯(lián)規(guī)則挖掘的算法。林長方[36]等針對關聯(lián)規(guī)則典型算法Apriori提出了基于MapReduce框架的簡單并行算法,并在該算法的基礎上,提出了一種采用固定多階段結合挖掘策略的改進算法。

4 結 語

大數(shù)據(jù)已成為政策界和學術界最火熱的名詞之一,不過也有專家對大數(shù)據(jù)的火熱提出了質(zhì)疑,如清華大學的王程韡[37]通過引入反事實思想實驗提出大數(shù)據(jù)虛熱的判斷。不過無可置疑的是,當今世界對大數(shù)據(jù)的普遍認知為:大數(shù)據(jù)確實開啟了一次重大的時代轉(zhuǎn)型,它正在改變我們的生活。正如格雷所說,大數(shù)據(jù)是代表著“大趨勢”的科學研究“第四范式”[38]。在大數(shù)據(jù)時代,傳統(tǒng)的空間數(shù)據(jù)挖掘技術面對海量的數(shù)據(jù),要想實現(xiàn)從“無窮”的數(shù)據(jù)中發(fā)現(xiàn)有價值的知識,需要從理論、算法和云平臺等方面做出巨大的改善。

[1] 阿爾文·托勒夫.第三次浪潮[M].黃明堅譯.北京:中信出版社,2006

[2] Nature. Big Data[EB/OL].http://www.nature.com/news/ specials/bigdata/index.html,2015-03-01/2015-09-15

[3] McKinsey Global Institute. 2011 Big Data: The Next Frontier for Innovation, Competition, and Productivity[R].2011

[4] IBM-InfoSphere平臺-中國[EB/OL]. http://www-01.ibm.com/ software/cn/data/infosphere/?re=masthead, 2015-03-01/2015-09-15

[5] The White House Office of Science and Technology Policy.Fact Sheet: Big Data Across the Federal Government[R]. 2012

[6] 胡雄偉,張寶林,李抵飛.大數(shù)據(jù)研究與應用綜述(上)[J].標準科學,2013(9):29-34

[7] 維克托·邁爾·舍恩伯格,肯尼思·庫克耶.大數(shù)據(jù)時代:生活、工作與思維的大變革[M].盛楊燕,周濤譯.杭州: 浙江人民出版社,2012

[8] 王樹良,丁剛毅,鐘鳴.大數(shù)據(jù)下的空間數(shù)據(jù)挖掘思考[J].中國電子科學研究院學報,2013,2(1):8-17

[9] 李德仁,王樹良,李德毅.空間數(shù)據(jù)挖掘理論與應用(第二版)[M].北京:科學出版社,2013

[10] Graham Rowe D, Goldston D, Doctorow C, et a1.Big Data: Science in the Petabyte Ara[J].Nature,2008,455(7209):8-9

[11] JI C Q,LI Y, QIU W M, et al. Big Data Processing in Cloud Computing Environments[C]//Proc of the 12th International Symposium on Pervasive Systems, Algorithms and Networks, 2012:17-23

[12] Gantz J, Reinsel D. Extracting Value from Chaos [EB/OL].http:// www.emc.com/collateral/analyst-reports/idc-extractingvalue-from-chaos-ar.pdf,2010/ 2015-03-01

[13] Densham P J, Goodchild M F. Spatial Decision Support Systems: a Research Agenda[C]//Proceedings GIS/LIS'89, Orlando, FL, 1989:707-716

[14] Shekhar S, XIONG H. Encyclopedia of GIS[M]. New York: Springer, 2007

[15] LI X, CHENG G D, LIU S M, et al. Heihe Watershed Allied Telemetry Experimental Research (HiWATER)[J]. Bulletin of American Meteorological Society,2013,94(8):10

[16] 曹聞.時空數(shù)據(jù)模型及其應用研究[D].鄭州:信息工程大學,2011

[17] 陳銘.高維聚類算法研究[D].南京:南京師范大學,2011

[18] 石亞冰,元昌安,覃曉,等.基于最大維密度的全局優(yōu)化空間聚類算法[J].計算機仿真,2013,30(3):277-280

[19] 何彬彬,方濤,郭達志.不確定性空間數(shù)據(jù)挖掘算法模型[J].中國礦業(yè)大學學報,2007,36(1):121-125

[20] Kim W, Choi B J, HONG E K, et al. A Taxonomy of Dirty Data[J].Data Mining and Knowledge Discovery,2003(7):81-99

[21] 徐揚,馮克忠,馬亞明. 空間數(shù)據(jù)重復記錄的清理方法研究[J].測繪科學,2008,33(6):125-126

[22] 陳霞.基于時序算法的可視化空間數(shù)據(jù)挖掘研究與應用[D].長春:吉林農(nóng)業(yè)大學,2012

[23] Nergiz M E, Clifton C, Nergiz A E. MultiRelational K-anonymity[C]//Proc of the 23rd IEEE International Conference on Data Engineering,2007:1 417-1 421

[24] Ghinita G, TAO Y F, Kalnis P.On the Anonymization of Spare High-dimensional Data[C]//Proc of the 24th International Conference on Data Engineering,2008:715-724

[25] Terrovitis M, Mamoulisn, Kalnis P. Privacy Preservation in the Publication of Spare Multidimensional Data[M]. London: Taylor and Francis Group,2011:35-56

[26] 張海濤,黃慧慧,徐亮,等.隱私保護數(shù)據(jù)挖掘研究進展[J].計算機應用研究,2013,30(12):3 549-3 535

[27] 賀瑤,王文慶,薛飛.基于云計算的海量數(shù)據(jù)挖掘研究[J].計算機技術與發(fā)展,2013(2):69-72

[28] 何清,莊福振,曾立,等. PDMiner:基于云計算的并行分布式數(shù)據(jù)挖掘工具平臺[J].中國科學:信息科學,2014(7):871-885

[29] Hall M, Frank E, Holmes G, et al. The WEKA Data Mining Software: an Update[J]. ACM SIGKDD Explorations,2009, 11(1):10-18

[30] Witten I H Frank E. Data Mining: Practical Machine Learning Tools and Techniques with Java Implementations[M].Morgan Kaufman'2003

[31] 朱倩,錢立.基于Mahout的推薦系統(tǒng)的分析與設計[J].科技通報,2013,29(6):35-36

[32] 馬寧.基于Mahout的推薦系統(tǒng)的研究與實現(xiàn)[D].蘭州:蘭州大學,2013

[33] 周麗娟,王翔.云環(huán)境下關聯(lián)規(guī)則算法的研究[J].計算機工程與設計,2014,35(2):499-503

[34] 李宏偉,陳虎,王振宇,等.基于概念格的空間關聯(lián)規(guī)則挖掘優(yōu)化[J].測繪科學技術學報,2013,30(3):304-307

[35] CAO X J. An Algorithm of Mining Association Rules Based on Granular Computing[J]. Physics Procardia,2012,33:1 248-1 253

[36] 林長方,吳揚揚,黃仲開,等.基于MapReduce的Apriori算法并行化[J].江南大學學報,2014,13(4):411-415

[37] 王程韡.“大數(shù)據(jù)”是“大趨勢”嗎:基于關鍵詞共現(xiàn)方法的反事實分析[J].科學學與科學技術管理,2015,36(1):3-11

[38] 潘教峰,張曉林. 第四范式:數(shù)據(jù)密集型科學發(fā)現(xiàn)[M].北京:科學出版社,2012

P208

B

1672-4623(2017)01-0008-04

10.3969/j.issn.1672-4623.2017.01.003

杜江毅,博士研究生,研究方向為空間數(shù)據(jù)挖掘、云計算。

2015-10-20。

項目來源:國家自然科學基金青年基金資助項目(41301371)。

猜你喜歡
數(shù)據(jù)挖掘
基于數(shù)據(jù)挖掘的船舶通信網(wǎng)絡流量異常識別方法
探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
數(shù)據(jù)挖掘技術在打擊倒賣OBU逃費中的應用淺析
基于并行計算的大數(shù)據(jù)挖掘在電網(wǎng)中的應用
電力與能源(2017年6期)2017-05-14 06:19:37
數(shù)據(jù)挖掘技術在中醫(yī)診療數(shù)據(jù)分析中的應用
一種基于Hadoop的大數(shù)據(jù)挖掘云服務及應用
數(shù)據(jù)挖掘在高校圖書館中的應用
數(shù)據(jù)挖掘的分析與探索
河南科技(2014年23期)2014-02-27 14:18:43
基于GPGPU的離散數(shù)據(jù)挖掘研究
利用數(shù)據(jù)挖掘技術實現(xiàn)LIS數(shù)據(jù)共享的開發(fā)實踐
主站蜘蛛池模板: 白丝美女办公室高潮喷水视频| 夜夜操天天摸| 成人免费视频一区| 国内老司机精品视频在线播出| 亚洲第一黄色网址| av在线手机播放| 黑人巨大精品欧美一区二区区| 免费a在线观看播放| 91小视频版在线观看www| 国产视频 第一页| 久久semm亚洲国产| 精品无码日韩国产不卡av | 一级毛片免费高清视频| 97久久超碰极品视觉盛宴| 在线国产你懂的| 久久精品女人天堂aaa| 国产福利一区二区在线观看| a色毛片免费视频| 免费一级毛片在线播放傲雪网| 久久国产免费观看| 亚洲欧美成人在线视频| 美女裸体18禁网站| 中文字幕首页系列人妻| 亚洲侵犯无码网址在线观看| 很黄的网站在线观看| 九九九精品成人免费视频7| 亚洲国产中文综合专区在| 婷婷亚洲最大| 欧美在线一二区| 久久国语对白| 一本一本大道香蕉久在线播放| 九九热精品在线视频| 久久人人爽人人爽人人片aV东京热| 国产原创演绎剧情有字幕的| 一本大道视频精品人妻 | 中文字幕久久亚洲一区| 亚洲国产系列| 青青草原国产av福利网站| 日韩精品毛片| 亚洲乱强伦| 亚洲一区二区三区在线视频| 伊人久久婷婷五月综合97色| 成人免费一级片| 五月天久久综合国产一区二区| 啪啪啪亚洲无码| 一区二区午夜| 久久精品国产亚洲AV忘忧草18| 欧美专区在线观看| 无码中文AⅤ在线观看| 欧美精品亚洲二区| 精品视频一区二区观看| 在线毛片免费| 国产jizz| 永久在线播放| 亚洲欧美不卡中文字幕| 99热这里只有精品免费| 欧洲成人在线观看| 天堂成人在线| 亚洲中文字幕久久无码精品A| 国产尹人香蕉综合在线电影 | 国产99精品视频| 精品欧美视频| 狠狠亚洲婷婷综合色香| 成人日韩欧美| 中文字幕在线不卡视频| 欧美日韩第二页| 亚洲男人的天堂在线观看| 青青草国产免费国产| 国产午夜看片| 亚洲美女视频一区| 久久国产精品嫖妓| 国产办公室秘书无码精品| 精品国产福利在线| 激情综合网激情综合| 一级毛片在线播放| 国产打屁股免费区网站| 亚洲永久色| 欧洲极品无码一区二区三区| 欧美翘臀一区二区三区| 成年A级毛片| 亚洲伊人久久精品影院| 国产精品视频白浆免费视频|