999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

大數據時代的數據挖掘及應用

2016-05-14 09:40:35孫勤紅沈鳳仙
電子技術與軟件工程 2016年6期
關鍵詞:數據挖掘大數據

孫勤紅 沈鳳仙

摘 要當今時代,信息技術為人類步入智能社會開啟了大門,同時也帶動了互聯網、物聯網、電子商務、現代物流和網絡金融等現代服務業的發展。由于網絡信息的廣泛使用,使得各種業務數據正以幾何級數的形式爆發,其格式、收集、存儲、分析和應用等諸多問題有待解決。大數據具有了volume、velocity、variety和variety四個特征。2011年5月,麥肯錫全球研究院發布題為《大數據:創新、競爭和生產力的下一個前沿領域》的報告,正式提出了“大數據”的概念。在大數據時代背景下,應該如何在原有的數據挖掘技術下實現更好的數據處理和應用也稱為一個迫切解決的問題。大數據的體量和流量注定傳統的數據挖掘算法,尤其是基于單機迭代的實現模式是無法滿足大數據所要求的高擴展性和高時效性的。同時大數據的多元異構也需要在數據的抽取、清洗、轉換、存儲、關聯和展現等各個關鍵環節進行調整。

【關鍵詞】大數據 生物信息 知識提取 數據挖掘

1 數據挖掘的功能

數據挖掘是從大量的數據中四棟搜索隱藏于其中的具有特殊關系性的信息過程。它是數據庫知識發現KDD中的一個步驟。知識發現KDD過程由以下3個階段組成:數據準備、數據挖掘、結果表示和解釋。數據挖掘跟許多學科都交叉關聯,包括數據庫技術、統計學、機器學習、人工智能、云計算和可視化等。

數據挖掘的實際應用功能可分為三大類和六分項:分類和聚類屬于分類去隔類;回歸和時間序列屬于推算預測類;關聯和序列則屬于序列規則類。分類常被用來根據歷史經驗已經分好的數據來研究它們的特征,然后再根據這些特征對其他未經分類或是新的數據做預測。聚類是將數據分群,其目的是找出群間的差異來,同時找出群內成員間相似性。回歸是利用一系列的現有數值來預測一個數值的可能值。基于時間序列的預測與回歸功能類似,只是它是用現有的數值來預測未來的數值。關聯是要找出在某一事件與數據中會同時出現的東西。

2 降維

從降維的角度講,整個數據挖掘的過程就是一個降維的過程。在這個過程中,需要對數據刪除線性關系比較強的特征數據,再用一些算法,如信號分析算法、傅里葉轉換、離散小波轉換等算法,從數據中提取特征,再對數據做主成分析處理,得到最后的特征,再用數據挖掘算法來將這些特征轉化為人類可讀取的數據或信息。

3 分布式數據挖掘解決方案

隨著分布式計算技術、云計算技術、hadoop生態圈和非結構化數據庫等技術的發展,以及對大數據挖掘的需求,出現了一批分布式數據挖掘,比較典型的有Apache推出的基于Hadoop的Mahout和加利福尼亞大學伯克利分校AMP實驗室推出的基于Spark的MLBase。在Mahout中主要實現3種類型的數據挖掘算法:分類、聚類(集群)和協同過濾。相比Mahout而言,MLbase更好的支持迭代計算,它把數據拆分成若干份,對每一份使用不同的算法和參數運算出結果,看哪一種搭配方式得到的結果最優。

4 大數據下的具體應用實例——生物信息學的應用

生物信息學(Bioinformatics)是生命科學、計算機科學、信息科學和數學等學科交匯融合形成的一門交叉學科。近年來隨著先進儀器裝備與信息技術等越來越廣泛和深入的整合到生物技術中來,生物醫學研究中越來越頻繁的涉及到大數據存儲和分析等信息技術。在使用計算機協助生物信息時,處理僅有計算機輔助的方式存儲數據很顯然是不夠的,生物信息學研究的目的是運用計算機強大的計算能力來加速生物數據的分析,理解數據中所包含的生物學意義。當前生物信息學研究的熱點有:

(1)由以序列分析為代表的組成分析轉向功能分析。

(2)由對單個生物分子的研究轉向基因調控忘了等動態信息的研究。

(3)完整基因組數據分析。

(4)綜合分析。

生物信息數據具有如下特點:高通量與大數據量;種類繁多,形式多樣;異構性;網絡性與動態性;高維;序列數據等特點[5]。針對這樣的生物數據信息,要結合當前的大數據分析方法進行分析和理解。當前數據挖掘實現對生物信息分析的支持主要有:生物數據的語義綜合,數據集成;開發生物信息數據挖掘工具;序列的相似性查找和比較;聚類分析;關聯分析,生物文獻挖掘等方面。

參考文獻

[1]許凡.大數據時代的數據挖掘技術探討[J].電子技術與軟件工程,2015(08).

[2]洪松林.數據挖掘技術與工程實踐[M].北京:機械工業出版社,2014(11).

[3]李榮.生物信息數據挖掘若干關鍵問題研究與應用[D].復旦大學(博士論文),2004(11).

[4]宋杰.生物信息數據挖掘中的若干方法及其應用研究[D].大連理工大學(博士論文),2005(04).

[5]孫勤紅.基于梯度采樣局部收斂的生物信息大數據挖掘[J].科技通報,2015(10).

作者簡介

孫勤紅(1979-),女,山東省人。現為三江學院計算機科學與工程學院講師。研究方向為人工智能、數據挖掘。

沈鳳仙(1984-),女,江蘇省人。現供職于三江學院計算機科學與工程學院。研究方向為數據挖掘。

作者單位

三江學院計算機科學與工程學院 江蘇省南京市 210000

猜你喜歡
數據挖掘大數據
探討人工智能與數據挖掘發展趨勢
基于并行計算的大數據挖掘在電網中的應用
電力與能源(2017年6期)2017-05-14 06:19:37
數據挖掘技術在中醫診療數據分析中的應用
大數據環境下基于移動客戶端的傳統媒體轉型思路
新聞世界(2016年10期)2016-10-11 20:13:53
基于大數據背景下的智慧城市建設研究
科技視界(2016年20期)2016-09-29 10:53:22
數據+輿情:南方報業創新轉型提高服務能力的探索
中國記者(2016年6期)2016-08-26 12:36:20
一種基于Hadoop的大數據挖掘云服務及應用
數據挖掘的分析與探索
河南科技(2014年23期)2014-02-27 14:18:43
基于GPGPU的離散數據挖掘研究
主站蜘蛛池模板: 成人福利在线免费观看| 亚洲精品国产首次亮相| 五月婷婷综合在线视频| 中文字幕首页系列人妻| 美女裸体18禁网站| 亚洲天堂视频网| 亚洲码在线中文在线观看| 美女一级毛片无遮挡内谢| 中文字幕免费在线视频| 国产日韩av在线播放| 亚洲精品在线91| 日本一区高清| 亚洲A∨无码精品午夜在线观看| 日本黄网在线观看| 白浆免费视频国产精品视频| 久久久久青草线综合超碰| 欧洲日本亚洲中文字幕| 女人18毛片一级毛片在线| 久久黄色小视频| 成人国产一区二区三区| 综1合AV在线播放| JIZZ亚洲国产| 日韩人妻少妇一区二区| 久操中文在线| 久草视频中文| 亚洲一级毛片在线观播放| 99国产精品一区二区| 国产一在线| 国产欧美日韩精品综合在线| 国产va欧美va在线观看| 天天摸天天操免费播放小视频| 精品一区二区无码av| 在线观看亚洲人成网站| 欧美在线天堂| 国产手机在线观看| 久久6免费视频| 午夜精品区| 国产精品一区二区在线播放| 萌白酱国产一区二区| 日韩少妇激情一区二区| 国精品91人妻无码一区二区三区| 黄色免费在线网址| 青青热久免费精品视频6| 五月婷婷导航| 亚洲区欧美区| 波多野结衣一区二区三区四区 | 日韩亚洲综合在线| 国产人人射| 色综合日本| 亚洲人成网站18禁动漫无码| 日韩一区二区在线电影| 亚洲色婷婷一区二区| 99久久国产自偷自偷免费一区| 亚洲国产理论片在线播放| 国产精品一区二区在线播放| 成人福利在线看| 亚洲欧美日韩中文字幕在线| 亚洲第一页在线观看| 国产一区二区三区免费观看| 欧美亚洲欧美区| 亚洲天堂伊人| 久久免费精品琪琪| 午夜在线不卡| 中文字幕人妻无码系列第三区| 国产香蕉97碰碰视频VA碰碰看| 91精品国产综合久久香蕉922| 日本高清成本人视频一区| 99re在线视频观看| 国产精品久线在线观看| 亚洲精品国产自在现线最新| 手机在线国产精品| 国产毛片高清一级国语| 亚洲精品国产成人7777| 亚洲视频免费在线| 亚洲欧美在线综合图区| 亚洲午夜综合网| 国产网站免费观看| 91精品伊人久久大香线蕉| 找国产毛片看| 国产69精品久久久久孕妇大杂乱| av大片在线无码免费| 91原创视频在线|