孫勤紅 沈鳳仙
摘 要當今時代,信息技術為人類步入智能社會開啟了大門,同時也帶動了互聯網、物聯網、電子商務、現代物流和網絡金融等現代服務業的發展。由于網絡信息的廣泛使用,使得各種業務數據正以幾何級數的形式爆發,其格式、收集、存儲、分析和應用等諸多問題有待解決。大數據具有了volume、velocity、variety和variety四個特征。2011年5月,麥肯錫全球研究院發布題為《大數據:創新、競爭和生產力的下一個前沿領域》的報告,正式提出了“大數據”的概念。在大數據時代背景下,應該如何在原有的數據挖掘技術下實現更好的數據處理和應用也稱為一個迫切解決的問題。大數據的體量和流量注定傳統的數據挖掘算法,尤其是基于單機迭代的實現模式是無法滿足大數據所要求的高擴展性和高時效性的。同時大數據的多元異構也需要在數據的抽取、清洗、轉換、存儲、關聯和展現等各個關鍵環節進行調整。
【關鍵詞】大數據 生物信息 知識提取 數據挖掘
1 數據挖掘的功能
數據挖掘是從大量的數據中四棟搜索隱藏于其中的具有特殊關系性的信息過程。它是數據庫知識發現KDD中的一個步驟。知識發現KDD過程由以下3個階段組成:數據準備、數據挖掘、結果表示和解釋。數據挖掘跟許多學科都交叉關聯,包括數據庫技術、統計學、機器學習、人工智能、云計算和可視化等。
數據挖掘的實際應用功能可分為三大類和六分項:分類和聚類屬于分類去隔類;回歸和時間序列屬于推算預測類;關聯和序列則屬于序列規則類。分類常被用來根據歷史經驗已經分好的數據來研究它們的特征,然后再根據這些特征對其他未經分類或是新的數據做預測。聚類是將數據分群,其目的是找出群間的差異來,同時找出群內成員間相似性。回歸是利用一系列的現有數值來預測一個數值的可能值。基于時間序列的預測與回歸功能類似,只是它是用現有的數值來預測未來的數值。關聯是要找出在某一事件與數據中會同時出現的東西。
2 降維
從降維的角度講,整個數據挖掘的過程就是一個降維的過程。在這個過程中,需要對數據刪除線性關系比較強的特征數據,再用一些算法,如信號分析算法、傅里葉轉換、離散小波轉換等算法,從數據中提取特征,再對數據做主成分析處理,得到最后的特征,再用數據挖掘算法來將這些特征轉化為人類可讀取的數據或信息。
3 分布式數據挖掘解決方案
隨著分布式計算技術、云計算技術、hadoop生態圈和非結構化數據庫等技術的發展,以及對大數據挖掘的需求,出現了一批分布式數據挖掘,比較典型的有Apache推出的基于Hadoop的Mahout和加利福尼亞大學伯克利分校AMP實驗室推出的基于Spark的MLBase。在Mahout中主要實現3種類型的數據挖掘算法:分類、聚類(集群)和協同過濾。相比Mahout而言,MLbase更好的支持迭代計算,它把數據拆分成若干份,對每一份使用不同的算法和參數運算出結果,看哪一種搭配方式得到的結果最優。
4 大數據下的具體應用實例——生物信息學的應用
生物信息學(Bioinformatics)是生命科學、計算機科學、信息科學和數學等學科交匯融合形成的一門交叉學科。近年來隨著先進儀器裝備與信息技術等越來越廣泛和深入的整合到生物技術中來,生物醫學研究中越來越頻繁的涉及到大數據存儲和分析等信息技術。在使用計算機協助生物信息時,處理僅有計算機輔助的方式存儲數據很顯然是不夠的,生物信息學研究的目的是運用計算機強大的計算能力來加速生物數據的分析,理解數據中所包含的生物學意義。當前生物信息學研究的熱點有:
(1)由以序列分析為代表的組成分析轉向功能分析。
(2)由對單個生物分子的研究轉向基因調控忘了等動態信息的研究。
(3)完整基因組數據分析。
(4)綜合分析。
生物信息數據具有如下特點:高通量與大數據量;種類繁多,形式多樣;異構性;網絡性與動態性;高維;序列數據等特點[5]。針對這樣的生物數據信息,要結合當前的大數據分析方法進行分析和理解。當前數據挖掘實現對生物信息分析的支持主要有:生物數據的語義綜合,數據集成;開發生物信息數據挖掘工具;序列的相似性查找和比較;聚類分析;關聯分析,生物文獻挖掘等方面。
參考文獻
[1]許凡.大數據時代的數據挖掘技術探討[J].電子技術與軟件工程,2015(08).
[2]洪松林.數據挖掘技術與工程實踐[M].北京:機械工業出版社,2014(11).
[3]李榮.生物信息數據挖掘若干關鍵問題研究與應用[D].復旦大學(博士論文),2004(11).
[4]宋杰.生物信息數據挖掘中的若干方法及其應用研究[D].大連理工大學(博士論文),2005(04).
[5]孫勤紅.基于梯度采樣局部收斂的生物信息大數據挖掘[J].科技通報,2015(10).
作者簡介
孫勤紅(1979-),女,山東省人。現為三江學院計算機科學與工程學院講師。研究方向為人工智能、數據挖掘。
沈鳳仙(1984-),女,江蘇省人。現供職于三江學院計算機科學與工程學院。研究方向為數據挖掘。
作者單位
三江學院計算機科學與工程學院 江蘇省南京市 210000