999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

淺析基因表達數(shù)據(jù)的預(yù)處理方法

2011-12-31 00:00:00王修竹
科教導(dǎo)刊 2011年18期

摘要本文介紹了幾種常見的基因表達數(shù)據(jù)預(yù)處理方法,并對這些方法進行對比,闡明了各種方法在不同的環(huán)境下的應(yīng)用優(yōu)勢。

關(guān)鍵詞 數(shù)據(jù)挖掘 預(yù)處理方法 基因表達數(shù)據(jù)

中圖分類號:O17文獻標(biāo)識碼:A

Pretreatment Method of the Gene Expression Data

WANG Xiuzhu

(Computer Science and Technology, Southwest University of Science and Technology, Mianyang, Sichuan 621010)

AbstractThis paper introduces several common gene expression data pretreatment method, and compared those methods, elucidatedapplication advantages of different methods in different environment.

Key wordsdata mining; pretreatment methods; gene expression data

隨著人類基因組計劃對24對染色體全部基因測序工作的完成,人類對基因的研究將進入全新的發(fā)展階段,而它的重點也將落在對基因表達數(shù)據(jù)的分析上。面對數(shù)以千兆計的基因表達數(shù)據(jù)記錄,數(shù)據(jù)挖掘成了首當(dāng)其沖的、強有力的分析工具。選擇合適的數(shù)據(jù)挖掘算法,是基因表達數(shù)據(jù)知識發(fā)現(xiàn)的關(guān)鍵。一般基因表達數(shù)據(jù)都會存在諸如數(shù)據(jù)完整性、數(shù)據(jù)的冗余性、屬性間的相關(guān)性等問題而不能直接滿足挖掘算法的要求。本文首先提出幾種常用的基因表達數(shù)據(jù)預(yù)處理方法,隨后會對這些方法進行論述和比較,以闡明在不同環(huán)境下各種預(yù)處理方法的應(yīng)用優(yōu)勢。

數(shù)據(jù)預(yù)處理是從大量的數(shù)據(jù)屬性中提取出一些對目標(biāo)輸出有重要影響的屬性,即降低原始數(shù)據(jù)的維數(shù),從而達到改善實例數(shù)據(jù)質(zhì)量和提高數(shù)據(jù)挖掘速度的目的。常見的基因表達數(shù)據(jù)預(yù)處理方法有以下幾類。

1 基于粗糙集理論的約簡方法

20世紀(jì)80年代初,波蘭的Pawlak針對G.Frege的邊界線區(qū)域思想提出了粗糙集理論,粗糙集理論的主要研究內(nèi)容有知識約簡、離散化問題和不完全知識的補齊等,它在一定程度上很好地解決了傳統(tǒng)數(shù)據(jù)挖掘中存在的超大數(shù)據(jù)、不確定性數(shù)據(jù)、噪音數(shù)據(jù)、空值和冗余數(shù)據(jù)等問題。①

粗糙集理論的基本思想是:用數(shù)據(jù)集的等價關(guān)系,這種關(guān)系可以是某個屬性,也可以是某幾個屬性的組合,對此數(shù)據(jù)集進行劃分,從而得到不同的基本類,在這些基本類的基礎(chǔ)上進一步求得最小約簡集,以達到降維的目的。

粗糙集理論的優(yōu)點是:無需提供額外的先驗信息就可將問題的論域進行劃分,無需相關(guān)領(lǐng)域?qū)<业谋O(jiān)督就可獨立完成。能有效地去除基因表達數(shù)據(jù)庫中的冗余數(shù)據(jù)、噪音數(shù)據(jù)和空數(shù)據(jù),并對數(shù)據(jù)進行有效的降維。缺點是:只能處理離散型數(shù)據(jù)。因此,如果基因表達數(shù)據(jù)庫中的數(shù)據(jù)是連續(xù)型的,則首先要對其進行離散化處理后才能運用粗糙集理論來進行后續(xù)處理。

2 基于概念樹的數(shù)據(jù)濃縮方法

在基因表達數(shù)據(jù)庫中,許多屬性都是可以進行歸類的,各屬性值依據(jù)抽象程度可以構(gòu)成一個層次結(jié)構(gòu),這種層次結(jié)構(gòu)通常稱為概念樹。它依據(jù)抽象程度將屬性按照一般到特殊的順序排列,并用這種層次結(jié)構(gòu)體現(xiàn)出來。這種方法其實是幾組合并的處理過程,用這種方法從基因表達數(shù)據(jù)庫中發(fā)現(xiàn)規(guī)則知識的核心是執(zhí)行基本的和面向各屬性的歸納。②

基于概念樹的數(shù)據(jù)濃縮法的基本思想是:(1)用概念樹中的父概念去替代下面同性的、較具體的屬性值。(2)合并知識基表中出現(xiàn)的相同元組,并計算由這些相同元組所構(gòu)成的宏元組所覆蓋的元組數(shù),如果元組數(shù)大于設(shè)定的閥值,則用概念樹中更一般的父概念去替代。(3)得到覆蓋面更廣、數(shù)量更少的宏元組以達到降維的目的。(4)將最終結(jié)果進行歸納并轉(zhuǎn)換成邏輯規(guī)則。

基于概念樹的數(shù)據(jù)濃縮法是基于監(jiān)督的方法,它的降維思想主要是根據(jù)經(jīng)驗和需要制定出相應(yīng)的剪枝閾值,以對噪聲數(shù)據(jù)進行有效剪除。這種概念泛化處理的手段,能使處理后的基因表達數(shù)據(jù)庫以不同層次和匯聚密度展現(xiàn)出來,為后續(xù)數(shù)據(jù)挖掘階段能更好地挖掘出不同層次屬性值間的關(guān)系做出了鋪墊。

3 主成分分析法

常見的基于統(tǒng)計分析的屬性選取方法有主成分分析、逐步回歸分析、公共因素模型分析等。它們都是旨在用盡可能少的特征去描述高維的原始基因表達數(shù)據(jù)庫,從而達到降維的目的。其中最有代表性,應(yīng)用得最廣的就屬主成分分析。③

主成分分析的基本思想是:將多個變量通過線性變換的方式選出較少的重要變量的一種多元統(tǒng)計分析方法,它是在數(shù)據(jù)信息丟失最少的原則下對高維空間進行降維處理。它設(shè)法將原來給定的一組變量X1,X2,,,Xp,通過線性變換,轉(zhuǎn)換為一組不相關(guān)的變量Y1,Y2,,,Yp,在這種變換中,保持原始變量的方差和不變。通常數(shù)學(xué)上的處理就是將原來p個指標(biāo)作線性組合,作為新的綜合指標(biāo)的同時,使得Y1具有最大方差,成為第一主成分,如果第一主成分不足以代表原來p個指標(biāo)的信息,再考慮選取第二個線性組合Y2作為第二主成分。依此類推,原來的k個變量就可以轉(zhuǎn)換成q個主成分。

主成分分析法的特點是用盡可能少的、具有代表性的特征變量來描述原本高維的基因表達數(shù)據(jù)庫,它能依據(jù)變量間的相關(guān)程度,自動生成權(quán)重,在一定程度上避免了人為因素的干擾,確保了評價的客觀性。它的局限性在于評價結(jié)果并不能重復(fù)使用,每次樣本的增減都會使原來的評價失去意義。

4 遺傳算法

遺傳算法是一種基于生物進化論和分子遺傳學(xué)的全局隨機搜索算法,它模擬了生物界“生存競爭,優(yōu)勝劣汰,適者生存”的機制,用逐次迭代法去搜索尋優(yōu),求得問題的最優(yōu)解。④⑤遺傳算法的基本思想是:將問題的可能解按某種形式進行染色體編碼。在選擇個體適應(yīng)度評價較優(yōu)的染色體中隨機選取 N 個進行復(fù)制。通過選擇、交叉、變異三個環(huán)節(jié)產(chǎn)生一群新的更適應(yīng)環(huán)境的染色體,從而形成新的種群。

遺傳算法應(yīng)用的關(guān)鍵是適應(yīng)度函數(shù)的建立和染色體的描述,具體體現(xiàn)在對遺傳算法運行參數(shù)的設(shè)定上,其中包括對種群的大小、進化終止的最大代數(shù)、交叉概率、變異概率的確定等。在實際應(yīng)用中,通常將它和神經(jīng)網(wǎng)絡(luò)方法綜合使用。

5 結(jié)論

綜上所述,在以上的數(shù)據(jù)預(yù)處理方法中,基于粗糙集理論的約簡方法在處理離散型基因表達數(shù)據(jù)上具有明顯優(yōu)勢;基于概念樹的數(shù)據(jù)濃縮方法在有相關(guān)領(lǐng)域?qū)<冶O(jiān)督的前提下具有優(yōu)勢;基于統(tǒng)計分析的屬性選取方法由于在對基因表達數(shù)據(jù)的預(yù)處理過程中無需通過人為賦值來確定各個指標(biāo)的權(quán)重,增強了數(shù)據(jù)處理的客觀性。此外,它是在數(shù)據(jù)信息丟失最少的前提下進行的。因此,它較其他三種方法在降維的質(zhì)量上有優(yōu)勢,遺傳算法在處理基因表達數(shù)據(jù)上的降維效果也是比較明顯的,但通常要與神經(jīng)網(wǎng)絡(luò)相結(jié)合來使用,算法的復(fù)雜度相對較高。

基金項目:西南科技大學(xué)青年基金項目(項目編號:11zx3118,“西南科技大學(xué)科研基金資助成果”)

注釋

①于成.粗糙集在基于神經(jīng)網(wǎng)絡(luò)的入侵檢測系統(tǒng)的探討[J].自動化與儀器儀表,2010.5:129-131.

②劉上力,趙勁強,聶勤務(wù).Web使用挖掘中的數(shù)據(jù)預(yù)處理方法[J].鄭州輕工業(yè)學(xué)院學(xué)報(自然科學(xué)版),2010.25(4):71-74.

③顧明,蘇園園.主成分分析法在工作評價中的應(yīng)用[J].科教導(dǎo)刊,2010(6):159-161.

④張智文.基于遺傳算法的可拓故障診斷新方法[J].信息技術(shù):271-272.

⑤揚凡,米根鎖.BP網(wǎng)絡(luò)結(jié)合遺傳算法在故障診斷中的應(yīng)用[J].自動化技術(shù)與應(yīng)用,2006.25(11):4-6.

主站蜘蛛池模板: 亚洲人成色77777在线观看| 欧美一区二区三区不卡免费| 国内自拍久第一页| 国产乱子伦精品视频| a国产精品| 视频在线观看一区二区| 一级毛片基地| 国产幂在线无码精品| 国产欧美视频一区二区三区| 国产成人精品无码一区二| 亚洲看片网| 国产白浆在线观看| 青青操视频免费观看| 国产小视频免费观看| 国产毛片基地| 欧美天堂在线| 日韩天堂在线观看| 波多野结衣在线se| 亚洲综合第一页| 成·人免费午夜无码视频在线观看 | 无码专区国产精品第一页| 婷婷亚洲最大| 国产av色站网站| 亚洲资源在线视频| 91青青视频| 亚洲精品麻豆| 国产精品99久久久久久董美香| 精品视频免费在线| 欧美福利在线| 国产特级毛片| 尤物精品视频一区二区三区| 麻豆AV网站免费进入| 国产麻豆永久视频| 久久婷婷五月综合色一区二区| 天天躁夜夜躁狠狠躁躁88| 国产色伊人| 青青青国产在线播放| 亚洲AⅤ无码国产精品| 欧美一级一级做性视频| 91探花在线观看国产最新| 性激烈欧美三级在线播放| 日韩无码黄色网站| 国产欧美视频在线观看| 妇女自拍偷自拍亚洲精品| 亚洲码在线中文在线观看| 99这里只有精品免费视频| 极品av一区二区| 国产精品妖精视频| 一级毛片免费观看不卡视频| 亚洲VA中文字幕| 免费又黄又爽又猛大片午夜| 91精品国产一区| 狼友视频一区二区三区| 又爽又黄又无遮挡网站| 亚洲日本在线免费观看| 国产成人啪视频一区二区三区| 在线日韩日本国产亚洲| 国产成人a在线观看视频| 91美女视频在线| 久久婷婷色综合老司机| 又爽又大又光又色的午夜视频| 日韩欧美中文在线| 91精品国产91久久久久久三级| 国产欧美日韩在线在线不卡视频| 亚洲天堂免费| JIZZ亚洲国产| 久久综合伊人77777| 亚洲欧美日韩综合二区三区| 亚洲精品午夜天堂网页| 久久美女精品国产精品亚洲| 久久亚洲综合伊人| 成人福利视频网| 久久永久视频| av性天堂网| 欧美高清视频一区二区三区| 青草免费在线观看| 人妻夜夜爽天天爽| 午夜精品一区二区蜜桃| 欧美成人综合视频| 日韩美女福利视频| 国产三级国产精品国产普男人| 午夜欧美在线|