999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

一種基于集成學習策略的單細胞轉錄組數據集成分類算法

2021-09-22 04:10:52劉桂鋒于紹楠
吉林大學學報(理學版) 2021年5期
關鍵詞:分類

劉桂鋒, 于紹楠, 崔 璐

(1. 吉林大學中日聯誼醫院 放射線科, 長春 130033; 2. 吉林大學中日聯誼醫院 醫療保險管理部, 長春 130033)

單細胞轉錄組學在細胞發育分化、 腫瘤浸潤免疫細胞的功能狀態以及慢性疾病診療等領域應用廣泛. 近年來, 針對單細胞轉錄組數據的研究已有許多結果[1]. 但在研究人體器官、 組織各主要發育階段及慢性疾病狀態下各類細胞的內在規律、 相互關系和穩態失衡等復雜細胞分化問題時, 以聚類算法為代表的傳統細胞類型識別方法存在準確率較低及結果缺乏合理生物醫學解釋的缺陷. 因此, 探索高效準確的細胞類型識別算法成為該領域亟待解決的問題之一. 為得到更準確的細胞分類結果, 文獻[2]提出了一種半監督聚類算法, 其利用少量已標記的基因信息引導細胞樣本的聚類, 但由于少量標記基因的監督能力較弱, 因此該細胞分類方法的準確率有待提高; 文獻[3]提出了一種半監督降維輔助細胞分類算法, 該方法將少量標記樣本與無標記樣本混合以訓練自動編碼器網絡, 實現標記信號的放大和傳播, 但由于無標記樣本作為訓練樣本時不可避免地存在誤差, 當標記樣本較多時其分類性能仍然無法與強分類器相比. 基于此, 本文提出一種基于集成學習策略的單細胞RNA-seq數據分類算法, 該方法能利用不同分類算法各自的優點尋找最佳的細胞類型劃分.

1 單細胞RNA-seq集成分類模型

給定一個單細胞RNA-seq基因表達矩陣E∈n×m, 其中包含n個基因、m個細胞樣本和樣本標簽集合Y.設集成分類模型中包含L個分類器, 則對于任一細胞樣本x, 有

(1)

其中hi(x)表示集成模型中第i個算法為細胞x預測的細胞類型標記,wi表示算法的權重系數,H(x)表示集成模型為細胞x加權投票得到的細胞標記.算法的權重系數wi可根據專家經驗設定, 也可通過對數據集進行多次采樣訓練學習和調整.

2 集成分類模型中的細胞分類算法

本文的集成分類算法選取線性判別分析[4]、k-近鄰算法[5]、 分類回歸樹算法[6]、 樸素Bayes算法[7]以及支持向量機算法[8].線性判別分析方法通過找到不同類型細胞基因特征的線性組合區分細胞類型, 其目標函數[4]為

(2)

優化求解得到w后, 將其與細胞xi基因表達向量代入線性函數可求得xi的所屬類別.k-近鄰算法的分類決策規則為通過細胞i在特征空間中最新的k個細胞類型判斷其自身細胞的細胞類型[5]:

(3)

其中I為指示函數, 當yi=j時I=1, 否則I=0.

分類回歸樹算法采用決策樹模型進行分類, 決策樹上各節點應用基尼指數選擇特征.設細胞屬于第q類的概率為pq, 則概率分布的基尼指數定義[6]為

(4)

樸素Bayes算法[7]學習從輸入到輸出的聯合概率分布, 再基于學習到的模型, 輸入細胞xi, 求出使后驗概率最大的輸出yi:

(5)

其中fr為單細胞樣本xi在第r個基因上的函數值.

支持向量機算法的分類決策規則為先將細胞表示為核函數映射的高維特征空間中的點, 并尋找盡可能寬的和明顯的分類間隔, 對不同細胞類型進行間隔區分; 然后將新的細胞映射到同一空間, 并判斷新細胞落在間隔分區的位置預測所屬細胞類型yi[8]:

(6)

3 實驗與分析

為檢驗集成學習算法的細胞分類能力, 本文首先利用慢性粒細胞白血病(chronic myeloid leukemia, CML)單細胞RNA-seq數據GSE76312[9]進行算法比較和驗證, 這些數據來自美國國家生物信息中心(NCBI). 目前, NCBI已收錄約51 500條單細胞RNA-seq數據. 本文選擇的數據GSE76312等包含5種類型的細胞, 分別是急變期慢性粒細胞白血病細胞(BC-CML)、 慢性期慢性髓性白血病細胞(CP-CML)、 人紅白血病細胞系(k562)、 正常造血干細胞(normal)以及前急變期慢性粒細胞白血病細胞(pre-BC)[10]. 選擇1 102個不含絡氨酸激酶抑制劑的細胞, 這些細胞在5種類別上的分布如圖1所示. 由圖1可見, 細胞類別分布不均衡, 其中CP-CML約包含500個細胞, 而k562的細胞數則小于50個. 集成學習可利用不同分類算法各自的優點, 減少類別不均衡分布對結果的影響. 本文利用偽發現率和差異倍數選取前234個差異表達基因作為分類特征.

圖2為不同分類算法對數據GSE76312的分類準確率比較. 由圖2可見, 與線性判別分析、k-近鄰算法、 分類回歸樹算法、 樸素Bayes算法和支持向量機算法相比, 本文提出的集成學習算法準確率最高, 分別比上述各算法高1.8%,10.0%,14.9%,27.0%和1.3%. 實驗結果表明, 采用集成學習策略能有效利用不同算法的優點, 提高細胞分類的準確性.

a. BC-CML; b. CP-CML; c. k562;d. normal; e. pre-BC圖1 單細胞RNA-seq數據GSE76312的類別分布Fig.1 Category distribution of single cell RNA-seq data GSE76312

a. 線性判別分析; b. k-近鄰算法; c. 分類回歸樹算法;d. 樸素Bayes算法; e. 支持向量機算法; f. 集成學習算法.圖2 不同分類算法對數據GSE76312的分類準確率比較Fig.2 Comparison of classification accuracy of different classification algorithms on data GSE76312

為考察算法的泛化能力, 本文將不同算法應用到三陰性乳腺癌(triple-negative breast cancer, TNBC)單細胞測序數據GSE118390上, 該數據共包含6種類型的細胞, 分別是基細胞、 巨噬細胞、 上皮細胞、 內皮細胞、 T淋巴細胞和B淋巴細胞[11]. 選擇1 112個細胞, 這些細胞在6種類別上的分布如圖3所示. 由圖3可見, 細胞類別分布不均衡, 這種不均衡分布會降低分類算法的性能. 其中上皮細胞包含868個細胞, 而B淋巴細胞數則小于50個. 集成學習能利用不同分類算法各自的優點, 減輕不均衡分布的影響. 本文利用偽發現率和差異倍數選取前56個差異表達基因作為分類特征.

圖4為不同分類算法對數據GSE118390的分類準確率比較: 由圖4可見, 與線性判別分析、k-近鄰算法、 分類回歸樹算法、 樸素Bayes算法和支持向量機算法相比, 本文提出的集成學習算法準確率最高, 分別比上述各算法高11.2%,1.9%,0.9%,36.3%和10.7%. 實驗結果表明, 集成細胞分類算法在三陰性乳腺癌單細胞測序數據上也取得了較好的分類效果.

綜上所述, 針對單細胞RNA-seq數據上的細胞分類問題, 本文提出了一種基于集成學習策略的單細胞RNA-seq數據集成分類算法. 首先將單細胞RNA-seq數據的細胞類型識別模型轉換為集成學習模型; 然后基于支持向量機、 樸素Bayes算法、 分類回歸樹算法、k-近鄰算法和線性判別分析算法構建了集成細胞分類模型, 對單細胞RNA-seq數據集中的細胞進行精確劃分. 分別在慢性粒細胞白血病單細胞測序數據和三陰性乳腺癌細胞測序數據上的實驗結果表明, 本文的集成分類算法能取得更高的分類準確率和較好的泛化能力.

a. 基細胞; b. 巨噬細胞; c. 上皮細胞;d. 內皮細胞; e. T淋巴細胞; f. B淋巴細胞.圖3 單細胞RNA-seq數據GSE118390的類別分布Fig.3 Category distribution of single cell RNA-seq data GSE118390

a. 線性判別分析; b. k-近鄰算法; c. 分類回歸樹算法;d. 樸素Bayes算法; e. 支持向量機算法; f. 集成學習算法.圖4 不同分類算法對數據GSE118390的分類準確率比較Fig.4 Comparison of classification accuracy of different classification algorithms on data GSE118390

猜你喜歡
分類
2021年本刊分類總目錄
分類算一算
垃圾分類的困惑你有嗎
大眾健康(2021年6期)2021-06-08 19:30:06
星星的分類
我給資源分分類
垃圾分類,你準備好了嗎
學生天地(2019年32期)2019-08-25 08:55:22
分類討論求坐標
數據分析中的分類討論
按需分類
教你一招:數的分類
主站蜘蛛池模板: 国产成人精品在线| 91av成人日本不卡三区| 国产在线自乱拍播放| 亚洲制服丝袜第一页| 中文字幕在线欧美| 婷婷色一二三区波多野衣| 91精品免费久久久| 欧美在线精品一区二区三区| 浮力影院国产第一页| 中日韩一区二区三区中文免费视频| 成年人国产视频| 色综合久久88| 精品国产亚洲人成在线| 国产精品yjizz视频网一二区| 成人a免费α片在线视频网站| 午夜a级毛片| 亚洲日韩精品伊甸| 国产激情无码一区二区APP| 精品三级网站| 2021国产精品自产拍在线| 毛片国产精品完整版| 成人福利在线看| 中文字幕调教一区二区视频| 又粗又大又爽又紧免费视频| 无码网站免费观看| 日本在线亚洲| 日韩精品专区免费无码aⅴ| 国内老司机精品视频在线播出| 九九线精品视频在线观看| 中文字幕 欧美日韩| 免费a在线观看播放| 日本高清在线看免费观看| 91欧美亚洲国产五月天| 国产精品亚洲五月天高清| 不卡国产视频第一页| 激情视频综合网| 久久这里只有精品免费| 亚洲天堂免费| 九色视频线上播放| 亚洲精品va| 99视频免费观看| 真人免费一级毛片一区二区| 99视频精品在线观看| 四虎永久免费网站| 成人在线亚洲| 精品久久人人爽人人玩人人妻| 成人福利免费在线观看| 欧美激情视频二区| 欧美一区二区自偷自拍视频| 女人18毛片久久| 久爱午夜精品免费视频| 国产va免费精品| 91伊人国产| 日韩美一区二区| 欧美翘臀一区二区三区| 精品国产污污免费网站| 久久国产精品国产自线拍| 亚洲精品综合一二三区在线| 成人欧美日韩| 国产成人无码Av在线播放无广告 | 亚洲色图欧美一区| 人妻少妇久久久久久97人妻| 国产精品尤物铁牛tv| 国产你懂得| 亚洲日韩精品无码专区| 无码一区二区波多野结衣播放搜索| 免费国产不卡午夜福在线观看| 99热这里只有精品5| 日韩a级毛片| 91精品综合| 中文天堂在线视频| 黄色网页在线播放| 国产精品欧美在线观看| 91精品伊人久久大香线蕉| 亚洲欧美不卡视频| 亚洲日韩欧美在线观看| 国产成人高清在线精品| 日本精品视频| 精品久久高清| 国产91视频免费观看| 97久久免费视频| 日韩在线播放中文字幕|