999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于雙聚類方法的乳腺癌相關酶研究前沿

2016-03-23 06:08:32,,
中華醫學圖書情報雜志 2016年2期
關鍵詞:乳腺癌概念研究

,,

乳腺癌是女性最常見的惡性腫瘤之一,在歐美國家多發,在我國,尤其是經濟發達地區的發病率也呈明顯上升趨勢。經調研,發現大量研究表明乳腺癌的發生發展與各種蛋白酶密切相關。 Weqner MS等人證實,雌激素上調乳腺癌細胞神經酰胺合成酶的表達可能與乳腺癌細胞的增殖及腫瘤的發展有關[1];Laderoute KR等人證明,5'-AMP-activated蛋白酶通過調節乳腺癌腫瘤葡萄糖代謝的方式促進乳腺癌細胞的增殖生長[2]。本文的研究目的是為了幫助研究人員及時、準確地發現該領域研究前沿,制定未來發展策略。

國內外研究人員常使用共詞分析方法探測研究前沿,如Ryosuke L.Ohniwa等選取增長率高的MESH術語,用共詞的方法將它們分組,通過不同的時間窗比較探究生命科學領域的研究前沿[3];沈思等基于主題模型定義抽取表征主題不同發展階段的特征詞,利用特征詞概率變化分析主題的冷熱變化,證明該方法可提供較為準確的熱點主題和發展趨勢[4];齊鳳青[5]等人利用WOS檢索的文獻進行共詞分析,分析醫學信息學研究現狀。但以往的共詞分析方法得到的主題往往語義不明確,含義模糊不清。基于雙聚類的方法則可以實現對類團含義的揭示,清晰展示研究前沿。本文借助于雙聚類算法對乳腺癌相關酶研究文獻進行分析,實現行和列的同時聚類,從行和列兩個維度共同分析,比較不同時間窗內聚類結果的變化,發現乳腺癌相關酶研究的前沿內容。

1 數據和方法

1.1 數據來源

在PubMed數據庫中檢索2009-2011年和2012-2014年乳腺癌相關酶研究的相關文獻,構建檢索表達式為“Breast Neoplasms/enzymology”[Mesh]AND (“2009/01/01”[PDAT]: “2011/12/31”[PDAT]) 及“Breast Neoplasms/enzymology”][Mesh]AND (“2012/01/01”[PDAT]: “2014/12/31”[PDAT]),檢索結果分別為1 147篇和906篇,結果用MEDLINE格式保存,檢索時間為2015年3月12日。

1.2 方法和工具

1.2.1 方法

雙聚類方法是Hartigan[6]首先提出的。該方法可對數據矩陣中的樣本和變量同時進行聚類,實現了在對象及其屬性兩個方向上的同時聚類,同時使用對象及其屬性來提取它們的聯合信息,發現潛在的局部信息。雙聚類算法比其他單向傳統聚類方法在應用上更具有優勢,它可以同時探測兩個維度的聚類成果,并在一定程度上實現了對聚類的自動標注。本文采用這種方法,“行”選取酶相關概念,“列”選取乳腺癌相關概念,兩兩統計概念的共現次數,組成共現矩陣,然后在行和列兩個維度進行聚類分析,識別相關酶類團的同時得到與之對應的乳腺癌相關概念。

目前有許多不同的指標可用于識別和判別主題演化判斷,如1986年Callon等提出的包容指數和鄰近指數,1997 年Coulter 等提出的相似指數 (Similarity Index)。本文則采用冷伏海[7]等提出的指數P來判斷不同時間段聚類結果形成的類團間的關聯強度。P 指數即概率指數,主要反映兩個聚類中有多少主題詞以其對聚類的貢獻度將這兩個聚類相連接,同時有多少主題詞以其對聚類貢獻度將這兩個聚類分割開,進而決定類團間是否具有演化關系。P指數計算公式為:Pij=Iij/(Ii+Ij-Iij),其中,Iij是兩個主題聚類 Ci和 Cj中共有主題詞集的信息量總和,Ii是聚類 Ci的所有主題詞集信息量之和,Ij是聚類 Cj的所有主題詞集信息量之和。本文對不同時間段聚類結果形成的類團進行分析,可以看到一定時間內類團的新生、演化、增長和消失,從而分析出科學研究興趣的動態變化。

1.2.2 工具

利用Thomson Data Analyzer(TDA)[8]文本挖掘軟件進行多角度的數據挖掘和可視化全景分析。

利用明尼蘇達大學Matt Rasmussen等開發的gCLUTO軟件形成共現矩陣或詞篇矩陣,實現對矩陣的行和列同時聚類[9]。gCLUTO的聚類方法有Repeated Bisection(重復二分法)、Direct(直接聚類)、Agglomerative(凝聚聚類)和 Graph(圖形聚類)4種,我們可以根據需要來選擇最佳的聚類方案,并通過可視化矩陣和可視化山丘功能展示聚類效果。

2 共詞聚類結果和分析

首先將下載的2009-2011年和2012-2014年文獻記錄分別導入到TDA中,選取MESH主題詞字段進行分析,先對字段進行數據清洗,合并同義詞處理,然后選擇分析頻次大于5的乳腺癌腫瘤相關概念和酶的相關概念,形成2009-2011年和2012-2014年以乳腺癌相關概念為列以酶相關概念為行的共現矩陣(見表1和表2)。

表1 2009-2011年乳腺癌相關概念為列和乳腺癌酶相關概念為行的共現矩陣

表2 2012-2014年乳腺癌相關概念為列和乳腺癌酶相關概念為行的共現矩陣

將兩個矩陣分別導入gCLUTO軟件進行雙聚類分析,聚類方法選擇重復二分法,最優化函數選擇I2,相似系數選擇余弦函數,聚類數反復調整,最終分別聚為6類(圖1)和5類(圖2)。類內相似度較大,類間相似度較小,聚類形成的可視化山丘顯示效果較好。

圖1 雙聚類可視化矩陣

2.1 2009-2011年乳腺癌相關文獻的雙聚類結果

圖1聚類圖形中,行聚類表示的是對乳腺癌相關酶研究的分類,并在圖右側對應列出酶相關概念;列聚類表示的是對乳腺癌相關概念的聚類,并在圖下方對應列出所代表的乳腺癌相關概念。根據行和列的聚類結果,相關酶的研究被分為6類,并由對應的列得出研究前沿熱點。

第1類主要與腫瘤的遺傳學研究相關,主要包含BRCA1 Protein,Protein-Serine-Threonine Kinases、Checkpoint kinase 2、Glutathione Transferase、Glutathione S-Transferase pi、Methylenetetrahydrofolate Reductase (NADPH2)、Aurora Kinases等概念。

第2類主要與腫瘤的分期、預后和擴散的研究相關,主要包含src-Family Kinases、Receptors、 Estrogen、Receptor、ErbB-2、Cyclooxygenase 2等概念。

第3類主要與腫瘤細胞運動、信號轉導、腫瘤侵襲性等腫瘤的病理過程相關,主要包含Isoenzymes、Aromatase、NF-kappa B、Matrix Metalloproteinase 9、Matrix Metalloproteinase 2等概念。

第4類主要與腫瘤相關的酶活性、細胞擴散、信號轉導和細胞凋亡的研究相關,主要包含Receptor、 Epidermal Growth Factor、Estrogen Receptor alpha、Phosphatidylinositol 3-Kinases、Proto-Oncogene Proteins c-akt、Extracellular Signal-Regulated MAP Kinases、Mitogen-Activated Protein Kinases等概念。

第5類主要與腫瘤的藥物抵抗、藥物作用下的酶活性及藥物作用下的細胞擴散的研究相關,主要包含TOR Serine-Threonine Kinases、Protein-Tyrosine Kinases、PTEN Phosphohydrolase、Oncogene Protein v-akt、Mitogen-Activated Protein Kinase 3、Mitogen-Activated Protein Kinase 1等概念。

第6類主要與腫瘤細胞藥物作用下的細胞凋亡及藥物作用下的細胞擴散研究相關,主要包含有Proto-Oncogene Proteins c-bcl-2、JNK Mitogen-Activated Protein Kinases、p38 Mitogen-Activated Protein Kinases、NF-kappa B、Caspases、Caspase 3、Caspase 8、Apoptosis Regulatory Proteins、Poly(ADP-ribose) Polymerases、Proteasome Endopeptidase Complex等概念。

3.2 2012-2014年乳腺癌相關文獻的雙聚類結果

根據橫和列的聚類結果,相關酶的研究被分為5類,如圖2所示,并由所對應的列得出研究的前沿熱點。

圖2 雙聚類可視化矩陣

第1類主要與腫瘤的藥物療法、藥物作用下的細胞死亡、腫瘤細胞擴散和基因表達調節相關,主要包括Caspase 3、Caspase 7、Protein-Serine-Threonine Kinases、Aurora Kinases。

第2類主要與腫瘤的藥物療法、藥物抵抗及腫瘤的代謝、分期和預后相關,主要包括Indoleamine-Pyrrole 2,3,-Dioxygenase、Receptor、ErbB-2、Phosphatidylinositol 3-Kinases、TOR Serine-Threonine Kinases、Caspases。

第3類主要與腫瘤的病理過程、腫瘤的侵襲性及腫瘤細胞死亡研究相關,主要包括Protein Kinase C、Receptor、 Epidermal Growth Factor、Proteasome Endopeptidase Complex、p38 Mitogen-Activated Protein Kinases、Intracellular Signaling Peptides and Proteins。

第4類主要與腫瘤標志物、腫瘤細胞擴散、腫瘤侵襲和細胞運動的研究相關,主要包括Mitogen-Activated Protein Kinases、Estrogen Receptor alpha、Proto-Oncogene Proteins c-akt、NF-kappa B、Matrix Metalloproteinase 9、Matrix Metalloproteinase 2、Cadherins、Extracellular Signal-Regulated MAP Kinases。

第5類主要與腫瘤標志物、腫瘤分期和預后的研究相關,主要包括Superoxide Dismutase、Cyclooxygenase 2、Receptors、Estrogen。

3 類團演變分析

通過雙聚類算法對2009-2011年和2012-2014年乳腺癌相關酶研究相關文獻的探索分析,可以發現乳腺癌相關酶的研究在前后兩個時間段有細微的變化。計算不同時間段聚類結果形成的類團間的關聯強度(P值)(表3)。將各類以類團的形式展現,按時間順序排列并將明顯相關的類團以線連接,線的粗細代表關系緊密程度(圖3)。

表3 2009-2011年與2012-2014年各類團間的關聯強度

圖3 類團變遷

當P在[0.3,0.5]時認為兩個類團有演變關系。如圖3中,第一階段的2號類團與第二階段的5號類團,主要與腫瘤的標志物和腫瘤的擴散相關,但是5號類團關于src-Family Kinases的研究相對減少而Superoxide Dismutase的研究增多;第一階段的6號類團與第二階段的3號類團,主要與腫瘤細胞的凋亡和細胞侵襲相關,但是6號類團更側重藥物作用下的相關研究,而3號類團關于Proto-Oncogene Proteins c-bcl-2,Caspase 8及JNK Mitogen-Activated Protein Kinases的研究減少而Protein Kinase C的研究增多。 當P在[0.5,1]時認為兩個類團有持續發展的關系。如圖3中第一階段4類和第二階段的第4類都與腫瘤細胞間的信號轉導和細胞運動相關,表明相關研究一直是熱點。其中第一階段的3號和4號類團融合成了第二階段的4號類團后,說明研究更側重腫瘤細胞的侵襲運動;第一階段的1號類團(腫瘤遺傳學相關研究)和5號類團(藥物作用下的酶活性研究)在第二階段少有研究,第二階段的1號類團和2號類團較為新生,說明腫瘤的藥物療法研究受到關注。

4 結論

本文基于雙聚類方法,對PubMed數據庫中近期乳腺癌相關酶的研究分階段進行共詞雙聚類分析,并進行類團演化分析,得出乳腺癌相關酶研究的前沿熱點。其中關于癌細胞間的信號轉導、細胞運動的研究一直處于熱點地位,腫瘤遺傳學方面的研究則相對減少,腫瘤藥物療法的研究相對增多。關于酶的研究有些一直處于熱點,有些較為前沿。如Protein-Serine-Threonine Kinases(蛋白質-絲氨酸-蘇氨酸激酶)、Aurora Kinases(極光激酶)、Cyclooxygenase 2(環氧酶2)、Matrix Metalloproteinase 9(基質金屬蛋白酶9)、Matrix Metalloproteinase 2(基質金屬蛋白酶2)、Phosphatidylinositol 3-Kinases(磷脂酰肌醇3激酶)、Extracellular Signal-Regulated MAP Kinases(細胞外信號調節MAP激酶類)、Mitogen-Activated Protein Kinases(促分裂素原活化蛋白激酶)、TOR Serine-Threonine Kinases(TOR 絲氨酸-蘇氨酸激酶)、Caspases(半胱天冬酶)等的研究一直較為熱點,而且關于Superoxide Dismutase(超氧化物歧化酶)、Caspase 7(半胱天冬酶7)、Protein Kinase C(蛋白激酶C)的研究在第二階段較多,皆為有發展潛力的前沿。

本文證實雙聚類的方法可以用于探測前沿熱點的研究,與傳統的共詞方法相比,能夠對類團的語義內容進行一定程度的標注,為科研工作者提供有益的指導。不過還發現一些問題:一是高頻次閾值的確定對結果有一定影響。低閾值不利于聚類,但利于一些隱含主題的出現;高閾值相反,聚類效果好,但會忽視隱含的知識。因此,閾值選擇還是一個有待深入研究的課題。二是共詞分析中使用的詞是人工閱讀后選取的主題詞,選取乳腺癌相關概念和乳腺癌相關酶時,受人為因素的干擾,可能對結果有影響;共詞分析選取的是MESH字段,沒有利用現有的語義網絡工具,不能從更深的粒度對文獻進行分析。今后應該結合醫學領域的本體,實現更深層次的語義標注。

猜你喜歡
乳腺癌概念研究
絕經了,是否就離乳腺癌越來越遠呢?
中老年保健(2022年6期)2022-08-19 01:41:48
FMS與YBT相關性的實證研究
Birdie Cup Coffee豐盛里概念店
現代裝飾(2022年1期)2022-04-19 13:47:32
遼代千人邑研究述論
幾樣概念店
現代裝飾(2020年2期)2020-03-03 13:37:44
視錯覺在平面設計中的應用與研究
科技傳播(2019年22期)2020-01-14 03:06:54
乳腺癌是吃出來的嗎
EMA伺服控制系統研究
胸大更容易得乳腺癌嗎
學習集合概念『四步走』
主站蜘蛛池模板: 国产伦片中文免费观看| 日本不卡在线视频| 性69交片免费看| 成人伊人色一区二区三区| 黄色网址手机国内免费在线观看 | 91福利免费视频| 久久人搡人人玩人妻精品一| 国产草草影院18成年视频| 国产毛片高清一级国语| 91精品人妻互换| 一本大道香蕉中文日本不卡高清二区| 热热久久狠狠偷偷色男同| 亚洲国产天堂久久综合226114| 日韩精品欧美国产在线| 超碰色了色| 亚洲精品无码久久久久苍井空| 精品亚洲欧美中文字幕在线看| 全部免费毛片免费播放 | 熟妇无码人妻| 亚洲一区二区视频在线观看| 一区二区欧美日韩高清免费| 五月婷婷中文字幕| 国产成人精品综合| 8090成人午夜精品| 久久窝窝国产精品午夜看片| 57pao国产成视频免费播放 | 日韩一区二区三免费高清| 欧美一级在线播放| 91精品免费久久久| 日韩欧美91| 狠狠色综合久久狠狠色综合| 欧美a级完整在线观看| 免费亚洲成人| 国产人碰人摸人爱免费视频| 成年人国产视频| 久久免费视频6| 国产无吗一区二区三区在线欢| 亚洲 日韩 激情 无码 中出| 夜精品a一区二区三区| 精品视频福利| 韩国v欧美v亚洲v日本v| 中日韩欧亚无码视频| jizz在线免费播放| 国产成人免费高清AⅤ| 亚洲天堂视频网站| 91无码人妻精品一区| 国产成人免费观看在线视频| 精品国产91爱| 99久久国产综合精品2020| 91精品福利自产拍在线观看| 亚洲网综合| 日韩精品无码免费一区二区三区| 成人午夜免费视频| 国产在线自乱拍播放| 日本黄色不卡视频| 亚洲国产日韩一区| 亚洲精品手机在线| 国产特级毛片| 99re热精品视频国产免费| 人妻丰满熟妇av五码区| 久久香蕉欧美精品| 国产丝袜无码一区二区视频| 成人毛片在线播放| 国产精品综合久久久| 国产青榴视频在线观看网站| 国产亚洲精品91| 国产农村1级毛片| 亚洲精品第一在线观看视频| 一边摸一边做爽的视频17国产 | 国产粉嫩粉嫩的18在线播放91| 伊人久久大香线蕉影院| 久久久亚洲色| 亚洲天堂免费观看| 91久久天天躁狠狠躁夜夜| 中文字幕调教一区二区视频| 国产真实乱了在线播放| 成人毛片免费观看| 日韩欧美中文字幕在线精品| 免费不卡在线观看av| 九九九精品成人免费视频7| 国产在线视频二区| 日韩一区精品视频一区二区|