999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于共詞分析的國內生物信息學熱點領域研究

2014-11-14 07:10:38宋茂海李東方
生物信息學 2014年1期
關鍵詞:生物分析研究

宋茂海,李東方

(1.第二軍醫大學基礎部生物信息學教研室,上海200433;2.第二軍醫大學基礎部計算機教研室,上海200433)

利用信息計量學對某一領域的論文進行統計分析,歸納出該學科的研究分類、結構與范式,對于規劃學科布局,促進學科發展,調整科研方向具有重要的參考價值[1]。共詞分析作為信息計量方法的一種,通過主題分析能直觀地揭示學科微觀結構,其原理是當兩個學科領域內的關鍵詞在一篇文獻中同時出現時,表明這兩個詞之間具有一定的內在關系,出現的次數越多,表明它們的關系越密切[2-3]。在此基礎上,利用因子分析、聚類分析和多維尺度分析等多元分析方法,按照關鍵詞之間的“距離”將某一領域內關鍵詞加以分類,從而揭示學科領域的發展與演進趨勢、課題研究的擴散與傳播關系[4-6]。本文采用共詞分析方法,通過分析期刊論文的關鍵詞,考察近十年來我國生物信息學的研究分類和發展趨勢[7]。

1 數據來源

本文選擇中國知網學術期刊網絡出版總庫、中國重要會議論文全文數據庫、國際會議論文全文數據庫和中華醫學會/中國醫師協會全文期刊庫為數據源,以“關鍵詞”為檢索途徑,以“生物信息學”為檢索詞,采用“精確”檢索方式,共檢索到1998~2013年3月相關期刊論文5 707篇(去除無關鍵詞的論文及會議通知、征稿啟示等文獻),論文的年份分布見表1。

表1 1998~2013年3月生物信息學文獻年份分布Table 1 Distribution of bioinformatics articles between 1998 and 2013

2 數據處理和分析

2.1 高頻關鍵詞確定

關鍵詞作為一篇論文的元數據,是文章核心內容的濃縮和提煉。對5 707篇期刊論文進行數據統計,共提取關鍵詞27 402個。去除不參與后期分析的“生物信息”、“生物信息學”關鍵詞,合并“蛋白質組”、“蛋白質組學”,“miRNA”、“microRNA”等同義關鍵詞,按詞頻由高到低排序,選擇前40個關鍵詞作為分析對象(見表2)。這40個高頻關鍵詞共累計出現3 891次,占論文總數的68.2%,在一定程度上能體現國內生物信息學的研究現狀。

2.2 共詞矩陣與相關矩陣

利用ROST數據挖掘軟件對40個關鍵詞進行兩兩共詞檢索,統計其在所有論文中同時出現的次數,形成一個40×40的共詞矩陣,對角線上的數值為該關鍵詞在所有論文中出現的次數,非對角線上的數值表示兩個關鍵詞共同出現在同一篇論文中的次數(見表3、表4)。

表2 1998~2013年生物信息學文獻高頻關鍵詞表Table 2 High frequency keywords sheet of bioinformatics between 1998 and 2013

表3 生物信息學文獻高頻關鍵詞共詞矩陣(部分)Table 3 Co-word matrix of bioinformatics high frequency keywords

為了消除頻次懸殊造成的影響,用Ochiia相似系數將共詞矩陣轉換成相關矩陣[8]。即將共詞矩陣中的每個數值都除以與之相對行列的兩個詞頻總數乘積的平方根。

表4 生物信息學文獻高頻關鍵詞相關矩陣(部分)Table 4 Correlation matrix of bioinformatics high frequency keywords

2.3 多元統計分析

將相關矩陣的數據導入SPSS 19.0,進行多元統計分析,包括因子分析、聚類分析和多維尺度分析。

2.3.1 因子分析

因子分析通過研究眾多變量之間的內部依賴關系,探求觀測數據中的基本結構,并以最少的信息丟失將多個變量化為少數幾個綜合變量,原始的變量是可觀測的顯在變量,而假想變量是不可觀測的潛在變量,稱為因子。將表4的相關矩陣的數據導入SPSS,選擇主成分法(Principal components)進行因子分析得到各行的特征根、方差(見表5)和碎石圖(見圖1)。

通過因子矩陣的總方差表,可見有18個主成分被提取,這些主成分累積解釋全部信息的61.17%。從載荷因子分布情況來看,因子分析結果中的關鍵詞分布比較離散,若嚴格按照載荷因子大于1的條件分類,則類別將多達18個,不利于分析討論;若按圖1曲線的拐點位置來分類,則類別只有4個,也不便于展開討論。因此,綜合因子矩陣和碎石圖分析結果[9-10],結合其他高頻關鍵詞的特點,選取因子載荷大于1.3的主成分進行分類,可將40個關鍵詞歸為7類。

表5 生物信息學文獻相關矩陣的因子分析Table 5 Factor analysis of correlation matrix of bioinformatics

圖1 生物信息學文獻高頻關鍵詞碎石圖Fig.1 Scree plot of bioinformatics high frequency keywords

2.3.2 聚類分析

聚類分析是一組將研究對象分為相對同質的群組的統計分析技術,其基本思想是把相似程度較大的變量聚合為一類,把另外一些相似的變量聚合為另一類,關系密切的聚合到一個小的分類,關系疏遠的聚合到一個大的分類,直到把所有的變量都聚合完畢,最后再把整個分類系統畫成一張譜系圖,用它把所有變量間的親疏關系表示出來[11]。圖2是生物信息學高頻關鍵詞聚類分析樹形圖,顯示了各關鍵詞之間的關聯程度,上端0~25的代表各類之間的距離,越早被聚為一類的關鍵詞之間的距離越近,關聯越緊密。

圖2 生物信息學文獻高頻關鍵詞聚類分析樹形圖Fig.2 Cluster dendrogram of bioinformatics high frequency keywords

依據聚類過程同時參考因子分析結果,本研究所用的高頻關鍵詞可分為以下7類:

(1)蛋白質組學分析。蛋白質組學直接研究編碼基因翻譯出的蛋白質產物,比轉錄組學注釋基因組獲得的結果更直接。蛋白質特有的翻譯后處理現象使得蛋白質組學在提供基因表達產物、確認和校正編碼基因、解析翻譯后處理現象,以及發現新的編碼基因及其規律上擁有先天的優勢[12]。

(2)系統生物學分析。系統生物學是研究基因和蛋白質的一種新方法,和傳統生物科學研究單個基因或者蛋白質不同,系統生物學研究的是生物信息(DNA、mRNA、蛋白質、功能蛋白、生物信息途徑、生物信息網絡)在所有水平上復雜的相互作用,重點考察這些生物信息是如何一起工作的[13]。

(3)功能基因組學分析。基因組學的研究已從建立高分辨遺傳、物理和轉錄圖譜為主的結構基因組學轉向功能基因組學。功能基因組學主要研究DNA序列變異性、基因組表達調控、模式生物體和生物信息平臺與數據庫構建[14]。

(4)microRNA研究分析。microRNA主要與靶mRNA分子的3’非編碼區的不完全互補序列結合,通過靶向降解mRNA或抑制mRNA翻譯,達到基因沉默的調控效果[15]。近年來,隨著測序技術的發展和多種分子生物學實驗手段的結合,越來越多的microRNA相繼被發現,相應的表達變化、作用機制等后續研究正在迅速興起。

(5)基因克隆表達分析。基因克隆技術把來自不同生物的基因同有自主復制能力的載體DNA在體外人工連接,構建成新的重組DNA,然后送入受體生物中去表達,從而產生遺傳物質和狀態的轉移和重新組合,再進行基因相關結構、功能的研究。

(6)電子克隆研究。電子克隆是利用生物信息學手段進行基因克隆的新方法,它借助計算機的高速運算能力,通過EST或基因組的序列組裝和拼接,利用RT-PCR方法快速獲得新基因,具有投入低、速度快、針對性強等優點[16]。電子克隆技術成為基因工程中獲得新基因的重要手段,對開展人類基因功能的研究,在基因水平上預防疾病具有重要的意義和價值。

(7)基因的數據挖掘分析。高通量測序帶來了海量的核酸及蛋白質序列數據,人們很難直觀地解讀這些高維數據中的信息[17-18]。利用計算機科學及應用數學知識,通過降維、關聯分析、分類和識別等數據處理方法,更好地理解基因表達譜、預測基因功能、分子結構和優化先導分子等。

2.3.3 多維尺度分析

多維尺度分析是一種通過二維空間展現關鍵詞之間的聯系,利用平面距離來反映關鍵詞之間的相似程度,同時又保留數據對象間原始關系的數據分析方法[19]。根據因子矩陣,利用SPSS進行多維尺度分析并加以整理得出多維尺度圖,如圖3所示。圖中,有高度相似性的點聚集到一起形成一類,并且越居中的關鍵詞與其他關鍵詞的聯系越多,在該領域中的地位越核心。

分析生物信息學高頻關鍵詞在多維尺度圖上的分布情況。其中,“蛋白質相互作用”關鍵詞靠近圖形中心,說明蛋白質組學是生物信息學研究的熱點方向。另外,系統生物學和比較基因組學、基因芯片、計算生物學研究仍將是今后的熱點和方向。

圖3 生物信息學文獻高頻關鍵詞多維尺度圖Fig.3 Multidimensional scale diagram of bioinformatics high frequency keywords

3 結論

本文在提煉生物信息學期刊論文40個高頻關鍵詞的基礎上,運用共詞分析方法,通過因子分析,聚類分析和多維尺度分析,探討了生物信息學研究的結構、關注的熱點和研究趨勢,得出該領域研究頗受關注的7個類別。由于論文發表的時滯性,特別是國內和國外研究熱點的時滯性,單純通過關鍵詞列表進行統計分析存在一定的偏差。另外,有些新出現的關鍵詞,因出現頻次較低,未能引起共詞分析方法的“注意”,所以分析時還要結合時間序列,才能更精確地預測未來的研究熱點。

References)

[1] 邱均平.信息計量學(九):第九講文獻信息引證規律和引文分析法[J].情報理論與實踐,2001,24(3):236-240.QIU Junping.Bibliometrics(IX):Document Information Law Citations and Citation Analysis [J].Information Studies:Theory& Application,2001,24(3):236-240.

[2] 郭文姣,歐陽昭連,李陽,等.應用共詞分析法揭示生物醫學工程領域的研究主題[J].中國生物醫學工程學報,2012,31(4):545-551.GUO Wenjiao,OUYANG Zhaolian,LI Yang,et al.Revealing Theme Structure of Biomedical Engineering UsingCo-Word Analysis [J]. Chinese Journalof Biomedical Engineering,2012,31(4):545-551.

[3] 朱安青,周金元.我國科技查新研究熱點及趨勢分析——共詞分析視角[J].圖書情報研究,2009,2(4):45-49.ZHU Anqing,ZHOU Jinyuan.Co-Word Analysis of Sci-Tech Novelty Retrieval Research in China[J].Library &Information Studies,2009,2(4):45-49.

[4] LIN S M,MCCONNELL P,JOHNSON K F,et al.MedlineR:an open source library in R for Medline literature data mining[J].Bioinformatics,2004,20(18):3659-3661.

[5] KRALLINGER M,ERHARDT R A A,VALENCIA A.Text-mining approaches in molecular biology and biomedicine[J].Drug discovery today,2005,10(6):439-445.

[6] ZHANG J,JASTRAM I.A study of metadata element cooccurrence[J].Online Information Review,2006,30(4):428-453.

[7] 朱杰.生物信息學的研究現狀及其發展問題的探討[J],生物信息學,2005,3(4):185-188.ZHU Jie.Bioinformatics'Status in Quo and Its Development in the Future[J].China journal of Bioinformatics,2005,3(4):185-188.

[8] 許梅華.基于共詞分析的近年國內發展心理學研究熱點分析[J].現代情報,2010,30(8):171-175.XU Meihua. Hot Spots Analysis of China' s Developmental Psychology Based on Co-Words Analysis Method[J].Journal of Modern Information,2010,30(8):171-175.

[9] 張晗,韓爽,白星,等.利用遺傳算法確定醫學文獻的研究熱點[J].現代圖書情報技術,2011,(3):57-61.ZHANG Han,HAN Shuang,BAI Xing,et al.Application of Genetic Algorithm to Identify Hot Topics from Medical Literature[J].New Technology of Library and Information Service,2011,(3):57-61.

[10]刁雪濤,張小芳,宋潔,等.生物信息學研究進展[J].安徽農學通報,2008,14(22):160-162.DIAO Xuetao,ZHANG Xiaofang,SONG Jie,et al.Advances in Bioinformatics Research[J].Anhui Agriculture Science Bulletin,2008,14(22):160-162.

[11]曹利霞,葛淼,何進偉.主成分分析法評估地理分布對成年人肺順應性參考值的影響[J].第二軍醫大學學報,2009,30(1):35-39.CAO Lixia,GE Miao,HE Jinwei.Principal Component Analysis of Geographic Influence on Adult Lung Compliance[J].Academic Journal of Second Military Medical University,2009,30(1):35-39.

[12]張昆,王樂珩,遲浩,等.蛋白質基因組學:運用蛋白質組技術注釋基因組[J].生物化學與生物物理進展,2013,40(4):297-308.ZHANG Kun,WANG Leheng,CHI Hao,et al.Proteogenomics:Improving Genomes Annotation by Proteomics[J].Progress in Biochemistry and Biophysics,2013,40(4):297-308.

[13]資治科,孫之榮.系統生物學:面向系統的生物學研究[J].系統工程理論與實踐,2005,(2):47-55.ZI Zhike, SUN Zhirong. SystemsBiology:Systemoriented Biological Research[J].Systems Engineering-Theory& Practice,2005,(2):47-55.

[14] STEIN L.Genome annotation:from sequence tobiology[J].Nat Rev Genet,2001,2(7):493-503.

[15]趙海蘋,羅玉敏.微波 RNA-144的研究進展[J].首都醫科大學學報,2013,34(1):80-85.ZHAO Haiping,LUO Yumin.Progress in Studies of MicroRNA-144-Associated Diseases and Related Mechanism[J].Journal of Capital Medical University,2013,34(1):80-85.

[16]王冬冬,朱延明,李勇,等.電子克隆技術及其在植物基因工程中的應用[J].東北農業大學學報,2006,37(3):403-408.WANG Dongdong, ZHU Yanming, LI Yong, et al.Application of in Silico Cloning Technique in Plant Gene Engineering [J]. JournalofNortheastAgricultural University,2006,37(3):403-408.

[17]黃子夏,柯才煥,陳軍.大規模GO注釋的生物信息學流程[J].廈門大學學報(自然科學版),2012,51(1):139-143.HUANG Zixia,KE Caihuan,CHEN Jun.Bioinformatics Procedure of Large-Scale GO Annotation [J].Journal of Xiamen University(Natural Science),2012,51(1):139-143.

[18] BRENT M R.Genome annotation past,present and future:how to define an ORF at each locus.Genome Research.2005,15(12):1777-1786.

[19]趙守盈,呂紅云.多維尺度分析技術的特點及幾個基礎問題[J].中國考試,2010,(4):13-19.ZHAO Shouying,Lü Hongyun.The Characteristic and SeveralBasic Problem ofMultidimensionalScaling Analysis[J].China Examinations,2010,(4):13-19.

猜你喜歡
生物分析研究
生物多樣性
天天愛科學(2022年9期)2022-09-15 01:12:54
FMS與YBT相關性的實證研究
生物多樣性
天天愛科學(2022年4期)2022-05-23 12:41:48
上上生物
當代水產(2022年3期)2022-04-26 14:26:56
遼代千人邑研究述論
隱蔽失效適航要求符合性驗證分析
第12話 完美生物
航空世界(2020年10期)2020-01-19 14:36:20
視錯覺在平面設計中的應用與研究
科技傳播(2019年22期)2020-01-14 03:06:54
EMA伺服控制系統研究
電力系統不平衡分析
電子制作(2018年18期)2018-11-14 01:48:24
主站蜘蛛池模板: 中文字幕色在线| 嫩草在线视频| 久久美女精品| 波多野结衣中文字幕一区| 成人国产精品网站在线看| 亚洲中文字幕国产av| 国产精品三区四区| 青青热久麻豆精品视频在线观看| 国模沟沟一区二区三区 | 久久九九热视频| 国产乱子伦视频在线播放| 日本免费精品| 99久久免费精品特色大片| 亚洲欧美自拍中文| 97国产在线播放| 九九香蕉视频| 午夜性爽视频男人的天堂| 国产精品第三页在线看| 日本一区中文字幕最新在线| 久久超级碰| 日本免费福利视频| 国产日韩欧美在线播放| 青青国产在线| 免费va国产在线观看| 成人国产精品一级毛片天堂| 中文字幕有乳无码| 久久精品中文无码资源站| 久久综合亚洲鲁鲁九月天| 国产精品无码一二三视频| 伊人精品视频免费在线| 亚洲最黄视频| 无码国内精品人妻少妇蜜桃视频| 国模沟沟一区二区三区| 五月婷婷综合色| 在线观看91香蕉国产免费| 8090成人午夜精品| aaa国产一级毛片| 亚洲无线视频| 久久国产乱子| 99热这里只有免费国产精品| 制服丝袜无码每日更新| 玖玖精品视频在线观看| 久久精品嫩草研究院| 国产你懂得| 精品无码国产自产野外拍在线| 一级看片免费视频| 日韩欧美中文字幕一本| 欧美精品H在线播放| 红杏AV在线无码| 九九香蕉视频| 国产美女主播一级成人毛片| 国产无码在线调教| 日本欧美午夜| 高清久久精品亚洲日韩Av| 日韩第九页| 日韩av无码精品专区| 国产性爱网站| 中文字幕永久视频| 亚洲天堂在线视频| 国产永久无码观看在线| 伊人蕉久影院| 97超级碰碰碰碰精品| 久久a毛片| 国产JIZzJIzz视频全部免费| 中国特黄美女一级视频| 欧美全免费aaaaaa特黄在线| 亚洲最大福利网站| 欧美乱妇高清无乱码免费| 国产高潮视频在线观看| 国内精品伊人久久久久7777人| 国产精品久久精品| 首页亚洲国产丝袜长腿综合| 少妇露出福利视频| 国产91导航| 老司机午夜精品视频你懂的| 国产剧情伊人| 久久99热66这里只有精品一| 国产成人综合久久精品尤物| 亚洲香蕉久久| 操国产美女| 视频一区视频二区日韩专区| 亚洲人成色77777在线观看|