999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于Web of Science的植物數據庫可視化分析

2024-03-04 13:02:00婁岱金趙國強
江西科學 2024年1期
關鍵詞:數據庫植物研究

婁岱金,蘇 玥,羅 濤,趙國強,葉 凡

(江西科技師范大學生命科學學院,330013,南昌)

0 引言

隨著植物學科各方面研究的深入,與植物相關的數據資料越來越多。同時,計算機技術的發展和數據庫的出現,為植物資料的保存和共享提供了可行性的解決方案[1]。在20世紀50年代,早期的植物學家進行植物普查和樣本采集,建立了以書籍、手冊和索引為形式的紙質數據庫,僅是包含了簡單的文本和圖像數據[2]。21世紀初,隨著計算機技術的發展,研究人員將植物數據庫進行了數字化,使得存儲、管理和共享變得更加高效[3]。再后來,高通量測序技術的突破使得植物數據庫更加豐富,數據庫存儲的組學數據為基因功能、遺傳和進化等研究提供支持[4]。至今,植物數據庫在不斷迭代并可持續發展,在植物學研究、生態學、保護生物學、藥物開發等領域都發揮著重要的作用[5]。

國內一些高校利用植物數據庫整理和存儲校園內的植物情況,例如,南京林業大學校園植物數據庫工程的構建[6]。此外,一些省市利用植物數據庫來記錄和宣傳當地的名貴藥材和稀有植物,如長白山顯花植物數據庫[7]和貴州藥用蕨類植物數據庫[8]等。歐洲食品安全局(European Food Safety Authority)定期更新木霉菌宿主植物物種數據庫[9],目的是為風險評估員、風險管理人員及處理木霉菌屬的研究人員提供信息和科學支持。Xu等[10]設計了PlantPhoneDB植物數據庫,提供了4種細胞類型之間配體-受體對的相互作用評分方法,為研究人員提供了從scRNA-seq數據集推斷細胞之間通信的綜合資源。Hussain等[11]研究并開發了孟加拉國藥用植物數據庫,研究分布在孟加拉國各地的各種藥用和營養植物,并為研究人員、衛生從業者和藥物開發人員提供一個方便操作的界面。由此可見,植物數據庫的研究日益受到廣泛的關注,并發表了越來越多的文獻[12-13],這些零散的論文信息,導致很難從數量龐大的文獻中掌握研究重點和現狀[14],從而忽略了未來的發展趨勢和熱點[15]。因此,全面了解植物數據庫的研究現狀、熱點和趨勢是尤為必要的。

可視化分析有助于對植物數據庫研究領域進行定量和客觀的分析,并為學術研究提供知識交流[15],所帶來的直觀感受使得人們獲取更多的信息[16]。為解決這一問題,運用科學的可視化軟件對該領域進行統計分析[17],從而推動植物數據庫方面的研究。VOSviewer是荷蘭科技研究中心開發的一款軟件,可提供文獻的聚類、疊加、密度視圖等,有助于研究某一領域的科研方向和熱點[18]。CiteSpace是一款基于Java語言的多元、分時和動態的可視化軟件[19],利用共引分析理論和“尋徑網絡”算法等[20],通過數據挖掘、信息處理等技術對特定領域文獻集合進行計量[21],以揭示科學演化的關鍵路徑和知識拐點,實現對學科演化潛在動力機制的分析和學科發展前沿的探測[22]。Scimago Graphica是一款簡單易上手的輕量級繪圖分析軟件,不需要復雜的數據處理和建模。

基于此,本文通過篩選Web of Science(WOS)植物數據庫領域的相關文獻,采用文獻計量的分析方法,借助可視化分析軟件揭示植物數據庫的發展現狀和研究熱點。同時,對植物數據庫研究發展進行動態分析,預測植物數據庫的未來研究趨勢[23]。最后,對植物數據庫未來研究的可行方向進行展望,以期為植物數據庫研究領域進一步發展提供科學參考。

1 數據與方法

1.1 數據來源

以Web of Science(WOS)核心數據集SCI-EXPANDED為數據源,檢索策略為TS=(plant) AND TI=(database),檢索時間跨度為2004—2022年,初獲1 544篇文獻,精煉檢索結果,去除會議錄論文、會議摘要、社論材料等,得到1 457篇文獻。

1.2 數據篩選

為了保證檢索結果的準確性和客觀性,3名篩選人員分工合作,一個篩選,一人重復篩選,一人核對,篩選標準為:

1)所保留的論文應當是有關植物數據庫構建或是介紹植物數據庫;

2)文獻的主題涉及到植物,判斷主要研究對象是否為植物。

從Web of Science中以純文本格式(.txt)導出,記錄為“全記錄與引用的參考文獻”,共導出550條文獻記錄。

1.3 研究方法

使用Origin 2022對植物數據庫相關文獻的發文量進行統計分析;采用VOSviewer的數據分析模塊對發文作者(Author)、發文國家(Country)、發文機構(Institution)、關鍵詞(Keyword)進行分析;利用CiteSpce 6.1.R2對突現詞(Bursts)進行可視化分析。

2 文獻計量分析

2.1 發文量分析

研究領域的總發文量代表了該領域的發展水平,年發文量的變化反應了該領域的動態變化趨勢[24]。篩選出2004—2022年間收錄的關于植物數據庫的文獻共550篇,發文量的年度分布特征如圖1所示,2004—2022年發文量整體呈逐步上升趨勢。并且在2012年左右增速明顯加快,這可能是因為高通量DNA測序技術的進步推動了組學技術的成熟,并引發了對數據庫存儲的高需求。總體而言,植物數據庫在以一種良好的態勢逐年上升,數據庫的類型和內容呈現多樣化,包含生態數據庫、組學數據庫等,這些數據庫的建設為植物研究提供了重要基礎和豐富的信息資源,在植物科學、生態學、農業等領域都起著重要作用。

圖1 2004—2022年植物數據庫研究領域發文數量

2.2 發文作者分析

表1總結了植物數據庫研究領域發文量前10的學者,同時對其發文量、總引用數、平均引用數、H指數和所在國家進行統計,以便對該領域有一個全面的了解。排名前10的學者中,中國占4位,日本和捷克分別占3位。其中,發文量最多的是來自中國的Su Zhen(13篇),其次是日本的Sakurai Tetsuya(10篇)和捷克的Milan Chytr(8篇)。總引用數排名前3的學者分別為Jitka Klime?ov(1 623篇)、Su Zhen(737篇)和Luo Jingchu(587篇)。同時,其平均引用數也位居前列。H指數是HIRSCH[21]在2005年提出的一個基于作者的論文數量及論文被引用次數來衡量作者發文質量和產出水平的重要指標。H指數排名前3的作者分別是Su Zhen、 Sakurai Tetsuya和Milan Chytr,實驗數據表明,他們發表的文章具有一定的代表性,且在該領域有著較高的質量和水平。

表1 植物數據庫研究領域發文量前10作者

圖2展示了作者網絡合作圖譜,每個節點代表一個作者,節點之間的連線代表了作者之間的合作關系,不同顏色代表了不同的合作群體。從圖2可知,節點與節點之間連線較多,表明作者之間存在一定的交流,不同群體之間存在合作關系。圖2中顯示出了多個密切合作的作者群。例如,以Su Zhen和Xu Wenying為首的的合作群體,整合了基因組學、轉錄組學和代謝組學等信息,構建了動植物功能基因組綜合信息平臺;而Luo Jingchu和Liu Xiaochuan的合作群體,則從基因組水平上系統地預測轉錄因子并構建植物轉錄因子數據庫。

圖2 植物數據庫研究領域發文量作者圖譜

2.3 發文國家分析

發文國家分析可反映出植物數據庫研究領域的分布情況。如圖3(a)所示,在發文頻次上,中國位居首位,發文頻次為161,占總發文數量的26.3%;排名第2的是美國,發文頻次為115,占總發文數量的18.8%;排名第3的是德國,發文頻次是59,占總發文數量的9.6%。這3個國家發文總量占總發文量的54.7%,在植物數據庫研究領域具有重要的影響力,為其他國家的植物數據庫研究起到了引領作用。排名在4至10的依次是日本、印度、法國、英國、西班牙、澳大利亞和捷克。這些國家植物數據庫研究的高產,反映出其生物技術和信息技術足以支持植物數據庫領域的研究。一方面,表明這些國家重視植物領域的發展;另一方面,也表明這些國家的信息技術足以支持數據庫的發展。這也從側面證實了這些國家的生物技術和信息技術共同推動了植物數據庫的研究,其研究成果具有代表性和較大的影響力,對植物數據庫領域的發展起著很大的推動作用。由圖3(b)可知,這些國家除少數幾個國家外,其他國家形成了較強的合作網絡體系,特別是美國、德國、中國等,與其他國家之間的合作更為緊密,國家之間達到了資源共享以及互惠互利的局面。圖3(c)表示發文量靠前的國家在地理位置上的分布和聚類,顏色相同的國家被歸為一個合作集群。從圖3可以看到,研究植物數據庫的國家被分為5個聚類,為首的3個集群分別是:美國、中國為代表的集群,日本、英國、加拿大等構成一個集群和以俄羅斯、芬蘭、阿根廷為代表的集群。從圖3中還可以發現,在集群與集群之間沒有明顯的界限,集群之間相互覆蓋,表明植物數據庫研究在全球范圍內存在廣泛的合作。

圖3 發文國家 (a)發文量前10國家占比圖; (b)發文國家網絡合作圖譜;(c) Scimago graphica和VOSviewer生成的發文國家地區分布圖

2.4 發文機構分析

由表2的發文機構可知,植物數據庫研究機構主要集中在中國、法國和美國等國家。其中,中國科學院(Chinses Academy of Sciences)的發文頻次最高,共發表31篇文章,為植物數據庫的研究做出了巨大貢獻;其次是法國國家科學研究中心(Centre National de la Recherche Scientifique),與大學和國際科研機構建立合作關系,促進跨國科學研究項目的進展;發文頻次第三的是加利福利亞大學體系 (University of California System),發表了25篇文章。為了進一步了解主要研究機構間的合作關系,繪制了主要機構的合作關系圖(圖4(a)),該圖共有201個節點,其中,發文量在3篇以上的機構有116個,發文量排在前十的機構之間連線較多且聚集在一起,表明前十機構之間存在緊密的合作關系,相互輸出的成果較多,機構之間的相互交流推動了植物數據庫領域的研究發展。另外,由圖4(b)可知,H指數最高的是中國科學院,總引用數最高的是法國國家科學研究中心,這些機構的文章具有一定的代表性和可引用性。

表2 2004—2022年植物數據庫研究領域前10機構

表3 植物數據庫研究發文量前10的期刊

圖4 機構圖譜 (a)機構合作關系圖譜;(b)前10機構發文量、總引用量、平均引用量和H指數

2.5 發文期刊分析

表3列出了發文量前10期刊的總引用數、平均引用數、H指數、JCR分區以及5年影響因子(IF)等信息,排名前10的期刊共發表285篇文章,占目標文章總數的51.81%。其中,Nucleic Acids Research(核酸研究)雜志為高產期刊,發文量94篇,占比17.09%。其次是Database The Jourbal of Biological Database And Curation(生物數據庫與策展)和Plant And Cell Physiology(植物和細胞生理學),分別占比7.81%和5.81%。總引用數最高的前3期刊分別為Nucleic Acids Research,Plant Physiology(植物生理學)和Plant And Cell Physiology,同時這3個期刊的平均引用數也位居前列。根據H指數,排名前3的期刊分別為Nucleic Acids Research(50),Plant And Cell Physiology(21)和Plant Physiology(19)。發文量前10期刊的IF在1.6到16.4之間,表明有關植物數據庫研究期刊的權威性差異較大。IF排名前3的期刊分別為Nucleic Acids Research(16.4),Plant Physiology(8.7)和Frontiers In Plant Science(6.8),其他期刊影響因子均在5分左右。綜合多個指標顯示,Nucleic Acids Research,Plant And Cell Physiology和Plant Physiology是植物數據庫研究領域的活躍和代表性期刊。

2.6 經典文獻分析

550篇論文的總被引數共30 053次,篇均被引頻次為54.64次。表4介紹了被引頻次前10文獻的研究內容、期刊、被引頻次等。據表4可知,在2004—2022年間,被引次數最高的論文是Zimmermann, P等在2004年發表在Plant Physiology雜志上的論文,被引頻次為1 980次,此篇文獻構建了 GENEVESTIGATOR在線基因表達數據庫平臺以及具有查詢和分析功能的在線工具,提供了超過22 000條擬南芥的基因表達信息。被引頻次排在第2的是一篇名為TRY - a global database of plant traits的文章,詳細地介紹了TRY植物功能性狀數據庫。發表在Journal of Ecology雜志上的The LEDA Traitbase: a database of life-history traits of the Northwest European flora文章被引次數為1 171次,這是一篇關于歐洲西北地區植物群落生態數據庫的文章。總之,通過被引前10的文章可發現植物數據庫存儲的數據呈現多樣化,主要以組學數據、生態數據為主。

2.7 關鍵詞分析

2.7.1 關鍵詞頻次分析 關鍵詞是文章的提煉與濃縮,高頻關鍵詞能夠反映出某一領域的研究熱點、研究方向和未來發展趨勢[24]。WOS文獻經過篩選共有2 429個關鍵詞,刊載頻次居前10位的關鍵詞依次是:database(130次),identification(80次),evolution(57次),resource(53次),genome(50次),Arabidopsis(48次),sequence(40次),annotation(39次),expression(36次),genes(36次)。

2.7.2 研究熱點 使用VOSviewer軟件生成該領域的關鍵詞共現圖(圖5),在圖譜中節點大小表示關鍵詞出現的頻次,相同顏色的節點代表相同的聚類[25]。關鍵詞聚類分析能夠揭示植物數據庫研究領域的熱點主題。對關鍵詞聚類進行分析,可將植物數據庫研究的熱點主題分為6個聚類,聚類1(紅色區域)占關鍵詞頻次的17.19%,是與植物功能性狀、植物多樣性、維管植物、氣候、群落、分類等密切相關的關鍵詞,這表明生態方面的研究是植物數據庫研究內容的一大主要部分,此外,維管植物也是植物數據庫研究領域的新熱點內容。聚類2(綠色區域)占關鍵詞頻次的12.63%,是與質譜法、天然產物、通路、藥物發現等密切相關的關鍵詞,表明藥用植物的研究也是植物數據庫的重點關注對象。聚類3(深藍色區域)占關鍵詞頻次的10.52%,代表關鍵詞是預測、蛋白質、RNA、生物起源、基因、全基因組、非生物脅迫等。聚類4(黃色區域)占關鍵詞頻次的10.52%,是與擬南芥、表達、算法、比較轉錄組、基因網絡等密切相關的關鍵詞。聚類5(紫色區域)占關鍵詞頻次的10.17%,是與DNA、預測、基因組測序、進化等密切相關的關鍵詞。聚類3、4、5占關鍵詞頻次的31.21%,表明了組學研究一直以來是生物信息學研究的熱點問題,同時也是植物數據庫研究領域的主要存儲內容。聚類6(淺藍色)占關鍵詞頻次的10.52%,是與結構、種質資源、分子標記、遺傳學等密切相關的關鍵詞,揭示了這類數據庫在植物育種、作物改良等領域發揮著重要作用。根據聚類主題的不同,對植物數據庫進行劃分:生態數據庫、藥用植物數據庫、組學數據庫和遺傳資源數據庫。

圖5 2004—2022年植物數據庫研究領域關鍵詞圖譜

2.7.3 研究趨勢 關鍵詞突現性是指在一定時期某個關鍵詞出現頻次快速上升,突現強度越高表明在該段時間內研究人員關注度越高[26],表6中紅色部分表明該關鍵詞為熱點關鍵詞的時段,突現歷史距離越近越可被視為該領域的研究趨勢[27]。為了更好地研究植物數據庫的最新動態變化和預測該領域的未來發展趨勢,利用 Citespace中的突現檢測算法(Burst Detection)對關鍵詞進行突現分析。如表6所示,列舉了植物數據庫研究領域的突現關鍵詞。據表6可知,序列(draft sequenc)、生物學(biology)、工具(tool)和資源(resource)等關鍵詞出現時間較早且跨度在4年以上,表明植物數據庫的研究最開始是建立在生物學基礎之上且作為一種生物學研究工具;信息(information)、數據庫(database)、擬南芥(Arabidopsis thaliana)、水稻(rice)、蛋白質(protein)、基因(gene)為2008到2019年間出現的突現關鍵詞,這表明研究專家逐漸意識到數據庫在植物研究領域的重要性,植物數據庫的研究主題由此發生轉變,趨向于構建不同形式和不同內容的專門化植物數據庫。例如,水稻數據庫、植物蛋白數據庫等。預測(prediction)、表達(expression)和多樣性(diversity)是近3年出現的突現關鍵詞,可被看作植物數據庫研究領域的研究趨勢,這表明植物功能預測、基因表達分析和植物多樣性研究受到越來越廣泛的關注,可能成為未來植物數據庫的熱點研究內容。

表6 植物數據庫研究突現詞

3 結論與展望

3.1 結論

隨著科技的發展,植物數據庫研究越來越受到研究人員的重視,本文在梳理前人研究的基礎上,以Web of Science(WOS)核心合集為數據源,分別從發文量、發文作者、發文國家、發文機構、經典文獻和關鍵詞方面對植物數據庫的發展狀況進行了系統分析,結果表明。

1)隨著科技的發展,植物數據庫研究越來越受到研究人員的重視,發文數量在逐步上升,主要產出國為中國、美國、德國等。我國在該研究領域中涌現出了像中國農業大學生物科學學院的Su Zhen和北京大學生物信息中心Luo Jingchu一批優秀學者。

2)關鍵詞聚類圖譜,列舉了植物數據庫研究領域的六大熱點主題,根據聚類主題的不同,對植物數據庫按照研究內容進行劃分:生態數據庫、藥用植物數據、組學數據庫和遺傳資源數據庫。

3)在植物數據庫的研究中,關鍵詞出現頻次最多的是database(130次),identification(80次),evolution(57次),resource(53次),genome(50次),arabidopsis(48次),sequence(40次),annotation(39次),expression(36次),genes(36次),表明這些研究內容是植物數據庫的研究熱點。

4)根據突現詞時間變化規律可知序列草案(draft sequence)、生物學(biology)、工具(tool)和資源(resource)等出現時間較早,表明植物數據庫的早期研究工作主要集中在原始數據的分析和處理,同時強調將植物數據庫作為生物學研究工具的重要性,而后水稻(rice)、蛋白質(protein)、基因(gene)、預測(prediction)等突現詞的出現象征著植物數據庫的研究在逐漸地細化,很多科學機構根據自己的研究內容建立了專門的植物數據庫。

3.2 展望

植物是地球上重要且具有豐富價值的資源,植物數據庫為植物領域的發展提供了無限的可能[28]。根據可視化研究的結論,對未來植物數據庫的研究和發展提出了個人的見解。目前,植物數據庫的研究內容是基于生物信息學研究,而關于食品供應、農業生產、環境保護等植物相關產業的研究比較少,今后的研究應當結合食品科學、農業科學、生態保護等學科來推動植物數據庫領域的多方面發展。此外,有關植物數據庫的研究主要是針對植物數據庫存儲內容的,而關于植物數據庫構建技術上的研究卻寥寥無幾,今后的研究應當利用現代生物技術和計算機技術等運用到植物研究的各個環節,集成跨學科知識、打破學科分割、實現植物和數據庫技術的共同發展。國內外對植物數據庫的研究開展了大量的工作,并取得了許多重要的研究成果,植物數據庫研究內容也在逐漸細化。然而,一些小型化和私人化的植物數據庫,由于缺少平臺或資金投入難以實現成果的最大轉化。這在一定程度上造成了信息的流失和資源的浪費,不利于小型植物數據庫網站的發展。一些政府部門及相關機構應當建立政策和采取保護措施,以避免植物數據庫資源的流失和浪費。

猜你喜歡
數據庫植物研究
FMS與YBT相關性的實證研究
遼代千人邑研究述論
視錯覺在平面設計中的應用與研究
科技傳播(2019年22期)2020-01-14 03:06:54
EMA伺服控制系統研究
哦,不怕,不怕
數據庫
財經(2017年2期)2017-03-10 14:35:35
將植物穿身上
數據庫
財經(2016年15期)2016-06-03 07:38:02
數據庫
財經(2016年3期)2016-03-07 07:44:46
數據庫
財經(2016年6期)2016-02-24 07:41:51
主站蜘蛛池模板: a亚洲视频| 亚洲欧美极品| 一级毛片中文字幕| 亚洲无线国产观看| 免费jjzz在在线播放国产| 天堂中文在线资源| 亚洲欧州色色免费AV| A级毛片无码久久精品免费| 日韩欧美中文| 亚洲不卡av中文在线| 免费一级无码在线网站| 婷婷色在线视频| 国产va视频| 欧美激情伊人| 92精品国产自产在线观看| 重口调教一区二区视频| 久操中文在线| 成人字幕网视频在线观看| 无码AV日韩一二三区| 91www在线观看| 色欲不卡无码一区二区| 亚洲天堂视频在线观看| 成人午夜亚洲影视在线观看| 亚洲成人网在线观看| 精品视频福利| 国产不卡网| 久久夜色精品国产嚕嚕亚洲av| 午夜电影在线观看国产1区| 四虎国产精品永久一区| 久久毛片基地| 国模极品一区二区三区| 国产亚洲欧美在线专区| 亚洲一区网站| 日本人妻一区二区三区不卡影院 | 欧美精品v| 亚洲第一成年网| 国产成人喷潮在线观看| 无码精品一区二区久久久| 成人小视频网| 成人av手机在线观看| 国产欧美精品专区一区二区| 日本精品一在线观看视频| 国产日韩欧美黄色片免费观看| 国产真实自在自线免费精品| 日本一区二区三区精品视频| 一级毛片基地| 精品人妻AV区| 欧美一级夜夜爽www| 福利视频一区| 精品一区国产精品| 国产一二三区视频| 国产在线欧美| 狠狠色婷婷丁香综合久久韩国| 欧美激情一区二区三区成人| 国产一级视频久久| 国产拍在线| 白丝美女办公室高潮喷水视频| 依依成人精品无v国产| 高清精品美女在线播放| 亚洲av无码人妻| 亚洲精品日产精品乱码不卡| 无码人妻热线精品视频| 中文字幕乱妇无码AV在线| 无码人妻热线精品视频| 国产亚洲精品在天天在线麻豆 | 国产又粗又爽视频| 毛片基地视频| 亚洲综合九九| 伊人无码视屏| 国产精品林美惠子在线播放| 91免费国产高清观看| 国产网站免费看| 中文字幕永久视频| 亚洲精品成人7777在线观看| 极品国产一区二区三区| a亚洲天堂| 日韩人妻精品一区| 国产无套粉嫩白浆| 午夜日韩久久影院| 欧洲成人免费视频| 全部免费特黄特色大片视频| 精品无码人妻一区二区|