范建華,梁敏,劉布鳴,2
?
基于雙聚類的近10年羅漢果研究熱點可視化分析
范建華1,梁敏1,劉布鳴1,2
1.廣西中醫藥研究院,廣西南寧 530022;2.廣西中藥質量標準研究重點實驗室,廣西南寧 530022
采用雙聚類和可視化法分析近10年羅漢果研究,了解其研究熱點及趨勢。計算機檢索中國知識資源總庫(CNKI)2007年1月-2016年12月羅漢果相關研究,檢索時間為2017年2月20日。采用BICOMB、NetDraw、gCLUTO及SPSS19.0軟件對納入文獻進行雙聚類和可視化分析,提取關鍵詞并繪制社會關系網絡圖、可視化矩陣、山峰圖和多維尺度分析圖,分析高頻關鍵詞間的關聯。最終納入文獻723篇,其中2012-2016年該領域年發文量約為70篇;關鍵詞共現網絡圖包括76個關鍵詞,其中“羅漢果皂苷”“羅漢果甜苷”“提取工藝”“組培苗”“栽培技術”“品種”“生長發育”等處于核心地位;可視化矩陣和山峰圖表明,該領域研究主題主要可分為6類;研究熱點動態演化表明,“羅漢果花”“飲料”“總黃酮”“基因表達”“基因克隆”“酶”“凋亡”“羅漢果籽油”等將成為后續研究熱點。本研究揭示了近10年羅漢果研究逐漸成熟,正向深層次拓展。
羅漢果;雙聚類;可視化;BICOMB;gCLUTO;Ucinet;SPSS;數據挖掘
羅漢果為葫蘆科植物羅漢果(Swingle)C. Jeffrey ex A.M. Lu et Z.Y.Zhang的干燥果實,具有清熱潤肺、利咽開音、滑腸通便等功效[1],為廣西道地藥材,主要分布于永福、臨桂、興安、全州、資源、龍勝、融安、金秀等地[2],1987年,原衛生部將羅漢果列為藥食同源品種,并將“中藥現代化研究與產業化開發”列入國家發展重點項目。目前,可視化軟件CiteSpace已逐漸應用于中醫研究領域[3],但采用圖形雙聚類可視化軟件gCLUTO和Ucinet的NetDraw的研究鮮有報道。本研究從三維立體角度,利用可視化矩陣和山峰圖等,展現羅漢果文獻高頻關鍵詞聚類關系,揭示近10年該領域研究現狀和熱點,為后續研究與開發提供依據。
計算機檢索中國知識資源總庫(CNKI)2007年1月-2016年12月羅漢果相關研究。采用精確檢索,主題詞為“羅漢果”,檢索時間為2017年2月20日。納入以羅漢果為研究對象的文獻。排除新聞、指南、摘要、論文中沒有關鍵詞等類型的文獻,重復發表的文獻取最早發表的1篇。必要時查看全文。將檢出文獻以endnote格式導出,獲取題目、摘要、關鍵詞等信息。
采用中國醫科大學信息管理與信息系統(醫學)系開發的數據挖掘工具書目共現分析系統(BICOMB)[4]對納入文獻的關鍵詞、發表年份、作者等進行統計分析。繪制發表年份與發文量趨勢圖。
關鍵詞是表達文獻主題概念的自然語言詞匯,在導入下載題錄之前,先對題錄中的關鍵詞進行歸并與規范化處理,對獲得的關鍵詞進行清洗合并,找出羅漢果領域高頻關鍵詞,利用高頻關鍵詞分別構建共現矩陣、詞篇矩陣、相異矩陣,把共現矩陣導入Ucinet軟件的NetDraw,形成以##h為擴展名的文件,最后繪制出關鍵詞共現網絡圖譜。
社會網絡分析是研究社會關系的重要研究方法,在學術熱點分析方面有著獨特的優勢。將社會網絡分析方法應用到共詞分析,可以探討一個學科或主題的研究結構[5]。圖中每一個節點代表一個關鍵詞,節點的連線數顯示與其他關鍵詞共現的次數,連線越粗,表明關鍵詞之間的共現次數越多,關系越密切;節點越大、中心度越高,與其共現的關鍵詞也越多,反之則處于邊緣位置。
雙聚類方法即對數據的行和列同時進行聚類,可同時使用對象及其屬性來提取它們的聯合信息。在數據挖掘或文獻計量學中應用雙聚類分析在很大程度上克服了傳統聚類分析方法的缺陷[6]。本研究應用gCLUTO軟件,能夠實現行與列同時聚類,因此,雙向聚類分析可以反映出高頻關鍵詞的對應關系,可用于總結該領域的學科基礎結構和近期研究熱點。將詞篇矩陣導入gCLUTO軟件,聚類方法采用Repeated Bisection,相似性函數選擇Cosin,判別函數選擇2,聚類數量根據聚類結果的優劣進行調整,形成山峰圖。圖中山丘的體積越大,表示該類別所含關鍵詞數量越多,山丘越高,則該類別類內相似性越大,山丘頂部顏色有紅、黃、綠、淺藍和深藍5種,所代表的類內相似度標準差依次增高[7]。
采用Create Matrix Visualization創建可視化矩陣。矩陣原始數據值用顏色表示,白色代表接近零值,逐漸加深的紅色代表較大的值,紅色深淺表示關鍵詞出現的頻次高低。由于行與列同時聚類,可視化矩陣可以直觀顯示出各類別所包含的高頻關鍵詞。
將高頻關鍵詞共現矩陣導入統計軟件SPSS19.0,根據Spearman系數生成相似矩陣,用1減去矩陣中的每個數值,得到相異矩陣,劃出關鍵詞多維尺度聚類群體。利用多元統計方法中的因子分析、聚類分析、多維尺度分析等,可以根據關鍵詞中的距離,對羅漢果領域研究中的重要關鍵詞或主題詞進行相應分類,從而歸納出研究熱點,了解其演變。
初檢獲得文獻787篇,經篩選,最終納入文獻723篇。文獻發表年份趨勢圖(見圖1)表明,由2007年86篇逐漸下降至2009年56篇低位。隨著國家“九五”“十五”“十一五”的“中藥現代化研究與產業化開發”重點項目,以及2011年《廣西壯族自治區壯瑤醫藥振興計劃(2011-2020年)》相關政策出臺,羅漢果研究逐漸受到研究機構重視。在國家統一部署下,開展廣西第四次中藥壯瑤藥普查,建設壯瑤藥種質資源庫,建設壯瑤藥資源監測和信息網絡,建設一批規范化、標準化、規模化的雞血藤、羅漢果、廣豆根、兩面針、虎杖等大宗壯瑤藥材生產基地。2011年發文量達90篇,而后穩定至70篇/年左右,表明羅漢果研究逐漸成熟,向深層次方向拓展。

圖1 2007-2016年羅漢果相關文獻發表情況
本研究對部分近義詞、同義詞進行相應的合并處理,獲得1592個有效關鍵詞,使用BICOMB軟件統計關鍵詞出現>5次的有77個,去除最高頻關鍵詞“羅漢果”,其余76個高頻關鍵詞在一定程度上反映了該學科領域的研究主題和熱點。導入76×76共詞矩陣,借助Ucinet的NetDraw可視化軟件繪制出羅漢果研究中76個關鍵詞所形成的關鍵詞共現網絡圖,見圖2。“羅漢果皂苷”“羅漢果甜苷”“提取工藝”“組培苗”“栽培技術”“品種”“生長發育”等關鍵詞位于共現網絡的核心地位,節點較大,連線的數量最多,對其他關鍵詞的影響最深,是研究機構持續關注的熱點。同時,“羅漢果花”“飲料”“總黃酮”“凋亡”“酶”等,隨著研究深入,可能成為后續研究的主要關注點。
可視化矩陣示意圖見圖3,其中左側表示高頻關鍵詞分類,圖右側對應列出高頻關鍵詞,圖上方表示對關鍵詞來源的聚類。聚0類(11個):病毒病、植株根部、病蟲害防治、根結線蟲病、生產管理、組培苗、草質藤本植物、果實蠅、藤蔓、土壤、評價。聚1類(13個):糖尿病、自由基、抗氧化活性、羅漢果提取物、小鼠、力竭運動、總黃酮、羅漢果葉、凋亡、基因表達、酶、基因克隆、序列分析。聚2類(12個):蛋白酶、產量、品質、技術措施、快速繁殖、組織培養、生根、愈傷組織、莖尖、保存、生長發育、栽培技術。聚3類(13個):品種、永福縣、種植面積、種植、農業、產業、發展、氣候條件、化痰止咳、遺傳背景、多倍體、果實、葫蘆科。聚4類(13個):飲料、工藝、質量控制、紫外分光光的法、高效液相色譜法、羅漢果皂苷、含量測定、貯藏、抑菌、穩定性、羅漢果果汁、鮮羅漢果、正交試驗。聚5類(14個):氣相色譜-質譜法、無仔羅漢果、鑒定、羅漢果花、響應面法、提取工藝、多糖、分離、羅漢果甜苷、研究、應用、化學成分、藥理作用、綜述。

圖2 2007-2016年羅漢果相關文獻高頻關鍵詞共現網絡圖

圖3 2007-2016年羅漢果相關文獻可視化矩陣示意圖
采用gCLUTO軟件得到雙聚類結果的可視化山峰圖見圖4。6座山峰較為獨立,分布明顯,表明聚類效果較好,圖中數字為聚類號,即1代表類1;0號山峰高度最高,代表其內部相似度最高,類內標準差最低,聚類效果最好,主題集中程度也高。根據圖3和圖4的聚類結果,2007-2016年羅漢果領域文獻研究主要集中在以下6個類別。第0類:根結線蟲病、花葉病毒病、果實蠅等是羅漢果種植生產管理過程中常見病蟲害,因此,在組培苗移栽前必須對植株根部和土壤進行施藥、土壤曝曬,在果棚內懸掛誘捕器、黃色誘蟲板[8]。第1類:羅漢果或羅漢果葉提取物在小鼠力竭運動、抗氧化、清除自由基的藥理作用[9],在酶促進下對提取物的基因克隆、基因表達的序列分析,為研究羅漢果甜苷生物合成與基因調控奠定基礎[10]。第2類:采取系列技術措施、栽培技術提高羅漢果的產量、品質及保存,以羅漢果組培苗為材料,探討羅漢果微莖尖培養及其快速繁殖的方法,為大規模生產羅漢果優質種苗提供科學依據和支撐技術[11]。第3類:永福縣的氣候條件非常適宜羅漢果種植,但品種的選擇影響到當地農業及產業發展,因此,為了選育出具有更強大雜交優勢和多倍體優勢的新型多倍體無籽羅漢果品種,必須大量地選擇雜交親本和在雜交后代中進行大量篩選,弄清雜交后代及其親本的遺傳背景[12]。第4類:羅漢果飲料或果汁的加工工藝研制,運用正交試驗方法,使用紫外、高效液相等手段,對羅漢果皂苷進行含量測定,在貯藏過程對飲料穩定性、抑菌等方面的質量控制[13]。第5類:響應面法優化從羅漢果花或無籽羅漢果中分離羅漢果甜苷、多糖的提取工藝,采用氣相色譜-質譜法進行化學成分鑒定,及羅漢果甜苷的藥理作用研究[14]。

圖4 2007-2016年羅漢果相關文獻雙聚類山峰圖
將納入文獻分為2007-2011年和2012-2016年2個階段,各階段主題比較情況見表1,并分別繪制多維尺度分析圖,見圖5、圖6。為還原該領域研究主題的動態發展過程,保證新近出現的、時間較短、頻次較低的關鍵詞進入分析范圍,本研究將出現頻次≥3的關鍵詞納入統計分析范圍,盡量確保該研究領域關鍵詞動態演變準確性。表1和圖5、圖6顯示,2個階段有部分研究主題相同,表明這些研究主題近10年一直是該領域研究熱點。而部分主題如“羅漢果花”“飲料”“總黃酮”“基因表達”“基因克隆”“酶”“凋亡”“龍勝縣”“羅漢果籽油”“肝纖維化”“肺熱”“大腸經”等,隨著研究的深入,可能成為新的研究熱點。

表1 2007-2016年羅漢果相關文獻2個階段主題比較情況
注:第1階段:2007-2011年;第2階段:2012-2016年

圖5 2007-2011年關鍵詞多維尺度分析圖

圖6 2012-2016年關鍵詞多維尺度分析圖
關鍵詞是表述論文的主題且具有實質意義的詞匯,當2個關鍵詞同時出現時,之間肯定存在相關性,且同時出現次數越多,這種關系就越密切,高頻關鍵詞共現網絡分析圖將其關聯充分體現出來。本研究中“羅漢果皂苷”“羅漢果甜苷”“提取工藝”“組培苗”“栽培技術”“品種”“生長發育”“研究”等位于共現網絡的核心地位,節點較大、連線數量最多,對其他關鍵詞影響最深,是研究機構持續關注的熱點。
雙聚類分析方法將行和列結合起來,聚類的同時充分考慮列屬性的特點,在行和列2個方向上進行聚類分析,來發現子矩陣或穩定的類,在數據挖掘中應用雙聚類分析,在很大程度上克服了傳統聚類分析方法的缺陷。為揭示羅漢果領域研究主題的動態發展過程,本研究將2007-2016年分為2007-2011年和2012-2016年2個階段,將出現頻次≥3的關鍵詞納入統計分析范圍,分別繪制多維尺度分析圖,結合2個階段關鍵詞演變對比表,動態展示了羅漢果領域關鍵詞演變,隨著時間推移和研究深度擴展,“羅漢果花”“飲料”“總黃酮”“基因表達”“基因克隆”“酶”“凋亡”“龍勝縣”“羅漢果籽油”“肝纖維化”“肺熱”“大腸經”等將是下一階段關注重點。
本研究僅選取CNKI作為數據來源,對處理含義相近關鍵詞的合并、類別數目和聚類效果的選擇方面,依賴并取決于作者自身相關學科的專業知識和主觀判斷,研究結果可能導致偏倚,存在一定局限性。因此,后續研究應當采取多庫檢索方式,避免數據失真;對于關鍵詞的清洗合并、類別判斷、聚類結果的解讀等,應咨詢該領域專家;同時也可以采用其他軟件,對結果進行對比分析,從而驗證雙聚類的效果。
本研究采用雙聚類方法和可視化形式,從三維立體角度,利用關鍵詞共現網絡圖、可視化矩陣和山峰圖等,展現了羅漢果文獻高頻關鍵詞與文獻之間的聚類關系,其結果更直觀、可視性更強。本研究總結并分析近10年羅漢果相關研究現狀和發展趨勢,揭示該領域的學科基礎結構和研究熱點,可將該研究方法推廣到中醫藥科研領域的學科發展評價中。
[1] 國家藥典委員會.中華人民共和國藥典:一部[M].北京:中國醫藥科技出版社,2015:212.
[2] 梁啟成,鐘鳴.中國壯藥學[M].南寧:廣西民族出版社,2005:361.
[3] 郭棟,童元元,黃生權,等.基于數據挖掘的枸杞研究熱點分析[J].中國中醫藥信息雜志,2016,23(9):48-51.
[4] 崔雷,劉偉,閆雷,等.文獻數據庫中書目信息共現挖掘系統的開發[J].現代圖書情報技術,2008,24(8):70-75.
[5] 劉啟元,葉鷹.文獻題錄信息挖掘技術方法及其軟件SATI的實現:以中外圖書情報學為例[J].信息資源管理學報,2012,2(1):50-58.
[6] 楊穎,崔雷.雙聚類方法在同被引分析中應用的研究[EB/OL]. [2017-01-22].http://www.cnki.net/kcms/detail/31.1108.G2.20170122.1022.008.html.
[7] MATT R, MARK N. gCLUTO documentation[EB/OL].[2017-04-10]. http:// glaros.dtc.umn.edu/gkhome/fetch/sw/gcluto/OLD/manual/index.html.
[8] 蔣水元,李鋒,李虹,等.羅漢果組培苗規范化種植生產操作規程(SOP)[J].廣西植物,2007,27(6):867-872.
[9] 李海云,王秀麗,潘英明,等.羅漢果不同溶劑提取物抗氧化及清除活性氧自由基作用[J].廣西植物,2008,28(5):698-702.
[10] 蒙姣榮,陳本勇,黎起秦,等.羅漢果法呢基焦磷酸合成酶基因的克隆及其序列分析[J].中草藥,2011,42(12):2512-2517.
[11] 吳群英,李伯林,李景云.羅漢果微莖尖組織培養與快速繁殖[J].種 子,2013,32(4):116-121.
[12] 韋榮昌,李虹,蔣建剛,等.多倍體無籽羅漢果及其親本遺傳背景的ISSR分析[J].園藝學報,2012,39(2):387-394.
[13] 譚冬明,石相莉,呂新印.高效液相色譜法測定羅漢果飲料中甜苷V的含量[J].中國食品添加劑,2015(6):178-179.
[14] 陳陽,楊小生,楊娟.響應面法優化羅漢果多糖的提取工藝及其抗氧化活性研究[J].食品科技,2016,41(8):180-184.
Visualization Study on Hot Spots of Research on SiraitiaeFructus in Recent Ten Years Based on Double Clustering Analysis
FAN Jian-hua1, LIANG Min1, LIU Bu-ming1,2
To use double clustering analysis and visualization method to analyze the research on Siraitiae Fructus in recent ten years; To know the hot spots and trend of research.Relevant research about Siraitiae Fructus in CNKI from January of 2007 to December of 2016 was retrieved by computers, and the retrieval time was February 20th, 2017. BICOMB, NetDraw, gCLUTO and SPSS19.0 software were used to conduct double clustering analysis and visualization analysis for included articles. Keywords were analyzed, and social network graph, visualization matrix, peak image and multidimensional scaling analysis map were drawn. Correlation among high-frequency key words were analyzed.Totally723 articles were included, among which 70 articles were issued during 2012–2016; 76 key words were obtained by key word co-occurrence network map, among which mogroside, MOG, extraction process, tissue culture, cultivation technology, varieties, growth and development were in the core position; visualization and the peak image showed that the topics in this research field could be divided into 6 categories; research hotspot dynamic evolution showed that Siraitiae Fructus flower, beverage, total flavonoids, gene expression, gene cloning, enzyme, apoptosis, and Siraitiae Fructus seed oil would be the hot spots of further study.This study reveals that the research on Siraitiae Fructus in the recent ten years are becoming mature, and expand to deep level.
Siraitiae Fructus; double clustering analysis; visualization; BICOMB; gCLUTO; Ucinet; SPSS; data mining
10.3969/j.issn.1005-5304.2017.11.022
R2-05;R282.71
A
1005-5304(2017)11-0091-05
(2017-05-17;編輯:向宇雁)
廣西科學研究與技術開發重大專項(桂科重1355001-4、14124002-11)
劉布鳴,E-mail:liubuming@aliyun.com