袁曉園+華薇娜
〔摘要〕基于Web of Science數據庫,對中國醫學信息學國際文獻進行收集,采用TDA50軟件清洗數據,從不同角度進行定量分析,采用社會網絡分析軟件繪制高頻關鍵詞的共現網絡圖,結合文獻分析和網絡共現圖探討五大研究主題。
〔關鍵詞〕醫學信息學;文獻計量學;定量分析;社會網絡分析;UCINET;共現網絡
1987年美國國立衛生研究院、國家醫學信息中心第一次對醫學信息學(Medical Informatics)[1]進行定義,此后30年,醫學信息學得到高速發展。
從信息科學的角度,Ackerman等[2]提出病人、數據提供商和保健站點間,實現醫療信息數據標準化。1986年美國國家醫學圖書館集結多個學科團隊,研發了統一醫學語言系統(United Medical Language System),它對信息學的整體研究提供了巨大的幫助[3]。2006年Dolin[4]研究臨床文檔架構(Clinical Document Architecture,CDA),詳細描述從HL7發展到CDA的過程,并相繼推出了CDA-R1和CDA-R2。2009年DeShazo[5]采用文獻計量學方法,分析過去20年間醫學信息學國際出版物的科研產出和研究領域。在中國,一些學者也從不同層面對它開展了研究[6-22]。
本文選擇文獻計量學的定量分析法。文獻計量學是采用數學和統計學的方法,定量分析一切知識載體的交叉科學[23]。經過40多年發展,它已經漸居核心地位,是與科學傳播及基礎理論關系密切的學術環節。現在全世界每年發表的文獻計量學學術論文約為400~500篇[24]。由于中國醫學信息學的發展越來越走向專業化,作者認為很有必要對它的文獻發展進行定量分析,從而掌握該領域的發展脈搏和研究熱點。
1數據來源及方法
11數據來源
選擇Web of Science數據庫(簡稱WOS),它是美國湯姆森科技信息集團基于WEB開發的產品,是大型綜合性、多學科、核心期刊引文索引數據庫。本研究選擇WOS數據庫下3個子庫SCIE(科學引文索引擴展板——1900-至今)、SSCI(社會科學引文索引——1900-至今)和A&HCI(人文藝術科學引文索引——1975-至今)。
從該數據庫收集中國大陸、臺灣、香港發表的醫學信息學的研究文獻,檢索式采用研究方向(Research Area)作為檢索策略,檢索式設計為((SU=Medical Informatics)AND CU=(China OR Taiwan OR Hong Kong)),檢索年限為所有年限(排除2013年)進行檢索,共收集1 448篇,文獻類型選擇論文(Article)、會議論文(Proceeding Paper)和綜述(Review)進行精煉,收集到1 388篇。檢索時間2013-12-01。
12研究方法
本研究采用定量分析法揭示中國醫學信息學領域國際發文的文獻特征,然后采用社會網絡分析法,對高頻關鍵詞進行共現分析,借助UCINET60軟件可視化,以了解中國醫學信息學國際發文的研究主題。
21年代文獻量分析
科學文獻量是衡量科學知識量的重要尺度之一,因此某領域年代論文量的變化可以直觀反映該領域內學科發展態勢。圖1將中國醫學信息學國際發文1 388篇文獻按照出版年進行匯總。
(1)萌芽階段(1976-1995):1995年以前,中國醫學信息學研究的發文量增長緩慢,每年論文量不超過15篇,有些年份甚至出現空缺,這段時期是中國醫學信息學研究成果走向國際的開始階段。1976年,中國香港大學的Wing,Hj[25]作為第一作者首次在國際期刊“計算機和生物醫學研究”上發表了“計算機程序對小腦——丘腦皮層信號的分析”一文。
(2)平穩發展階段(1996-1999):1996年以后,中國醫學信息學研究進入平穩發展的階段,每年文獻量基本維持在20~30篇。由于計算機和網絡技術的普及,中國的研究機構開始重視發展醫學信息學的研究。
(3)快速發展階段(2000-至今):2000年以后,中國醫學信息學研究的發文量迅猛增長,每年文獻量均在40篇以上,2008年以后,每年的發文量平均超過100篇,2012年達到歷史的最高峰,預測2012年后,發文量還會持續地增長。
22來源期刊分析
中國醫學信息學領域的國際文獻共涉及來源期刊32種,平均每種期刊載文量=文獻總量/期刊種數=1388/32=4338,將期刊按照載文量進行排序,具體的統計情況如表1所示。
從表1顯示結果可以看出,影響因子最高的期刊是醫學互聯網研究雜志,IF=3768,載文12篇,占文獻總量的086%;其次是美國醫學信息學會志,IF=3571,載文20篇,占文獻總量的23%;影響因子不低于3的期刊共有2種,即上述兩個。影響因子不小于2的期刊有6種,如醫學統計、IEEE醫學和生物工程雜志等;另有13種期刊的影響因子在1左右;其余11種刊物沒有查到影響因子。在這32種期刊中,能查到影響因子的16種期刊出版國分別是英國5個、美國5個、荷蘭2個、愛爾蘭1個、加拿大1個、德國3個。
23重要發文機構分析
在WOS數據庫中,對研究者名字進行區分比較復雜,特別是中國的研究者,存在中文名同音但不同字,但是英文中的表達卻相同的現象。為了降低研究誤差,本文不對研究者做具體分析,而是將發文機構作為研究對象, 對科研機構總發文量進行分析,選擇發文量在20篇以上的21所機構,如表2列出,除了來自澳大利亞的悉尼大學,其余均來自臺灣、香港、中國大陸的研究機構。其中臺灣地區的研究機構有11所,文獻量占3977%; 香港地區的研究機構5所,文獻量占1981%;中國大陸的研究機構5所,文獻量占1491%。在此研究范圍內,可以看出目前臺灣地區的科研成果成為中國醫學信息學國際發文量的重要來源。澳大利亞的悉尼大學是重要的合作機構,所以可以放在里面,即臺灣、香港、中國大陸和悉尼大學合作的文章數較多。表2重要發文機構的統計表(文獻量>=20)endprint
序號機構文獻量百分比(%)1臺灣大學(臺灣)1369802臺灣成功大學(臺灣)926633香港中文大學(香港)896414陽明大學(臺灣)705045香港大學(香港)694976香港理工大學(香港)553967中國科學院(中國大陸)533828上海交通大學(中國大陸)503609清華大學(中國大陸)463319臺北醫科大學(臺灣)4431710香港城市大學(香港)3928111臺灣大學附屬醫院(臺灣)3928112浙江大學(中國大陸)3726713中正大學(臺灣)3625914長庚大學(臺灣)3424515交通大學(臺灣)3323816中央大學(臺灣)2618717悉尼大學(澳大利亞)2518018香港浸會大學(香港)2316619臺北榮民總醫院(臺灣)2215920復旦大學(中國大陸)2115121清華大學(臺灣)201443合作國家分析
中國醫學信息學研究的3 429位論文作者來自于36個國家,與其他國家合作的總發文量為555篇,占40%,具有鮮明的國際合作化的表現。表3顯示與中國研究者合作、發文量在10篇以上的研究者國籍的詳細信息。其中與中國合作最多的是來自美國的研究者,合作發文量為241篇;其次是澳大利亞的研究者,合作發文量為70篇。其他如英國、加拿大、新加坡,合作發文量分別為53篇、31篇和29篇。
41關鍵詞統計分析
采用TDA軟件處理1 388篇文獻,除去沒有關鍵詞的203篇,得到1 185篇。對關鍵詞詞頻進行統計,表4列出詞頻不低于8的39個關鍵詞,可以看出研究集中在支持向量機、電子醫學記錄、數據挖掘、心電圖、功能選擇、圖像分割、遠程醫療、分類、隨機效應、中國傳統醫學、RFID、網絡等;同時注重醫院信息系統、計算機模擬、病人安全、隱私、自然語言處理、電子健康記錄和本體等;有些還涉及到神經網絡、人工神經網絡、生物力學、芯片等領域。
42關鍵詞共現網絡分析
選擇詞頻不低于8的39個關鍵詞,對其做共現矩陣,采用Ucinet60軟件繪制高頻關鍵詞的共現網絡圖,結果如圖2示,刪除了3個孤立節點。圖2中的節點表示關鍵詞,連線表示其兩端的兩個關鍵詞節點在同一篇文章中存在共現,節點大小表示關鍵詞的點度中心度,即關鍵詞出現的總頻次,連線粗細表示關鍵詞的共現次數,連線越粗,即關鍵詞共現越多,反之越少。
利用UCINET分析圖2中高頻關鍵詞的點度中心度、接近中心度和中間中心度,支持向量機、數據挖掘、功能選擇、遺傳算法等關鍵詞的點度中心度較高。RFID、安全、隱私、病人安全、電子醫學記錄;數據挖掘、決策樹;文本挖掘、自然語言處理、中國傳統醫學;支持向量機、功能選擇、數據挖掘、決策樹、分類、遺傳算法、神經網絡;圖2高頻關鍵詞的共現網絡圖
功能選擇、心電圖、乳腺癌、特征提取等各組關鍵詞間的連線較粗,即表明它們在一篇文章中共現次數較高,當高頻關鍵詞在同一文章中共同出現的次數多,則可以初步反映該領域的研究熱點。結合文獻分析和共現網絡圖,可以推出中國醫學信息學的五大研究主題:(1)電子醫學記錄的安全管理。(2)計算機自然語言處理和文本挖掘在中國傳統醫學診斷中的運用。(3)計算機和網絡對醫院信息系統、護理系統的研發和應用。(4)統計方法和計算機技術在臨床檢查、疾病診斷和 治療、臨床決策中的運用。(5)統計方法和計算機處理對臨床醫學、研究型數據的分析和系統構建。
5結語
本文采用文獻計量學方法,從年代發文量、來源期刊、重要發文機構、合作國家和相關學科等進行分析,得出中國醫學信息學領域的研究經歷了3個階段:萌芽階段、平穩發展階段、快速發展階段。2008年以后,每年發文量平均超過100篇,2012年達到歷史最高峰。根據來源期刊分析,中國醫學信息學期刊分布主要集中在載文量為55篇以上的前9種期刊。發文量在20篇以上的21所機構中,臺灣地區研究機構成為中國醫學信息學國際發文的重要來源。從合作來看,中國醫學信息學研究具有鮮明的國際化合作趨勢,與中國合作最多的是美國、澳大利亞和英國的研究者。采用Ucinet60繪制高頻關鍵詞的共現網絡圖,結合文獻得到五大研究主題。
本研究選擇中國醫學信息學的國際發文為研究樣本,因樣本量和選擇范圍較小,如果采用被引頻次作為分析指標,不具備較強的代表性和典型性,容易產生抽樣誤差,當樣本量擴大至國際范圍,在較大范圍內進行研究可以縮小誤差變異。因此擴大樣本量和研究范圍,試評價重要學者的學術影響力,以及分析國際合作、測度它對其他學科的影響力和滲透性,都有待進一步研究。
參考文獻
[1]http:∥www.ncbi.nlm.nih.gov/mesh/?term=Medical+Informatics[EB].
[2]Ackerman,MJ.et al.STANDARDS FOR MEDICAL IDENTIFIERS,CODES,AND MESSAGES NEEDED TO CREATE AN EFFICIENT COMPUTER-STORED MEDICAL RECORD[J].Journal of the American Medical Informatics Association,1994,(1):1-7.
[3]Humphreys,BL.,Lindberg,DAB.,Schoolman,HM.& Barnett,GO.The Unified Medical Language System:An informatics research collaboration[J].Journal of the American Medical Informatics Association,1998,(5):1-11.
[4]Dolin,RH.et al.HL7 Clinical Document Architecture,Release 2[J].Journal of the American Medical Informatics Association,2006,(13):30-39.
[5]DeShazo J P,LaVallie D L,Wolf F M.Publication trends in the medical informatics literature:20 years of[J].BMC medical informatics and decision making,2009,9(1):7.
[6]董建成.醫學信息學的現狀與未來[J].中華醫院管理雜志,2004,20(4):232-235.
[7]胡兆芹,張士靖.美國醫學信息學教育現狀分析及啟示[J].中國高等醫學教育,2005,(3):37-40.endprint
序號機構文獻量百分比(%)1臺灣大學(臺灣)1369802臺灣成功大學(臺灣)926633香港中文大學(香港)896414陽明大學(臺灣)705045香港大學(香港)694976香港理工大學(香港)553967中國科學院(中國大陸)533828上海交通大學(中國大陸)503609清華大學(中國大陸)463319臺北醫科大學(臺灣)4431710香港城市大學(香港)3928111臺灣大學附屬醫院(臺灣)3928112浙江大學(中國大陸)3726713中正大學(臺灣)3625914長庚大學(臺灣)3424515交通大學(臺灣)3323816中央大學(臺灣)2618717悉尼大學(澳大利亞)2518018香港浸會大學(香港)2316619臺北榮民總醫院(臺灣)2215920復旦大學(中國大陸)2115121清華大學(臺灣)201443合作國家分析
中國醫學信息學研究的3 429位論文作者來自于36個國家,與其他國家合作的總發文量為555篇,占40%,具有鮮明的國際合作化的表現。表3顯示與中國研究者合作、發文量在10篇以上的研究者國籍的詳細信息。其中與中國合作最多的是來自美國的研究者,合作發文量為241篇;其次是澳大利亞的研究者,合作發文量為70篇。其他如英國、加拿大、新加坡,合作發文量分別為53篇、31篇和29篇。
41關鍵詞統計分析
采用TDA軟件處理1 388篇文獻,除去沒有關鍵詞的203篇,得到1 185篇。對關鍵詞詞頻進行統計,表4列出詞頻不低于8的39個關鍵詞,可以看出研究集中在支持向量機、電子醫學記錄、數據挖掘、心電圖、功能選擇、圖像分割、遠程醫療、分類、隨機效應、中國傳統醫學、RFID、網絡等;同時注重醫院信息系統、計算機模擬、病人安全、隱私、自然語言處理、電子健康記錄和本體等;有些還涉及到神經網絡、人工神經網絡、生物力學、芯片等領域。
42關鍵詞共現網絡分析
選擇詞頻不低于8的39個關鍵詞,對其做共現矩陣,采用Ucinet60軟件繪制高頻關鍵詞的共現網絡圖,結果如圖2示,刪除了3個孤立節點。圖2中的節點表示關鍵詞,連線表示其兩端的兩個關鍵詞節點在同一篇文章中存在共現,節點大小表示關鍵詞的點度中心度,即關鍵詞出現的總頻次,連線粗細表示關鍵詞的共現次數,連線越粗,即關鍵詞共現越多,反之越少。
利用UCINET分析圖2中高頻關鍵詞的點度中心度、接近中心度和中間中心度,支持向量機、數據挖掘、功能選擇、遺傳算法等關鍵詞的點度中心度較高。RFID、安全、隱私、病人安全、電子醫學記錄;數據挖掘、決策樹;文本挖掘、自然語言處理、中國傳統醫學;支持向量機、功能選擇、數據挖掘、決策樹、分類、遺傳算法、神經網絡;圖2高頻關鍵詞的共現網絡圖
功能選擇、心電圖、乳腺癌、特征提取等各組關鍵詞間的連線較粗,即表明它們在一篇文章中共現次數較高,當高頻關鍵詞在同一文章中共同出現的次數多,則可以初步反映該領域的研究熱點。結合文獻分析和共現網絡圖,可以推出中國醫學信息學的五大研究主題:(1)電子醫學記錄的安全管理。(2)計算機自然語言處理和文本挖掘在中國傳統醫學診斷中的運用。(3)計算機和網絡對醫院信息系統、護理系統的研發和應用。(4)統計方法和計算機技術在臨床檢查、疾病診斷和 治療、臨床決策中的運用。(5)統計方法和計算機處理對臨床醫學、研究型數據的分析和系統構建。
5結語
本文采用文獻計量學方法,從年代發文量、來源期刊、重要發文機構、合作國家和相關學科等進行分析,得出中國醫學信息學領域的研究經歷了3個階段:萌芽階段、平穩發展階段、快速發展階段。2008年以后,每年發文量平均超過100篇,2012年達到歷史最高峰。根據來源期刊分析,中國醫學信息學期刊分布主要集中在載文量為55篇以上的前9種期刊。發文量在20篇以上的21所機構中,臺灣地區研究機構成為中國醫學信息學國際發文的重要來源。從合作來看,中國醫學信息學研究具有鮮明的國際化合作趨勢,與中國合作最多的是美國、澳大利亞和英國的研究者。采用Ucinet60繪制高頻關鍵詞的共現網絡圖,結合文獻得到五大研究主題。
本研究選擇中國醫學信息學的國際發文為研究樣本,因樣本量和選擇范圍較小,如果采用被引頻次作為分析指標,不具備較強的代表性和典型性,容易產生抽樣誤差,當樣本量擴大至國際范圍,在較大范圍內進行研究可以縮小誤差變異。因此擴大樣本量和研究范圍,試評價重要學者的學術影響力,以及分析國際合作、測度它對其他學科的影響力和滲透性,都有待進一步研究。
參考文獻
[1]http:∥www.ncbi.nlm.nih.gov/mesh/?term=Medical+Informatics[EB].
[2]Ackerman,MJ.et al.STANDARDS FOR MEDICAL IDENTIFIERS,CODES,AND MESSAGES NEEDED TO CREATE AN EFFICIENT COMPUTER-STORED MEDICAL RECORD[J].Journal of the American Medical Informatics Association,1994,(1):1-7.
[3]Humphreys,BL.,Lindberg,DAB.,Schoolman,HM.& Barnett,GO.The Unified Medical Language System:An informatics research collaboration[J].Journal of the American Medical Informatics Association,1998,(5):1-11.
[4]Dolin,RH.et al.HL7 Clinical Document Architecture,Release 2[J].Journal of the American Medical Informatics Association,2006,(13):30-39.
[5]DeShazo J P,LaVallie D L,Wolf F M.Publication trends in the medical informatics literature:20 years of[J].BMC medical informatics and decision making,2009,9(1):7.
[6]董建成.醫學信息學的現狀與未來[J].中華醫院管理雜志,2004,20(4):232-235.
[7]胡兆芹,張士靖.美國醫學信息學教育現狀分析及啟示[J].中國高等醫學教育,2005,(3):37-40.endprint
序號機構文獻量百分比(%)1臺灣大學(臺灣)1369802臺灣成功大學(臺灣)926633香港中文大學(香港)896414陽明大學(臺灣)705045香港大學(香港)694976香港理工大學(香港)553967中國科學院(中國大陸)533828上海交通大學(中國大陸)503609清華大學(中國大陸)463319臺北醫科大學(臺灣)4431710香港城市大學(香港)3928111臺灣大學附屬醫院(臺灣)3928112浙江大學(中國大陸)3726713中正大學(臺灣)3625914長庚大學(臺灣)3424515交通大學(臺灣)3323816中央大學(臺灣)2618717悉尼大學(澳大利亞)2518018香港浸會大學(香港)2316619臺北榮民總醫院(臺灣)2215920復旦大學(中國大陸)2115121清華大學(臺灣)201443合作國家分析
中國醫學信息學研究的3 429位論文作者來自于36個國家,與其他國家合作的總發文量為555篇,占40%,具有鮮明的國際合作化的表現。表3顯示與中國研究者合作、發文量在10篇以上的研究者國籍的詳細信息。其中與中國合作最多的是來自美國的研究者,合作發文量為241篇;其次是澳大利亞的研究者,合作發文量為70篇。其他如英國、加拿大、新加坡,合作發文量分別為53篇、31篇和29篇。
41關鍵詞統計分析
采用TDA軟件處理1 388篇文獻,除去沒有關鍵詞的203篇,得到1 185篇。對關鍵詞詞頻進行統計,表4列出詞頻不低于8的39個關鍵詞,可以看出研究集中在支持向量機、電子醫學記錄、數據挖掘、心電圖、功能選擇、圖像分割、遠程醫療、分類、隨機效應、中國傳統醫學、RFID、網絡等;同時注重醫院信息系統、計算機模擬、病人安全、隱私、自然語言處理、電子健康記錄和本體等;有些還涉及到神經網絡、人工神經網絡、生物力學、芯片等領域。
42關鍵詞共現網絡分析
選擇詞頻不低于8的39個關鍵詞,對其做共現矩陣,采用Ucinet60軟件繪制高頻關鍵詞的共現網絡圖,結果如圖2示,刪除了3個孤立節點。圖2中的節點表示關鍵詞,連線表示其兩端的兩個關鍵詞節點在同一篇文章中存在共現,節點大小表示關鍵詞的點度中心度,即關鍵詞出現的總頻次,連線粗細表示關鍵詞的共現次數,連線越粗,即關鍵詞共現越多,反之越少。
利用UCINET分析圖2中高頻關鍵詞的點度中心度、接近中心度和中間中心度,支持向量機、數據挖掘、功能選擇、遺傳算法等關鍵詞的點度中心度較高。RFID、安全、隱私、病人安全、電子醫學記錄;數據挖掘、決策樹;文本挖掘、自然語言處理、中國傳統醫學;支持向量機、功能選擇、數據挖掘、決策樹、分類、遺傳算法、神經網絡;圖2高頻關鍵詞的共現網絡圖
功能選擇、心電圖、乳腺癌、特征提取等各組關鍵詞間的連線較粗,即表明它們在一篇文章中共現次數較高,當高頻關鍵詞在同一文章中共同出現的次數多,則可以初步反映該領域的研究熱點。結合文獻分析和共現網絡圖,可以推出中國醫學信息學的五大研究主題:(1)電子醫學記錄的安全管理。(2)計算機自然語言處理和文本挖掘在中國傳統醫學診斷中的運用。(3)計算機和網絡對醫院信息系統、護理系統的研發和應用。(4)統計方法和計算機技術在臨床檢查、疾病診斷和 治療、臨床決策中的運用。(5)統計方法和計算機處理對臨床醫學、研究型數據的分析和系統構建。
5結語
本文采用文獻計量學方法,從年代發文量、來源期刊、重要發文機構、合作國家和相關學科等進行分析,得出中國醫學信息學領域的研究經歷了3個階段:萌芽階段、平穩發展階段、快速發展階段。2008年以后,每年發文量平均超過100篇,2012年達到歷史最高峰。根據來源期刊分析,中國醫學信息學期刊分布主要集中在載文量為55篇以上的前9種期刊。發文量在20篇以上的21所機構中,臺灣地區研究機構成為中國醫學信息學國際發文的重要來源。從合作來看,中國醫學信息學研究具有鮮明的國際化合作趨勢,與中國合作最多的是美國、澳大利亞和英國的研究者。采用Ucinet60繪制高頻關鍵詞的共現網絡圖,結合文獻得到五大研究主題。
本研究選擇中國醫學信息學的國際發文為研究樣本,因樣本量和選擇范圍較小,如果采用被引頻次作為分析指標,不具備較強的代表性和典型性,容易產生抽樣誤差,當樣本量擴大至國際范圍,在較大范圍內進行研究可以縮小誤差變異。因此擴大樣本量和研究范圍,試評價重要學者的學術影響力,以及分析國際合作、測度它對其他學科的影響力和滲透性,都有待進一步研究。
參考文獻
[1]http:∥www.ncbi.nlm.nih.gov/mesh/?term=Medical+Informatics[EB].
[2]Ackerman,MJ.et al.STANDARDS FOR MEDICAL IDENTIFIERS,CODES,AND MESSAGES NEEDED TO CREATE AN EFFICIENT COMPUTER-STORED MEDICAL RECORD[J].Journal of the American Medical Informatics Association,1994,(1):1-7.
[3]Humphreys,BL.,Lindberg,DAB.,Schoolman,HM.& Barnett,GO.The Unified Medical Language System:An informatics research collaboration[J].Journal of the American Medical Informatics Association,1998,(5):1-11.
[4]Dolin,RH.et al.HL7 Clinical Document Architecture,Release 2[J].Journal of the American Medical Informatics Association,2006,(13):30-39.
[5]DeShazo J P,LaVallie D L,Wolf F M.Publication trends in the medical informatics literature:20 years of[J].BMC medical informatics and decision making,2009,9(1):7.
[6]董建成.醫學信息學的現狀與未來[J].中華醫院管理雜志,2004,20(4):232-235.
[7]胡兆芹,張士靖.美國醫學信息學教育現狀分析及啟示[J].中國高等醫學教育,2005,(3):37-40.endprint