醫學是人類科學史上的重要學科,它的發展與人類的健康息息相關。綜合醫學與內科學作為臨床醫學的一個專科,幾乎是所有其他臨床醫學的基礎,亦有醫學之母之稱。因此,摸清綜合醫學與內科學的學科發展脈絡,掌握綜合醫學與內科學的知識基礎和研究前沿,對于綜合醫學與內科學的發展乃至醫學的發展具有重要意義。
1994年Persson[1]將“知識基礎”定義為同被引文獻簇,而研究前沿則是由文獻耦合方法生成的、與知識基礎有引證關系的文獻群。從這一角度出發,目前普遍使用的發現研究前沿和知識基礎的算法是聚類算法。然而傳統聚類是根據數據的全部屬性將數據聚類,它反映的是全局信息,無法反映局部信息,局部信息的挖掘成為了傳統聚類的一個瓶頸。雙聚類算法為研究者們解決了這一難題。
雙聚類算法是Hartigan于1971年提出的概念,又被稱作直接聚類算法或同時聚類(Simultaneous Clustering)[2]。它是對數據矩陣中的樣本和變量同時進行聚類,即在對象及其屬性兩個方向上同時聚類,使用對象及其屬性提取它們的聯合信息,發現潛在的局部模式。雙聚類對稀疏和高維矩陣尤其有效,與其他單向傳統聚類方法在應用上具有很多優勢[3]。2000年由Cheng和Church[4]首次將其引入到基因表達譜的分析中,隨后在微陣列(基因和表達條件)和生物信息學中得到廣泛應用 。目前,雙聚類分析方法正在快速發展,但在國內外的文獻研究中的應用不是很多。筆者曾利用雙聚類算法對H指數學科領域進行了知識基礎和學科前沿探測[5],效果較令人滿意。本文進一步利用SCI中收錄的高影響因子期刊論文對內科學的知識基礎和研究前沿進行探測,以便對今后內科學的發展產生借鑒意義,進一步的驗證和推廣雙聚類方法在文獻計量學領域的應用。
筆者根據中國科學院文獻情報中心世界科學前沿分析中心的JCR期刊分區數據庫中綜合醫學與內科學的期刊影響因子分區情況,選擇位于一區的8種醫學內科學(Medicine: General & Internal)雜志進行數據收集。經在SCI數據庫檢索NewEnglandJournalofMedicine、Lancet、JAMA-JournaloftheAmericanMedicalAssociation、BMJ-BritishMedicalJournal、AnnalsofInternalMedicine、PlosMedicine、JAMAInternalMedicine、JournalofCachexiaSarcopeniaandMuscle近5年發表的論文,共獲得7 146篇論文及綜述,下載文獻記錄作為本研究的樣本。
利用BICOMB軟件[7]對7 146篇醫學內科主題文獻的參考文獻進行統計,根據H指數的原理,選取42篇高被引文獻(因出現并列排名的高被引文獻,故取H=40)(表1),構建高被引-來源文獻矩陣,將高被引-來源文獻矩陣導入gCLUTO軟件進行雙聚類分析。軟件運行后,高被引文獻的聚類將代表該學科的知識基礎(即行的聚類),來源文獻的聚類將代表該學科的研究前沿(即列的聚類)。

表1 用于雙聚類分析的高被引文獻

續表1
用gCLUTO計算的每個聚類的相似性指標,作為衡量聚類內部質量的參考(表2)。

表2 雙聚類結果相似性指標
ISim(類內相似性)表示每個聚類內部各個對象間的平均相似性,ISdev(類內相似性標準差)表示類內相似性的標準差,ESim(類間相似性)表示類內對象與類外對象間的平均相似性,ESdev(類間相似性標準差))表示類間相似性的標準差。ISim值越高,ESim值越低,聚類的效果越好[8]。
除了衡量聚類內部質量的相似性指標外,gCLUTO還考慮了聚類的外部特征:描述性特征(descriptive features)和區別性特征(discriminating features)(圖1)。描述性特征在一定程度上反映出該類的特征,可以視其為該類團的自動標注,這些描述性特征可以為我們學科前沿提供有力的線索。

圖1 雙聚類描述性和區別性特征
雙聚類可視化矩陣如圖2所示。

圖2 雙聚類可視化矩陣
在可視化的矩陣中,矩陣原始數據的值用顏色代替,白色代表接近零值,逐漸加深的紅色代表較大的值,紅色的深淺代表被引頻次的高低。矩陣的行重新排序,使同一組的行列在一起[8]。聚類圖形的行聚類(左側)表示的是對高被引文獻的分類,并在圖的右側對應列出所代表的高被引文獻;聚類圖形的列聚類(上方)表示的是對來源文獻的聚類,并在圖的下方對應列出所代表的來源文獻。
圖3為雙聚類結果的可視化山峰圖,該圖從更為直觀形象的角度反映雙聚類的效果。圖3中6座山峰較為獨立,分布明顯,聚類效果較好;圖3中數字為聚類號,即0代表類0。

圖3 雙聚類可視化山峰圖
結合以上雙聚類結果判定指標,雙聚類分析效果較好。依此結果可將綜合醫學與內科學主要劃為6個主流研究方向,并結合高被引文獻和描述性特征文獻對其知識基礎與學科前沿做描述。
(2)為了促進信息傳播,加強學術交流,在論文發表后,本刊享有文章的轉摘權(包括英文版、電子版、網絡版)。作者獲得的稿費包括轉摘酬金。如作者不同意轉摘,請在投稿時說明。
3.5.1 心血管疾病隨機對照試驗
知識基礎:自1958年以來,KAPLAN EL等人陸續提出生存分析的非參數估計[9],應用乘積限方法估計生存概率,討論回歸函數、生存量表、藥物毒性分級的一致參數和惡病質的定義等,為今后臨床試驗或隨機對照試驗各種指標和參數的選定起到指導作用。
研究前沿:心血管疾病方面的隨機對照試驗。 心血管疾病一直是醫學界關注的重點,隨著臨床試驗或隨機對照試驗各種指標和參數的不斷規范化,心血管疾病方面的隨機對照試驗也逐漸開展起來,并成為綜合醫學與內科學領域研究的熱點。
3.5.2 感染性疾病和血管疾病的藥物治療
知識基礎:感染性疾病和血管閉塞的早期藥物療法。如在美國肝臟病研究協會第61屆年會上,專家們就采用新藥治療丙型肝炎提出了大致的看法,得出明確的結論為:隨著Vertex/強生/三菱公司開發的首個直接抗病毒藥物Telaprevir[10]及由默沙東開發的Boceprevir[11]在2011年的陸續上市,丙型肝炎的標準治療方案將有重大的改進。
研究前沿:感染性疾病和血管疾病藥物治療的進展。如直接抗病毒藥物 telaprevir和boceprevir(NS3/4A蛋白酶抑制劑)的應用是基因1型慢性丙肝病毒(HCV)感染治療方案的一大進步[12]。
3.5.3 臨床疾病的系統綜述和meta分析
知識基礎:基于系統綜述和meta分析本身的觀察性研究。如對系統綜述和meta分析中偏倚的評估、異質性的量化、不一致性的測量和臨床證據的分級等構成本研究方向的知識基礎。
研究前沿:臨床疾病的系統綜述和Meta分析。在系統綜述和Meta分析的觀察性研究基礎上,系統綜述和Meta分析在臨床中的應用成為研究熱點,其結果可為循證醫學提供臨床證據。
3.5.4 疾病負擔研究
知識基礎:涉及21個地區的1990-2010年全球疾病負擔、傷害和風險因素報告奠定了這一研究方向的主要知識基礎,另外還包括了精神疾病的診斷和統計指南、II型糖尿病預防等。
研究前沿:1990-2010年全球疾病負擔、傷害和風險因素報告的系統分析為以上知識基礎的延伸,是本研究方向的研究前沿,包括精神疾病負擔的系統分析等。
3.5.5 慢性疾病的治療效果評價
知識基礎:利用管理性數據和縱向研究對共病進行分類,包括ICD-9、ICD-10、醫療服務收費程序、比例危險率模型等。
研究前沿:慢性疾病的治療效果評價。慢性疾病是老年病人常見共病現象,在對共病進行分類的基礎上,對慢性疾病的治療效果進行評價則成為研究熱點。
3.5.6 疾病的診斷與風險預測
知識基礎:疾病標記物或模型對疾病的預估作用。如利用多原因死亡率模型估計新生兒的死亡率[13]、利用新的腎小球濾過率方程式預估腎功能[14]等,疾病新標記物和新方程式的提出為疾病的診斷提供了知識基礎。
研究前沿:疾病的診斷與風險預測。不論瘧疾也好,高血壓也罷,疾病的早期診斷和風險預測都對疾病的發展起到了至關重要的作用,因此疾病的診斷與風險預測成為內科學領域的又一研究熱點。
通過以上綜合醫學與內科學高影響力期刊的雙聚類分析,發現近年來綜合醫學與內科學的研究前沿主要體現在疾病的診斷與風險預測、慢性疾病的治療效果評估、疾病負擔研究、臨床疾病的系統綜述和Meta分析、心血管疾病隨機對照試驗、感染性疾病和血管疾病的藥物治療等6個方面,其引用的知識基礎也較為清晰地展現在讀者眼前。從中可以看出臨床流行病學和循證醫學越來越多地與臨床醫學結合,成為臨床研究者關注的方向。
雙聚類算法對近年來綜合醫學與內科學的知識基礎和研究前沿的靜態描述,再次驗證了雙聚類算法在探測學科研究前沿和知識基礎方面的可行性及精確性,在未來的研究中可以將其推廣到各領域的學科發展評價中。