, ,,,,
《中醫藥發展戰略規劃綱要(2016-2030年)》提出“建立和完善符合中醫藥特點的科研評價標準和體系”[1]。隨著中醫藥事業的不斷發展,中醫藥科技活動產生了大量的信息資源,急需建立完善的機制進行過濾和評價,以促進中醫藥科技的創新和發展[2-3]。學術論文是中醫藥科研活動的主要產出形式和交流手段,也是服務中醫藥創新發展的重要資源。中醫藥論文的評價和推優既可表征中醫藥科學知識和科技發展的前沿與方向,也可為度量國家、機構、人員等的科研實力提供客觀依據[4-5]。
由于學科的特殊性,盡管中醫藥論文數據增長迅速,但F1000[6]和F5000[7]等目前國內外較為成熟的論文評價體系推介的中醫藥論文十分有限。而當前中醫藥論文的評價指標單一,缺乏客觀量化的綜合評價標準與體系和可直接用于中醫藥論文評價的基礎指標數據庫,因此建立科學的中醫藥論文影響力評價系統十分必要。本文在遵循科技評價基本原則、參照國內外現有評價指標體系的基礎上[8-10],研發了中醫藥論文影響力評價系統(TCM-PIES)。該系統結合中醫藥學科及文獻特點,選取被引頻次、下載頻次、論文發表當年影響因子為核心指標,并考慮發表時間等因素,對指標進行了修正。同時,為了減少單一評價方法造成的結果偏差,采用了TOPSIS和主成分分析兩種方法的組合評價。此外,針對基礎指標數據,調研、篩選了適用于中醫藥論文評價的文獻數據庫及指標數據,并進行數據采集和匯總[11]。
明確以TCM-PIES作為主要操作平臺,為中醫藥論文影響力評價項目提供支持。參考現有的學術論文影響力評價項目管理和執行流程[12],設計中醫藥評價系統業務流程(圖1)。
1.1.1 基礎數據維護
建立期刊數據庫,對中、英文期刊信息進行管理和維護。其中中文期刊包括期刊名稱及其變更規范表、歷年影響因子、核心期刊收錄情況、下載率、被引率等,英文期刊包括期刊名稱及其變更規范表、歷年影響因子、分區、下載率、被引率等。
TCM-PIES支持數據批量導入和自動匹配,針對中醫藥特定領域,支持將被引頻次、下載頻次、論文發表當年影響因子作為評價的核心指標;并考慮發表時間等因素,支持人工審核和校驗,以便對指標進行修正。
1.1.2 評價過程管理
TCM-PIES對整個論文評價項目生命周期都能發揮作用,主要包括以下過程和功能。
數據清洗:實現了對各種粗數據的清洗,其中包括查重、日期格式的轉換、頁碼格式的自動生成以及對錯誤的提示等。
論文題錄數據導入:針對中醫藥領域論文數據來源特點,支持多種來源(如CNKI、萬方、SinoMed等)、不同格式(Excel、cvs、txt格式等)的題錄數據導入和標準化,并進行統一存儲。
論文指標數據的導入:下載頻次、被引頻次等論文相關指標數據的導入和匹配。
標準期刊匹配:基于論文題錄的期刊和出版年份信息,與標準期刊庫中的期刊進行匹配。
評價數據集生成:以論文為單位,生成論文影響力評價所需的各項指標數據。
論文影響力評價:對評價數據集進行多種方法計算,并得到綜合分值和排名。
評價結果和報表生成:輸出評價結果及報表。
TCM-PIES系統從下到上分為數據層、數據管理層、業務邏輯層和應用層(圖2)。
1.2.1 數據層
主要包括外部數據和內部數據。內部數據由論文數據庫和期刊數據庫兩部分組成,外部數據指系統所能接受輸入的各類型數據(包括半結構化和結構化的數據),基本涵蓋了中醫藥文獻評價過程中所需的各類數據。
1.2.2 數據管理層
其中數據清洗與導入功能主要是將外部數據進行清洗后導入到系統內部,具體包括3部分:半結構化數據導入,即系統能對所需字段進行匹配、去除不規則字符、去除重復記錄等,產生結構化數據;結構化數據導入,即對外部的結構化數據進行字段匹配,進行字段類型的轉換等處理;數據讀寫模塊主要負責系統內部數據庫的讀取和更新。
1.2.3 業務邏輯層
包括業務模型、可視化引擎和算法庫3部分,業務模型主要指抽象出來的概念并能被計算機進行處理的模型,包括期刊、論文題錄、影響力評價等;可視化渲染引擎支持統計圖表的渲染和報表的生成;算法庫在數據導入方面有題錄模糊匹配算法、期刊快速查找算法等。論文影響力評價算法是結合中醫藥學科及文獻特點,減少單一評價方法造成的結果偏差,實現了TOPSIS和主成分分析法的組合評價。
1.2.4 應用層
主要表現為系統的具體功能。
數據錄入與導出:支持用戶對數據清洗、錄入和導出,實現與其他系統對接。
查詢統計和統計報表:基于各種統計方法,對業務模型進行查詢和統計,統計報表的生成與輸出。
論文影響力評價:基于TOPSIS分析法、主成分分析法等多種算法,實現論文影響力評價分析。

圖2 TCM-PIES系統框架
對比已有的文獻影響力評價過程和方法, TCM-PIES具有以下優勢。一是在總結大量實際項目的基礎上,合理設計業務流程,并將TCM-PIES作為主要操作平臺納入整個流程中;二是TCM-PIES提供了大量的數據清洗與導入功能,支持多來源、多格式的外部數據,實用高效;三是結合中醫藥學科及文獻特點,減少單一評價方法造成的結果偏差,同時實現了TOPSIS和主成分分析兩種方法的組合評價,用戶不需要再借助其他統計分析軟件輔助計算,實現了從數據錄入到評價結果輸出的一站式分析功能;四是系統框架通用性、擴展性好,可以為其他系統的實現提供參考。
TCM-PIES系統集項目管理及數據管理于一體的模式,為中醫藥科技評價提供了有效的技術借鑒。目前已在科研院所推優以及中醫優勢病種學術引導等項目評價中得到了有效應用。
以2017年1月發布的“糖尿病中醫藥臨床研究最具影響力論文”為例。遴選2006-2015年期間在國內公開出版學術期刊發表的糖尿病(無伴發、繼發疾病)中醫藥臨床及相關理論研究論文。評選的核心指標包括被引頻次、下載頻次以及期刊影響因子,并結合發表時間等因素,納入修正指標。根據檢索策略,檢索中國學術期刊網絡出版總庫、萬方數據知識服務平臺、中國中醫科學院中醫藥信息研究所期刊文獻數據庫等數據庫,下載不同來源的文獻題錄,導入TCM-PIES系統,經系統合并去重后,建立參評論文表,并導入和匹配論文下載頻次、被引頻次、發表當年期刊影響因子等相關指標數據,形成評價數據集。在此基礎上,采用TOPSIS和PCA分析法相結合的分析方法,計算論文的綜合影響力得分,輸出評價排序結果及報表。根據系統計算的綜合值排序,研究人員擇優推選出最具影響力論文68篇,供廣大中醫藥工作者在臨床、科研實踐中參考[13]。
以上工作完善和規范了中醫藥論文評價工作,但在實際應用過程中,還存在諸多的問題,對建立中醫藥論文影響力技術支持提出了迫切需求。
學術論文影響力評價所使用的數據可以分為論文數據和期刊數據。論文數據包括被引情況、下載情況以及題錄信息等,期刊數據則包括發表期刊是否為核心刊以及影響因子數據等。此外,數據按語種還可分為中文數據、外文數據。各種數據來源廣泛,包含的屬性信息也有差異,因此需要構建完善的業務流程及統一的數據模型,才能兼容各種數據格式的導入和實現學術論文影響力評價分析。
一是不同來源的數據格式不同,數據質量也參差不齊,如出版日期、頁碼等屬性容易出現格式不正確和信息不完整等問題;二是不少信息需要人工進行核實和校正,如期刊存在改名、停刊、合并等現象。
計算過程較復雜,人工處理容易出錯。目前大多數科技影響力的評價計算都利用SPSS或SAS等統計軟件[14-15]。其優點是能直接使用其已有的算法模塊;缺點是在實際操作過程中,特別是需要對納入指標和參數進行反復調優時,半自動化的操作難免產生人為遺漏或錯誤。此外,業務流程有待優化,不同項目難以進行共享和重用。
本文建立了中醫藥論文影響力評價系統TCM-PIES,并在學術論文評價遴選中成功應用。TCM-PIES不僅可以提高評價效率,而且能為其他類似系統的設計和功能實現提供參考。
針對目前系統存在的具體問題,下一步將進一步完善該系統已有的功能,包括完善組織機構、作者等實體信息,增加更多的數據處理和分析算法,豐富儲備數據,力爭將該系統建成論文影響力評價領域的代表性工具。