劉洋 李海燕 賈李蓉 劉揚 甄思圓 孫華君 熊婕

摘要:目的 ?對GB/T 38327-2019《健康信息學 中醫藥數據集分類》國家標準(以下簡稱“本標準”)的適用性進行評價,從用戶角度探索對本標準進行評價的方法。方法 ?本研究采用文獻調查法、對比驗證法等,選取6名測試人員對120個中醫藥數據集進行分類驗證,與本標準制訂人員進行一致性對比分析。結果 ?測試人員與本標準制訂人員分類平均一致率為:“創建者類型”分類代碼為79.72%,“數據來源類型”分類代碼為71.67%,“主題類型”分類代碼為58.61%。經分析,發現可多重分類的數據集、綜合性主題數據集等是造成分類不一致的關鍵因素。結論 ?本標準所采用的適用性評價方法可作為分類編碼類標準研制過程中的分類優化方法;本標準測試驗證過程中發現的問題可作為實施過程中制定有針對性推廣應用策略的依據,從而更有效地引導和方便用戶應用本標準實現數據集分類著錄、快捷檢索,最終達到本標準有效執行之目的。
關鍵詞:中醫藥數據集;分類標準;適用性評價
中圖分類號:R2-03 ???文獻標識碼:A ???文章編號:2095-5707(2021)01-0007-06
隨著我國中醫藥事業的蓬勃發展和中醫藥信息化進程的加快,中醫藥行業各機構、各部門產生和積累了海量的科學數據和業務數據,為了解決大數據環境下龐大的數據資源分類組織與管理問題,GB/T 38327-2019《健康信息學 中醫藥數據集分類》國家標準(以下簡稱“本標準”)于2019年12月10日發布,并于2020年7月1日實施[1]。
在標準實施的前期階段,需要探索各種有利于推進標準實施、提高標準質量的措施,而開展適用性評價研究正是其中一條有效途徑。在標準實施前的適用性評價體系中,評價指標和方法居于核心地位,設計出科學、合理而全面的評價標準是發揮實施前適用性評價實效的決定性因素。本文通過對中醫藥數據集分類標準的適用性評價研究,從用戶角度探索對本標準進行評價的方法,制定有針對性的推廣策略,以便在本標準推廣應用過程中,更有效地引導和方便用戶應用本標準實現數據集分類著錄、快捷檢索,達到數據共享的目的,為本標準實施前期的進一步優化提供參考依據。
1 ?數據來源與評價方法
1.1 ?數據來源
本研究通過檢索萬方醫學網(http://med.wanfangdata.com.cn/)和中國知網(https://www.cnki.net/),獲取相關的中醫藥數據集名稱與內容簡介。
1.2 ?檢索策略
選用關鍵詞檢索方法,檢索式為“(數據集or數據庫)and中醫藥”。在萬方醫學網中“論文檢索”的“資源分類限定”中限定“中國醫學”,篩選1998-2020年有關中醫藥的“數據集”“數據庫”相關文獻。在中國知網的“高級檢索”中,選擇“醫藥衛生科技”類下列的“中醫學”“中藥學”“中西醫結合”3個子類,篩選2003年10月30日-2020年5月11日的有關中醫藥的“數據集”“數據庫”相關文獻。檢索時間為2020年5月11日。
1.3 ?納入標準
根據中醫藥數據集定義,即有獨立主題,格式規范,能夠通過計算機采集、整合、存儲和展現,可應用于中醫藥臨床、科研、管理和公眾服務等方面的相關數據的集合,能為各種用戶所共享,具有最小冗余度,數據間聯系密切,而又有較高的數據獨立性[2]。
在萬方醫學網和中國知網文獻中,選擇有關中醫藥的“數據集”“數據庫”相關文獻。文獻類型包括:⑴期刊;⑵論著;⑶會議記錄及摘要;⑷綜述等。收集分析文獻中涵蓋的中醫藥數據集,做成《中醫藥數據集匯總表》。
1.4 ?排除標準
排除標準:⑴以現有的信息化系統為基礎,對現在的、歷史的、分散的業務數據集進行整合的綜合數據平臺,例如中醫藥多庫融合檢索平臺等。 ?⑵利用計算機硬件、軟件、網絡通信設備及其他辦公設備進行信息的收集、傳輸、加工、儲存、更新、拓展和維護的管理信息系統,例如醫院信息管理系統(HIS)等。⑶涉及萬方醫學網和中國知網中有效的重復中醫藥數據集,保留中國知網的有效數據集。
1.5 ?評價指標
標準的適用性是指標準在某種條件下實現規定用途和功能的能力。構建標準適用性評價指標體系,有利于提高我國標準的立項、復審及標準建設的科學性[3]。標準適用性評價指標分為技術評價指標和綜合評價指標兩大類[4]。
1.5.1 ?技術評價指標 ?包括技術的合理性、級別的適當性、顆粒度的適宜性、水平的先進性、應用的廣泛性。⑴技術的合理性,指從技術指標的全面性、精確性、可操作性考察標準的適用性。⑵級別的適當性,指擬定標準的級別是否與其適用范圍和制發標準權限相符合,屬于強制性標準還是推薦性標準的判定是否恰當。⑶顆粒度的適宜性,體現了標準結構方面的適用性,如果顆粒度不適宜就要進行新的整合。標準顆粒度是指某一標準所反映的標準化對象及其適用范圍、用途、內容等要素的量度單位。標準化對象適用范圍越小,用途越少,標準的顆粒度越小。⑷水平的先進性,一是考察標準的技術水平與我國經濟社會發展是否同步,標準技術水平是否體現本領域研究水平、本行業管理水平;二是看與同類型國際標準比較而言是否先進,主要看是否已采用國際標準及所采用的國際標準是否先進。⑸應用的廣泛性,主要是指用戶使用該標準的情況及該標準被引用的情況[4]。
1.5.2 ?綜合評價指標 ?包括完整性、系統性和協調性。⑴標準的完整性,按照標準編寫規范時要求科學地界定并保證各子分類的完整性。⑵標準的系統性,解決功能需求配置是否到位、分布是否平衡、顆粒度是否科學等問題。首先,標準的功能需求配置是否到位問題,主要在于標準需求描述是否清晰;其次,針對分布是否平衡問題,標準體系建設中要優先建設急需標準和重點難點部分,將工作重點放在新興管理對象標準體系的建設方面;最后,標準的顆粒度粗細適宜。標準顆粒度的粗細設置并非整齊劃一,從構成整個標準體系結構的標準來看,應當有大顆粒的指導性標準,也應有小顆粒的操作性標準。⑶標準的協調性,包括技術協調和組織協調。首先,實現技術協調,應當明確國家標準、行業標準、團體標準和地方標準的關系,避免標準重復建設問題,保障標準體系的精簡高效;其次,實現組織協調,不同的行業主管部門或標準委員會條塊分割,要建立暢通的協調機制,杜絕出現標準交叉重復或矛盾現象。即各單位積極抽調人力組成標準建設項目小組,尊重項目負責人的權威,服從安排,協調配合,共同為實現標準建設項目而努力[4]。
1.6 ?評價方法
從萬方醫學網和中國知網文獻檢索結果中,人工篩選中醫藥領域現有的各類數據集,再從中隨機抽樣篩選13%的涵蓋中醫藥各領域的數據集,例如:民國針灸文獻全文數據庫、中醫電子病歷基本數據集、海派中醫流派數據庫、中藥化學成分數據庫、中醫基本名詞術語英文同義詞數據庫、中國藏藥數據庫等。通過廣泛搜集原始數據項,并經過整理、歸類,將中醫藥數據集的“名稱”“制作單位”及“數據來源”的原始數據作為分類基礎,建立“《健康信息學 中醫藥數據集分類》國家標準編碼評價表”。
選取2名科研人員和4名碩士、博士研究生作為測試人員,讓其充分了解本標準中第5項“分類與代碼表”的“創建者類型代碼表”“數據來源類型代碼表”和“主題類型代碼表”的說明,然后將中醫藥數據集按照本標準進行分類驗證,將其分別對應到3個維度類目中,即“創建者類型”“數據來源類型”及“主題類型”類目并賦予代碼。6位測試人員和1位本標準制訂人員從3個維度的類目代碼下拉選項選擇、區分、判別、驗證、歸納中醫藥數據集。
2 ?結果
2.1 ?文獻檢索結果
在萬方醫學網中檢索到符合納入標準與排除標準的有關中醫藥的“數據集”“數據庫”相關文獻 ???17 871篇,中國知網為1 598篇。綜合中醫藥文獻數據庫檢索結果,排除重復的中醫藥數據集,人工篩出中醫藥領域現有各類數據集926個。再從中隨機抽樣篩選13%的涵蓋中醫藥各領域數據集120個。
2.2 ?分類驗證結果
將上述7位人員應用本標準的分類結果綜合匯總到《健康信息學 中醫藥數據集分類》國家標準編碼評價表(見表1),建立中醫藥數據集分類驗證一致性對比表,得出評價結果。
將測試人員與本標準制訂人員的分類結果進行對比,其計算方法為:分類相同項除以120(即抽樣總分類數),來驗證結果的一致性。例如,“創建者類型”:測試人員4有86個分類與本標準制訂人員分類相同,86/120=71.67%,即兩類人員的一致性為71.67%。以此計算方法對本標準的適用性評價作出驗證,結果顯示,第一類目“創建者類型”分類代碼中:6名測試人員與1名本標準制訂人員分類結果的一致率分別為70.83%、90.83%、94.17%、71.67%、70.83%、80.00%。第二類目“數據來源類型”分類代碼中,一致率分別為69.17%、66.67%、62.50%、65.00%、70.00%、96.67%。第三類目“主題類型”分類代碼中,一致率分別為50.00%、57.50%、53.33%、50.00%、48.33%、92.50%。驗證結果,上述3個類目代碼的平均一致率分別為79.72%、71.67%、58.61%。中醫藥數據集分類驗證一致性對比數據表明,測試人員與本標準制訂人員分類一致率均為50%及以上。
表1中,若一致性較高的主題分類相等時,以本標準制訂分類為主,如中醫基本名詞術語英文同義詞數據庫,一致性較高的分類為2個教育管理和2個文化管理,此時以本標準制訂的“教育管理”分類為主,加“*”表示。表1中的“其他”項,根據代碼的不同其含義不同(具體詳見本標準中主題類型代碼表說明),如“029900其他”為數據主題未包含在“020000中醫”項下的“020100基礎理論”“020200臨床實踐”“020300養生保健”“020400中西醫結合”此4類中的其他中醫實踐活動產生的信息。
2.3 ?評價結果
2.3.1 ?技術評價結果 ?通過用戶分類驗證,對本標準進行如下技術評價:⑴技術的合理性:本標準按照GB/T 1.1-2009《標準化工作導則-第1部分:標準的結構和編寫》提出的規則起草,選擇中醫藥數據集最穩定的本質屬性或特征作為分類的基礎和依據,使用面分類法和線分類法,將中醫藥數據集的屬性或特征按一定排列順序予以系統化,形成一個科學合理的分類體系,其技術內容完整,技術手段可行,技術合理。⑵級別的適當性:本標準適用范圍廣,但非保障人體健康,人身、財產安全,工程建設質量、安全,衛生標準及法律、行政法規規定的強制執行標準,適宜作為推薦性標準。⑶顆粒度的適宜性:本標準涉及中醫藥領域數據資源的各個方面,標準本身的顆粒度大。在具體結構方面,“創建者類型“和“數據來源類型”的分類層次為1層,測試分類一致性較高,“主題類型”分類層次為2層,分類一致性較前兩者低,可見,分類的顆粒度愈細,則分類的一致性愈低。因而在實際應用時,建議用戶可以對主題進行多重分類。⑷水平的先進性:本標準適應目前中醫藥信息化發展進程和大數據時代的數據管理需求,且與國際標準同步發布,水平先進性高。⑸應用的廣泛性:本標準為眾多繁雜的中醫藥數據資源提供分類編碼,幫助數據進行分類組織與管理,中醫藥醫療、教育、科研、產業、養生保健、國際交流等各方面都將廣泛運用。
2.3.2 ?綜合評價結果 ?⑴標準的完整性:由于120個中醫藥數據集是從926個數據集中篩選,涵蓋中醫藥各個領域,在本標準里均能夠找到對應的分類類目與代碼,且類目概念明確,范圍清晰,不存在重復冗余,驗證了本標準的完整性。⑵標準的系統性:標準需求描述清晰,功能需求配置到位。在本標準引言中指出,面對龐雜的數據資源,需要建立標準來進行分類組織和管理。本標準在標準體系建設中適應大數據技術發展,將工作重點放在新興管理對象標準體系建設方面,因此分布平衡。從構成整個標準體系結構方面來看,屬于顆粒度大的指導性標準,指導中醫藥數據集分類組織和管理,不屬于顆粒度小的操作性標準。⑶標準協調性:ISO/TS 22558:2019《健康信息學 中醫藥數據集分類》國際標準與本標準同步采標,本標準對國際標準進行了修改,在主題類型代碼表中,增加了1個一級類目“中國少數民族醫藥”,并在此類目下設置了9個二級類目,以適應中國少數民族醫藥數據集分類的需要,避免了標準重復建設問題,保障了本標準體系的精簡高效。
3 ?討論與分析
中醫藥數據集分類驗證結果,“創建者類型”“數據來源類型”“主題類型”平均不一致率分別為20.28%、28.33%、41.39%。分析其不一致的原因在于以下幾個方面。
3.1 ?人員因素
選取的6名測試人員是中醫藥科研人員及在讀碩士、博士研究生,因研究專業和職稱不同,驗證結果部分存在差異。且是否使用過本標準明顯影響驗證結果,使用過本標準的用戶對其評價比未使用者要高,會產生分類人為誤差。
3.2 ?數據來源因素
3.2.1 ?可多重分類的數據集 ?在本標準編碼評價表中,有些類目可進行多重分類,例如,“中醫肺病數據庫”的“創建者類型”可多重分類,根據文獻描述,創建者為“河南中醫藥大學呼吸疾病診療與新藥研發河南省協同創新中心、河南省中醫藥防治呼吸病重點實驗室、南陽理工學院張仲景國醫國藥學院”共同創建,其“創建者類型”則可能分類到“研究機構”或“教育機構”類目代碼下,導致分類偏差。
3.2.2 ?綜合性主題數據集 ?在本標準編碼評價表中,有些類目是綜合性中醫藥數據集,不屬于基本的數據單元,即非單一主題的數據集。例如,“中藥綜合數據庫”為非單一主題的中藥數據集,“主題類型”中,測試人員分別將其分類到“中藥”“方劑學”“中藥藥理學”和“其他”。
3.2.3 ?不易分類的數據集 ?在120個中醫藥數據集中,有一些數據集主題類型不易分類,也可能導致分類的不一致性。例如,“中醫基本名詞術語英文同義詞數據庫”的“主題類型”,測試人員將其分別分類到“教育管理”“文化管理”“中醫”和“其他”。
3.3 ?解決對策
3.3.1 ?加強標準宣傳推廣并制訂針對性的實施策略 ?提高中醫藥數據集分類標準使用單位人員的信息化職業素質,將本標準的分類描述作為培訓的重要內容。將用戶對本標準分類驗證的結果作為問題目標,在本標準實施過程中,制定有針對性的實施策略,更有效地引導和方便用戶應用本標準實現數據集分類著錄、快捷檢索,達到本標準有效執行之目的。
3.3.2 ?多重分類基礎上推薦最優分類 ?對于多主題的中醫藥數據集,可以給予導向,在多重分類基礎上推薦最優分類。例如,“創建者類型”是多家單位共同創建,可選擇主要創建單位作為最優分類,其他類型可以多重分類。針對“主題類型”的分類,在說明與舉例中可以做補充界定說明,可以進行多重分類,賦予數據集多個分類號。
3.3.3 ?綜合類主題的數據集可歸入一級類目 ?對于綜合性和不易分類的中醫藥數據集,比如主題內部涉及包含關系、屬種關系、整體與部分關系,一般依據較大較全的主題歸類,分類到一級類目;如果重點是小主題,可根據需要按照小主題歸類。例如,“中藥綜合數據庫”的“主題類型”,可分類到一級類目“中藥”項下,不具體分類到二級類目“中藥”“方劑學”“中藥藥理學”“其他”等子類目項下。
4 ?小結
本標準按照科學的規劃和設計制訂,具有較高的適用性,可操作性較強,用戶使用反饋良好;技術合理,級別適當,顆粒度適宜,水平較先進,應用廣泛;完整性、系統性和協調性程度較高,基本包含整個中醫藥行業內數據資源,使更多的用戶需求數據能夠規范化,達到中醫藥數據資源的集成與共享。
在推廣應用時,根據本研究測試驗證過程中發現的問題,例如可以多重分類等,需制訂相對應的、有針對性的本標準實施推廣策略,更有效地引導和方便用戶應用本標準實現數據集分類著錄、快捷檢索,最終達到本標準有效執行之目的。通過本次研究,獲得了需要改進和關注的信息,對本標準的發布、實施前期階段評價工作提供了很多寶貴的參考依據。同時,也為標準制訂人員提供了標準評價的方法,在標準發布前期階段,可開展適用性評價,以進一步完善標準內容;在標準實施前期階段,可開展同本研究類似的適用性評價工作,以評促用,制訂有針對性的推廣策略,為標準進一步優化提供參考依據,希望能夠為今后標準的制訂和修訂工作提供有益的借鑒。
隨著標準化建設的不斷深化,中醫藥信息化管理的不斷完善,會增加很多中醫藥跨行業合作的數據集,但本標準對中醫藥數據集的分類方法相對穩定,可以根據需要在此基礎上增加新的分類。用于中醫藥數據資源的調查與管理,以及中醫藥數據集的內容描述、分類標引、元數據匯交和分類檢索時,本標準能夠面向應用和各類型、各領域、各主題數據關聯與融合,保證對數據資源的整合、管理和檢索等行為的統一,實現綜合跨領域使用和數據集信息的統一管理,促進對中醫藥數據集描述的規范化和標準化,以此提升中醫藥數據管理水平,推動數據共享。
參考文獻
[1] 中華人民共和國國家市場監督管理總局,中國國家標準化管理委員會.健康信息學 中醫藥數據集分類:GB/T 38327-2019[S].北京:中國標準出版社,2019:12.
[2] 范為宇,崔蒙,陳守鵬.中醫藥數據集分類研究[J].世界科學技術-中醫藥現代化,2006,8(5):26-29.
[3] 中華人民共和國國家質量監督檢驗檢疫總局,中國國家標準化管理委員會.GB/T 13016-2018標準體系構建原則和要求[S].北京:中國標準出版社,2018.
[4] 倪曉春.檔案標準體系的適用性評價指標體系與成熟度模型構建[J].東方論壇-青島大學學報(社會科學版),2020(1):151-156.
(收稿日期:2020-06-23)
(修回日期:2020-08-15;編輯:魏民)