多來源作者數(shù)據(jù)加工策略與實現(xiàn)
——以西太平洋地區(qū)醫(yī)學索引為例*

2019-03-27 09:38:38范云滿王軍輝胡佳慧

醫(yī)學信息學雜志 2019年2期

王蕾方安范云滿王茜王軍輝胡佳慧

(中國醫(yī)學科學院醫(yī)學信息研究所北京 100020)

1 引言

在世界衛(wèi)生組織(World Health Organization，WHO)和全球衛(wèi)生圖書館(Global Health Library，GHL)項目支持下，中國醫(yī)學科學院醫(yī)學信息研究所開發(fā)并建設了西太平洋地區(qū)醫(yī)學索引平臺(Western Pacific Region Index Medicus，WPRIM)。目前已設計并提出西太平洋地區(qū)醫(yī)學索引元數(shù)據(jù)方案[1]，實現(xiàn)部分“一帶一路”沿線國家重要醫(yī)學期刊匯聚。截至2017年底WPRIM收錄韓國、日本、中國及“一帶一路”沿線的西太平洋地區(qū)國家醫(yī)學領域期刊642種，涵蓋英文、中文、韓文、蒙古語等多語種文章信息，支持WHO西太平洋區(qū)域成員國出版、醫(yī)學領域且具有英文題錄的期刊文獻資源集成，面向全球用戶提供便捷的互聯(lián)網(wǎng)訪問，確保本地區(qū)醫(yī)療和衛(wèi)生研究的全球可及性[2]。近期GHL項目各成員單位著手完善文獻數(shù)據(jù)資源，改進現(xiàn)有索引系統(tǒng)數(shù)據(jù)的不足。WPRIM作為GHL項目數(shù)據(jù)的重要來源，存在各國語言特點多樣[3]、數(shù)據(jù)來源多樣[4]、各國提交成果質(zhì)量參差不齊、歷史遺留情況復雜等問題，亟待通過多種處理策略解決現(xiàn)存問題。

2 作者數(shù)據(jù)著錄特點

2.1 概述

WPRIM作者數(shù)據(jù)來自PubMed、J-stage、KoreaMed等文獻數(shù)據(jù)庫或者由馬來西亞、越南、老撾等國家的志愿者手動提交。受本國語言、數(shù)據(jù)庫著錄標準等因素影響，著錄情況復雜。從各國語言特點分析，西方語言國家、東方印歐語系國家(如印度、孟加拉、伊朗等)、南島語系部分國家(如印尼、馬來西亞、菲律賓)等個人姓名排序一般為倒序[5]；漢藏語系國家(如中國)、南島語系部分國家(如印尼、馬來西亞、菲律賓)華人、日本、韓國等個人姓名排序一般為順序[6]。從數(shù)據(jù)著錄特點分析，作者不僅存在語言特點本身造成的數(shù)據(jù)著錄問題，還存在同一作者姓名表述形式不同、大小寫不規(guī)范、作者間分隔符不統(tǒng)一、包含噪音數(shù)據(jù)等問題。此外多來源的文獻數(shù)據(jù)在數(shù)據(jù)收割過程中會存在內(nèi)容缺失、解析不正確、作者姓名順序錯誤的問題，也存在普通作者、機構(gòu)和團體作者混淆的情況。部分數(shù)據(jù)存在同一國家志愿者反復提交，產(chǎn)生較多重復數(shù)據(jù)的問題。由于上述多種原因，未經(jīng)質(zhì)量控制的作者數(shù)據(jù)存在較多問題。

2.2 同一作者姓名表述形式不同

同一作者姓名表述形式存在著錄順序不一致、姓氏與名字之間分隔符不同、全拼中雙名中間的連字符不同等問題。不同國別來源期刊的著錄標準不同，故同一作者姓名存在著錄順序不一致的情況。一部分數(shù)據(jù)存在姓氏與名字的分隔符不一致，甚至存在姓氏與名字未分隔的情況，見表1。同一作者姓名也存在全拼和簡寫兩種形式。如作者“王承書”存在全拼“Wang Chengshu”與簡寫“Wang CS”兩種著錄形式。同一全拼作者還存在雙名中間的連字符不一致的情況，部分采用橫線、空格作為連接符，也有數(shù)據(jù)沒有使用橫線作為連接符，如“Wang Cheng-Shu”、 “Wang Cheng Shu”、“Wang Chengshu”。

表1 著錄不規(guī)范數(shù)據(jù)樣例

2.3 英文著錄大小寫不規(guī)范

常見WPRIM作者數(shù)據(jù)采用每個單詞首字母大寫的形式，如“Chong-xing Zhou”。作者數(shù)據(jù)還存在姓氏全部大寫、全部字母大寫、全部字母小寫的情況，如“Wenzhi DU”、“QIN MENG”、“chen ximing”。

2.4 多作者間分隔符不統(tǒng)一

一般情況下WPRIM多個作者之間采用分號進行分隔，如“CHEN Yan; ZOU Tian-ning”。部分數(shù)據(jù)使用空格、數(shù)字來區(qū)分不同作者，如“Ye Ling Qian Guan-Xiang Ge Sheng-Fang”。

2.5 噪音數(shù)據(jù)

主要由非法字符、非作者信息組成。非法字符如 “”、“.”、“No Authors Listed”、“Et Al.”、“No author”、“Checking”、“Reviewing”等。非作者信息常見的有團體作者(如Extracurricular Research Team、Group)、機構(gòu)或地址(如Suzhou Medical College、Shangqiu Central Hospital、100061、Zhengzhou University)、作者頭銜(如Director、Tutor、Ph D、MD、Lord)、郵箱、通信作者描述(如Correspondence:Xu Guoming)等。

3 作者著錄標準研究與設計

3.1 概述

全球醫(yī)學索引分為地區(qū)索引、Medline以及SciELO3大部分。WPRIM作為地區(qū)索引的主要組成部分，其作者著錄標準重點參考Medline、SciELO數(shù)據(jù)庫的元數(shù)據(jù)項設置與著錄規(guī)則，對標國內(nèi)外重要文獻檢索數(shù)據(jù)庫，提出WPRIM作者數(shù)據(jù)著錄標準。

3.2 國內(nèi)外重要數(shù)據(jù)庫著錄特點

國內(nèi)外數(shù)據(jù)庫之間的元數(shù)據(jù)標準、數(shù)據(jù)著錄特點具有一定差異，見表2。作者分類方面，國際標準認為作者一般分為個人和團體作者兩類[7]。國外數(shù)據(jù)庫的個人作者元數(shù)據(jù)通常由一組作者信息組成，包含姓氏、名字、序號、簡寫、全稱等內(nèi)容，多個作者之間采用多條記錄進行表示。部分國內(nèi)數(shù)據(jù)庫的個人作者元數(shù)據(jù)項設置作者一項，不劃分姓氏、名字、簡寫和全稱，多個作者之間使用分號進行分隔。作者名著錄順序方面，作者姓氏與名字前后順序不固定。母語為英語國家的期刊，作者姓名一般采用姓氏在后、名字在前的著錄規(guī)則。中國期刊的西文文獻，作者著錄一般符合國標GB7713-87[8]要求，一般采用姓氏在前、名字在后的著錄規(guī)則。

表2 國內(nèi)外數(shù)據(jù)庫作者著錄特點對比

3.3 WPRIM作者數(shù)據(jù)著錄標準

在上述調(diào)研分析的基礎上WPRIM制定規(guī)范化的作者著錄標準,見表3。元數(shù)據(jù)設計上，由于WPRIM作者以中國、日本、韓國文獻數(shù)據(jù)為主，作者名一般由姓氏、名字兩部分組成。巴布亞新幾內(nèi)亞、斐濟等國家的文獻內(nèi)容，作者名一般由姓氏、中間名和名字3部分組成。故WPRIM作者數(shù)據(jù)全名包含姓氏、中間名、名字3部分。構(gòu)成順序上WPRIM主要面向西太平洋國家的全部用戶進行服務，故借鑒Medline和Web of Science的作者著錄順序，規(guī)定其為名、中間名和姓氏。多作者分隔策略上借鑒SinoMed數(shù)據(jù)庫，采用分號進行分隔，便于數(shù)據(jù)清晰展示。拼寫要求上借鑒NSTL、Web of Science、J-stage、KoreaMed多種數(shù)據(jù)庫的拼寫特點，規(guī)定作者名、中間名按首字母大寫、其他字母小寫規(guī)則著錄，并要求姓氏按全部字母大寫規(guī)則著錄。

表3 WPRIM數(shù)據(jù)著錄標準

4 多來源內(nèi)容整合策略及實現(xiàn)

4.1 加工策略

作者數(shù)據(jù)規(guī)范策略實現(xiàn)技術(shù)路線,見圖1，分為數(shù)據(jù)檢查、數(shù)據(jù)拆分、二次檢查、數(shù)據(jù)修正和數(shù)據(jù)重構(gòu)5個步驟。WPRIM不同來源的文獻數(shù)據(jù)在5個步驟中根據(jù)來源數(shù)據(jù)特點進行不同的加工處理。

圖1 多來源數(shù)據(jù)加工策略

4.2 關鍵步驟和方法

4.2.1 數(shù)據(jù)檢查是對各種來源中的作者字段進行檢查，即檢查是否是作者列表和是否包含無效片段。是否是作者列表根據(jù)數(shù)據(jù)來源判斷作者字段是否由多個作者字段形成的作者列表。根據(jù)前期調(diào)查，PubMed、KoreaMed、J-stage、手工錄入的數(shù)據(jù)是按照作者列表的形式提交的，SinoMed和中文期刊數(shù)據(jù)庫文章是一個字段存放多個作者，多個作者之間以分號或其他分隔符進行分割。檢查作者列表對SinoMed和中文期刊數(shù)據(jù)庫的數(shù)據(jù)按照分隔符分割成作者列表。是否包含無效片段檢查作者列表中的數(shù)據(jù)是否包含噪音數(shù)據(jù)。針對噪音數(shù)據(jù)，先通過團體作者和一般作者特征詞進行篩選與判斷，若包含則提取團體作者信息、修正個人作者信息。噪音數(shù)據(jù)不包含團體作者特征詞時，經(jīng)人工審核，將無效數(shù)據(jù)舍棄并反饋給數(shù)據(jù)提供方。

4.2.2 數(shù)據(jù)拆分是利用界定條件與界定方法確定文獻中作者姓、名的著錄順序，依據(jù)該順序并結(jié)合姓和名之間的分隔符號進行數(shù)據(jù)拆分，實現(xiàn)每個作者的名(First Name)和姓(Last Name)的分離。(1)界定條件。依據(jù)WPRIM作者著錄特點總結(jié)與提煉后形成的單一作者著錄順序判斷條件。假設X與Y表示連續(xù)、無空格、無下劃線的連續(xù)英文字符串，常見作者著錄類型、附加判斷條件、樣例、界定結(jié)果，見表4。通常利用條件1至7就可以界定作者姓名的著錄順序。中國、韓國等國家存在作者復姓的情況，故利用條件8至11進行姓名著錄順序的界定。中國作者數(shù)據(jù)利用除“n、g”以外的同一個輔音字母兩次以上的方法界定姓和名的著錄順序有較好的界定效果。其他國家作者數(shù)據(jù)則通過常見復姓語料進行分析與處理，見表5。當作者著錄特點滿足多個界定條件時，多組界定條件組合進行著錄順序的判定，形成多個界定結(jié)果。若多個界定結(jié)果一致，則認為界定條件的判斷結(jié)果準確；若不一致，則認為該作者著錄順序界定結(jié)果不宜作為界定方法中的判斷依據(jù)，界定結(jié)果判斷流程，見圖2。(2)界定方法。作者著錄順序界定方法是優(yōu)先以期、篇順序進行自動判斷，并輔以復雜數(shù)據(jù)的人工審核，確定某一篇文獻的作者著錄順序。以期刊的一期數(shù)據(jù)為期界定單位，根據(jù)第一作者自動判斷該期全部作者的著錄順序。出現(xiàn)“姓+名”著錄形式則界定本期全部文獻作者著錄順序為“姓+名”的表述形式;出現(xiàn)“名+姓”著錄形式則界定本期全部文獻作者著錄順序為“名+姓”的表述形式;若出現(xiàn)一期數(shù)據(jù)存在兩種表述形式，則判斷該期數(shù)據(jù)無法判斷整期數(shù)據(jù)的著錄順序。以篇為界定單位，根據(jù)任意作者自動判斷該篇文獻全部作者的著錄順序。出現(xiàn)“姓+名”著錄形式則界定本篇文獻全部作者著錄順序為“姓+名”的表述形式;出現(xiàn)“名+姓”著錄形式則界定本篇文獻全部作者著錄順序為“名+姓”的表述形式;若出現(xiàn)一篇文獻兩種表述形式，則無法判斷整篇數(shù)據(jù)的著錄順序。無法自動判斷作者著錄順序的文章需要進行人工界定。

表4 界定條件示例

表5 常見復姓

圖2 界定結(jié)果判斷流程

4.2.3 二次檢查是檢查經(jīng)過拆分得到的姓、名是否正確、是否包含簡寫及無效信息。首先利用網(wǎng)絡資源[16]、構(gòu)建常見姓氏語料，見表6。再對數(shù)據(jù)進行篩選，若名包含常見姓氏，則作為高危數(shù)據(jù)進行人工審核及干預。若姓包含常見名，也要進行人工審核及干預。是否包含簡寫信息以姓或名字段值過短、具有“.”符號或兩個連續(xù)大寫輔音字母作為一個詞(如JK)等條件，認定字段項包含簡寫。簡寫數(shù)據(jù)需人工核實原文，補充著錄作者姓、名的全拼。是否包含無效信息通過無效信息語料(如逗號等)提取數(shù)據(jù)進行審核與修正。

表6 常見姓氏

4.2.4 數(shù)據(jù)修正是對姓、名的著錄樣式進行規(guī)范化。針對中國、日本、韓國的作者將姓氏字母轉(zhuǎn)換為大寫，其他字母轉(zhuǎn)換為小寫。名及中間名轉(zhuǎn)換為每個單詞首字母大寫、其他字母小寫。數(shù)據(jù)修正樣例，見表7。

表7 數(shù)據(jù)修正樣例

4.2.5 數(shù)據(jù)重構(gòu) 主要是將修正結(jié)果構(gòu)建成服務數(shù)據(jù)，并補充來源數(shù)據(jù)、修正結(jié)果、服務數(shù)據(jù)3者的對應關系。修正結(jié)果構(gòu)建成服務數(shù)據(jù)是將修正后的姓和名結(jié)果進行重新組合，形成“名”+“空格”+“姓”或“名”+“空格”+“中間名”+“空格”+“姓”著錄形式的服務數(shù)據(jù)。

5 結(jié)語

通過分析一帶一路沿線國家作者表述方式及WPRIM收錄期刊作者著錄特點，結(jié)合國內(nèi)外知名文獻檢索系統(tǒng)的作者字段項著錄規(guī)則，提出WPRIM作者數(shù)據(jù)著錄標準，實現(xiàn)期刊作者整合與規(guī)范加工方法。WPRIM已完成60余萬篇文獻數(shù)據(jù)的作者數(shù)據(jù)規(guī)范，實現(xiàn)作者著錄格式的統(tǒng)一，滿足GHL對作者數(shù)據(jù)的質(zhì)量要求。規(guī)范后的WPRIM數(shù)據(jù)已被其他文獻檢索平臺(如GOOGLE SCHOLAR[17])收錄。與此同時WPRIM作者數(shù)據(jù)質(zhì)量控制方法面臨數(shù)據(jù)質(zhì)量控制的新挑戰(zhàn)，亟待解決作者數(shù)據(jù)質(zhì)量控制實時化、人工處理率高的主要問題，積累和擴展數(shù)據(jù)質(zhì)量控制相關的語料資源，完善多種來源數(shù)據(jù)的處理機制，獲得更好的作者數(shù)據(jù)質(zhì)量控制效果。

多來源作者數(shù)據(jù)加工策略與實現(xiàn)——以西太平洋地區(qū)醫(yī)學索引為例*