999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于著者共現(xiàn)的CBM機構(gòu)名稱規(guī)范研究*

2019-11-18 02:43:52吳英杰李軍蓮孫海霞
醫(yī)學信息學雜志 2019年12期
關(guān)鍵詞:規(guī)范

吳英杰 李軍蓮 孫海霞 王 蕾 陳 穎

(中國醫(yī)學科學院醫(yī)學信息研究所 北京100020)

1 引言

學術(shù)論文是科研評價研究和實踐的主要依據(jù)之一。精準統(tǒng)計機構(gòu)發(fā)文與被引情況則是客觀準確地開展機構(gòu)科研評價的基礎(chǔ)與關(guān)鍵。開展學術(shù)論文著者機構(gòu)規(guī)范控制研究,實現(xiàn)同一機構(gòu)不同表達形式的匯聚,能夠最大程度避免由于機構(gòu)更名、合并、拆分和不同著者對同一機構(gòu)名使用不同表達形式等原因影響機構(gòu)論文查準率和查全率,從而優(yōu)化科研機構(gòu)學術(shù)評價[1-2]?;诳萍嘉墨I的機構(gòu)名稱規(guī)范任務(wù)一般包括兩個核心環(huán)節(jié):一是從著者單位著錄項中識別出機構(gòu)名稱。在著者提交的論文及科技文獻數(shù)據(jù)庫中科研機構(gòu)名稱一般連同所在城市和郵編出現(xiàn)在著者單位著錄項中。二是在同一機構(gòu)不同名稱表現(xiàn)形式間建立映射,實現(xiàn)同一機構(gòu)名稱不同表現(xiàn)形式的匯聚。由于數(shù)據(jù)庫中著者單位著錄具有一定的結(jié)構(gòu)性和規(guī)范性,前者難度相對較低,相關(guān)研究更多聚焦于后者,以相似度聚類技術(shù)為基礎(chǔ)來實現(xiàn)不同名稱同一機構(gòu)的自動匯聚規(guī)范,盡可能地減輕人工負擔[1]。

聚類是將物理或抽象對象集合按有關(guān)特性的相似程度進行分組的過程,目的是使同一簇中對象特性盡可能地相似,而不同簇對象之間的差異盡可能地增大[3-4]。聚類效果與相似度度量特征密切相關(guān)。在關(guān)于機構(gòu)名稱規(guī)范的眾多研究中基于字符串、規(guī)則及二者相結(jié)合的相似度計算方法探討較多[5],已成為名稱表達差異不大的同一機構(gòu)識別的常用方法。中國生物醫(yī)學文獻數(shù)據(jù)庫(China Biology Medicine disc,CBM)的機構(gòu)名稱規(guī)范早期即通過字符串相似度計算方法對大規(guī)模機構(gòu)名稱進行歸一化處理,之后在長期實踐中持續(xù)探討優(yōu)化規(guī)則與字符串相似度結(jié)合的混合方法,不斷改進規(guī)范效果,為基于CBM的機構(gòu)規(guī)范文檔建設(shè)提供較好的技術(shù)支撐。然而由于上述方法主要基于機構(gòu)名稱表達的共性特征,無法有效解決表達形式差異較大的同一機構(gòu)的識別與規(guī)范問題,即機構(gòu)變革導致的名稱變化、同一單位多個名稱等,如無法識別“首都醫(yī)科大學第六臨床醫(yī)學院”與“北京安貞醫(yī)院”是同一機構(gòu)。對此,有學者引入機構(gòu)網(wǎng)頁統(tǒng)一資源定位(Uniform Resource Locator,URL)特征,通過URL與機構(gòu)名的共現(xiàn)情況來判斷機構(gòu)名稱的相似度,取得了一定效果[6-7]。受該研究啟發(fā),本文將從發(fā)文著者這個重要關(guān)聯(lián)因素著手,開展基于著者共現(xiàn)的CBM機構(gòu)名稱規(guī)范機制研究,嘗試從 “機構(gòu)-著者”維度探索因名稱表達差異較大帶來的同一機構(gòu)漏歸、錯歸問題,以減少機構(gòu)規(guī)范過程中的人工干預(yù),提升自動規(guī)范效果。

2 機構(gòu)名稱規(guī)范技術(shù)研究現(xiàn)狀

在機構(gòu)名稱規(guī)范中,依據(jù)采用相似度度量特征的不同可劃分為基于字符串相似度方法、基于規(guī)則的相似度匹配方法、基于共現(xiàn)的關(guān)聯(lián)統(tǒng)計方法以及綜合考慮多因素的混合方法[5,8-11]。(1)基于字符串相似度方法?;舅悸肥菍C構(gòu)名稱字符串看作是字符序列,字符序列間相同字符越近表明這兩個字符串越相似,二者指向同一機構(gòu)實體的可能性越大。如French JC等[11]先后采用Hall-Dowling編輯距離算法和Jaccard系數(shù)法進行天體物理數(shù)據(jù)系統(tǒng)(Astrophysics Data System,ADS)作者機構(gòu)名稱規(guī)范文檔半自動化構(gòu)建研究;Jacob F 等[12]采用Levenshtein編輯距離法對求職簡歷中的求職者單位名稱進行匹配計算與規(guī)范;Jiang Y 等[13]采用歸一化壓縮距離(Normalized Compression Distance,NCD)聚類算法實現(xiàn)同一機構(gòu)多種名稱的高效集成。(2)基于規(guī)則的方法。主要思想是根據(jù)機構(gòu)名稱構(gòu)詞特點建立一定的規(guī)則庫,通過規(guī)則進行可能匹配的候選名稱字符串識別及錯誤匹配對過濾。如Huang S等[14]、楊波等[15]在利用WOS數(shù)據(jù)研究機構(gòu)名稱聚類中綜合字面相似度、字長、字順、子串、地區(qū)等特征信息構(gòu)建識別可能匹配的機構(gòu)名稱對規(guī)則,然后基于機構(gòu)對匹配頻率進行錯誤匹配過濾。(3)基于共現(xiàn)的關(guān)聯(lián)統(tǒng)計方法。主要是利用Web語料,通過計算不同機構(gòu)名稱字符串網(wǎng)絡(luò)搜索結(jié)果中URL的共現(xiàn)情況來判定機構(gòu)名稱的相似度[16-17]。如Aumuller D等[17]基于Google和Yahoo搜索返回的Topk個URL的共現(xiàn)重疊情況來計算兩個機構(gòu)名稱匹配程度,同時參考TF-IDF模型對共現(xiàn)URL的排序位置進行加權(quán)。(4)綜合考慮多因素的混合方法。主要是結(jié)合規(guī)則、加權(quán)統(tǒng)計來克服單純字面相似度匹配方法的不足。如Jonnalagadda SR等[16]在開展PubMed數(shù)據(jù)庫機構(gòu)名稱規(guī)范研究中,通過引入世界地區(qū)/郵編字典及機構(gòu)-地區(qū)/郵編一致性規(guī)則來過濾錯誤匹配,提升相似度判斷效果;賈君枝等[17]在科研機構(gòu)名稱歸一化研究中,通過構(gòu)建機構(gòu)特征詞表和相關(guān)規(guī)則進行機構(gòu)名稱分級識別,再基于編輯距離算法、TF-IDF及K-means算法實現(xiàn)機構(gòu)名稱歸一,有效提高聚類的準確率和召回率。

3 CBM機構(gòu)規(guī)范文檔建設(shè)現(xiàn)狀

3.1 建設(shè)進展

機構(gòu)規(guī)范文檔建設(shè)主要解決同一機構(gòu)因表達形式不一致、名稱變更、隸屬關(guān)系不清等帶來的成果分散問題[5]?;贑BM的機構(gòu)規(guī)范工作始于2010年。經(jīng)過近兩年的數(shù)據(jù)分析和算法研究,從2012年起正式啟動規(guī)范處理工作。目前機構(gòu)規(guī)范工作組已完成千萬篇文獻所涉機構(gòu)數(shù)據(jù)(超過322萬條)的清洗,經(jīng)拆分、去噪、去重、標識機構(gòu)類型、所在省區(qū)等處理,形成近60萬條機構(gòu)信息;通過優(yōu)化規(guī)則與字符串相似度結(jié)合的混合方法對大規(guī)模機構(gòu)名稱進行歸一化處理,形成各類規(guī)范機構(gòu)17萬條。其中醫(yī)院類規(guī)范機構(gòu)8萬多條,高等院校類機構(gòu)3.9萬條,實驗室機構(gòu)4 000多條,其他機構(gòu)4.8萬條。這些數(shù)據(jù)已經(jīng)成為CBM機構(gòu)檢索、分析等功能的重要支撐[18-19]。

3.2 現(xiàn)存問題分析

盡管目前的規(guī)范文檔已完成絕大部分機構(gòu)的同義規(guī)范,但仍存在漏歸、錯歸等情況,具體原因分析,見表1??梢园l(fā)現(xiàn)同一機構(gòu)不同名稱形式漏歸、錯歸的主要原因是這些名稱形式與同機構(gòu)的其他名稱相似度不高或極低,僅靠相似度計算很難被發(fā)現(xiàn);而基于著者共現(xiàn)分析角度探索漏歸、錯歸同一機構(gòu)的發(fā)現(xiàn)問題,從理論上分析具有較好的可信度,將是對相似度同一機構(gòu)發(fā)現(xiàn)方法的有效補充。

表1 同一機構(gòu)不同名稱形式漏歸、錯歸原因分析

4 基于著者共現(xiàn)的機構(gòu)名稱規(guī)范機制研究

4.1 發(fā)文著者機構(gòu)特征分析

一般而言,發(fā)文著者的機構(gòu)主要有兩種情況:單機構(gòu)和多機構(gòu)。單機構(gòu)指著者機構(gòu)為某單一機構(gòu),如胡XX-中國醫(yī)學科學院醫(yī)學信息研究所,胡XX-中國醫(yī)學科學院醫(yī)學情報研究所。當某著者所在機構(gòu)包括多個機構(gòu)名稱時,這多個機構(gòu)可能是某機構(gòu)對外的不同名稱,也可能確是多個機構(gòu)但僅是存在某些關(guān)系而已,如孔XX -武漢大學人民醫(yī)院 湖北省人民醫(yī)院,趙XX-三峽大學第一臨床醫(yī)學院 宜昌市中心人民醫(yī)院,程XX-蚌埠醫(yī)學院藥學院 安徽省生化藥物工程技術(shù)研究中心。CBM中機構(gòu)著錄主要包括機構(gòu)實體和地址信息,二者之間用逗號分隔。其中機構(gòu)實體部分主要包括機構(gòu)名稱、科室/學系等信息,機構(gòu)地址部分包括機構(gòu)所在省市和郵編信息。當某著者機構(gòu)為多機構(gòu)時,則在“機構(gòu)(AD)”字段項著錄多個機構(gòu)的信息,多個機構(gòu)名稱間用“/”或空格進行分隔。如AD字段為“國家癌癥中心“/”中國醫(yī)學科學院、北京協(xié)和醫(yī)學院腫瘤醫(yī)院, 北京 100021”、“首都醫(yī)科大學附屬北京安貞醫(yī)院 首都醫(yī)科大學第六臨床醫(yī)學院超聲診斷科,北京 100029”,即描述了多個機構(gòu)名稱信息,見圖1。CBM收錄文獻時遵照客觀事實對發(fā)文著者及其所在機構(gòu)進行全面揭示,也就是說CBM不僅描述著者機構(gòu)的基本信息,還對著者與機構(gòu)的對應(yīng)關(guān)系進行規(guī)范揭示,為基于著者共現(xiàn)開展同一機構(gòu)發(fā)現(xiàn)提供重要數(shù)據(jù)基礎(chǔ)。

圖1 著者機構(gòu)著錄形式樣例

4.2 方案設(shè)計

基于著者共現(xiàn)開展同一機構(gòu)/相關(guān)機構(gòu)發(fā)現(xiàn)研究主要是通過計算機構(gòu)間發(fā)文著者的共現(xiàn)次數(shù)與重合度,實現(xiàn)一個機構(gòu)不同表達形式的發(fā)現(xiàn)與推薦。其基本思想是:在一個地區(qū),若兩機構(gòu)共有的發(fā)文著者越多則二者為同一機構(gòu)/相關(guān)機構(gòu)的可能性越大。具體方案,見圖2。首先利用CBM數(shù)據(jù)庫的著者-機構(gòu)關(guān)系構(gòu)建機構(gòu)-著者空間,在此基礎(chǔ)上分地區(qū)計算各機構(gòu)間的著者共現(xiàn)關(guān)聯(lián)度,結(jié)合機構(gòu)類型維度從高到低排序,著者共現(xiàn)關(guān)聯(lián)度高的機構(gòu)將被推薦為高相似度機構(gòu)。方案的核心是基于機構(gòu)的發(fā)文著者量、不同機構(gòu)間的共有發(fā)文著者量計算機構(gòu)的著者共現(xiàn)關(guān)聯(lián)度。因其主要測度機構(gòu)發(fā)文著者集合間的包容度,不關(guān)注個體著者間的相關(guān)關(guān)系,也不受著者發(fā)文多少的影響,故采用相對簡約的包容指數(shù)[20]進行計算,具體計算公式為:

圖2 整體研究思路

Iij=Cij/min(Ci, Cj)

其中Cij是文獻集合中機構(gòu)對(Oi和Oj)共現(xiàn)的發(fā)文著者數(shù);Ci是機構(gòu)i(Oi)在文獻集合中出現(xiàn)的發(fā)文著者數(shù);Cj是機構(gòu)(Oj)在文獻集合中出現(xiàn)的著者數(shù);min(Ci,Cj)取Ci,Cj中的最小值。

4.3 處理流程

包括以下8個步驟:(1)以機構(gòu)規(guī)范庫中各機構(gòu)為處理對象,依據(jù)所在地區(qū)進行分組提取,生成地區(qū)機構(gòu)子集。(2)基于CBM數(shù)據(jù)庫,結(jié)合發(fā)文機構(gòu)所在地區(qū)、文獻發(fā)表年等維度特征構(gòu)建相應(yīng)的地區(qū)著者-機構(gòu)關(guān)系表。(3)將著者按機構(gòu)進行分組,構(gòu)建“機構(gòu)-著者空間”。(4)統(tǒng)計各機構(gòu)發(fā)文著者數(shù)。(5)若某兩個機構(gòu)有一個相同著者,即表示該兩個機構(gòu)基于著者共現(xiàn)一次,依此遍歷生成機構(gòu)-機構(gòu)著者共現(xiàn)矩陣。(6)計算機構(gòu)兩兩之間的“著者共現(xiàn)”關(guān)聯(lián)度。(7)結(jié)合機構(gòu)類型對關(guān)聯(lián)度按從高到低進行排序。(8)結(jié)合人工評測初步劃定輸出閾值,對高關(guān)聯(lián)度機構(gòu)進行推薦。

5 效果評測

5.1 測試對象

初步遴選北京、天津、上海3個地區(qū)82家機構(gòu)為測試對象,其中北京27家、天津35家、上海20家。

5.2 統(tǒng)計數(shù)據(jù)源

CBM 2010-2016年北京、天津、上海上述機構(gòu)發(fā)表的所有文獻數(shù)據(jù)10.3萬條。

5.3 評測思路

基于提出的著者共現(xiàn)同一機構(gòu)/相關(guān)機構(gòu)發(fā)現(xiàn)算法,嘗試在指定統(tǒng)計數(shù)據(jù)源中對各地區(qū)遴選醫(yī)院的著者共現(xiàn)情況進行統(tǒng)計,根據(jù)共現(xiàn)頻率計算機構(gòu)間著者共現(xiàn)關(guān)聯(lián)度,分析預(yù)設(shè)推薦閾值并對高關(guān)聯(lián)度機構(gòu)推薦結(jié)果進行輸出。通過人工判定對推薦結(jié)果的準確性進行分析評價。

5.4 評測結(jié)果

經(jīng)統(tǒng)計共2 100個機構(gòu)對間存在著者共現(xiàn)情況,部分數(shù)據(jù)示例,見圖3。隨機遴選300個機構(gòu)共現(xiàn)對,對比分析閾值<0.5、<0.4、<0.3、<0.2及0.1的誤判率,從希望較高準確性的角度考慮,各段閾值內(nèi)推薦結(jié)果的誤判率,見圖4。預(yù)設(shè)推薦閾值為≥0.4,共輸出90個機構(gòu)共現(xiàn)對。

圖3 著者共現(xiàn)關(guān)聯(lián)度計算——北京地區(qū)部分數(shù)據(jù)示例

圖4 各段閾值推薦結(jié)果誤判率

5.5 結(jié)果分析

人工測評結(jié)果,見表2。通過統(tǒng)計分析可以看出輸出的90個機構(gòu)共現(xiàn)對中,人工認為77個機構(gòu)對是同一機構(gòu)或高關(guān)聯(lián)度機構(gòu),部分數(shù)據(jù)示例,見圖5。推薦結(jié)果的準確率為85%,具有較好的可參考性。

表2 機構(gòu)著者共現(xiàn)關(guān)聯(lián)度計算人工測評結(jié)果

圖5 機構(gòu)著者共現(xiàn)關(guān)聯(lián)度計算——專家判定部分數(shù)據(jù)示例

6 結(jié)語

本文基于目標應(yīng)用環(huán)境中國生物醫(yī)學文獻數(shù)據(jù)庫,從著者這個重要關(guān)聯(lián)因素著手開展基于共現(xiàn)分析的機構(gòu)名稱規(guī)范機制研究,提出基于著者共現(xiàn)的同一機構(gòu)/相關(guān)機構(gòu)發(fā)現(xiàn)算法。經(jīng)測試評估,該算法推薦結(jié)果具有較高的可信度,是對當前相似度同一機構(gòu)發(fā)現(xiàn)方法的有益補充。后續(xù)將進一步優(yōu)化算法,實現(xiàn)過程中的數(shù)據(jù)處理細節(jié)問題,盡快推進其在CBM機構(gòu)規(guī)范文檔建設(shè)中的實踐應(yīng)用。

猜你喜歡
規(guī)范
文稿規(guī)范
文稿規(guī)范
規(guī)范體檢,老而彌堅
來稿規(guī)范
來稿規(guī)范
從創(chuàng)新探索到立法規(guī)范
中國信息化(2022年4期)2022-05-06 21:24:05
來稿規(guī)范
PDCA法在除顫儀規(guī)范操作中的應(yīng)用
來稿規(guī)范
來稿規(guī)范
主站蜘蛛池模板: 黄色国产在线| 二级毛片免费观看全程| 呦女亚洲一区精品| 国产国拍精品视频免费看| 免费在线色| 中文字幕久久亚洲一区| 91成人免费观看| 国内毛片视频| 久久公开视频| 国产在线拍偷自揄拍精品| 丁香婷婷在线视频| 毛片a级毛片免费观看免下载| 久久人午夜亚洲精品无码区| 午夜人性色福利无码视频在线观看| 久久综合亚洲鲁鲁九月天| 国产a v无码专区亚洲av| 国产精品亚洲一区二区三区z| 亚洲精品国产精品乱码不卞 | 久久五月天综合| 无码aaa视频| 久久美女精品| 青青极品在线| 国产 在线视频无码| 国内精品久久久久久久久久影视| 国产精品va| 激情无码字幕综合| 国产第八页| 国产精品无码翘臀在线看纯欲| 欧美天天干| 成人毛片在线播放| 国产成人狂喷潮在线观看2345| 亚洲天堂在线免费| 国产鲁鲁视频在线观看| 亚洲成网777777国产精品| 国产激情无码一区二区免费| 国产大片黄在线观看| 少妇极品熟妇人妻专区视频| 青青国产视频| 精品久久人人爽人人玩人人妻| 在线免费无码视频| 午夜电影在线观看国产1区| 中文字幕 日韩 欧美| 国产二级毛片| 四虎亚洲国产成人久久精品| 日本午夜影院| 国产手机在线小视频免费观看 | 国产人成网线在线播放va| 欧美视频在线播放观看免费福利资源| 国内精自视频品线一二区| 一本久道热中字伊人| 久久久久国产精品熟女影院| 国内精品免费| 曰韩人妻一区二区三区| 久久99精品久久久久纯品| 国产主播喷水| av天堂最新版在线| 国产免费a级片| 手机精品福利在线观看| 97色婷婷成人综合在线观看| 国产亚洲精品自在线| 国产精品自在拍首页视频8| 亚洲女同欧美在线| 国产69精品久久久久孕妇大杂乱 | 中国丰满人妻无码束缚啪啪| 欧美日韩亚洲国产| 114级毛片免费观看| 欧美综合区自拍亚洲综合绿色| 97视频在线观看免费视频| 久久久久亚洲精品成人网| 久久鸭综合久久国产| 久久国产拍爱| 国产欧美日本在线观看| 无码av免费不卡在线观看| 成人国产免费| 免费高清毛片| 97国产精品视频自在拍| 在线观看国产网址你懂的| 91在线播放免费不卡无毒| 伊在人亞洲香蕉精品區| 久久久成年黄色视频| 日本国产精品| 97视频免费看|