, ,
機構在現代漢語字典中被定義為“泛指機關、團體或其他工作單位”,全國組織機構代碼管理中心把組織機構定義為“依法成立的機關、事業、企業、社團及其他依法成立的單位”。本文涉及的“機構”指文獻中的機構,包括實體機構和虛擬機構。虛擬機構主要是指分散于不同時間、空間和組織邊界的一起工作完成共同任務的團體的結合[1],如網絡社區、專家委員會等,因此機構數據的數量之大、類型之復雜可見一斑。
機構數據具有以下兩大突出特點:一是機構數據來源廣泛,類型豐富;二是機構數據量大、更新速度快,這也是機構規范文檔構建難度大的主要原因。機構的來源具有多種途徑,包括文獻、網絡等。文獻中作者標注的作者單位準確率高,文獻數據相對容易獲取,但是信息不夠豐富,僅包含機構名稱、地址、郵編等。網絡的迅速發展和高共享性,意味著其中包含的機構信息比較豐富,來源廣泛,但是信息質量良莠不齊。機構合并、拆分、撤建等,新機構的不斷產生,傳統機構的淘汰,從數量的角度講機構具有基數大且增長速度快的特點。以上因素增加了機構規范文檔構建的難度。
機構數據的特征造成了機構名稱的多樣性、機構間關系的復雜性和模糊性,由此導致了用戶在開展信息檢索、學術統計等科研活動的不準確性。因此,有必要通過構建機構規范文檔對機構數據進行規范。全國科學技術名詞評定委員會出版的《圖書館·情報與文獻學名詞》第一版中,把規范文檔定義為“由規范記錄組成的計算機文檔。其作用是實行規范控制,即保證機讀目錄中文檔標目的一致性,以便有效地實現對機讀目錄的統一管理,包括主題規范檔、名稱規范檔和叢編規范檔”[2]。機構規范文檔主要是通過實行規范控制保證機構的唯一性和穩定性,把機構的不同名稱添加到規范文檔中,對其實體進行有效識別,并對機構間的關聯關系進行有效揭示。由于機構數量級大,無法在短時間內完成所有機構的規范,因此需要從大量的機構數據中進行篩選。在機構規范文檔構建策略的基礎上對機構的篩選方法進行研究,以用于機構規范文檔的初步構建。
關于機構規范文檔的構建,國內外均開展了相關實踐工作。由聯機計算機圖書館中心(Online Computer Library Center,OCLC)主導,主要針對名稱規范問題開展了虛擬國際規范文檔項目,鏈接國家圖書館及權威數據庫的規范名稱,形成包括個人、機構、會議和地名的全球共享、可復用的規范文檔,其中僅關于團體的規范記錄已達到500萬條以上[3]。由歐洲IST計劃資助的規范文檔鏈接與探索項目,致力于開發一種分布式搜索系統的模型架構,收集已經存在的名稱權限文件,然后將這些數據匯聚在一起,旨在建立基于用戶需求的通用名稱授權文件[4]。
中國國家圖書館、中國高等教育文獻保障系統管理中心、臺灣漢學研究中心、香港特別行政區大學圖書館長聯席會共同參與構建了中文名稱聯合數據庫檢索系統,主要包括名稱規范庫的構建、對規范規則和規范系統的研究等,涉及個人名稱、團體名稱、會議名稱、題名等相關記錄的規范[5]。國家工程技術圖書館針對論文中的機構要素,建立的機構規范文檔主要包括5類數據:機構規范名稱和非規范名稱的對照,機構基本屬性(所在地域、機構類型、所屬學科等),機構上下級隸屬關系,機構中英文名稱對照,機構名稱變遷[6]。
國內外開展了一系列關于機構名稱規范的實踐活動,并形成了一定數量的規范記錄。由于機構數據的海量特征,如何選取具有代表性的機構開展機構規范是機構規范文檔構建的重要環節。
Ringgold標識數據庫對機構數據進行了規范,通過唯一ID來實現機構的唯一識別[7]。其中的機構類型包括學術機構、公司企業、政府部門、醫療機構、衛生組織、公益機構、公共機構等7個大類,涵蓋的范圍廣泛且不斷進行更新和補充。微軟學術[8]從出版物及其元數據中獲取作者機構的相關信息,并對其進行規范,按照學科對機構進行篩選。以各學科領域的被引頻次、h指數為標準,截至2018年5月,已完成規范的機構總數為18 717,但相對于龐大的機構數量,這只是其中的極小部分。萬方數據構建機構數據庫,按照機構類型、領域以及當前機構類型的重要指標等進行機構的規范,機構數據已達到近20萬條[9]。機構規范文檔的建設是一個循序漸進的過程,如何從大量的機構數據中選出具有代表性、覆蓋性強的數據是構建機構規范文檔的首要問題。
ESI(InCites Essential Science Indicators)是以Web of ScienceTM核心合集數據庫為基礎的計量分析數據庫,它提供了全球超過5 000多個規范化的機構名稱,有利于開展以機構為檢索點的信息檢索和相關的計量分析工作。ESI主要是通過論文數、論文被引頻次、論文篇均被引頻次、高被引論文、熱點論文和前沿論文、學科領域等指標對機構進行衡量和篩選。以上指標具有很高的準確性,能充分地從文獻的角度實現對機構的評價[10]。
中國醫學科學院醫學信息研究所在構建基于中國生物醫學文獻數據庫(CBM)的機構規范文檔時,采用的原則為邊建設邊服務,進行階梯式可循環式建設。首先對核心類型的機構進行形式規范的基礎上進行一般描述規范,并引入非核心類型的機構規范;然后進行CBM中作者機構內部關系的規范,優先構建核心機構;最后構建CBM作者機構名稱與外部機構規范文檔映射關系[11]。在整個構建過程中是按照文獻年代、文獻頻次、語種、機構類別、機構等級、期刊等級、所在地區等因素對初步的機構數據進行篩選。采用的方法是初級階段進行部分數據的部分規范,然后加入新的非規范數據,進行更深層次的規范。中國科學院在構建機構名稱規范庫時的建設思路是以中科院為突破口,由中科院逐步覆蓋到高等院校、省級研究所、政府、企業研究院等其他的科研機構[12]。
上述為機構規范文檔初步建設提供數據源的篩選方法不夠全面,是由點到面的構建策略。本文提出由線到面的構建策略,涉及到多種不同領域、不同類型的機構,使初步篩選出的機構更具全面性和代表性。另外,大多構建過程主要從自身的數據和學科需求出發。如中國醫學科學院醫學信息研究所主要涉及的機構是與醫學相關的,由此導致篩選機構的覆蓋面不夠廣,故本文在對篩選方法進行研究時,不涉及學科、地域、研究內容的限制,篩選結果更具全面性。
研究機構規范文檔的構建策略,為機構規范文檔的構建提供基礎數據,即研究如何從大量機構中獲取具有代表性的機構數據的方法。利用歸一化方法把大量的機構數據通過模糊算法限制在一定的范圍,主要以機構發文的穩定性、活躍度和機構的學科影響力為指標,獲得具有全面性和代表性的機構。
構建機構規范文檔是一個長久而艱巨的任務,需要循序漸進地開展,首先對活躍度高、具有代表性的機構進行規范,然后不斷更新和補充,涉及數據采集、數據篩選、名稱規范、關系構建以及數據的存儲等主要環節(圖1)。

圖1 機構規范文檔構建流程
機構規范文檔的構建是一個循序漸進、循環往復的過程。通過圖1所示流程把無序的機構數據轉化為有序的機構數據,形成機構規范文檔,并且要把新的來源數據與已有的機構規范文檔進行匹配,對其進行更新和補充。鑒于文獻數據庫中的機構數據具有準確性高、易獲取等特點,從文獻數據庫中獲取機構相關數據,對海量的機構數據進行篩選,并對篩選結果進行名稱規范和關系構建,最后進行數據存儲并應用于新一輪的規范文檔的構建,以實現對機構規范文檔的補充和更新。
基于機構海量的數據特征,機構篩選作為其中一個關鍵環節,有必要對其篩選方法進行研究,且有利于機構規范文檔構建工作的循序開展。
數據歸一化,即把需要處理的數據經過處理后限制在需要的范圍內,其具體作用是歸納統一樣本的統計分布性[13]。模糊算法是指用隸屬關系將數據元素構建成模糊集合,確定隸屬函數。機構數據篩選的過程即為數據歸一化的過程,根據其分布性特征對其進行篩選,構建模糊集合并確定其隸屬函數,主要包括機構提取、機構分析、文獻計量、機構篩選4部分(圖2)。

圖2 機構篩選方法
2.2.1 機構提取
基于機構來源的特征,選取文獻數據庫中的機構數據作為原始數據,它具有準確性高、易獲取、機構類型豐富等優點。獲取中文發文的中國機構和外文發文的中國機構數據,主要包括機構名稱、中文文獻ID、中文文獻的中圖分類號、外文文獻ID。
對獲取的數據進行清洗、規范、歸并和分類。根據文本相似度計算去除機構名稱的重復值和明顯錯誤的數值,并對機構名稱對應的計量指標進行歸并。對英文機構名稱進行規范,轉換為規范的中文機構名稱,根據文本相似度與已有的中文機構名稱進行匹配,并對其對應的計量指標進行歸并。
由于不同機構類型在發文數量等方面的差異性,需要對機構數據進行分類,通過對大量數據的分析構建機構類型的特征詞表(表1),對機構類型進行分類,使篩選結果更具全面性和均衡性。
本文主要是在對機構類型分類的國家標準的基礎上進行延展得到新的機構類型分類。《組織機構類型(GB/T 20091-2006)》主要將機構類型分為企業、機關、事業單位、社會團體、其他機構和組織(主要包括基金會、宗教活動場所、農村村民委員會等)[14]。以國家標準為基礎,結合科研機構、高校、醫療機構等具有較突出的發文水平,對機構類型重新分類,包括學前與初中等教育機構、高等教育機構、醫療機構、事業單位、科研機構、行政機構、公司企業、社會團體、其他組織和機構9類機構類型。根據不同機構類型中機構名稱的特性,建立機構名稱的特征詞表;基于特征詞表對機構進行類型分類,并在分類過程中不斷對特征詞庫進行補充,保證分類結果的準確性和全面性。

表1 機構類型特征詞
2.2.2 機構分析
從機構發文的活躍度、機構學科影響力、機構發文穩定性3方面對機構進行分析和篩選。以機構的發文量表征機構的活躍度,以機構的連續發文表征機構的穩定性,以機構學科的發文和被引頻次表征機構的學科影響力,并以此構建機構篩選指標體系,如圖3所示。

圖3機構篩選指標體系
2.2.3 文獻計量
根據機構篩選的指標體系和文獻數據庫中的“機構—文獻—學科”的對應關系,運用文獻計量方法對文獻的被引頻次、文獻對應的學科的發文和被引情況、機構的發文情況進行統計分析,得到近10年內的每年發文量、SCI發文量、機構對應學科的發文量和被引頻次。根據以上指標設計篩選方法,構建機構的模糊集合,確定隸屬函數。
2.2.4 機構篩選
本文主要采用機構的中文發文量、機構的SCI發文量、機構的年均發文量、機構學科發文量和被引頻次等指標。機構的SCI發文主要是均衡某些機構傾向國外發文,這在很大程度上也能反映出其活躍度,從而增強了篩選結果的全面性。用機構的學科發文作為衡量機構學科活躍度的指標之一,可以篩選出某一學科較為突出而綜合能力相對較弱的機構,使篩選結果更具全面性。
基于模糊算法將大量的機構數據,轉化為篩選后的機構集合并確定隸屬函數。其中模糊集合的篩選是以得到的機構數據的集合能夠覆蓋SCI的發文機構和學科表現突出的機構為依據,隸屬函數以獲得的數據集合對應中文年均發文為依據(圖4)。

圖4 機構篩選方法流程
其中,若M為SCI發文機構組成的集合,那么A為集合M中的中文年均發文的最小值;若N為學科水平較為突出的機構組成的集合,那么B為集合N中對應的中文年均發文的最小值。機構信息篩選列表主要包括機構名稱、機構每年的發文量、機構年均發文、機構SCI發文、是否屬于學科水平較高的機構等信息。年發文量不連續為零的機構,作為衡量其穩定性的指標,對機構進行初步篩選,選擇年均發文≥1的機構,作為衡量其活躍度的指標。按照機構的年均發文值對機構信息列表進行排序。如果此時
SCI發文機構中的對應的中文年均發文的最小值A小于等于學科水平較高的機構中對應的中文年均發文的最小值B,即A≤B,就以A為機構篩選的閾值;如果A>B,則以B作為機構篩選的閾值。按照不同的機構類型重復以上步驟,分別獲取機構的篩選閾值。該篩選方法能在很大程度上涵蓋外文發文的機構和學科表現較為突出的機構,對于獲取活躍度較高的機構具有很好的代表性。
以中國科學技術信息研究所建設的中國知識鏈接數據庫的機構數據為例,按照以上篩選方法進行實證研究,確定各機構類型的篩選閾值(圖5)。

圖5 機構篩選步驟
本文數據主要來源于中國知識鏈接數據庫和Web of Science,獲取2007-2016年的中文文獻中的機構、文獻、學科以及中文機構的SCI發文等數據。
對數據進行初步處理,包括去除明顯錯誤的數據、去重、中英文對照以及對應數據的歸并,經過處理后獲得1 159 247條機構數據。按照機構類型的特征詞表對其進行分類,在分類的過程中不斷提取新的特征詞,也可組合特征詞,實現對機構數據機構類型的劃分。對劃分數據類型后的機構進行統計,各機構類型的數目占比與其對應的發文量的所占比例具有很大的差異性,詳見表2。
從表2發現,在機構數目占比排名靠前的初中等教育機構和事業單位,在類型機構的發文總量的占比中并不占優勢,反而機構數量較少的高等教育機構、醫療機構的發文總量占比較多,不同的機構類型之間的差異也比較明顯。由此可認為機構類型的劃分是合理且必要的,有利于機構篩選的均衡性。

表2 各機構類型數量、發文占比
按照機構篩選的指標體系,運用文獻計量獲得指標數據:機構年發文量、機構年均發文量、機構的學科發文量和被引頻次、機構SCI發文量。以機構學科的發文量和被引頻次作為衡量機構學科影響力的指標,選取排名前100的機構作為學科水平較為突出的機構。構建機構信息列表,包括機構名稱、機構年發文量、機構年均發文量、機構SCI發文量、是否屬于學科水平較突出的機構。
按照圖4中的機構篩選方法,構建機構的篩序集合,并確定其篩選閾值(表3)。根據閾值對機構數據進行篩選,最后獲得不同機構類型中的代表性數據共20 433條。

表3 機構篩選閾值及結果
對篩選后的數據進行統計分析,各機構類型數量在機構總數的比例相對均衡,占比在10%左右。對比篩選前后的各機構類型中機構數量占比發現,高校、科研機構、醫療機構的占比明顯增加,其發文數量是比較突出的,證明篩選的結果把各機構類型的發文水平涵蓋其中,而且篩選后的各機構類型相對均衡,使獲得的數據具有全面性和代表性。篩選后的機構數目是篩選前機構數目的7%左右,篩選后機構的總發文量占篩選前的73%左右。從統計角度看,篩選后的機構能夠代表篩選前的機構,屬于需要首先重點規范的機構。
基于機構規范文檔的構建策略,對機構規范文檔構建中的機構篩選方法進行研究。從機構的穩定性、活躍度、學科影響力出發,構建機構篩選的指標體系、隸屬函數,使篩選結果具有代表性和全面性,便于快速有效地對大量數據進行篩選,進而有效開展機構規范工作。另外,可以根據此篩選方法構建自動化的數據篩選流程,有利于機構規范文檔管理系統的構建,實現其自動化管理。