李慧佳 馬建玲 張秀秀 楊麗娜



摘 要:由于體制改革更名和中西文名稱的簡寫、縮寫等原因,許多中文機構名稱存在不統(tǒng)一和不規(guī)范表述的問題,這對這些機構相關資源、學術成果的定位檢索、共享與統(tǒng)計將造成一定的影響。文章通過概述和分析“中科院機構名稱規(guī)范庫”建設的思路、內容與服務,認為我國的中文機構名稱規(guī)范庫建設應在規(guī)范控制的全面性、規(guī)范標準的制定、與前沿技術的融合及可持續(xù)性建設等方面予以重視與發(fā)展。
關鍵詞:規(guī)范控制 ;名稱規(guī)范;關聯(lián)數(shù)據(jù) ;知識資源;中科院機構名稱規(guī)范庫
中圖分類號:G250.74 文獻標識碼: A DOI:10.11968/tsyqb.1003-6938.2016020
The Practice and Analysis of the Construction of Chinese Institution Name Library
—— “Instiution Name authority of Chinese Academy of Science”as example
Abstract Because of system change and the different expressions in Chinese and foreign languages, many Chinese institutions have different foreign language names or irregular expressions, and this phenomenon brings about negative influences on the statistics, sharing, and retrieval of resources and academic achievements of concerned institutions. Based on the practice of “Institution Name authority of Chinese Academy of Science”, the author believes that attention should be paid to the comprehensiveness of specification control, the development of standards, the fusion with advanced technology, and sustainability of construction in the construction of Name Library of Chinese Institutions.
Key words specification control; name authority; concerned data; knowledge resources; Institution Name authority of Chinese Academy of Science
隨著歷史變遷和體制改革,機構名稱特別是團體名稱因其基本職能、組織結構的變化也經(jīng)常發(fā)生變化,而團體名稱的中西文全稱、簡稱的錯寫、漏寫等問題又導致機構之間的關系錯綜復雜。從圖書館學發(fā)展視角來看,這種不規(guī)范、不統(tǒng)一的中文機構名稱表述現(xiàn)象容易造成信息資源(如機構學術成果、機構人本資源、機構的實時動態(tài)信息、機構的社會網(wǎng)絡數(shù)據(jù))檢索點的選擇困難和錯誤,也不利于對其相關數(shù)據(jù)的統(tǒng)計和挖掘分析。于是,為機構建立規(guī)范文檔,以實現(xiàn)對機構名稱的規(guī)范控制便成為了自上世紀70年代以來各個國家和機構陸續(xù)采取的辦法與措施。但在國際一體化的發(fā)展形勢和背景下,不同國家資源之間的利用和共享在很大程度上依賴于數(shù)據(jù)的一致化和規(guī)范化,目前國內外這種名稱規(guī)范文檔的建設仍處于分散狀態(tài),采用的描述規(guī)范格式各有不同,從而導致數(shù)據(jù)之間的關聯(lián)和交換非常困難。因此,如何將規(guī)范文檔以關聯(lián)數(shù)據(jù)的形式發(fā)布,實現(xiàn)跨平臺的資源自由共享便成為了當前名稱規(guī)范工作密切關注的問題。本文主要圍繞名稱規(guī)范控制這一核心問題,重點對“中科院機構名稱規(guī)范庫”的建設思路和建設內容進行了概述與分析,一方面以為中科院機構知識庫的知識關聯(lián)、知識發(fā)現(xiàn)開發(fā)提供協(xié)助支撐,另一方面也以求所得到的實踐經(jīng)驗能為我國中文機構名稱規(guī)范庫的建設提供一些啟示。
1 名稱規(guī)范控制面臨著新的課題
1.1 名稱規(guī)范控制的發(fā)展與實踐
本世紀初期是規(guī)范控制和規(guī)范文檔發(fā)展的萌芽階段,此時,規(guī)范控制僅限圖書館內部工作章程,并沒有具體的相關規(guī)范控制實踐活動。到了上世紀中期,圖書館界逐漸意識到規(guī)范控制的重要性,因此,在規(guī)范控制的理論發(fā)展和實踐應用方面都有了初步探索。特別是上世紀70年代初隨著計算機的普及應用,圖書館計算機化、自動化得以推廣,從而促使圖書館自動化規(guī)范控制得到了進一步發(fā)展。尤為重要的里程碑是美國圖書館首先實現(xiàn)了圖書目錄的自動化生成,并實現(xiàn)了自動化的目錄規(guī)范控制[1]。1977年,美國化學文摘社(CAS)研制出自動化的著者索引生產(chǎn)系統(tǒng)(AIMS),取代了原有的手工系統(tǒng)。該系統(tǒng)明確區(qū)分相似的人名,保證某一個人或團體的論文和專利都采用正確形式標引[2]。之后,圖書館界以及學者相繼出版或發(fā)表了有關規(guī)范控制的圖書、文章,涉及規(guī)范控制的理論、方法等內容;以及相關標準、文檔,如”A little Brief Authority”(1978)、“Name Authority Control for Card Catalogs in the General Libraries”(1983)等。
中國對規(guī)范控制的研究和實踐起步較晚,其中具有代表性的是中國國家圖書館。中國國家圖書館于1995年成立了中文名稱規(guī)范組,使得中文名稱規(guī)范工作有了組織保障。之后,名稱規(guī)范控制得到不斷發(fā)展,2003年國家圖書館應用Aleph500集成管理系統(tǒng)后,實現(xiàn)了中文名稱規(guī)范數(shù)據(jù)對中文書目數(shù)據(jù)的實時控制。同年,中國高等教育文獻保障系統(tǒng)(CALIS)聯(lián)機合作編目中心啟動了中文名稱規(guī)范工作,其中文名稱規(guī)范工作在遵從國際標準和模型的基礎上還建立了適應不同文字/字體、不同MARC格式要求的共享機制。
為了實現(xiàn)中國大陸與港澳臺地區(qū)對中文書目的規(guī)范管理,最大程度的實現(xiàn)資源共享共建,2003年,國家圖書館、CALIS管理中心、香港地區(qū)大學圖書館協(xié)作咨詢委員會 ( Joint University Librarians Advisory Committee,JULAC) 聯(lián)合發(fā)起成立了“中文名稱規(guī)范聯(lián)合協(xié)調委員會”。聯(lián)合協(xié)調委員會于2010年發(fā)布了“中文名稱規(guī)范聯(lián)合數(shù)據(jù)庫檢索系統(tǒng)” [3]。
1.2 名稱規(guī)范控制的挑戰(zhàn)與機遇并存
名稱規(guī)范控制是根據(jù)一定的規(guī)范控制規(guī)則將名稱相關信息統(tǒng)一標準化展現(xiàn),以達到規(guī)范控制的目的。名稱規(guī)范又包括個人、家族、團體、地理名稱、題名規(guī)范等內容,規(guī)范數(shù)據(jù)展現(xiàn)了機構通過某一特定個人、家族、團體或具有統(tǒng)一題名不同版本來組織作品的受控檢索點和其他信息。美國伊利諾大學的羅伯特名稱規(guī)范控制工作有5個流程程:建立規(guī)范記錄;將規(guī)范記錄集中,形成規(guī)范文檔;將規(guī)范文檔和書目文檔連接;對規(guī)范文檔和規(guī)范系統(tǒng)進行維護;對規(guī)范文檔和規(guī)范系統(tǒng)進行評估。簡而言之,名稱規(guī)范控制的建設就是建立規(guī)范記錄、形成規(guī)范文檔、及時對規(guī)范維護的過程。
目前,名稱規(guī)范控制面臨著一定的挑戰(zhàn)和發(fā)展機遇,一方面,已有的研究者研究主要對個人名稱規(guī)范控制(包括關于個人名稱規(guī)范著錄規(guī)則和標準的制定,個人名稱規(guī)范控制理論與方法的研究,以及個人名稱規(guī)范控制實踐應用的探索)進行了一定的研究,而對較之于個人名稱規(guī)范控制更加復雜的團體名稱規(guī)范控制工作則研究者不多。這對現(xiàn)在的相關工作者來說,要搞清楚一個機構的歷史變更情況、上下層級關系,以及不同的書寫習慣等,需核實大量資料方可確定。但通常所能借鑒的研究成果和實踐經(jīng)驗相對有限,使得這一工作極具挑戰(zhàn)性。同時,大數(shù)據(jù)時代的到來,以及語義網(wǎng)技術、搜索引擎、元數(shù)據(jù)等新的網(wǎng)絡信息資源組織方法和手段的出現(xiàn),也都對名稱規(guī)范控制提供了新的技術支持。如在冗余、虛假、錯誤信息較多的大數(shù)據(jù)時代,語義網(wǎng)技術的充分應用與數(shù)據(jù)規(guī)范控制工作相輔相成。一方面,語義網(wǎng)通過數(shù)據(jù)結構化與語義表征使得分散無聯(lián)系的數(shù)據(jù)資源逐漸具備關聯(lián)化的基礎,規(guī)范控制能夠保證語義數(shù)據(jù)之間的一致性,降低冗余度。另一方面,規(guī)范數(shù)據(jù)的權威性能夠為可信網(wǎng)絡服務提供支持[6]。因此,就有學者提出利用日益成熟的語義Web技術對各種名稱標識進行規(guī)范控制[5]。
2 “中科院機構名稱規(guī)范庫”的建設實踐與分析
隨著近幾年中科院機構知識庫功能的完善和應用的推廣,越來越多的中科院院所及其他科研單位均開始應用機構知識庫,機構知識庫中的參與機構逐漸增加,資源的種類和數(shù)量也越來越豐富,如何實現(xiàn)資源的語義化關聯(lián)、知識分析和知識發(fā)現(xiàn)便成為亟待解決的問題。同時,機構知識庫中提交的各類資源所屬單位名稱參差不齊,缺乏統(tǒng)一的著錄規(guī)范。為了解決諸如此類的問題,就必須對機構知識庫中各類機構進行規(guī)范控制,最終實現(xiàn)用戶的知識關聯(lián)、知識發(fā)現(xiàn)等更高需求。“中科院機構名稱規(guī)范庫”就是這樣一個旨在為中科院機構知識庫中知識關聯(lián)、知識發(fā)現(xiàn)提供基礎保障的機構名稱規(guī)范控制平臺與工作機制。
2.1 建設思路
“中國科學院機構名稱規(guī)范庫”中所涉及的控制范圍包括:研究單元、學校及公共支撐單位、共建單位、院直接投資的全資及控股企業(yè)、“四類機構”、院設非法人單元;以及中國科學院創(chuàng)新單元,包括國家實驗室、國家重點實驗室、中國科學院重點實驗室、國家工程研究中心、國家工程技術研究中心、國家工程實驗室、野外臺站網(wǎng)絡等內容。平臺在建設思路設計上以中科院機構為突破口,設計具有普適性的機構名稱規(guī)范控制業(yè)務流程和應用功能。
在規(guī)范控制的實現(xiàn)過程中,主要根據(jù)以下原則進行控制:①對于機構存在隸屬關系的,應對所屬關系、共建關系、依托關系等進行名稱規(guī)范控制;②對于機構存在歷史變更的,應對更名變更、合并拆分、轉移變更等進行名稱規(guī)范控制;③對于機構存在其他名稱的,要明確機構的主標目名稱,而其他所有與機構主標目名稱不同,但指向同一機構的名稱作為連接標目名稱。
為了實現(xiàn)團體名稱規(guī)范控制,“中科院機構名稱規(guī)范庫”的元數(shù)據(jù)在依據(jù)都柏林核心元數(shù)據(jù)(DC)的基礎上針對機構實體的特點加入了特色元數(shù)據(jù)(見表1)。
2.2 “中科院機構名稱規(guī)范庫”建設的內容
2.2.1 機構別名詞表
“中科院機構名稱規(guī)范庫”主要根據(jù)《中國機讀規(guī)范格式》CNMARC對機構名稱進行規(guī)范化描述,地層操作采用MARC數(shù)據(jù)。當主標目出現(xiàn)兩種或兩種以上名稱時, 只需建立一條規(guī)范記錄, 第一與第二及其他主標目的關系視為同等。將同一機構名稱的等同標目均記錄于同一條記錄,只要1**欄的主標目和7**欄的等同標目與資源平臺上的目錄鏈接起來, 進行檢索時便能查獲同一機構的全部資源。
如:中國科學院西安光學精密機械研究所(見圖1)對機構的中文、英文名稱,簡稱,以及來源于Web of Science的各種該機構名稱縮寫組合。
通過檢索機構的主標目,可恢復目錄數(shù)據(jù)庫中機構主標目下的所有標目及資源,并通過鏈接獲得等同標目;反之,也可通過檢索機構的等同標目來恢復目錄庫中與其相關的主標目和其他等同標目以及相關資源。
2.2.2 機構名稱標識
在名稱規(guī)范控制方面,為了對已規(guī)范數(shù)據(jù)進行識別和區(qū)分,避免規(guī)范控制工作的重復進行,也便于其他領域更加便捷的使用規(guī)范數(shù)據(jù),眾多機構的做法是對規(guī)范數(shù)據(jù)進行唯一標識。目前,名稱唯一標識的主要研究集中在個人名稱標識方面。例如美國賓夕法尼亞州立大學的YoojinH等人為解決數(shù)字文獻作者名稱的變動(包括姓名的變更、機構名稱的分離和合并等),通過建立人物規(guī)范文檔, 賦予每個作者唯一的ID號, 當名稱發(fā)生變動時, 將當前名稱作為規(guī)范名, 而將舊名作為屬性字段予以保存[6]。Web of Science為提交論文的作者建立Researcher ID,以對數(shù)據(jù)庫中的作者進行唯一標識,讓作者管理自己的出版物列表,并跟蹤出版物的被引頻次和作者的h指數(shù),從而識別潛在合作關系,以及避免作者的混淆。因此,可以說Researcher ID是關于學術研究社區(qū)中作者名稱歧義問題的有效解決方案[7]。另外,ORCID (Open Researcher and Contributor ID)作為一個非盈利的組織,同樣專注于解決學術研究中研究者名稱混淆的問題,其通過為研究者配置唯一的并可鏈接的標識符,從而提升科學發(fā)現(xiàn)的進程并提高科研資助和合作效率[8]。
在機構名稱標識方面,相對于個體名稱規(guī)范的研究較少,較為突出的有ISNI(International Standard Name Identifier)和Ringgold identifier。ISNI(Internati
onal Standard Name Identifier)是ISO認證的國際標準代碼,用于對成千上萬的機構進行唯一標識,從而發(fā)現(xiàn)創(chuàng)造性的工作和行為。ISNI是連接不同學科領域的橋梁,并且是關聯(lián)數(shù)據(jù)和語義網(wǎng)技術應用的關鍵組件[9]。ISNI是包含個人名稱、團體名稱等多個實體的名稱規(guī)范。而Ringgold identifier是專門針對機構名稱進行規(guī)范化標識。Ringgold identifier數(shù)據(jù)庫中存儲了超過370,000個機構和聯(lián)盟的唯一標識。Ringgold是ISNI的登記機構,美國國家信息標準化組織推薦采用Ringgold來識別科研機構。另外,ORCID利用Ringgold來實現(xiàn)個體科研人員與科研機構之間的關聯(lián)。除此之外,The DUNS Number是The Dun & Bradstreet公司的產(chǎn)品,主要是商業(yè)機構標識的國際標準代碼,在DUNS數(shù)據(jù)庫中存儲了超過2億的全球商業(yè)機構。DUNS不僅僅是九位數(shù)字,而且還是一個用于保證機構信息準確、全面、及時的機構標識系統(tǒng)[10]。
“中科院機構名稱規(guī)范庫”考慮到為了使機構名稱規(guī)范工作可以持續(xù)進行,并為今后科研機構在關聯(lián)數(shù)據(jù)和語義網(wǎng)技術的應用方面起到?jīng)Q定性作用。因此,在機構元數(shù)據(jù)設置是充分考慮到機構標識的重要性,從而增加了ISNI字段和Ringgold ID字段。
2.2.3 機構關聯(lián)關系
(1)機構歷史關系:機構歷史關系主要包括等級關系、共建關系、依托關系三類。其中:等級關系是雙向關系(見圖2)。兩個機構A和B,其中B機構是A機構的分支機構(見表2),反之,A機構是B機構的所屬機構(見表3)。
共建關系是單項關系(見圖3)。機構C是由機構A和機構B共同建設(見表4)。
依托關系為單項關系(見圖4)。機構C是由機構A和機構B共同建設(見表4)。
依托關系(見圖4)為單項關系。機構A是依托機構B建立的(見表5)。
(2)機構變更關系:機構的變更關系主要是原機構與現(xiàn)機構之間的相繼關系。相繼關系是原機構按時間順序變更產(chǎn)生的現(xiàn)機構,包括更名(Changed from/to,現(xiàn)機構從原機構更名而來)、拆分(Decomposed from/to:現(xiàn)機構(一個以上)由原機構拆分而來,其原機構不存在;)、合并(Merged from/to,現(xiàn)機構由原機構(一個以上)合并而來)、轉移(Transferred from/to,現(xiàn)機構由原機構中的部分轉化而來,其原機構仍然存在)和前身(對于變更關系不明確的默認為現(xiàn)機構前身)五種關系(見圖5)。
2.3 “中科院機構名稱規(guī)范庫”的應用服務
(1)精準發(fā)現(xiàn)知識資源。“中科院機構名稱規(guī)范庫”建設的初衷是規(guī)范機構名稱,包括機構的歷史性名稱、不同來源名稱等各種不規(guī)范名稱,并對每個科研機構賦予唯一標識、規(guī)范名稱對應關系。其目的在于為知識資源系統(tǒng)提供接口服務,實現(xiàn)各類型知識資源系統(tǒng)中資源發(fā)現(xiàn)的準確性和全面性,保證科研機構對回溯知識資源的充分發(fā)現(xiàn)。
(2)規(guī)范存儲知識資源。由于機構名稱不規(guī)范導致存儲知識資源時,屬于同一機構的不同機構名稱下的知識資源經(jīng)常會作為獨立的資源進行存儲。從而導致知識資源存儲過于分散,不利于知識資源的整合利用。對機構名稱的規(guī)范控制可以最大程度的保證知識資源的有效整合,既減少數(shù)據(jù)庫存儲的數(shù)據(jù)冗余,也可提高數(shù)據(jù)庫中知識資源讀取的效率。
(3)有效利用知識資源。如今眾多的知識資源系統(tǒng)均引入關聯(lián)數(shù)據(jù)、語義網(wǎng)等前沿技術和理論。為了使前沿技術和理論得到充分發(fā)揮,必須在后臺有完整的、準確的規(guī)范文檔進行支撐。機構名稱規(guī)范控制還可以有效降低知識資源統(tǒng)計分析的誤差。另外,機構名稱的規(guī)范控制有利于科研機構有效利用知識資源發(fā)現(xiàn)潛在合作領域或潛在的研究領域。
3 不足與建議
“中科院機構名稱規(guī)范庫”的建設仍存在許多問題,如:部分機構條目信息不完整,尤其是對于新成立的機構和歷史機構缺失信息較多,難以保證機構元數(shù)據(jù)錄入的完整性;目前只考慮所級研究單元和創(chuàng)新單元,沒有涉及到研究部室、研究團隊等更細小的單元,機構名稱規(guī)范的覆蓋率還有待提高;機構關聯(lián)關系和變更關系的整理雖有流程可進行機器批處理,但是由于機構網(wǎng)站布局結構不同,在提取關聯(lián)關系和變更關系時難免有所出入,因此需要人工干預機器處理結果,以保證規(guī)范數(shù)據(jù)的準確性;在進行跨系統(tǒng)平臺的OAI-PMH元數(shù)據(jù)收割,由于不同平臺的元數(shù)據(jù)標準方案不同而產(chǎn)生的機構名稱的書寫和表達有各不相同,從而對采集數(shù)據(jù)的存儲和后期的分析利用造成重重困難;由于同一機構名稱存在多種不同的名稱標識,機構名稱除全稱、簡稱等正式名稱外,還存在中英文名稱,不同書寫習慣名稱等;另外還存在機構的隸屬關系導致機構名稱組合方式不同,機構歷史變化導致機構名稱遷移等問題。在今后的工作需在以下幾個方面予以改進和加強,以進一步實現(xiàn)用戶的機構知識庫建設需求:①規(guī)范控制全面性。以點到面的形式全面擴展,力圖包含中國所有科研機構(如高等院校、省級研究所、政府、企業(yè)研究院等);②前沿技術的融合。為了迎合大數(shù)據(jù)時代科研工作對知識資源的需求,將關聯(lián)數(shù)據(jù)和語義網(wǎng)等技術應用在機構名稱規(guī)范控制工作上。③規(guī)范標準的制定。包括規(guī)范格式、規(guī)范標識等內容建設,為今后實現(xiàn)中國機構名稱規(guī)范文檔的國際化共享奠定基礎。④規(guī)范控制可持續(xù)性建設。機構名稱不斷變化,科研需求不斷提升,這就需要機構名稱規(guī)范控制工作持續(xù)進行。因此,要制定機構名稱規(guī)范控制的可持續(xù)建設方案,并使其得到確實地執(zhí)行。
參考文獻:
[1] S. Michael Malinconico, James A. Ri zzolo. The New York Public Library Automated Book Catalog Subsystem[J].Journal of Library Automation,1973(6):3-36.
[2] 林明.規(guī)范控制的發(fā)展歷程[J].圖書館工作與研究,2001(5):2-6.
[3] 中文名稱規(guī)范聯(lián)合協(xié)調委員會網(wǎng)站[EB/OL].[2015-11-09].http://www.cccna.org.
[4] 郝嘉樹,王廣平.中文人名規(guī)范的語義描述與關聯(lián)探討[J].圖書情報工作,2012(14):47-51.
[5] 孫立杰.中文名稱規(guī)范的發(fā)展與應用研究[J].圖書情報工作,2012(1):173-175,239.
[6] HongY,OnBW,LeeD.System Support for Name Authority Control Problemin Digital Libraries:Open DBLP Approach[J].Lecture Notesin Computer Science,2004(3232):134-144.
[7] Researcher ID[EB/OL].[2015-11-08].http://isiwebofknowledge.com/researcherid/.
[8] What is ORCID?[EB/OL].[2015-11-09].http://orcid.org/node/47.
[9] International Standard Name Identifier (ISO 27729)[EB/OL].[2015-11-09].http://www.isni.org/.
[10] The D&B; D-U-N-S Numbe[EB/OL].[2015-11-09].http://www.dnb.com/content/dam/english/dnb-data-insight/duns_number_overview_2011.pdf.
作者簡介:李慧佳,女,中國科學院蘭州文獻情報中心館員;馬建玲,女,中國科學院蘭州文獻情報中心研究館員;張秀秀,女,中國科學院蘭州文獻情報中心館員;楊麗娜,女,中國科學院蘭州文獻情報中心助理館員。