胡媛
摘?要:名稱規范控制工作是圖書館重要的業務工作,隨著圖書館文獻類型的增多,名稱規范工作的重要功能更加凸顯,但中文名稱規范數據屬性的不足制約了其功能的發揮。因此,圖書館只有加強中文個人名稱規范數據屬性分析,做好關聯性研究,才能使圖書館真正回歸文化建設的核心地位。文章在梳理我國圖書館中文名稱規范理論與實踐成果的基礎上,進行了數據屬性的詳盡分析與關聯性研究。
中圖分類號:G250文獻標識碼:A文章編號:1003-1588(2019)01-0112-03
關鍵詞:名稱規范數據;規范數據屬性;關聯性
隨著社會經濟和文化的發展及圖書文獻的增加,中文書目數據量猛增,編目員在書目管理中經常會遇到同一責任者異名、同名不同責任者、同書異名、同名異書等情況。為了更好地區分同名責任者并集中文獻資源,做好圖書館書目的優化管理,中文個人名稱規范研究工作愈發重要,尤其是如何從規范數據的內容表達演進到規范數據的屬性表達與關系構建,需要以關聯性為基礎進行嚴謹細致的分析。
1?我國圖書館中文名稱規范歷史
圖書館中文名稱規范起源于20世紀80年代,在文化部的資助下,北京圖書館制定了規范數據款目著錄規則和中國機讀規范格式兩大草案。而真正進入規范實踐層面是1995年北京圖書館中文圖書編目部名稱規范組的成立,從成立到現在,我國圖書館中文名稱規范經歷了三個發展階段。
1.1?第一階段:維護與制作
從1995年到2000年,這五年時間是中文個人名稱規范數據維護與制作的階段。中文名稱來源于權威的工具書,所有信息經考證處理,但本質上卻脫離了中文書目數據,與中文書目規范控制的初衷相悖,這一階段也被認為是奠基發展階段。
1.2?第二階段:跨越發展
從2000年到2003年,這三年是我國圖書館中文個人名稱跨越式發展的階段。除了權威工具書的輔助,圖書館開始依據中文普通書目數據進行中文名稱規范數據的統計。在這一階段,圖書館中文個人名稱規范取得實質性的研究成果,但是受所編文獻限制較為明顯。
1.3?第三階段:積累提升
從2003年到現在,是圖書館中文個人名稱規范發展的第三階段。該階段總結前兩個階段規范工作開展的不足,更關注管理機制的優化。中文名稱規范組被撤銷,并入書目數據組,中文個人名稱規范與圖書編目相融合。該階段更關注信息技術的創新引用,隨著ALEPH系統的應用,一部分規范數據經過系統匹配與書目數據進行了掛接,編目員將另一部分規范數據與書目數據進行比對,并進行了掛接,實現了中文個人名稱規范數據對中文書目數據的有效控制。前兩個階段為理論探討與嘗試階段,第三個階段則是實踐落地實施的階段。
2?中文個人名稱規范的模型建構
2.1?本體選擇
本體定義了類及屬性,便于中文個人名稱的規范。本體詞匯與規范數據能準確映射并帶動不同資源數據的關聯與互動操作。目前,很多本體中的類及屬性都能對中文個體名稱規范中的MARC字段進行描述,便于后期數據的擴展。本體選擇使關聯數據后的規范記錄與其他資源的兼容性更有保障。SKOS、FOAF等都被用來進行規范數據的描述,基于虛擬規范文檔(VIAF)關聯數據模型的演進,語義描述的側重點從概念名稱開始轉向實體本身。近年來,一種新的中文名稱規范Schema.org是以微數據為基礎的通用標記詞匯集,其除了對原始數據類型進行規范,更包含了新的標記類型。Schema.org對應的事物類型以一定的層次結構組合起來,每一類都有相應屬性。該規范的優勢體現在三個方面:一是數據類型更豐富,可以詳細精準地描述名稱規范文檔中包含的個人、地點等實體。二是通用性高。一種屬性對應多個類,單一的類也可以對應多個子類,避免了重新定義時多個類在其他應用范圍的充當,實現了外部擴展關聯數據的更精準關注。三是表達特點突出。微數據機制內嵌于網頁之中,語義特性增加結構性的描述,詞匯表和微數據結合生成豐富的文本信息,便于后期的表達。
2.2?關聯性描述建構
對圖書館中文個人名稱進行規范,關鍵點是數據的關聯性描述建構。中文個人名稱規范中被結構抽取的實體屬性及關聯較少,一些重要的信息被簡單地定義為一般附注,僅僅是內容層面的描述,信息的關聯性無法體現。而Schema.org中一些屬性的數據類型屬于文本范疇,一些屬性的數據類型屬于數據類范疇,實體與實體間的關聯有了現實可能。通過Schema.org,個人可以與其他個人建立關系,屬性可以與機構、地點建立關系。因此,基于FRAD對個人的定義,個人可以是使用一個名稱的個體集合,無法準確定義身份的個人也可以被劃入未區分的記錄中,在減少數據冗余的同時也避免不完整記錄,實現個人名稱規范與未區分記錄的關聯,將本地的中文個人名稱與外部資源進行關聯,將定義的實體與其他實體進行關聯。
2.3?圖書館中文名稱規范的VIAF數據處理
VIAF可以基于圖書館提供的數據為名稱數據創建增強型規范記錄,增強型的規范記錄是由初始名稱規范記錄和書目記錄轉換成的規范記錄,支持比規范記錄本身更為嚴格的數據匹配過程。其數據處理流程是根據成員機構提供的書目記錄,為100—700字段中的每個責任者名稱進行規范記錄的登記,這來源于書目記錄。規范記錄與相應的名稱規范記錄合并形成增強型規范記錄,增強型規范文檔作為成員機構貢獻的文檔與VIAF文檔進行匹配,匹配成功的文檔會作為VIAF記錄的初版本,在數據匹配的過程中會有中間結果產生,這意味著一些信息可以作為規范文檔信息。匹配是不斷修正與規范的動態過程。每一個進行匹配的檢索點都是一個單獨的匹配點,VIAF會將這些信息進行強與弱的區分,其中強的匹配點有控制號、書的題目、人物的生卒日期、作為主題詞的人名及合著者等。如果一個強的匹配點匹配上去了,那么可以肯定這兩人是同一個人。而弱的匹配點主要是生卒日期、主題領域、出版形式、語種及出版社等,多個弱匹配點的匹配則可以判定是一個對象。
2.4?中文個人名稱規范數據庫的建立
為了更好地進行中文個人名稱規范數據屬性的分析,做好關聯性研究,國家圖書館創建了中文名稱規范數據庫,截止到2017年12月,累計數據達到160余萬條,這些累計的數據類型中包括大量的個人名稱與團體名稱。中文個人名稱規范數據庫的建立為圖書館個人名稱的規范提供了數據支持。例如,國家圖書館、臺灣圖書館及上海交通大學圖書館在OPAC中檢索著者字段,檢全率為60%以上;檢索讀者不太熟悉的責任者變異名稱,檢全率也在40%以上。而在中文個人名稱規范數據庫建立之前,著者字段檢索的檢全率為45%,讀者不太熟悉的責任者變異名稱檢索的檢全率僅為20%。以上數據再次說明,中文個人名稱規范數據庫的建立對文獻資源的檢索有顯著的促進作用。
3?中文規范名稱工作的幾點建議
早在20世紀70年代,我國就開始著手圖書館書目名稱的規范,中文個人名稱的規范開始于20世紀80年代中后期,1995年我國圖書館中文個人名稱規范工作步入正軌,2003年之后書目數據制作的實時控制與規范進入快速、穩定發展的時期。針對中文個人名稱規范數據屬性分析及關聯研究,筆者認為圖書館需要特別關注以下幾點。
3.1?個人名稱目標的更新關注
信息的獲取不是一蹴而就的,而是一個相對漫長的過程,變動是名稱規范數據的顯著特征。在個人名稱規范的維護過程中,編目員經常會遇到個人名稱目標更改的情況,如果單純進行手工修改,不僅工作量大,人工操作也很容易出錯,因此,通過手工修改的方式進行書目數據的檢索是費時費力的事情。而計算機編目系統具有及時、快捷的自動更新功能,但其也有一個客觀限制,即圖書館中文個人名稱規范數據庫對中文書目數據的控制是跨庫的,各種中文文獻包含其中,而不局限于普通的圖書。從本質上說,中文書目數據檢索并沒有過多地考慮與中文個人名稱規范的關聯,對書目數據檢索點的隨意更新都會導致檢索錯誤,目標的更新必須與計算機功能的發揮相結合,確保系統對關聯的書目數據進行自動更新。
3.2?關注個人名稱非完整形式記錄
當前,國家圖書館信息匱乏的名稱規范都被劃入非完整形式記錄范疇中,之所以出現這種情況,多數是因為編目員根據圖書的學科屬性進行學科附加成分的推測。其原因是多方面的:其一,跨學科著者無法科學推測學科附加成分。其二,翻譯者無法科學推測學科附加成分。其三,通俗性讀物的讀者無法科學推測學科附加成分。其四,主編、編者無法科學推測學科附加成分。因此,要想做好個人名稱的規范工作,圖書館必須從名稱規范著錄規則加以明確,是否所有的責任者都必須進行規范,還是有所選擇地進行規范,不解決這個問題,個人名稱數據會越來越難以控制。
3.3?虛擬團體名稱的規范
中文個人名稱的規范研究也涉及虛擬團體名稱。一般來說,虛擬團體名稱是沒有任何隸屬及掛靠關系的團體名稱,或者這些團體名稱本身就是虛擬的、不存在的。如考研命題研究組或教育考試研究中心,從字面上看這些團體貌似很權威的機構,是政府授權的機構,但編目員根本查詢不到,虛構這些權威性的團體名稱其實是為了提高書目的購買價值,為了在市場上獲得穩定的銷路,屬于一種商業營銷手段。這些書目多為考試輔導、公務員考試輔導、選調生考試輔導、注冊會計師考試輔導書等。筆者認為,虛擬團體名稱不是唯一的,也不具有專屬性,在使用上限制少、范疇廣,必將成為圖書館中文個人名稱規范研究的重點內容,需要圖書館在名稱規范數據研究中給予重視。
隨著社會文化建設的推進,我國圖書館在資源管理使用中也面臨更多的挑戰,暴露出更多的問題。不同圖書館名稱規范文檔資源不同,資源描述方式也不同,管理系統和平臺就會存在一定的差異,資源間操作困難,資源共享程度較低,而中文個人名稱的規范是一大制約因素。因此,探討中文個人名稱規范問題具有現實必要性。中文個人名稱的規范是復雜與系統的,規范文檔的整合、虛擬國際規范文檔的共享實施、名稱規范關聯數據的發布是三大主導方向。只有加強圖書館中文個人名稱規范數據屬性的分析,做好關聯性研究,才能使圖書館真正回歸文化建設的核心地位。
參考文獻:
[1] 王瑞云,賈君枝.中文個人名稱規范記錄的實體匹配與聚簇[J].國家圖書館學刊,2017(2):79-86.
[2] 賈君枝,石燕青.中文個人名稱規范文檔的關聯數據化研究[J].情報學報,2016(7):696-703.
[3] 石燕青.中文個人名稱規范文檔共享研究及語義化探索[D].太原:山西大學,2016.
[4] 郝嘉樹.Web2.0環境下的自規范及其對個人名稱規范維護工作的啟示[J].國家圖書館學刊,2016(2):16-21.
[5] 郝嘉樹.利用開放語義資源豐富個人名稱規范數據:基于FOAF的方案設計[J].現代圖書情報技術,2016(2):75-82.