999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

中文電子圖書描述元數據的質量控制過程研究

2024-06-03 00:00:00李艷茹閻雅娜
圖書館學刊 2024年3期
關鍵詞:質量控制

[摘 要]描述元數據是智慧圖書館資源管理的重要支撐。為完善中文電子圖書描述元數據,依據《中國機讀書目格式》和資源描述國家標準,借鑒目標館管理經驗,確定質量控制工作模式,執行中文電子圖書元數據列清洗,提出元數據質量控制的雙線策略:質量目標調節數據元素級描述模板、檢索效率約束來源數據描述標識。

[關鍵詞]中文圖書 電子圖書 描述元數據 質量控制

[分類號]G254

1 引言

智慧社會和教育數字化戰略背景下,國家圖書館繼“國家數字圖書館工程”之后,牽頭建設“全國智慧圖書館體系”[1],數據治理成為圖書館智慧轉型的必要條件。描述元數據,即信息資源的書目數據,是圖書館數據治理的重要手段,支撐智慧圖書館知識倉儲等基礎建設,支持用戶獲得學習資源。中文電子圖書作為圖書館知識倉儲內容之一,描述其元數據質量是圖書館智慧服務的必要保障。面向未來學習中心的任務需求,中文電子圖書描述元數據需要加強質量控制,促進學習資源的整合與利用。

回顧中文電子圖書描述元數據質量控制的相關研究,已經形成信息組織策略和數據處理方法兩方面經驗。在信息組織方面,注重信息資源的系統整合與分散揭示。楊慧[2]提出,書目數據庫應全面、準確揭示本館各種文獻資料的收藏。白晗、周雪松[3]認為,對電子資源揭示并通過OPAC進行統一檢索是資源整合的一種技術方式。王亞林[4]的電子資源揭示策略是采用分散記錄編目法,根據物理實體區分編目級別,利用數據庫對學術性電子期刊和圖書進行批量自動編目。丁遒勁等[5]從構建國家元數據庫的戰略層面提出協同揭示框架,借助自動化、批量化數據處理手段,構建格式統一、表達規范的大規模元數據資源。

在數據處理方面,關注元數據的產品質量和編輯工具。劉錚、冉志娟[6]依據GB/T 3792.9-2009編制電子資源書目記錄,強調電子資源專用的CNMARC字段。宋文、朱學軍[7]梳理國內外書目數據標準規范的發展脈絡,以期推動我國構建信息資源描述新標準。賈延霞、楊慧[8-9]利用Excel和元數據處理工具,將數據庫商提供的電子資源信息列表轉換為MARC數據,同時他們發現批量編目最普遍的挑戰是數據質量問題,直接利用數據庫商提供的MARC會導致書目系統質量下降。田曉迪等[10]利用Alma對電子資源進行生命周期管理,選擇Community Zone中沒有的電子資源編目,維護供應商提供的不完備數據或圖書館希望進一步完善的現有數據。白雪等[11]在Alma環境下利用MarcEdit批量建立電子資源庫編目數據。

綜合來看,中文電子圖書描述元數據的質量控制涉及信息描述標準、資源管理系統和編輯管理工具等方面,關于質量控制過程的研究相對較少。筆者依據最新發布的《中國機讀書目格式》和資源描述中國國家標準,調研并借鑒北京地區5家目標圖書館的電子資源管理經驗,確定中文資源元數據質量控制模式,使用數據處理與編輯工具,批量置換與逐條修改相結合,執行中文電子圖書描述元數據控制過程,提出質量目標和檢索效率協同的雙線控制策略,完善中文信息組織產品,提升用戶便利性。

2 中文電子圖書描述元數據質量控制依據

2.1 《中國機讀書目格式》:GB/T 33286-2016

中華人民共和國國家標準《中國機讀書目格式》(CNMARC,以下通稱“格式新標準”)由國家圖書館和北京大學圖書館聯合起草,于2016年12月13日發布,2017年4月1日實施。格式新標準參考國際圖聯的UNIMARC格式,取舍和修訂部分具體字段,重新定義部分字段數據內容,是對國內聯合目錄領域曾經出現的各種標準、規范、規則、細則、手冊的繼承、綜合與發展。格式新標準記錄的書目信息主要分布在記錄頭標(LDR)、0標識塊、1編碼信息塊、2著錄信息塊、3附注塊、4款目連接塊、5相關題名塊、6主題分析塊、7責任塊、8國際使用塊。中文電子圖書描述元數據的必備字段包括:LDR記錄頭標、001記錄標識號、100通用處理數據、101文獻語種、200題名與責任說明$a正題名、304題名來源附注、801記錄來源。格式新標準由當前國內最具影響力的兩大聯合目錄的管理中心首次合著完成,為中文電子圖書描述元數據提供了形式方面的控制依據。依據格式新標準開展中文電子圖書元數據質量控制工作,一方面,保障元數據統一數據結構,規范表達形式,建立載體聯結;另一方面,降低資源發現難度,提高信息檢索效率,有利于用戶識別和選擇多載體中文信息資源。

2.2 《信息與文獻 資源描述》:GB/T 3792-2021

中國科學院文獻情報中心、國家圖書館、北京大學圖書館、清華大學圖書館等11個單位,依據國際標準ISBD統一版,參考《資源描述與檢索》,合并修訂GB/T 3792系列標準,聯合起草《信息與文獻 資源描述》(以下通稱“內容新標準”),于2021年3月9日發布,2021年10月1日實施。內容新標準是面向各種資源類型的通用資源描述標準,表達了信息資源著錄單元的組合依據和賦值原理,開啟了應用統一內容標準揭示多類型中文信息資源的新階段。其強調優先選取標識資源整體并且在資源內部的信息源,同時強調內容形式和媒介類型附注,規范著錄信息。與以往的單一類型資源描述標準相比,主要變化包括正題名錯誤信息照錄、增加變異題名檢索點、責任者描述數量由記錄機構決定等。內容新標準容納各種資源類型的屬性,同時減少了信息描述的強制性。內容新標準能夠控制中文電子圖書描述元數據質量,影響本地元數據的數據元素級控制方案。依據格式新標準與內容新標準控制描述元數據質量,是中文電子圖書書目數據庫的建設邏輯。中文電子圖書描述元數據質量控制,是以CNMARC為數據結構的數據元素集合過程,也是以書目信息為輸出內容的數據庫建設過程。

3 中文電子圖書描述元數據質量控制模式

為有效執行中文電子圖書描述元數據的質量控制過程,2023年5月31日至6月2日,大連理工大學圖書館電子資源管理項目組(以下簡稱“項目組”)奔赴北京地區五館(以下通稱“目標館”)調研電子資源元數據建設工作。本次調研的目標館有北京大學圖書館、清華大學圖書館、中國人民大學圖書館、北京師范大學圖書館和國家圖書館。項目組采用實地參觀和線下座談的方式,學習目標館的電子資源揭示流程和實操經驗,制定中文電子圖書描述元數據的質量控制模式。

3.1 目標館的資源管理經驗

在電子資源揭示流程方面,根據具體的控制目標,區分數據源特點,設計資源管理業務鏈。為充分揭示資源和利用書目數據,目標館采用Excel、MarcEdit等工具批量處理來源數據,引用紙本圖書的書目數據替換缺失或錯誤數據。信息資源管理業務按學科劃分多個采編組,先編目再做訂單。資源管理實現采編一體化、中外文一體化、紙電一體化、資源服務一體化。從功能上看,資源管理執行數據轉換生產、信息有序存儲和用戶檢索利用的全生命周期管理;從運行上看,資源管理區分為單個應用系統獨立管理和多個業務系統聯合管理兩種情況;從任務上看,資源管理工作按照不同的數據格式和著錄規范揭示資源,解決多源異構數據的關聯檢索,增強多載體資源可獲得性。

在電子資源描述實操方面,強調著錄方式、著錄格式和信息加工的選擇。著錄方式堅持一條記錄原則,即分離式著錄:同一知識內容的電子版與印刷版資源分別著錄為一條記錄;在不同數據庫的同一知識內容的電子資源分別建立一條記錄。著錄格式包括MARC、DC或自建元數據,支持多載體資源在目次、全文層級關聯檢索。信息加工包括直接采用數據庫商數據和修改后導入數據兩種處理方式。前者直接利用數據庫商提供的MARC數據,圖書館在合同簽署之前提出書目數據的質量要求或數據模板,將訂閱數據輸入系統,數據庫商每月更新數據;后者利用編輯工具批量修改導入數據、電子資源書目數據批量加工工具有冠景、MarcEdit等,可修改整庫或單條記錄,支持電子資源描述。

3.2 元數據的質量控制模式

中文電子圖書描述元數據的質量控制是書目數據庫的建設過程:按照一條記錄原則,以CNMARC子字段為數據結構,建設規范、有效的書目數據庫,輸出用戶需要的信息資源。由于電子資源管理系統和資源揭示業務流程兩方面的相對既定性,元數據質量控制過程更加重要。項目組依據中國國家標準,借鑒目標館電子圖書元數據的信息加工經驗,結合本館電子資源的管理現狀和發展愿景,確定元數據著錄方式、著錄格式和加工工具,擬定中文電子圖書描述元數據的質量控制模式。

首先,選擇分散著錄方式。一條記錄原則指導下,不同來源的電子圖書建立不同記錄。多源異構數據通過中間轉換機制實現屬性映射與賦值。制定數據元素轉換、用戶檢索入口、檢索結果顯示三階段的字段內容呈現范圍,實現信息資源的層次管理。其次,依據最新國家標準確定元數據著錄格式。項目組遵守格式新標準與內容新標準的全域屬性要求,參照CALIS編目規則,保證必備字段,突出中文電子圖書的特征字段,確定通用的CNMARC字段列表。最后,利用編輯管理工具深度加工書目數據。項目組使用編輯工具,協同著錄方式和著錄格式,批量修改與手工修改相結合,刪除無效字段,增加必備字段,引用紙質資源規范數據,置換同一字段內容,合并同一實體記錄,建立書目聯系。

4 中文電子圖書描述元數據質量控制過程

4.1 來源數據畫像

為保持中文電子圖書書目數據庫中記錄數量和內容信息的安全性和穩定性,項目組抽取5萬條書目記錄作為試驗數據包,對照CNMARC字段列表,核對電子資源實體,對比紙質資源元數據,歸納總結來源數據特點,刻畫數據源初始特征。通過子字段統計報告,項目組發現來源數據的質量問題主要出現在題名與責任者、主題標引和責任者名稱規范等方面。具體表現為:200正題名$a子字段包含副題名、叢編題名、分輯標識、分輯題名、版次、版本、內容說明、學科名稱等不屬于正題名的文獻信息;200責任者$f子字段存在記錄全部責任方式的全部責任者、外國責任者漢譯名后直接著錄其原文姓名、圖像識別有誤的姓名形式等情況;606字段將復合主題的多個主題因素作為單獨字段列出;6/7字段的名稱缺少責任者名稱規范形式。另外,前置標識符、指示符、字段限定信息、編碼信息字符位等有所缺失。

4.2 數據清洗試驗

基于來源數據畫像,項目組利用MarcEdit 7.5進行數據列清洗試驗。為降低對來源數據誤操作的風險,清洗試驗按照從格式、形式到內容的順序,編寫語句、正則表達式,對質量問題數據進行過濾、賦值和修改操作。在格式控制方面,確認數據包資源類型,依據格式新標準和內容新標準,過濾不適用字段,統一前置標識符的半角輸入形式。在形式控制方面,添加字段指示符,調整限定信息位置,賦值記錄頭標、100和135字段的字符位,根據210字段的出版地賦值102字段,690字段包含的多個分類號換行為多個690字段,添加并賦值336、337、712、801等可確定字段。在內容控制方面,主要修改200$a子字段,采用不完全枚舉法,提煉特征規律,逐項抓取特征數據,將非正題名信息賦值到對應子字段。

4.3 執行全域控制

為保障數據的完整性、準確性和規范性,項目組將來源數據拆分為5萬或10萬容量的書目數據子庫,解決全域控制的共性問題。針對大部分的共性質量問題,項目組利用管理工具重復執行數據列清洗過程,進行過濾、賦值和修改操作。在全域控制過程中發現,圖像識別錯誤的題名和責任者,其核對并修改存在一定難度。有些書目記錄的856字段所提供的全文鏈接地址指向“下架”結果,并且CALIS聯合目錄也沒有對應的紙質資源記錄。針對這種情況,項目組通過百度或購書網站獲取缺失數據,保證200字段著錄信息有效切分。項目組也發現了副題名子字段冗余、并列題名碎片化、分輯標識層次堆疊、分輯題名邏輯關系錯位、責任方式與責任者切分誤差、責任者名稱字段按音序排列等衍生問題,需要人工修改。

4.4 人工修改完善

針對題名和責任者數據字段出現的衍生問題,項目組設計正則表達式,查找問題記錄,逐條人工修改。在修改數量上,經統計發現,平均每10萬條數據出現4000條記錄需要修改一個子字段的著錄信息,錯誤率為4%。在修改細節上,以不影響用戶檢索結果為前提,接受責任者字段在數據處理過程中變成按音序排列的結果,逐條修改題名和責任者錯誤信息。對副題名子字段冗余的記錄,主要修改操作包括:刪除無效信息;叢書題名賦值225字段和410字段,同時修改記錄頭標第8字符位;分配相關內容到分輯題名或300附注字段。對并列題名碎片化的修改包括:增加正題名并列部分;刪除漢語拼音、字母名稱等部分;增加$z并列題名語種子字段。對分輯標識層次堆疊和分輯題名邏輯關系錯位的修改包括:區分并列關系或層次關系,對應到正確的子字段。對責任方式與責任者切分誤差的修改主要是核對實體,補全信息。

5 中文電子圖書描述元數據質量控制策略

描述元數據質量控制過程,受信息資源機構管理,按資源描述標準賦值機讀目錄格式,由電子資源管理系統支持,利用數據處理工具實際操作,依循信息加工模式逐步實現。項目組融合目標館的管理經驗和元數據質量的控制實踐,提出質量目標和檢索效率協同的雙線控制策略。

5.1 質量目標調節數據元素級描述模板

數據元素級的描述模板是文獻特征的關鍵元素集合。依據格式新標準和內容新標準,針對書目數據庫的質量目標要求,面向用戶學習場景,中文電子圖書描述元數據的CNMARC模板包括字符位屬性賦值、形式特征描述、載體表現附注和檢索內容標引4部分,如圖1所示。

5.2 檢索效率約束來源數據描述標識

信息資源書目數據的描述標識主要指題名、責任者、主題詞和分類號。為保障檢索效率,來源數據的描述標識是描述元數據質量控制的核心。中文電子圖書描述元數據質量控制難點之一,在于CNMARC 200字段的正題名和責任說明項的準確輸出。常見問題有:200字段的正題名與其他書目信息的正確切分缺少識別信息;責任者名稱與責任方式的切分斷點判斷困難;掃描電子書的題名出現錯別字;將漢語拼音識別為并列題名等。對此,項目組利用MARC編輯工具,過濾問題數據,依據描述標準逐條修改。數據質量控制的難點之二,在于606主題字段只用$a子字段容納全部主題詞,不同主題因素無法賦值到對應子字段。對于此類問題,有3個解決建議。一是覆蓋法,保留獨有字段信息,使用主題信息比較完備的記錄覆蓋主題有問題的記錄。二是賦值法,將同一內容紙本資源的主題字段置換電子資源的606字段。三是去重法,比對每條記錄中所有606中的主題詞,去掉重復用詞,保留最多元素的字段。

檢索效率要求專指度高的數據描述標識,響應用戶知識需求,提高用戶學習便利性。用戶便利性一直是圖書館服務的價值取向,體現在節省信息檢索時間和精準獲取知識資源。基于格式新標準和內容新標準,描述元數據的質量控制過程協同兩部分工作,一是面向學習場景建構元數據質量控制模板,二是約束描述標識支持用戶知識檢索與利用。學習場景是智慧圖書館學習空間建設的內涵。描述元數據在質量目標調節下,有效組織多載體資源。用戶學習場景化是書目數據提供、數據庫維護、館藏資源調度、用戶檢索體驗四階段連續、互動、迭代的數據交付全周期管理。中文電子圖書的元數據交付要標引必要的檢索點,關聯有效信息資源,匹配用戶檢索意圖,簡化OPAC檢索表達,為用戶的場景化學習調動資源配置。約束來源數據描述標識是用戶學習的重要支撐,有利于支持多源異構數據信息交互。中文電子圖書元數據的質量控制過程調整描述標識的提供與利用,促進數據向知識轉化。

6 結語

中文電子圖書描述元數據質量控制是篩選和賦值有效數據元素的過程。依據中國國家標準,借鑒目標館管理經驗,建構描述元數據模板,約束來源數據描述單元,探索中文電子圖書信息組織雙線協同策略。隨著未來學習中心建設任務的開啟,中文電子圖書元數據有利于中文圖書資源整合,為多載體中文信息資源輸出成用戶學習資源提供保障。面向未來學習中心,中文電子圖書信息組織以元數據操作的方式控制書目數據質量,輸出信息加工產品,將進一步驅動信息資源管理過程,開展精準的智慧化服務。

參考文獻:

[1] 饒權.全國智慧圖書館體系:開啟圖書館智慧化轉型新篇章[J].中國圖書館學報,2021(1):4-14.

[2] 楊慧.《西文文獻著錄條例(修訂擴大版)》新增電子資源及非書資料的著錄[J].國家圖書館學刊,2004(1):41-46.

[3] 白晗,周雪松.“211”院校圖書館電子資源的組織與揭示調研[J].圖書館學研究,2007(10):32-34.

[4] 王亞林.電子資源的編目策略[J].圖書館建設,2012(2):47-49,53.

[5] 丁遒勁,蘇靜,曾建勛.國家元數據庫及其協同構建框架研究[J].情報理論與實踐,2020(10):82-92,80.

[6] 劉錚,冉志娟.電子資源書目記錄編制的實踐與探索[J].情報探索,2011(S1):152-156.

[7] 宋文,朱學軍.《資源描述》國家標準及對我國信息資源描述標準體系的思考[J].數字圖書館論壇,2016(12):21-27.

[8] 賈延霞,楊慧.Excel和元數據處理工具在電子資源批量編目中的應用[J].圖書館雜志,2014(1):40-44.

[9] 賈延霞,楊慧.電子資源批量編目的實踐及研究[J].圖書情報工作,2014(18):117-121.

[10] 田曉迪,李廣利,白雪.Alma電子資源管理的內容、流程及原則探析:實踐與思考[J].圖書情報工作,2020(4):52-58.

[11] 白雪,等.Alma環境下電子資源庫的編目實踐[J].新世紀圖書館,2021(11):53-57.

李艷茹 女,1975年生。碩士,館員。研究方向:信息組織與知識管理。

閻雅娜 女,1974年生。本科學歷,副研究館員,副館長。研究方向:信息資源建設。

(收稿日期:2022-12-12;責編:婁明輝。)

猜你喜歡
質量控制
如何加強土地測繪質量控制
射線無損檢測在石油化工壓力管道的質量控制
高層建筑主體結構施工技術及質量控制研究
淺析建筑工程施工管理
淺談機車總風缸的制作質量控制
科技視界(2016年21期)2016-10-17 17:58:28
血型實驗室的輸血檢驗的質量控制與輸血安全探究
瀝青路面施工技術及質量控制
關于高層建筑施工技術要點以及質量控制的思考
淺析水利工程施工質量問題及質量控制措施
淺談在公路橋梁施工環節的質量管理及控制
科技視界(2016年20期)2016-09-29 13:11:33
主站蜘蛛池模板: 天天色天天综合网| 欧美爱爱网| 国内99精品激情视频精品| 久久精品66| 综合五月天网| 真实国产乱子伦视频| 欧美在线观看不卡| 久热re国产手机在线观看| 91口爆吞精国产对白第三集| 一本大道香蕉中文日本不卡高清二区 | 亚洲精品国产首次亮相| 色婷婷亚洲综合五月| 国产精品亚欧美一区二区| 欧美区国产区| 久久国产成人精品国产成人亚洲| 国产精品永久不卡免费视频| 91麻豆国产视频| 2021最新国产精品网站| a级毛片免费网站| 首页亚洲国产丝袜长腿综合| 欧美综合成人| 欧美视频免费一区二区三区| 97视频在线观看免费视频| 国产真实乱了在线播放| 视频一本大道香蕉久在线播放 | 一区二区三区在线不卡免费| 91丝袜乱伦| 成人亚洲天堂| 国产亚洲精| 成人午夜福利视频| 亚国产欧美在线人成| 人妻丰满熟妇av五码区| 在线国产毛片手机小视频| 久久永久免费人妻精品| 美女视频黄频a免费高清不卡| 久久国产毛片| 99国产在线视频| 亚洲精品无码抽插日韩| 日韩激情成人| 久久人午夜亚洲精品无码区| AV片亚洲国产男人的天堂| a色毛片免费视频| 国产一线在线| yjizz国产在线视频网| 久久精品中文字幕少妇| 黄片在线永久| 国产在线观看精品| 国产在线视频导航| 久久a级片| 亚洲浓毛av| 色综合五月婷婷| 国产亚洲精久久久久久久91| 国产在线观看成人91| 欧美a在线看| 制服丝袜无码每日更新| 操美女免费网站| 国产杨幂丝袜av在线播放| 色综合五月| аⅴ资源中文在线天堂| 午夜欧美理论2019理论| 99热最新在线| 2020亚洲精品无码| 制服丝袜一区| 国产一区二区三区精品久久呦| 久久久精品国产SM调教网站| 国产成人一级| 亚洲一区二区三区中文字幕5566| 在线免费观看AV| 精品人妻一区无码视频| 精品福利网| 夜精品a一区二区三区| a级高清毛片| 欧美午夜视频在线| 成人国产精品视频频| 婷婷亚洲视频| 熟妇无码人妻| 99这里只有精品在线| 凹凸国产分类在线观看| 亚洲天堂免费观看| 久久中文字幕2021精品| 免费国产黄线在线观看| 极品国产在线|