王思敏 宋愛香

摘 要:文獻編目是圖書館服務的基礎,直接影響圖書館各項服務工作的開展。尤其在信息共享迅猛發展的時代,編目工作的好壞直接影響到信息共享的質量。本文對紡織高校圖書共建過程中遇到的編目數據缺失、著錄錯誤等問題進行匯總,并提出了通過人工清洗加計算機自動匹配的數據整理方案,實現了編目數據的歸一和整理。
關鍵詞:紡織高校;資源共建;共享目錄;數據整理
中圖分類號:G250
隨著信息技術的不斷發展,資源共享、互通已經成為必然的趨勢。有效的實現資源的共知、共建、共享不僅可以提高圖書館資源的利用率和也可以提高讀者的滿意度。[1]近年來,“中國高等教育文獻保障系統”、“中國高校人文社會科學文獻中心”等資源共享平臺不斷建立,但是紡織學科的資源共享一直沒有得到應有的規模。[2]為實現紡織類圖書的共知、共建和共享,筆者對全國9所紡織高校館藏進行分析,但是各個高校編目數據的不規范,為數據的共建共享帶來了很大的困難。[3]
1 編目數據的收集和整合
1.1 編目數據來源
研究工作數據來源于武漢紡織大學,東華大學,江南大學,北京服裝學院,蘇州大學,天津工業大學,鹽城工學院,浙江理工大學,西安工程大學提供的TS1和TS9大類OPAC數據,共計113509條。其中TS1大類35573條,TS9大類77936條。
1.2 編目數據問題分析
由于各個高校編目的詳簡級次及編目規定不同,質量差別較大,書目數據編目較為混亂,隨意性大。對計算機輔助程序的自動識別和匹配造成了很大的困難。主要的問題有:
(1)目錄中存在冗余數據、測試數據以及信息極度不全的記錄。
(2)字段缺失嚴重:很多關鍵字段如ISBN號、題目、作者、出版社缺失,造成很多書目無法準確辨識。
(3)詳簡級次不一致:① ISBN號的著錄,部分帶有連字符“-”,部分沒有,ISBN號位數不同,簡寫程度不同;②對機構名稱著錄時全稱簡稱并存,且簡稱程度不同。
(4)著錄風格不同:①同一責任者著錄形式不同;②多個責任者的著錄數量有差別;③對個人著者名稱的附加和復分成分沒有優先順序。
(5)著錄存在錯誤:①字段混淆,作者和出版社字段顛倒;②中外文著錄存在拼寫錯誤或者落寫等問題。
(6)著錄不夠細致:題目錄入過于簡單,不標注上下冊或分冊,如果同時缺少其他可識別字段,將難以被判副本和分冊。
1.3 編目數據處理流程及方法
項目組采用了人工與計算機相結合的方法實現編目數據的清洗和歸一。先通過科學的方法,在最小化人工工作量的情況下,對編目數據進行歸一化,再利用計算機進行自動匹配。
數據處理的總體流程如右圖所示。
(1)EXCEL數據清洗:去除各個高校自身的空記錄和測試記錄;
(2)建立庫表:提取各個高校數據共有字段,分別在SQL SERVER中建立數據庫表;
(3)計算機第一次匹配:建立初步的總庫表。將數據量最大的高校記錄(武紡)導入到總表中,其他高校的數據,逐條跟總表數據進行比對,總表中沒有的數據進行增減,已有數據進行標注;
(4)人工清洗:將匯總后的數據導出為EXCEL,將相似記錄排列在一起,通過人工進行識別,按照手工清洗的原則,將相似記錄的題目、作者、出版社黏貼一致;
(5)計算機二次匹配:將人工清洗過得數據,導入到數據庫中,建立新的匯總表。,通過計算機進行二次匹配,去重,標注每條記錄所屬高校,以及副本數量;
(6)計算機統計:通過算法,標注館藏總量以及每本書所在的圖書館;
(7)結束。
2 數據處理結果
按照以上方式對9所紡織高校自身的書目數據進行清洗,計算出副本數目,并對各個高校數目數據進行歸一和匹配。如下表是數據清洗及匹配后的結果。
3 總結與展望
紡織類高校圖書的異質性很高,對紡織類圖書進行共建共享,不僅有利于資源的合理流動也有利于推動紡織行業的發展。加強編目工作的規范化,選擇適宜的著錄標準、著錄詳簡級次,確保目錄質量,有利于實現數據發現、加強資源流通,促進資源共建和共享。
參考文獻:
[1]王廣三.圖書館聯盟知識共享影響因素及策略研究[J].圖書館工作與研究,2017(10):37-41.
[2]尹方屏,谷秀潔.構建跨區域“大紡織”學科聯盟共享域的可行性研究——CALIS示范館建設啟示[J].圖書館學研究,2012(10):91-94.
[3]馮雷.信息時代高校圖書館編目工作研究[J].太原師范學院學報(社會科學版),2018,17(01):93-96.