[摘 要]館藏書目數據庫中大量重復數據的存在,給讀者檢索、圖書館業務工作和資源網絡共享帶來了麻煩。分析其產生原因,主要是圖書編目過程中諸多因素直接或者間接地導致了館藏書目數據重復。圖書館應采取有力措施,確保書目數據庫的質量,以便實現館藏資源網絡高效共享。
[關鍵詞]書目數據; 數據重復;歸因
[中圖分類號]G254.364 [文獻標志碼]A [文章編號]1005-6041(2010)06-0010-03
1 館藏書目數據重復現象
單種書目記錄數據庫模式是我國目前大多數圖書館書目數據庫建設采用的模式,它要求在同一數據庫中同一種文獻只能保留一條書目數據,不允許重復數據存在。但事實上,在圖書書目數據庫建設中,不少圖書館都存在書目數據重復現象,歸納起來主要表現為兩種情況:其一,同一題名圖書添加了不同的索書號;其二,同一索書號下存在兩種不同的圖書。前者,書在數據庫中對應兩條或兩條以上的數據記錄,這些重復數據著錄同一種圖書的題名、責任者、出版社、ISSN號、CN號等項數據元素,這種情況大多會出現“同書異號”現象。后者,相同或者近似的數據記錄代表兩種或者兩種以上的圖書,即不同圖書的數據記錄相同,這種情況容易出現“異書同號”現象。
2 館藏書目數據重復現象的負面影響
2.1 影響圖書館內部工作效率
在圖書分類方面,重復記錄會帶來歸類、取號和典藏的麻煩。對于庫中有重復數據的圖書,新書是取此號還是取彼號,典藏是到這個記錄下還是到另一條記錄下,分類員和典藏員常常無所適從,只好重新對照《中國圖書館分類法》才能確定原書正確的分類號。這樣環節多了,耗時耗力,工作效率大大降低。在業務統計報表方面,因為重復數據的干擾,相同的圖書可能分散在不同的類下,也可能出現不同的圖書被分配了相同的索書號的情況,導致以分類統計的圖書報表的準確性大打折扣。
2.2 影響讀者檢索效果
評價文獻檢索的效果,查全率、查準率是公認的最為重要的兩個指標,通過對查全率和查準率的計算,可以定量地描述檢索效率,從檢索效率可以看出檢索成功率[1]。重復數據的圖書在書庫中排架不集中,分散在不同書架中,或者是同一索書號位置放著不相關的圖書。手工檢索圖書,因“同書異號”使相同圖書排在不同的類別、不同的書架上而出現漏查、漏檢現象。計算機檢索,無論是用分類號或索書號作為檢索點,還是用正題名、責任者作檢索點,肯定都會因為重復數據的存在而使查全率和查準率受到影響。結果是,讀者利用館藏困難,難以分辨檢索結果的正確性,書目檢索效率低。
2.3 影響數據庫質量和資源網絡共享
在資源日益數字化、網絡化的今天,資源網絡共享已成發展趨勢,并為圖書館文獻資源的開發利用提供了廣闊的天地。越來越多的圖書館希望通過網絡介紹自己的機構設施、資源特色、館藏文獻書目數據庫和專業數據庫,這就對圖書館書目數據庫的正確性提出了更高的要求。因此,書目數據庫的質量非常關鍵。衡量一個數據庫的質量,其完整性、準確性是最關鍵的。準確性是一個數據庫的生命線。假設書目數據庫在準確性上大打折扣,那么這個數據庫的利用價值可想而知,大量重復數據的存在,造成書目數據混亂、不規范,極大地危害了館藏書目數據庫的質量,損害了圖書館的整體形象,影響了資源網絡共享效果。
3 館藏書目數據重復現象歸因
3.1 宏觀層面原因
3.1.1 回溯建庫。為了不影響讀者借閱,很多圖書館臨時組建工作隊伍,突擊回溯建庫。許多人對編目業務知之甚少,或電腦操作不熟練,產生了較多的質量問題。回溯建庫的依據有兩種,即以卡片目錄或以書為回溯依據。以卡片目錄為回溯依據,一般著錄的數據欠準確,但數據重復少;以書為回溯依據,因為排架存在的復本分散,回溯人員為了追求速度,不認真查重,會導致數據庫中產生不少的重復數據。
3.1.2 多館合并。高校合并重組,使隸屬高校的多家圖書館也要整合。有些圖書館在合并時,由于技術力量薄弱,加之時間緊迫、工作量大,為不影響圖書館的各項工作正常運行,技術人員只能進行簡單處理。一般以原來某個高校圖書館的書目數據庫作為合并的基本庫,在不查重處理的情況下,將多館的館藏書目數據進行簡單合并。這就導致了合并后的館藏書目數據庫中存在許多“同書異號”等重復記錄的現象[2]。
3.1.3 評估達標。很多高校為了通過教育部本科評估,或者為了“升格晉級”、“申請建立碩士或博士點”,學校領導臨時抱佛腳,撥出大筆專用購書款,各館在評估前紛紛瘋狂買書、加工書,想在短時間內填補以前經費投入不足造成的文獻資源缺口,以達到評估要求的文獻量指標。可是這種拼命趕超,直接導致了采購質量低、編目質量低,結果書雖入庫了,卻在館藏書目數據庫中留下了較大的質量隱患。
3.1.4 人員變動頻繁、編目員責任心欠缺。在編目工作的實際操作中,由于不同的編目人員對編目規則和標準的理解差異,勢必造成因在書目著錄認識上的不一致而出現重復記錄[3]。如對多卷書和叢書的著錄,不同的編目人員在做原始編目時,往往會出現有的以總題名標目,有的以分冊題名標目,這樣僅以題名查重就難以查全;另外,在著錄按年代出版的文獻時,有的編目人員將年代著錄在題名前,有的著錄在題名后,有的將年代作為副題名處理,有的作為分輯題名處理,五花八門,這樣必然會造成一種書有多條記錄的結果。
3.2 微觀層面原因
如果說以上宏觀層面的原因間接導致了書目重復數據的產生;那么以下幾個編目環節,在微觀層面上,或者說在技術層面上則直接導致了書目數據重復的產生。
3.2.1 分類環節產生重復數據的情形。在分類環節,分類人員可能在分類時忘記查重,將后到的復本書誤作新書而給了新分類號,這樣直接導致相同圖書分散擺放;或者分類人員在查重時,抄下了同一分類號,卻未抄下種次號,以致MARC記錄保存時系統又自動產生種次號,結果也導致了“同書異號”的重復數據。
3.2.2 著錄環節產生重復數據的情形。首先,著錄環節可能因為著錄不規范、不準確,間接導致分類人員不容易查重而出現“同書異號”的重復數據。其次,圖書CNMARC的記錄905字段@a子字段是指館藏代碼,一般一個館固定一個館藏代碼不變,如果905字段的@a子字段內容不小心被變動,則按此產生的館藏圖書肯定會出現重號的重復數據。再次,905字段的@f子字段相關的種次號庫維護也容易出錯重復數據。905字段的@f子字段指圖書排架號,即索取號,當記錄保存時,自動在“/”后加上種次號,這個種次號是按種次號庫生成的。如果一本書是復制的記錄,或是改過號的記錄,種次號又為該類最大,當時又沒有對種次號庫進行維護,那么后分編的一種同類書在保存時就會產生與之重號的重復數據了。
3.2.3 典藏環節產生重復數據的情形。有的圖書ISBN號相同,但出版時間、頁碼、書名等不同,比如修訂版圖書、再版圖書、套書甚至盜號圖書;有的圖書書名相同,但出版社不同,如名著的不同版本。如果著錄典藏時只看ISBN號或書名,不仔細對比其他著錄細節,則很容易把這種相似圖書派到同一條記錄下,導致出現“異書同號”的重復數據;另外,典藏環節中,后到的復本書可能未找到庫中已有圖書的記錄或跟錯記錄而產生“同書異號”重復數據。
3.2.4 貼標環節產生重復數據的情形。哪怕是簡單的打標、貼標環節,如果出現錯誤,在書庫中也可能反映出圖書數據重復問題。如兩種圖書數據分類正確,但由于編目人員大意,將一種圖書的書標粘貼錯誤,導致該書與另一種圖書在書脊上看起來為“異書同號”或“同書異號”,可實質上數據庫中的書目記錄分類是正確的。
4 歸因結果對圖書館控制重復數據的啟示
4.1 及時清理重復數據,注重數據庫的日常維護工作
對于數據庫中重復數據較多的情況,可以通過書目集成系統軟件將數據庫中的書目數據導出來,再用Microsoft Access軟件對比分析,提取數據并輸出重復數據的著錄項目清單,交給編目人員集中處理。編目人員按重復數據清單查明各自重復的原因,根據具體情況具體解決。另外,圖書館需要配置專門的數據庫維護人員,定期對數據庫的數據進行統計、分析、對比,搜集這些問題數據進行處理,才能有效保證數據的準確性。數據管理員只有把數據庫的維護作為一項常規性的工作,才能確保書目數據庫的質量始終處于最佳狀態。
4.2 提高編目員的業務素質,保證編目員相對穩定
館藏數據的龐雜及數據信息的多樣化、復雜化,決定了數據處理和維護工作是一項瑣碎、枯燥但技術含量高的工作。作為采編人員, 必須具有較強的責任心、良好的溝通協調能力;必須掌握圖書館學相關知識,熟悉計算機應用,能熟練操作圖書管理系統;必須具有正確的判斷力和解決問題的能力,遇到館藏文獻數據問題能夠分析、判斷問題之所在,并尋找各種途徑盡快解決問題。同時,圖書館領導應考慮到編目工作的特殊性,認識到這項工作需要人員相對穩定,才能積累經驗、熟悉館藏。如果人員頻繁輪崗,將不利于編目工作的連續開展。所以,圖書館應保持編目人員隊伍的相對穩定,參與館內流動的人員要控制在一定的比例內。
4.3 加強部門間的業務合作,發現問題及時反饋、處理
數據維護工作涉及圖書館采訪、編目、流通、系統等業務部門的工作,各部門應互相支持, 在溝通、反饋、監控的過程中加強協作。采編部門要采取措施,對書目數據進行質量控制,減少錯誤數據的產生。錯誤的書目信息經常在圖書流通時被發現,流通部門應及時地給予反饋,使錯誤數據盡快得以修正,保證讀者服務工作的順利開展。系統部作為監察圖書館管理系統正常運轉的重要部門,應該在技術上給予指導和支持。可以說,各部門的協調合作是數據維護的有力保障。
4.4 建立嚴格的審校制度
由于編目人員業務水平及了解館藏情況的不同,編制出的書目數據質量往往也存在差異。圖書館要保證書目數據庫的質量高,必須設專人審校。實踐證明,對書目數據進行嚴格審校,是建設高質量書目數據庫的有力保證。審校人員應由業務水平高、了解整個書目數據庫情況、工作責任心強的編目人員擔任,審校人員在審校中,要根據文獻著錄標準化原則,檢查文獻著錄是否標準、正確,更要注重文獻標引的質量。
[參考文獻]
[1] 廖愛姣,汪文勇. 館藏書目數據庫中“同書異號”問題探析[J].情報探索, 2010(11):199—121.
[2] 吳玉珍.合并高校館藏書目數據維護對重復數據的處理[J].圖書館工作與研究,2009(2):65—67.
[3] 周明華,劉榮珍.書目數據清理與合并[J].大學圖書館學報,2005(6):51—56.
[收稿時間]2010-08-27
[作者簡介]廖愛姣(1976—),女,館員,碩士,現任湖南文理學院圖書館文獻借閱部主任,合編著作1部,發表論文數篇,研究方向為資源建設、信息管理。