馮中華 王利賢
南京水利科學研究院科技信息研究中心
本文通過對館藏科研報告進行數字化掃描的實踐,對掃描過程中面臨或存在的一些問題,經過分析,提出解決這些問題的對策,為相關單位在數字化過程中解決類似問題提供參考,從而提高館藏資源數字化建設的進程。
科研報告的管理在于更好地發揮作用,在網絡環境下,科研人員更希望通過網絡直接閱讀相關的科研報告。為此,必須加快科研報告的數字化建設以滿足在網絡條件下科研人員對科研報告查閱的需求,從而實現科研報告的共享,促進科研人員開展創新性的科研工作。科研報告數字化建設包括多個環節,數字化掃描就是其中的首要環節、關鍵環節,掃描產品的好壞直接影響整個數字化建設的質量。本文通過對一個歷史悠久、館藏專業資源豐富的科研型專業圖書館在科研報告數字化掃描工作中面臨或存在的問題進行分析,提出合理的、可行的解決方法,為類似科研型機構圖書館的數字化掃描提供借鑒,從而提高數字化掃描的質量與效率。
館藏科研報告由于歷史悠久,情況不一。一些報告紙張發黃變脆,一些報告內容字跡變淡、插圖不清;一些報告紙張材質復雜多樣,有復印紙、稿紙、機打紙、銅版紙、圖紙和相紙等,一些報告紙張大小也不統一,這些情況都給掃描帶來了問題,只有理清掃描中可能出現的問題,才有助于提高掃描的質量和效率。
館藏科研報告掃描是專業圖書館數字化建設過程中的關鍵環節,而很多專業圖書館的管理人員對具體的掃描工作還是比較陌生的,特別是遇到一些特殊情況更是無從下手,多數人對掃描儀的設置、功能不勝了解,對掃描軟件更是顯得陌生,這將會影響具體的掃描工作。
館藏科研報告掃描必須要有相應的基礎設施,目前,多數專業型圖書館軟、硬件基礎設施配備并不齊全。在掃描管理軟件方面也是參差不齊,功能不統一,由于需求不同,軟件在規范性、開放性、共享性方面較差,導致軟件的使用層次不一。在硬件方面,一般的掃描儀大多是適合A4 以下的紙張,對于超過A4 紙張的頁面就無能為力,這樣就會造成掃描內容不完整。由于基礎設施的配置與維修需要相當的經費投入,在軟、硬件基礎設施不能滿足掃描要求的情況,需要找出應對措施。
館藏科研成果報告在掃描時,多數需要拆裝后掃描,最后再重新裝訂。在這個過程中,經常會發生掃描件順序錯亂、頁面顛倒,導致掃描件與原件不符;同時,在原件重新裝訂恢復過程中也會出現類似情況,有的還會出現紙張破損,這些問題都需要有相應的解決辦法。
在掃描過程時,一些頁面漏掃、一些頁面重復掃的現象時有發生;在掃描同一篇報告時,有的頁面清晰度不同,有的頁面有插圖,有的頁面文字偏小,由于參數設置不變,導致掃描件內容參差不齊,雖然在掃描前會根據一些規范文件提出相應要求,但不同的人理解、執行上差異較大,導致掃描件質量各不相同;掃描后對原件的恢復沒有按照相應的流程進行處理,導致恢復的原件也是千差萬別,有的導致對原件造成損害。
在掃描中,一般有黑白二值、灰度、彩色等三種色彩模式,對待不同的頁面需要選擇不同的色彩模式,這個問題將影響掃描件的清晰度、存儲大小和OCR 識別利用;分辨率參數大小設置問題,也將影響掃描件的清晰度、存儲大小和OCR 識別利用;掃描件的最終存儲格式選擇問題,對數字化管理系統的存儲和網絡利用會產生不小的影響。
對專業圖書館來說,為了適應當前網絡技術和滿足用戶迫切需求,需要盡快將一些具有特色和利用價值較高的資源進行數字化掃描,不然面臨成本問題。第一,需要掃描資源的選擇,將會影響數字化建設的經濟成本;第二,掃描設施的購置和維護、管理系統軟硬件配置等,也會增加數字化建設的經濟成本;第三,掃描人員的工資成本,也是數字化建設的經濟成本之一;第四,由于人員熟練程度、設施性能高低、管理平臺建設規劃等等,是數字化建設必須考慮的時間成本問題。
多數科研報告涉及技術、成果等需要保密的信息,所以科研報告的數字化工作一般不實行外包,但大量的科研報告進行數字化掃描,需要投入大量的人力。但一般專業圖書館管理人員本身相對較少,因此,需要快速、高效、高質量的完成報告的掃描工作,必須對管理人員進行專項培訓,提高員工素質,從而彌補人員不足、操作不熟練等問題。比如,可以舉辦掃描儀使用方法與技巧培訓,掃描軟件使用方法與技巧培訓,掃描規范性流程培訓等。
軟、硬件基礎設施是專業圖書館數字化建設不可缺少的基本條件,是館藏特色資源開發利用的基礎。先進齊全的軟、硬件基礎設施在很大程度上能夠提高掃描的效率和質量。由于各專業圖書館在經費投入中都明顯不足,因此,在制定館藏特色資源數字化掃描方案中應考慮到其所需的軟、硬件掃描設備的適用性、兼容性、通用性問題,避免各自為政的情況,提升基礎條件。
在硬件方面,可以考慮配備穩定性好、性價比高的計算機、掃描儀等成套設備,從而滿足掃描大數據的穩定快速處理、掃描文件的高清晰度的要求,經費允許,可以考慮配置掃描A3 頁面以下的掃描儀,如果原件頁面再大,可以采用分塊掃描,然后再利用photoshop 圖像處理軟件進行拼接;軟件方面,如果經費允許,可以投入一定的經費,開發一套功能完備的掃描管理軟件,在經費緊張的情況下,也可以使用一些普通的掃描軟件和管理軟件完成掃描數據的處理等工作。總之,只有軟、硬件基礎設施同時具備,才能滿足館藏特色資源數字化建設的基本要求。
在掃描時,出現漏掃、重復掃描的主要原因:一是沒有相應的規范和流程;二是報告整理不規范;三是工作人員工作粗心。掃描后原件的恢復不好,出現頁面倒置、頁碼錯亂,甚至出現原件損害。因此,必須對掃描全過程進行規范化管理,在各個階段制定相應的規范流程。
掃描前,做好需要掃描報告的清單,然后按照清單做好整理工作,出庫掃描原件需管理人員和掃描人員雙方查驗、簽字確認。掃描中,需要統一掃描標準,包含清晰度要求、歪斜誤差控制數、掃描文件命名規則、文件存儲格式等;在掃描過程中,需要翻動紙張時,不要用力過度,注意保護脆弱紙張;為了確保質量,必須指定質量校核員,校核掃描圖像的清晰度、完整性、歪斜度等。掃描后,需要按報告原順序進行恢復,確保頁碼不亂、頁面不顛倒、紙張不破損等,從而保證原件恢復效果,原件返還入庫需要管理人員與掃描人員雙方查驗、簽字確認。各階段按規范的流程進行管理,不僅能提高掃描的質量,還能避免返工現象,提高掃描進度。
在掃描中,針對不同的報告需要采用不同的色彩模式、分辨率和存儲格式,保證不同紙質報告掃描后的圖像在清晰度與存儲大小達到最佳平衡點,既能夠清晰完整地保持圖像,又有利于節省存儲空間,方便掃描資源的網絡傳輸、存儲、共享和使用。經過大量成果報告掃描的實踐,為紙質成果報告掃描的參數設置提出以下建議。
1.無底色、白底黑字、對比度較高、文字較大的文字型頁面,采用黑白模式,分辨率設置為150dpi;
2.無底色、白底黑字、對比度一般、文字較小的文字型頁面,采用黑白模式,分辨率設置為300dpi;
3.無底色、白底黑字、對比度較差的文字型頁面,采用灰度模式,分辨率設置為200dpi;
4.單一底色、文字色彩單一的文字型頁面,采用灰度模式,分辨率設置為300dpi;
5.文字為彩色、文字密集或手寫、文字太小、底色發黃且年代久遠等文字型文件以及照片等采用彩色模式,分辨率設置為300dpi。
如果原件本身就不清晰,比較模糊,這種情況就要在亮度、對比度、分辨率等方面加以協調處理了。
在存儲格式方面,需要考慮可用性(包括OCR 識別)、國際通用性、網絡傳輸速度等多個方面,我們根據各種文本格式、圖像格式進行比較,最終采用pdf 雙層格式。這種格式是一種獨立文檔,可以很好地保持檔案的原貌,可以通過識別利用,而且網絡傳輸速度快,可以邊下載邊閱讀,已經成為全世界電子文檔分發公開的實際標準。針對紙張大小不一的情況,我們將A4 及以下的頁面全都按A4 頁面存儲,大于A4 的頁面保持不變,保證掃描成果質量和讀者順暢閱讀。
首先,在前期準備工作,將需要數字化掃描報告的清單應盡量做到精細化。館藏報告量大,數字化掃描工作要采取逐步推進、有的放矢、部分優先的原則,在有限的資金和時間投入下,優先掃描利用頻率高、保存價值高、損毀度高的報告,對于那些利用頻率低、保存價值低、不太重要的報告可以延后掃描,這樣不僅可以減少大量的人力和財力投入,還可以有效地節省時間,提高掃描的效率,加快數字化進程。其次,在采購中盡量選擇性價比高、保養成本低的掃描設備;在軟件方面,盡量選擇成熟、價格低、通用性好的管理軟件,不必追求功能多、價格高、不通用的軟件;在設備使用中,要求員工一定按正確的操作規程使用,降低設備的維修率,提高設備的使用壽命,從而節省成本。最后,要節省成本,還需從人的素質提高入手,在真正開始掃描之前,做好掃描人員的培訓工作尤其重要,掃描人員掌握了熟練的技能,既可以提高掃描成果的質量,又可以節省時間成本,從而加快掃描進度。