郭廣堃
關鍵詞:盛京時報;TPI;特色數據庫;館藏數據庫
摘 要:《盛京時報》是由日本人中島真雄創辦的中文報紙,該報以中國國內時事和評論為主,大量報道了當時(1906-1943年)東北地區商貿、金融、交通、教育等許多方面的信息,具有很高的研究價值。為方便讀者查找和利用文獻,充分發揮其史料參考作用,遼寧省圖書館與清華同方公司合作,利用TPI系統建成數據庫發布。本文從建庫意義、模式、加工平臺、發布系統等幾方面對此進行了闡述。
中圖分類號:G250文獻標識碼:A 文章編號:1003-1588(2009)06-0074-02
《盛京時報》于清光緒三十二年九月初一日(1906年10月18日)在沈陽創辦,因當時的沈陽被稱作盛京,《盛京時報》由此得名。這張由日本人中島真雄創辦的中文報紙當時的發行量很大,遍及東北地區,華北以南的一些城市甚至東南亞華語國家,1943年左右停刊,歷時38年。該報對我國當時的內政、外交、經濟、軍事、文化、教育、社會風情等,特別是對當時東北地區商貿、金融、交通、教育等方面的信息,均有詳略不等的報道,同時還記錄了眾多官府檔案與私家著述不能詳細指明的史實。它不僅是研究中國近代史、國際關系史、東北軍民抗日史、北洋軍閥史極為珍貴的資料,也是了解和掌握20世紀前半葉東三省的第一手資料。
1建庫意義
遼寧省圖書館藏有《盛京時報》從創始至停刊的全套原報、影印本及縮微膠片,總計有141冊,膠片近10萬拍,具有非常可靠完整的數據源。同時該文獻時間距今年代較為久遠,不存在版權問題。數據庫建成后,讀者可以通過網絡檢索,方便快捷,符合當前文化信息資源網絡化、數字化的要求。
2建庫模式及設計
《盛京時報》 整套報紙有近10萬頁,此庫如由本館人員自行建設,大約需要10個人約8年完成,而由外包公司以專業化的角度制作1年時間即可完成,并有加工發布軟件支持,大大縮短了建庫時間,提高了效率。經過咨詢、調研,遼寧省圖書館最終選擇與清華同方公司合作,應用TPI系統對《盛京時報》進行數字化加工、標引和發布。
2.1 總體要求
此數據庫將紙質報紙進行掃描(或縮微膠片轉換)形成電子文檔,通過著錄得到每篇文章的題錄信息,入庫形成《盛京時報》資源庫。
因報紙文本為繁體字,豎排版,文章成不規則排列,廣告較多,全文識別率較低,故本庫做成題錄數據庫,每條題錄做為一條數據,對應一張PDF文件(全文顯示為PDF圖片格式),生成文章索引,實現文獻資料的題名、日期、作者、版次等的檢索。這樣做的優點是:用戶接口多為菜單驅動型,易學易用,檢索直接。
2.2 元數據及著錄細則
2.2.1 制定元數據
此庫的元數據嚴格按照《中國數字圖書館基本元數據標準規范》制定,著錄時對照規范,結合此庫特點,設立了包括題名、創建者、來源、欄目、分類、主題、說明、權限、格式等15個核心元素和包括副題名、出版發行年、地區、人名等項內容的20個修飾詞,能較全面地反映報紙的客觀信息。
2.2.2 限制訪問
由于此報存在年代的特殊性,對元數據的著錄項目做了嚴格的規定:原題名有“滿洲國”字樣的在其前加著“[偽]”;偽滿時期涉及到中央或地方政府組織的會議、祭典或其他大型活動時在題名前加[偽滿洲國]字樣;有官銜或在偽滿中央、地方特定的政治、經濟、教育、文化等機構中任職的人物的姓名前加[偽滿洲國]字樣以示區別;出版發行年有“大同”、“康德”字樣的,自動默認為限制訪問。
2.2.3 客觀照錄
為方便讀者檢索,將出版發行年(同時轉換并著錄公元紀年)、日期、星期、總期號、版號等客觀信息全部照錄。
2.2.4 設立欄目項
《盛京時報》收羅廣泛,前期保持了中國清朝邸報和京報的模式,每天在頭條位置刊登“宮門抄”和“上諭恭錄”,報道清朝宮廷的動態來歸順民心。同時設有多種專欄。如:時論、批示、小說、文苑、欽差行蹤,專電、京師要聞、各省要聞、世界新聞、市井雜俎、公文匯錄、緊要專件等。為全面反映該報對當時我國內政、外交、經濟、軍事、文化、教育等情況的報導,使讀者能按類檢索,特設立“欄目”著錄項。
3數據加工平臺
針對此報紙數字化加工的特點,同方應用vc++ 在windows NT server操作系統上,開發了對應的程序,以保證加工的高效及數據的質量。平臺具有以下功能:
3.1 管理功能
此程序包括工號及權限管理功能、考勤記錄功能、建立任務批次功能、工作量統計功能、自動生成生產報表等管理功能。
3.2 批量掃描功能
此程序保證使用掃描儀對紙介質的資料進行批量的掃描,能向已有的圖像文件中插入漏掃的圖像文件、替換錯掃的圖像文件,并具有圖像文件格式轉換功能。
3.3 圖像處理功能
此程序能有效去除大面積的圖像黑邊和較大雜點,自動比對圖像頁數、文件夾個數是否與檔案整理環節一致;能對圖像進行批量90度、180度旋轉和傾斜校正;有圖像恢復功能(能將處理過的圖像恢復到處理前的原始圖像狀態)等。大大減少了后期人工圖像處理的工作量,提高了圖像處理的工作效率和質量。
3.4 質量檢查功能
此程序包括各工序根據預設的抽樣比例自動選取抽樣文件功能;圖文對照功能;修改錯誤目錄功能;自動計算錯誤率并出具質檢報告功能。
3.5 數據掛接功能
此程序能提供圖像文件和著錄數據的按檔號批量掛接功能;提供掛接后的數據修改、替換功能。
3.6 條目著錄功能
此程序具備自定義著錄字段功能;能根據起始頁、終止頁及檔案案卷號批量掛接圖像文件;圖文對照功能;數據導入導出功能(支持常見數據格式MDB、DBF、XML及Excel表格等格式的導入導出)。
4發布系統
TPI數據庫建設與管理平臺是基于非結構化文檔管理的大型智能內容管理系統。該系統以Kbase全文檢索技術為核心,采用流行的B/S模式和先進的三層C/S架構,能夠同時管理多種類型的信息資源,并提供全文檢索服務。
TPI的建庫發布過程遵循標準化和嚴謹的原則,按照庫結構建立、導航建立、記錄添加、數據標引、數據分類、數據檢查、數據庫發布等步驟劃分,整個過程有全中文向導指導進行操作,使用方便,易于掌握。
5問題與思考
5.1 合作建庫問題
從選題立項到外包直至全部建成上網發布,歷時1年多。由于初次采取合作方式建庫,缺乏經驗,而且外包公司對數據不是很了解,并在異地加工,溝通未及時順暢,建庫初期走了一些彎路。例如圖片掃描問題,公司利用縮微膠片進行了轉換,可由于膠片時間較久,有些毀壞,圖像模糊不清,等我們去實地指導時,已經全部轉換完成,還需要重新挑選進行掃描,不僅耽誤工期,而且增加了成本。對于數據加工中的題名項,當時公司考慮節約服務器容量空間和增加效率,前期將同張報紙中的幾條數據著錄成一條,造成檢索歧義,后及時改正。
5.2 特色數據庫建設的標準化問題
近年來遼寧省圖書館建設的特色庫由于技術原因應用了多個加工系統,但由于采用了統一的標準規范,按照統一標準加工、標引數字信息,最終的裸數據無論在哪個平臺上都能自由轉換,互相兼容,保證了發布數據的統一。
5.3 館藏數據庫建設的版權問題
從圖書館的角度,特色館藏資源是具有較高學術和史料價值的資料,如:遼寧省圖書館藏建國前期刊、東北抗戰史文獻、《盛京時報》等,但如果建成數據庫,就涉及著作權確認和許可問題。對已發表作品進行數字化,會涉及署名權、修改權、保護作品完整權、使用權和獲得報酬的權利。圖書館進行公益性的文獻數字化主要是為保護文獻、方便讀者使用,借助網絡使更多人共享,但這又將侵害權利人的網絡傳播權,是建庫的矛盾所在。對此,在數據庫建設上多選擇建設距今年代較久,過了保障期或即將過期的作品來規避版權問題,來最大限度地保護著作權人的知識產權。
參考文獻:
[1] 陳建紅.廣西圖書館數據庫建設與實踐[J].圖書館界,2007,(2).
[2] 肖碧云.論特色文獻數據庫的建設[J].高校圖書館工作,2006,(1).
[3] 徐紅嵐.《盛京時報》述略[J].圖書館學刊,1989,(2).