999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

清水江文書數字化圖片數據著錄前預處理方法研究*

2023-12-01 05:09:08趙冬香
甘肅科技 2023年10期
關鍵詞:數據庫

趙冬香

(凱里學院,貴州 凱里 556011)

1 引言

清水江文書是指廣泛遺存于貴州省東南部(黔東南)清水江流域少數民族地區的民間歷史文獻的總稱[1],是繼敦煌文書、徽州文書后發現的第三大民間文獻遺產。

因清水江文書的民間私有屬性,絕大多數紙質文書都是采用就地保存方式,即在收藏戶主家自行保存;對于可獲得所有權的少部分文書則在相應村鎮、縣市檔案館或博物館保存。無論采用哪種方式,紙質文獻固有的易損毀性都注定了紙質清水江文書的長期保存有著不確定性。故而,為了清水江文書上所記載的內容能夠得到深入挖掘和有效利用,經綜合分析后,應在現有標準和規范的指導下,開展數字化建設工作,建立數字化平臺進而實現資源共享。事實證明,只有建立具備一定規模的數據庫平臺,才能打破清水江文書的地域局限性,使研究學者們能夠跨越時間、空間,最大限度地獲取到文書資源,進而從民族學、語言學、歷史學、經濟學等多學科、多角度挖掘出文書資源潛在價值,發現文獻內部的有機聯系,開展更多新的研究議題。

建立數字化平臺所需的軟件框架可請專業機構搭建,建立平臺框架后充實數據庫通常要進行以下幾步:紙質(圖片)文書收集、紙質文書數字化(所謂文書數字化,即采用掃描儀或數碼相機等數碼設備對紙質文書進行數字化加工,將其轉化為存儲在磁盤、光盤等載體上并能被計算機識別的數字圖像或數字文本的處理過程[2])、數字化圖片預處理、JGP圖片轉換為PDF文件、PDF文件上傳至數字化平臺、對平臺上的PDF文件進行元數據編目。

通過對CNKI期刊全文數據庫檢索發現,與清水江文書數據庫建設相關的研究論文只有13篇,其中7篇是關于元數據標準和著錄規范的研究,4篇是側重于文書搶救、保護的研究,其余2篇是研究文書整理分類標準,未檢索到關于文書圖片預處理的文章。由此可見,學術界對于清水江文書數據庫建設目前還處于探索階段,雖然學者們已認識到了建庫過程中文書整理、搶救、制定元數據標準及著錄規范的重要性,但卻忽視了文書圖片數字化及預處理工作,而這一步恰恰是數據庫質量控制的關鍵一環[3]。文章正是針對這一點,從清水江文書的來源、掃描規范入手,探討文書數字化圖片在最終進行元數據編目前的預處理規范。

2 紙質(圖片)文書來源、掃描規范及命名規則

2.1 紙質(圖片)文書來源

清水江文書圖片主要有4個來源:一是與文書收藏機構協商后掃描原件得到的圖片;二是到擁有文書的農戶家中經協商后掃描原件得到的圖片;三是研究人員通過田野調查使用手機或相機拍攝到的文書圖片;四是與檔案館等收藏機構協商后直接復制經過初步轉正、裁剪處理的圖片。

2.2 掃描規范

清水江文書掃描是進行數據庫建設的首要工作,也是數據庫質量控制的第一步。為了高質量建設清水江文書數據庫,其文書掃描圖片需符合2005年國家檔案局發布的《紙質檔案數字化技術規范》(DA/T31—2005)標準要求,確保在對文書掃描時不對文書原件造成二次損傷,確保文書掃描圖像與原件一致、整潔、清晰。掃描人員在掃描過程中必須盡量展開文書原件,做到不遺漏、不褶皺、不卷邊,讓掃描圖片盡可能地展現原件內容[4]。

具體要求如下:掃描人員對文書進行掃描時,要對環境進行清潔,確保掃描環境不會污染文書。為避免對文書造成損傷,掃描人員必須佩戴手套輕拿輕放;采用高檔平板掃描儀進行文書掃描,避免圖像顏色失真,分辨率不足;掃描數據采用300DPI標準JPG格式;掃描文書頁面不能上下連頁或壓字,當前頁面上不能有其他頁內容;對裝訂成冊的多頁文獻不支持拆裝掃描;掃描圖像要求完整、無傾斜、無黑邊,保證瀏覽及打印清晰[5]。

2.3 圖片命名規則

由原始文書直接掃描或拍照的圖片,這種文書要求在掃描前現場測量其原始文獻尺寸、識別紙張類型(原始文獻尺寸、紙張類型一般被稱為載體形態)并記錄在圖片文件名中,在存入計算機時要求為其按規則命名為JPG格式文件,以便于后期的操作。清水江文書數字化的重要目標之一是以文獻的原始形態保存,所以在命名規則上必須求真,在數字化加工時最大限度地保留文書的原有留存狀態和次序。

2.3.1 文件夾命名規則

(1)民間收藏文書命名規則:以收藏戶為單位建立文件夾,按照收藏縣+鄉鎮+自然村+收藏戶主名的四級命名,即文件夾名稱為:XX縣XX鄉鎮XX村+文獻收藏戶主姓名。例如,黎平縣巖洞鎮銅關村5組吳珍標。

若該收藏戶中收藏文書有多幅面文獻掃描,則在該文件夾下建立子文件夾,子文件夾直接命名為文書類型,并注明載體形態,例如契約抄白(23 cm×16 cm棉帛紙)、魚鱗冊(26 cm×19 cm毛邊紙)、工分冊(25 cm×17 cm構皮紙)等。

(2)單位收藏機構文書掃描文件夾命名規則:以戶為單位建立文件夾,以收藏戶為單位建立文件夾,按照收藏縣+鄉鎮+自然村+收藏戶主名+單位檔案編號的五級命名規則,即文件夾名稱為:XX縣XX鄉鎮XX村檔案編號。例如,肇興鄉紀堂上寨村3組陸德齊-322。

若該收藏戶收藏文書要多幅面掃描,則在該文件夾下建立子文件夾,子文件夾命名規則同(1)。

2.3.2 圖片文件命名規則

(1)單幅面掃描文書命名規則:文獻序號_收藏戶姓名+原始文獻尺寸(cm);紙張類型(如棉帛紙、草紙、構皮紙、毛邊紙等)。例如,掃描楊秀錦收藏戶的第1份文書:001_楊秀錦40 cm×45 cm;毛邊紙JPG。

(2)多幅面文書掃描:收藏戶家的一冊文獻掃描在1個子文件夾中,子文件夾直接命名為文書類型,并注明載體形態,因子文件夾下的文書為整冊分頁掃描,其載體形態相同且在子文件夾上已注明,所以各頁文書不必再單獨標注,其命名規則為:序號_文書類型,如001_契約抄白JPG。

對于沒有原始文書可測量及識別,只有電子版圖片的情況,其原文件名中若沒有記錄原始文獻載體形態,按其原文件名保存,后期處理時再添加題名。

3 文書掃描圖片預處理流程

清水江文書掃描圖片在初步命名后,進行數據著錄前要先經過圖片的預處理,預處理過程包括以下幾步:檢查→比對→轉正→裁剪→修改分辨率→加注載體形態→加注題名→添加水印→JPG轉PDF文件→數據庫中添加文書收藏地[市(縣)、鄉、鎮、村與戶進行歸戶管理]→上傳PDF文件到數據庫。

3.1 圖片檢查、比對、轉正、裁剪

(1)對于同時有2個圖片來源的文書,即建庫機構自行對原始圖片進行了掃描,并且又從原收藏機構復制了經初步轉正、裁剪過的圖片,通常為了避免重復勞動,以該收藏機構初步處理過的圖片為主,檢查每張圖片的完整性,包括圖片是否有褶皺、文字是否有誤裁剪致殘缺等,如發現問題,和建庫機構自行掃描的同一張文書圖片對比,將完好的圖片轉正、裁剪后替換有問題圖片,其預處理流程如圖1所示。

圖1 需要進行圖片比對的掃描文書預處理流程

(2)對于只有建庫自掃描圖片的情況,則可直接進行轉正、裁剪。轉正時視圖片具體情況決定是逐一或批量轉正,但因圖片大小不同,必須逐一手動裁剪以避免誤裁,其預處理流程如圖2所示。

圖2 機構自掃描文書預處理流程

處理時原則上先將圖片轉正后再裁剪,裁剪掉圖片上多余的白邊,注意不可剪掉文字,裁剪時對不規則幅面等細節,在圖像中保留毛邊等原始文獻的物理狀態。

(3)對于通過田野調查使用手機或相機拍攝的圖片,且不可能再次進行掃描的,要逐一對圖片進行檢查,是否清晰和完整,將完好的圖片轉正、裁剪。

經初步對比、檢查后,將損毀嚴重、誤裁剪或掃描不完整等情況導致無法識別的文書排除,不再進行下一步處理。

3.2 修改圖片分辨率

經過轉正、裁剪后的圖片要降低分辨率。因考慮到原始文書掃描后可能用于編輯出版,圖片最初掃描和拍攝時分辨率較高,但其在數據庫中為保證圖片既清晰又不影響其瀏覽流暢性,就要適當降低分辨率。經多次測試,確定將圖片統一修改為最長邊1 800像素,另一邊按比例調整。該操作可批量進行,批量修改時注意保持圖片上文字方向一致性,修改后圖片大小基本保持在1 MB左右,符合應用要求。

3.3 加注載體形態

修改過分辨率的圖片可進行加注載體形態工作。所謂加注載體形態就是將建庫機構在掃描圖片時同時測量記錄的各文書紙張類型、大小信息逐一粘貼到從其他機構拷貝并經過以上處理的相應圖片文件名上。若使用建庫機構自掃描圖片,因在最初掃描時已詳細記錄其載體形態,故這一項可省略。使用手機和相機拍攝的圖片,若沒有記錄初始載體形態,在數據庫著錄時可忽略。

3.4 加注題名

修改過分辨率的圖片可加注題名,題名的擬定要符合《清水江文書著錄項目及著錄規范》(建庫機構自行制定),規范是按照“契約文書主體(事主)+事由+契約文書類別+契約文書簽訂時間”擬定。其中立契人為契約的主體,契約的文書類別為(賣契、租佃契、財產與山林析分合同、典當借貸、撥約字合同、宗族與分家文書、清白字等[6]);契約文書時間依原文書錄入。將事先擬定的題名復制到相應圖片文件名上,注意要復制到載體形態之前,不必加標點符號,加注題名的過程如下。

原文件名:001_楊秀錦40 cm×45 cm;毛邊紙.JPG

題名:石秀先立賣杉木字(光緒十八年二月初九日)

加注題名后文件名:石秀先立賣杉木字(光緒十八年二月初九日)40 cm×45 cm;毛邊紙.JPG

3.5 添加水印

原則上清水江文書數字化應盡可能保持其文獻的原始性,不應添加任何水印。但是,因文書圖片多為建庫機構有償掃描或復制而來,為保護其知識產權,防止非法拷貝及截圖,所以要為圖片添加數字水印。通常水印文字為文書所屬版權機構,如“XX大學圖書館”“XX博物館(檔案館)”等,經測試效果,確定水印文字選擇黑體,26號,居中,透明度為90%~92%,具體透明度數值視圖片顏色深淺而定。此項操作可批量進行,處理速度較快,但要注意添加水印時保持圖片上文字與水印文字方向一致性。

3.6 JPG轉PDF

為了便于圖片批量處理,在保存圖片時大多選擇JPG格式,但是有些收藏機構也保存為TIF格式文件,這時一般在處理時也先將其批量轉換為JPG格式文件。

JPG格式文件的擴展名后綴為“.JPE”或“.JPEG”,是最常用的一種有損壓縮圖像文件格式,能夠將圖像壓縮在很小的儲存空間,圖像中重復或不重要的資料會丟失[7]。這種格式為點陣式,如果圖片里有大小為6號或6號以下的文字,用JPG格式的文件發布后文字會看不清楚。

因此,在最終將文書圖片上傳到數據庫著錄前,要將其轉換為更具優勢的PDF格式文件。PDF是一種便攜式文檔格式,其可以將文字、字型、格式、顏色及獨立于設備和分辨率的圖形圖像等封裝在一個文件中,文字效果是矢量型,理論上無限放大不失真[8]。該特性非常適用于紅契文書中公章的辨別,通過不失真的放大可以清晰識別紅契文書(官文書)中公章細節,從而判斷出文書的年代及其他歷史信息。

將JPG圖片轉換為PDF文件,可利用軟件批處理進行,轉換前先新建一個保存PDF文件的文件夾,避免和JPG源文件混在一個文件夾中。轉換時注意根據電腦性能選擇合適的文件數量批處理,為避免死機,不建議一次轉換超過500張圖片。

3.7 數據庫中添加文書收藏地進行歸戶管理

借鑒上海交通大學在“中國地方歷史文獻數據庫”建設中,提出的尊重文獻的產生來源與固有系統的歸戶性理論,制定《清水江文書地域導航設置細則》,登錄清水江文書后臺管理系統,在數據庫的歸戶導航欄中添加文書所在的市(縣)、鄉、鎮、村與戶進行歸戶管理,要求嚴格按照前期制定細則中的相應編號添加。即取黔東南三字漢語拼音首字母大寫“QDN”作為頂級(一級)地域代碼,且為唯一代碼;黔東南州轄縣市設置為二級地域代碼“QDN00”,使用2個字符“00”來標識下設縣域,黔東南州下轄16個縣市,即用“01~16”分別表示;黔東南縣域下轄的鄉鎮設置為三級地域代碼“QDN0000”,增加2個代碼來標識鄉鎮;鄉鎮下轄的村落設置為四級地域代碼,用2位阿拉伯數字表示;村落下面用3位阿拉伯數字來標識清水江文書的歸戶(收藏戶)[9]。

以“黔東南州錦屏縣平秋鎮石引村劉光環家藏文書”導航設置為例,其代碼為:QDN010202001。

(歸戶編碼按當地收藏文獻先后順序編寫,其他編碼按照《清水江文書地域導航分類細則》編寫)。

3.8 批量上傳文件

將上述.PDF文件作為數字對象上傳到數據庫提前建好的收藏戶名下,上傳前注意記錄下數據庫中最后一條數據的記錄號。因系統設置及字庫不全,文書題名中全角字符、某些生僻字(如:、)或異體字數據庫無法識別將導致傳輸中斷,這時就要檢查中斷原因并在處理后繼續上傳后續數據,記錄好原數據記錄號和已上傳數據量,確保不會產生漏傳、重復上傳及誤刪除等錯誤。

對于多張掃描圖片屬于一本書的情況,要分別處理每張圖片,添加水印后生成一本PDF電子書后再上傳。

4 存在問題及改進方向

在清水江文書數據庫建設過程中,發現文書的數字化及數字化后圖片的預處理過程存在一些問題,同時也提出了改進方向,現總結如下。

4.1 存在問題

(1)缺乏針對清水江文書的統一數字化標準

清水江文書研究近些年逐步崛起,已成為和安徽文書、敦煌文書齊名的三大文書之一,但是目前為止并沒有權威部門制定出針對清水江文書的統一數字化標準。清水江文書作為地方歷史文獻,其數字化應該符合地方歷史文獻的相關標準。縱觀近十來年國內外發布的各種數字化標準,并沒有專門針對地方歷史文獻而制定的標準,而且在已有的數字資源加工標準或規范中,數字資源僅限定為文本、圖像、視頻和音頻等,但清水江文書并不能簡單地定義為普通的文本或圖片資源,其來自于民間不同年代,載體形態多樣(紙、皮、布等),僅紙就分為棉帛紙、草紙、皮紙、毛邊紙等多種類型,且幅面不規則、顏色深淺不一,局限于沒有統一的標準用于數字化,給清水江文書的數字化加工帶來很大難度。鑒于此,各研究機構在對清水江文書數字化時只能各行其是,通過在實踐中逐步摸索、修訂而制定相應標準及規范,但因制定人的知識水平、認知能力、涉獵學科不同等而衍生出參差不同的標準。這就使得數據庫后續的可使用性、可互操作性和可持續性嚴重受限。

(2)缺乏清水江文書圖片預處理規范

所謂圖像預處理,在計算機技術中指的是消除圖像中無關信息,恢復有用的真實信息,增強有關信息可檢測性和最大限度簡化數據[10]。然而,在清水江文書數據庫建設過程中,為最大限度保持文書原始性,預處理的含義更加廣泛,不只是針對個別有污損、亮度低等影響文書閱讀的情況先行處理以增強有關信息的可檢測性,還包括后續進行的圖片檢查、比對、轉正、裁剪、修改分辨率、加注載體形態、加注題名、添加水印、JPG轉PDF文件、數據庫中添加文書收藏地、上傳PDF文件到數據庫這11步操作。然而上述操作并沒有按照相關規范來遵照執行,很多標準都是數據庫建設人員在使用過程中逐步摸索改進中形成,如題名格式文中規定是按如下形式:石秀先立賣杉木字(光緒十八年二月初九日),但是在譚洪沛的《九寨侗族錦屏文書輯存》則是采用另一種表現形式:光緒十八年二月初九日(1892)石秀先立賣杉木字;此外,在江蘇人民出版社出版的《天柱文書》和貴州人民出版社出版的《貴州清水江文書·三穗卷》則采用的是如下格式:光緒十八年二月初九日石秀先立賣杉木字,諸如此類情況不勝枚舉。除此之外,圖片命名規則、分辨率大小設定、水印標準等都存在各機構各部門標準不一致的情況。這諸多的不一致性就導致各機構數據庫之間數據交流、置換的可能性降低,難度加大,這與打破清水江文書的地域局限性,多角度挖掘文書資源潛在價值的初衷相違背。

4.2 改進方向

清水江文書資源數字化合作共享,在調研、比較的基礎上,明確數字化建設應遵循標準化、一致性、可擴展性、兼容性等原則。

(1)標準化原則

標準化將提升清水江文書數字化產品在將來使用的可能性,有助于數據交換和資源共享。通過對國內外數字化加工標準和規范的調研,盡可能直接引用或參考國際上已經普遍應用的技術標準[11],在此基礎上須認真參照權威機構發布的研究成果,開展數字化,建設地方清水江文書標準數據庫。

(2)可擴展性原則

考慮到清水江文書既不是一般檔案資料,又非單一內容的專業學科主題文獻,加之目前尚未形成統一的分類標準,其數字化產品的分類法宜結合文獻的動態性,著眼于未來發展,提供較高的可擴展性。

(3)兼容性原則

考慮與國內代表性應用方案的兼容問題,要充分考慮與CALIS、中國科學院及其他一些行業的數字圖書館系統的標準兼容問題,以保證各系統間互操作的實現[12]。

猜你喜歡
數據庫
數據庫
財經(2017年15期)2017-07-03 22:40:49
數據庫
財經(2017年2期)2017-03-10 14:35:35
兩種新的非確定數據庫上的Top-K查詢
數據庫
財經(2016年15期)2016-06-03 07:38:02
數據庫
財經(2016年3期)2016-03-07 07:44:46
數據庫
財經(2016年6期)2016-02-24 07:41:51
數據庫
財經(2015年3期)2015-06-09 17:41:31
數據庫
財經(2014年21期)2014-08-18 01:50:18
數據庫
財經(2014年6期)2014-03-12 08:28:19
數據庫
財經(2013年6期)2013-04-29 17:59:30
主站蜘蛛池模板: 久青草网站| 午夜视频免费试看| 国产精鲁鲁网在线视频| 亚洲热线99精品视频| 在线高清亚洲精品二区| 国产日韩AV高潮在线| 伊人福利视频| 欧美精品v日韩精品v国产精品| 亚洲国产成人无码AV在线影院L| 国产精品高清国产三级囯产AV| 日韩国产综合精选| 国产网站免费| 97se亚洲| 最新亚洲av女人的天堂| 久久婷婷人人澡人人爱91| 一区二区在线视频免费观看| 中文字幕永久在线看| 国产欧美高清| 国产区福利小视频在线观看尤物| 91色爱欧美精品www| 97亚洲色综久久精品| 最新亚洲人成无码网站欣赏网| 精品国产Av电影无码久久久| 又爽又大又光又色的午夜视频| 欧美一级高清免费a| 不卡午夜视频| 欧美日韩在线亚洲国产人| 亚洲精品午夜天堂网页| 欧美一级99在线观看国产| 欧美成人看片一区二区三区 | 爱爱影院18禁免费| 日本亚洲成高清一区二区三区| 午夜激情婷婷| 一本久道久综合久久鬼色| 免费一极毛片| 韩国自拍偷自拍亚洲精品| 日本高清视频在线www色| 极品av一区二区| 久久综合九九亚洲一区| 亚洲综合色区在线播放2019| 午夜日b视频| 久久99国产综合精品1| 91精品最新国内在线播放| 怡春院欧美一区二区三区免费| 国产精品一线天| 操国产美女| 在线观看的黄网| 人与鲁专区| 996免费视频国产在线播放| 亚洲福利网址| 好紧太爽了视频免费无码| 亚洲精品不卡午夜精品| 免费国产高清视频| 日韩一区精品视频一区二区| 欧美国产综合色视频| 亚洲自偷自拍另类小说| 日韩国产无码一区| 国产日韩精品欧美一区灰| 又猛又黄又爽无遮挡的视频网站| 免费无码一区二区| 精品久久久无码专区中文字幕| av一区二区三区高清久久| 欧美一级专区免费大片| 欧美a级在线| 一级毛片在线直接观看| 国产黑丝视频在线观看| 亚洲一级毛片在线观播放| 国产毛片不卡| 免费女人18毛片a级毛片视频| 亚洲制服中文字幕一区二区| 国产精品第| 99这里只有精品在线| 精品综合久久久久久97超人| 国产视频欧美| 高清国产va日韩亚洲免费午夜电影| 欧美日韩动态图| 国产sm重味一区二区三区| 久草视频一区| 欧美日韩国产在线观看一区二区三区 | 毛片大全免费观看| 欧美日韩国产高清一区二区三区| 亚洲狠狠婷婷综合久久久久|