999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

文獻數字化技術在自建數據庫中的應用策略研究

2009-04-29 00:00:00王天亮
現代情報 2009年12期

〔摘 要〕從文獻數字化實現過程出發,簡述了文獻數字化技術,并提出自建數據庫數字化技術的選擇原則,然后就文獻數字化技術在自建數據庫過程中的應用策略進行了探討。

〔關鍵詞〕自建數據庫;文獻數字化;數字化技術

〔中圖分類號〕G259 〔文獻標識碼〕B 〔文章編號〕1008-0821(2009)12-0135-04

Application Strategy of Literature Digitization

Technology on Self-built DatabaseWang Tianliang

(Maoming Library,Maoming 525000,China)

〔Abstract〕Starting from the process of realization of Literature digitization,this paper gave a brief description on literature digitization technology.Besides,some principles to choose for the Self-built database in digital technology were proposed.Then a discussion on the application strategies of literature digitization technology on the self-built database was made.

〔Keywords〕self-built database;literature digitization;digital technology

隨著計算機技術和網絡通信技術為核心現代信息技術迅猛發展,互聯網成為人們獲取、處理和交流信息的主流渠道。21世紀的信息世界是“數字圖書館”占主導地位的時代,是整合所有信息機構的資源和功能,建立一個包羅萬象的信息倉儲,提供綜合的公共信息訪問,使用戶能夠通過互聯網高效方便地獲取所需信息。圖書情報、博物展覽、檔案管理、影視等信息機構長期以來擔負著知識儲備、知識開發的重任。它們在數字時代來臨時迫切需要加強資源數字化建設,充實信息內容;也會以無可比擬的館藏優勢和專業信息開發能力,成為信息數字化建設的主力軍。隨著,計算機、掃描儀、數碼攝影機、視頻采集卡等設備日益普及,以及多媒體信息處理、信息壓縮與傳遞、信息抽取、數據挖掘、信息檢索、自然語言理解等技術的應用,信息機構除了購買商業化數據庫外,逐漸加快開發自身特色資源——自建數據庫,將館藏核心文獻或特色文獻轉化為數字化信息,實現網絡傳播、信息共享。如各圖書館以地方文獻、專題特色文獻、古籍等數字化建設作為網絡環境下新的定位與發展目標。檔案機構將建立“數字化檔案查詢系統”作為保護珍貴檔案原件、提高服務質量的必要手段;也是實現政府公文系統,達到資源共享的重要途徑。“數字博物館”以數字形式對文物的各方面信息進行收藏、管理、展示和處理,實現通過互聯網為用戶提供數字化的展示、教育和研究。視頻信息機構更是將自己的資源數字化成流媒體實現網絡點播,迎合互聯網用戶的需求。然而,在政策開放、技術成熟、市場需要的情況下,許多信息機構在自建數據庫過程中出現不少問題,如進展緩慢、耗資巨大、效率低下等現象。導致問題產生的原因是多方面的,究其主因在于信息機構自建數據庫不僅存在資金、人才等因素,也存在對數字化理論、標準及技術研究不夠了解。因此,筆者從信息機構自建數據庫實踐出發,分析和探討了文獻數字化技術及其應用策略,希望對即將或正在自建數據庫的工作人員有所幫助。

1 文獻數字化技術概述“文獻數字化”是利用現代信息技術對傳統介質的文本(包括印刷圖書)、圖形、圖像、聲音、視頻等信息進行格式轉換和壓縮處理,使其轉化為數字信息并存儲;然后通過計算機技術和互聯網為依托進行信息傳遞,實現檢索,為本地和網絡讀者提供信息服務。此定義包含有三層含義:一是文獻轉換處理,即模數轉換過程;二是信息在計算機承載過程;三是信息用于讀者檢索過程。文獻數字化的不同階段包含不同的數字化技術。文獻模數轉換過程包括信息加工與處理技術以及相關的格式及標準,是提高數字化工作質量的關鍵技術;信息的承載過程包括數字化信息平臺技術、信息存儲技術、信息壓縮技術,是數據信息得以存儲和長期保存的保障技術;為實現讀者信息檢索包括文獻標引、檢索、安全技術,是數據信息得以交流、發布保障技術。文獻數字化技術復雜多樣,每一過程中的數字化技術都包括眾多的細小技術,信息機構要充分考慮到數字化的對象及單位的實際情況來選擇和應用合適的技術。

2 自建數據庫數字化技術選擇的原則

2.1 先進性原則采用的技術應該先進的,并遵循國家或國際標準,保證數字信息在較長時間內不被淘汰。

2.2 實用性原則采用的技術要具備較高的性能,適應自建數據庫建設和用戶利用的需求;同時考慮到經費投入,有效地控制成本。

2.3 易用性原則采用工作人員易于操作和管理的技術,管理人員能較為方便的進行系統的配置、管理和維護工作。

2.4 安全性原則采用穩定可靠的成熟技術,任何條件下都可以保證數據的完整性、保證數據不損毀、不丟失,滿足關鍵任務的要求;確保未經授權的數據不被訪問、瀏覽、讀取、寫入或者執行;確保傳輸過程中的數據不被竊取、篡改。

2.5 開放性原則適應多廠商、多平臺和系統的持續性發展,能適應自我開發需求。

2.6 兼容性原則解決不同數字平臺、軟件和信息無法兼容的難題,使跨行業、跨學科的數字化館藏能夠實現共享,也使用戶能輕易獲取數字庫信息的保障。

2.7 擴展性原則能有效地支持多系統多平臺及多種應用的異構處理環境,能在一個系統擴展多個多類型專題數據庫。

2009年12月第29卷第12期文獻數字化技術在自建數據庫中的應用策略研究Dec.,2009Vo3 自建數據庫文獻數字化技術的應用策略

3.1 信息處理與加工技術的應用策略

3.1.1 文本數字化技術的應用策略信息機構擁有的信息有不同的類型,對各種信息的模數轉換技術和標準也不盡相同。因此,信息機構應根據自己信息的類型選擇最為適合的數字化技術。目前,文本(包括印刷圖書)信息仍是信息機構的主要的館藏資源,是數字化對象最多的文獻形式。文本信息的數字化技術常見的有鍵盤錄入、電子筆錄入、語音輸入、掃描與OCR識別等。其中以OCR技術應用最廣泛,較為流行的OCR軟件有漢文、清華紫光、尚書一號、智慧人等。文本信息特別是印刷型文獻的數字化技術還有一種全息數字化技術——具有采集全部信息、摘編文本、全面檢索能力3個方面優越性的數字化技術。此項技術目前尚未完全成熟,且成本高昂,一般的信息機構很難操作。

3.1.2 圖形、圖像數字化技術的應用策略圖形數字化技術有兩種途徑:一種是用AutoCAD重新繪制,形成可以作為電子文件直接處理的矢量圖形數據;但此方法工作量相當大,大部分工作屬于重復勞動;另一種方法用掃描儀掃成光柵圖像輸入計算機,這種方法工作量小,正確率高;但人們無法直接對光柵進行編輯,不是真正的數字化圖紙。自建數據庫數字化方法選擇中,可結合這兩種技術,采用CAD軟件和具有光柵編輯、矢量混合編輯或全自動矢量化功能的圖形處理軟件對圖形進行數字化。圖像信息數字化技術常用有點處理、區處理、幾何處理等方法,諸如流行的圖像處理軟件Photoshop、Fireworks、Coredldraw、Mapshop等基本上都能整合這些方法;同時可以去除噪聲、對比度擴展、灰度變換、伙彩色處理等調節手段來提高清晰度,提高圖像質量。如善本古籍、脆化檔案、古生物化石等數字化幾乎需要完全取代原件效果,數字化技術要求極高。

3.1.3 音頻、視頻的數字化技術的應用策略音頻信息、視頻信息數字化技術是利用音頻、視頻卡,通過采樣量化把傳統磁性載體或光電載體上的模擬音頻信號轉換成計算機可以識別與處理的音頻、視頻數據文件。在音、頻信息實際模數轉換操作時,根據采樣精度、采樣頻率、聲道數需要選擇音頻信息采集質量,消除聲像信號產生、獲取和傳輸過程引入的失真和干擾,使之盡可能逼真地再現聲音和景象;盡可能除去無用信息,突出主要信息。如以口傳文獻形式代代相傳的藝術和技藝,為保持語音檔案的原始記錄性,必須盡可能的保持聲音的真實性,可采用直接生成的模數轉換技術,并保證經過軟件處理后,能保證聲音文件的音質、音效得到很好地優化。課堂錄像、音樂演唱會專輯、具有歷史意義的時期電影電視節目和重要的歷史人物言行的錄像等數字化可以選用一些含有增強、降噪的技術。如對一些復雜的對象,如瀕臨失傳的珍稀語言文字女書,需要采用多媒體技術,一方面以數字影像技術形成全文圖像記錄保存文獻的外觀,另一方面需要以音頻文件記錄保存以女書頌讀、傳唱的詩歌和歌曲。

3.1.4 三維模擬技術的應用策略一些信息機構在對館藏資源數字化的基礎上結合DEM、3DGIS、地理信息系統、全球定位系統等計算機圖形圖像技術,將復雜的城市規劃、建筑結構、城市規劃、地理信息、文物、自然景觀等加載聲音、照片、影像、動畫等數據,用戶通過交互操作,可動態地、多視角地、多層面地瀏覽和欣賞實物、實景、實事。這種技術稱為三維模擬技術,較適宜于博物館、展覽館、城市規劃、地理測繪等信息機構建設數據庫采用。對于三維模擬技術的應用,信息機構根據經濟和自身現有的技術基礎來綜合考慮。

3.2 信息承載技術的應用策略

3.2.1 數字化資源系統平臺選擇數字資源平臺是滿足信息機構自行建設數字資源的需求,它可以通過收集有價值的信息,進行模數轉換、元數據加工,提供高質量存儲、管理及在線查詢服務的一種功能復雜的專業性軟件。選擇優秀的數字化平臺是自建數據庫時文獻數字化一個關鍵問題。常見的一種技術方法是開發或購買基于ASP.NET技術的有后臺管理的網站型數據庫。如Xplus數字報刊制作發布系統、中國船泊數據庫、冼夫人信息網等。此類平臺可完全根據自己數據庫內容要求構建,可塑性強;信息的加工及方法也可根據自己采用適合的技術。但此類平臺信息類型較單一,自動檢索功能差,無自動標引等功能。自建數據庫單位如果僅從公益性和資源種類單一性出發,選擇此種平臺則較為合適。第二種就是選擇技術成熟的數字資源管理系統,如比較常見的自建數據庫平臺有TRS、TPI、CDI、CGRS、FTR、萬方、方正淵博等。這些數字資源系統具有完備的文獻數字化加工系統、數字資源管理系統和發布系統,采用國內外先進的圖書館數字化的模式,遵循國際標準、可升級、可擴展,足以從技術上保證自建數據庫的生命力和競爭力。

3.2.2 信息存儲技術的應用策略數字化資源存儲的是大容量數據,國外有人稱之為“數字圖書館”的定時炸彈,是事關數字圖書館存亡的重要問題。目前,數字化信息存儲技術有單一磁盤存儲技術、磁帶備份存儲技術、RAID技術、DAS、NAS和SAN技術。當前互聯網環境下,單個硬盤存儲技術已完全不能滿足數字化信息在線存儲容量的需要,RAID技術在自建數據庫存儲應用較為廣泛。DAS因對網絡帶寬的依賴程度低,價格相對較低,安全性較高,維護成本較低,是圖書館等信息機構自建數據庫存儲的主流選擇模式;但其不利于集中管理和共享。若一些信息機構出于信息保密和無需上網共享的因素,DAS則是較為理想的數據存儲選擇。NAS具有較好的多平臺共享能力,強大的數據集中能力、方便的管理和可擴展性,相對SAN存儲投資的高性價比,可成為中小型信息機構自建數據庫采用的存儲技術,但不適合大型數據庫的應用。SAN是獨立于服務器網絡之外的高速存儲專用網,實現了真正高速共享存儲的目標,但投資成本大,較難成為一般信息機構自建數據庫的存儲技術。自建數據庫應用存儲技術必須考慮高效利用存儲空間,方便傳輸的前提下又不影響存取速度與利用。一些信息機構已有完善的數據存儲系統,自建數據庫時只需在現有的存儲系統中構建數據庫。因此,信息機構在自建數據庫時,應該根據經費、自身存儲系統、網絡共享平衡等因素有效地應用存儲系統。

3.2.3 信息壓縮技術的應用策略自建數據庫所涉及的文獻類型有文本、圖像、音頻、視頻等,且面臨的數據量是呈線性增長的。信息壓縮的目的是減少數據冗余,從而節省存儲和傳輸成本。根據自建數據庫文獻類型不同,壓縮技術也不盡相同。如文本、實驗結果、統計數據、二值圖像、醫療、遙感圖像或者用于法律證據的圖像需采用無損壓縮技術;特別對古籍、歷史名畫等文獻數字化,更需要選擇圖像信息無損壓縮技術,以保證這些文獻的原貌和科學研究價值。有損壓縮主要用于連續數據經過離散化之后的壓縮,例如圖像、視頻和音頻數據等;但也要在在存儲空間與音(視)頻失真度之間取得平衡。但如對珍貴的音(視)頻資源,應選擇無損壓縮技術,其在線存貯宜選擇.wav格式,脫機存貯宜選擇CD格式;對需要長期保存的一般資源,可視具體情況選擇失真度較小的有損壓縮技術。

3.3 信息標引與檢索技術的應用策略

3.3.1 采用元數據標引,遵循統一的標準和規范元數據是指描述某種類型的資源或對象的屬性,并對這種資源進行定位和管理,同時助于數據檢索的數據。元數據既是數據整合管理工具,也是一種可以直接被用戶利用的數據資源,是聯接數據、用戶和信息管理者三方面的紐帶。元數據越豐富,查詢的能力就越大,從網絡或系統中發現和獲取新價值的機遇也就越多。目前我國對中文元數據的研究已取得了相關成果,經過不斷研究和創新,制定出了相關標準和格式。如“基于XML的電子文件格式”、“中文元數據庫方案”、“數字式中文全文文獻通用格式”、SGML標準等。自建數據庫時,不同類型文獻數字化技術應選擇具有前瞻性、較為先進的標準和格式,避免重復建設。在文獻標引中,自建數據庫單位必須選擇統一的標準、規范,如元數據定義、各種代碼標識符的定義標準、各種文獻類型描述標準等,真正達到資源共建共享目的。如需要數字化的館藏資源簡單有序,專題不多,對其質量要求較為基礎,只側重考慮讀者利用,數字化館藏的元數據可采用SGML標準。如果自建數據庫數字化的藏資源數量十分龐大,且數字化項目規劃較為完善,要求建立易存取、易管理、易檢索、易訪問的藏品數據庫,就必須創建多層次、多角度的元數據機制。在開展資源數字化工作之前,自建數據庫系統設計者應創建有效的元數據采集機制,將各種的元數據庫都聯合為一體,可以使不同類型原始文獻被賦予一致的“數字屬性”,有助于文獻內容在網絡空間內得以高度整合,從而實現無障礙的交流與互動。如建立地方文獻數據庫則要構建和采用地方文獻通用的元數據,以支持對數據庫的整合管理與存取。如建立古籍數據庫則要采用通用的古籍元數據等。

3.3.2 檢索技術的應用策略自建數據庫的數字化信息資源能否提供有效、快捷、智能等檢索功能是關系到數據庫的質量的關鍵。傳統的檢索方式有書目檢索、聯機檢索(布爾邏輯檢索、字段限定檢索、截詞檢索)。目前,文本的全文檢索技術已達到了不受語種限制的全文匹配水平。對圖像、音頻、視頻的檢索技術是基于內容的檢索。如對圖形、圖像按其顏色、灰度、紋理和位置進行查詢,對語音按其曲調、旋律進行查詢。基于內容的圖像、圖形、多媒體檢索技術仍處于不斷研究階段,其檢索方式有:基于文本的查訪及瀏覽方式、基于實例的查詢方式和徒手草圖查詢方式。MPEG-7是一個初具成熟的基于內容的多媒體技術,它對各種不同類型的多媒體信息進行標準化描述,并將該描述與所描述的內容相聯系,以實現快捷有效的檢索。信息機構自建數據庫時,對文本除提供書目檢索、聯機檢索的檢索技術外,重點應提供全文檢索方式;對于圖像、圖形、多媒體采用目前技術成熟、易操作應用的檢索技術。

3.3.3 安全技術的應用策略信息安全技術是保障信息安全與保密的必要措施。信息機構在自建數據庫時首先需要對數字化館藏的價值、保密程度和面臨的安全威脅進行全面的風險評估;其次根據自身需要的安全服務種類和級別,選擇相應的安全機制,然后集成先進的安全技術,建立全方位的安全系統。為了使信息在網絡中獲得安全、高效的傳輸,自建數據庫時應采取控制措施,較常用的有加密、信息隱藏、防火墻、虛擬專用網、反病毒等安全保障技術措施。同時,加強數據庫使用的權限管理、備份及其定期維護。如有關數字化權益保護方面,自建數據庫可以采用加密與數字簽名技術防止在網絡傳輸中數據被竊取;采用數字水印技術避免文本非法復制和被盜用等。總而言之,信息機構在自建數據庫時,應借鑒他人積累的經驗和教訓,根據應該需要、資源特點、預算、可建庫數量、用戶等因素,選擇合適的文獻數字化技術,并進行科學的實施。

參考文獻

[1]王蘭成,敖毅.數字圖書館技術:信息集成與信息檢索[M].北京:國防工業出版社,2007.4:23-67.

[2]田捷.數字圖書館技術與應用[M].北京:科學出版社,2002.6:51-106.

[3]潘芹.高校中小型圖書館數字化進程與文獻信息資源建設探討[J].中國西部科技,2008,(24):92-94.

[4]工嵐.數字圖書館自建數據庫方案探討[J].科技信息,2008,(24):72-73.

[5]吳恒憶.中小型圖書館自建特色數據庫系統平臺的比較[J].圖書館工作與研究,2008,(1):54-56.

[6]孫長虹.高校圖書館自建數據庫中的阻滯因素與對策[J].現代情報,2008(4):39-41.

[7]葉吉波.示范院校圖書館自建數據庫模式研究[J].溫州職業技術學院學報,2008,(2):23-25.

[8]袁紅軍.文獻數字化實用系統分析與選擇[J].新世紀圖書館,2005,(6):51-53.

[9]史玉霞,林桂娜.數字圖書館印刷型文獻數字化加工系統比較研究[J].情報雜志,2006,(10):14-16.

主站蜘蛛池模板: 中文精品久久久久国产网址| 国产69精品久久久久孕妇大杂乱| 国产成人精品高清不卡在线| 欧美一级99在线观看国产| 国产成人精品午夜视频'| 蜜桃视频一区| 热99re99首页精品亚洲五月天| 日韩欧美国产成人| 亚洲天堂成人| 午夜国产理论| 久久99这里精品8国产| 91精品在线视频观看| 国产亚洲现在一区二区中文| 99精品热视频这里只有精品7| 国产成人精品免费视频大全五级 | 亚洲av日韩av制服丝袜| 国产精品无码AV中文| 国产成人精品一区二区三区| 日韩无码真实干出血视频| 国产成人亚洲日韩欧美电影| 毛片在线播放网址| 久久精品国产亚洲麻豆| 久久这里只有精品66| 美女毛片在线| 9啪在线视频| 亚洲九九视频| 免费在线不卡视频| 精品国产自| 欧美日韩国产在线人成app| 一区二区三区高清视频国产女人| 亚洲天堂在线视频| 色综合中文综合网| 1024国产在线| 99在线观看精品视频| 欧美精品亚洲精品日韩专| 午夜人性色福利无码视频在线观看| 91在线国内在线播放老师| 亚洲品质国产精品无码| 日韩欧美国产综合| 国产呦精品一区二区三区下载| 首页亚洲国产丝袜长腿综合| 米奇精品一区二区三区| 麻豆国产在线观看一区二区 | 色婷婷狠狠干| 亚洲成人www| 精品人妻无码中字系列| 五月天在线网站| 日本黄色不卡视频| 国产日韩欧美成人| 国产91蝌蚪窝| 毛片免费在线视频| 99ri精品视频在线观看播放| a级毛片一区二区免费视频| 91国内在线观看| 9啪在线视频| 在线永久免费观看的毛片| 天天综合网站| 91成人在线观看| 无码AV高清毛片中国一级毛片| 久久96热在精品国产高清| 精品国产成人高清在线| 中文成人在线视频| 日韩av电影一区二区三区四区| 国产激情在线视频| 日本三级黄在线观看| 亚洲AV无码一区二区三区牲色| 精品久久人人爽人人玩人人妻| 91丝袜美腿高跟国产极品老师| 午夜国产精品视频黄| 久久情精品国产品免费| 呦女精品网站| 日本精品中文字幕在线不卡| 欧美午夜一区| 手机永久AV在线播放| 亚洲女人在线| 国产一级做美女做受视频| 久久窝窝国产精品午夜看片| 国内老司机精品视频在线播出| 欧美一级高清视频在线播放| 婷婷亚洲最大| 日本在线国产| 欧美一级高清视频在线播放|