保麗娟
云南中醫學院,云南 昆明 650500
?
云南少數民族醫藥文獻數字化整理探討
保麗娟
云南中醫學院,云南 昆明 650500
民族醫藥文獻數字化是保存和促進少數民族醫藥知識及文化傳播的有效途徑。論文從數字化準備工作、加工標引、管理發布等方面詳細介紹了云南少數民族醫藥文獻數字化建設的操作流程和步驟,并針對云南少數民族醫藥文獻不同載體類型的特點及少數民族文字的特色詳細介紹了數字化方法,以期為民族醫藥文獻數字化工作提供參考和借鑒,促進民族醫藥事業的發展。
民族醫藥文獻;數字化流程;數字化方法
民族醫藥文獻數字化是指利用現代電子信息處理技術在相關標準的指導下對民族醫藥文獻進行加工標引等處理,使其轉化為電子數據形式存儲到數據庫中,然后通過光盤、網絡等途徑進行信息檢索和查詢,以便于文獻資源的保存和傳播。民族醫藥文獻數字化是保護與傳承民族醫藥資源和文化的重要方式之一,數字化以后的民族醫藥文獻資源不僅能夠真實清晰地反映資源的本來面貌,促進民族醫藥資源和文化的傳播,還能有效解決民族醫藥文獻保護與使用之間的矛盾。縱觀云南少數民族醫藥文獻數字化成果可以看到,這些數據庫大都只是進行了文獻資料的整理和資料的入庫建設,數據庫功能結構單一,各數據庫相互獨立,結構模式簡單,難以擴展升級。這些數據庫的模式和結構限制了云南少數民族醫藥數據資源的傳播和共享,并不能完全滿足對民族醫藥文獻資源深度挖掘的需要。因此,需要制定一套完整的民族醫藥文獻數字化整理方案,并以該方案為標準和指導,統一規劃,合理部署,以實現資源的充分利用。在數字化整理方案中,數字化流程及數字化方法規范是方案中的重要組成部分,因此需要針對云南少數民族醫藥文獻資源的特點制定出詳細的數字化流程及相應的數字化方法以指導數字化加工人員規范操作。
文獻數字化流程,是云南少數民族醫藥文獻數字化建設項目中的關鍵步驟,數字化流程主要分為三個階段,見圖1。第一階段是前期準備工作階段,第二階段是民族醫藥文獻信息資源的數字化制作與加工階段,第三階段是數字化文獻的發布及管理階段[1]。

1.1 數字化準備工作 對于民族醫藥文獻資源數字化建設項目來說,充分、完備的前期準備工作是項目能順利開展的前提和保障,是整個數字化項目建設中的第一步,數字化準備階段包括以下幾個主要工作。
1.1.1 少數民族醫藥文獻資源收集 根據數字化建設的主題,確定民族醫藥文獻的收集范圍。確定所需要收集文獻的內容及形式,然后進行全方位的資料收集。民族醫藥文獻資源的收集要與相關民族地區圖書館、博物館、醫療機構、科研院所等單位密切配合,開展大量的民族地區民間走訪,采用田野調查的方式對各種載體形態的民族醫藥文獻資源進行搜集。對于印刷型或手寫型文獻,可以通過復印、掃描、拍照等方式收集;對于刻寫型文獻,通過拍照,拓印等方式收集;對于口碑文獻,可通過文本記錄、錄音、拍攝影像等方式收集。理順收集渠道,采用對外交換,對內挖掘,利用搜索引擎對現有的相關民族醫藥電子文獻進行篩選等方法,收集與數字化建設主題相關的各類民族醫藥文獻資源。
1.1.2 少數民族醫藥文獻資源整理 根據數字化建設的主題,對民族醫藥文獻資料進行篩選,按照所制訂好的《民族醫藥文獻數字化分類方案》進行分類整理,對于版面信息殘缺不全的民族醫藥文獻,在數字化工作之前進行信息補缺或做相應的說明,以保證文獻信息的真實性和完整性,然后對原始民族醫藥文獻進行拆分、拼接、文獻載體清潔處理等數字化加工前準備工作,為原始民族醫藥文獻添加資源標示符,以便于資源編目及數字化掃描等工作,確定適合數字化建設主題的元數據規范、文獻標引及著錄規則。
1.1.3 軟、硬件設備準備 結合需要數字化的資源類型以及需要達到的數字化效果,根據數字化硬件設備的性能,綜合數字化建設項目的考慮和權衡,選擇適合的數字化硬件設備及數字化軟件平臺,以減少數字化建設中出現的故障及數據錯誤概率,保障數據信息的安全可靠,提高民族醫藥文獻數字化建設的效率。同時根據民族醫藥文獻的特點和數字化軟件平臺的功能,結合民族醫藥文獻數字化項目中的數據采集、加工效果、數據識別等要求,確定不同載體民族醫藥文獻的數字化技術。
1.2 民族醫藥文獻資源的數字化加工與標引 民族醫藥文獻數字化建設的數字化準備工作結束以后,就需要對少數民族醫藥文獻資源進行數字化加工與制作,主要包括民族醫藥文獻資源的數據采集、數據加工標引和數據存儲三個方面的工作。
1.2.1 數據采集 民族醫藥文獻數據采集必須要做到及時、準確、有效地獲取所需數據信息,在數據采集中要充分體現民族醫藥文獻資源的特色,做到民族醫藥資料的全面性、系統性和連續性。在民族醫藥文獻數據采集中,需要完成各種載體類型民族醫藥文獻信息的采集,包括各類紙質文獻、圖片資源和音視頻資源以及網絡資源、現有數據庫資源等的采集工作。對于非電子化的資源,還需要通過掃描、拍照、錄入等方式將其轉換為電子資源,根據數字化加工平臺的格式要求及數據采集要求,對所有需要數字化的資源進行數據轉換和格式規范,然后批量導入。
1.2.2 數據加工標引 在民族醫藥文獻數據采集工作完成后,要對所采集的數據信息做進一步的加工處理,以揭示民族醫藥文獻資源的信息價值。各民族醫藥文獻在形式以及內容上均不統一,增加了數據加工和處理的難度,因此,在數據加工之前,要做好不同類型資源的轉換、統一,同時對數據的格式、質量做好規范化處理。
另外,在數字化加工中,首先需要在數字化加工平臺中完成數據庫的結構搭建,包括數據庫的分類結構和元數據結構,以便于數據的標引和著錄。然后根據數字化平臺所提供的標引技術,采用自動標引技術、人工標引技術或者兩者結合的標引方法,依據所制訂的云南少數民族醫藥文獻分類方案、元數據方案以及標引著錄規則完成民族醫藥文獻信息的標引和著錄工作。
1.2.3 數據存儲 數據存儲能對加工標引后的數據進行科學有序的存儲和保管,以便于以后對數據信息的使用。數字化工作人員應按照規定的數據格式、加工規則和數據順序要求,將加工后的民族醫藥文獻數據信息,通過直接存儲到鏈接存儲設備上或通過直網絡方式存儲到云存儲中,在數據存儲中要保證民族醫藥文獻數據信息的安全性和完整性。
1.3 云南少數民族醫藥文獻數字化數據管理及發布 云南少數民族醫藥文獻數字化建設的最終目的是便于民族醫藥的傳播和研究學習,因此,數字化加工存儲后,還需要對云南民族醫藥文獻信息進行發布和管理,數據發布和管理工作對民族醫藥文獻信息資源的利用至關重要[2],需要做好以下幾方面的工作。
1.3.1 數據發布 根據數字化成果的使用范圍和使用權限,將數字化后的云南民族醫藥文獻信息發布到互聯網上,對不同版權的文獻信息設置不同的訪問權限,以供民族醫藥研究和學習者瀏覽和檢索。
1.3.2 數據安全備份 把民族醫藥文獻信息整理備份到異地存儲或光盤上,可備份數據庫結構信息、元數據信息,原文信息等,在設備損壞或網絡安全出現問題時能有備份數據可以恢復,以保證民族醫藥文獻資源數據庫的正常使用。
1.3.3 數據更新 云南民族醫藥文獻資源數字化建設是一項長期的系統工程,在完成當前的數字化建設任務以后,還需要根據數字化主題收集民族醫藥文獻資源,然后按照所制訂的數字化方案進行數據的持續更新,保證云南民族醫藥文獻資源庫資源的可持續發展。
云南少數民族醫藥文獻的載體形態繁雜,主要有印刷型文獻、刻寫型文獻,同時還存在大量的口碑文獻。另外,各少數民族醫藥文獻還存在不同民族文字的情況,因此,在云南民族醫藥文獻數字化建設中,需要將不同載體形式的文獻資料轉換為計算機可識別和處理的數據信息。因此,數字化加工人員要針對不同文獻的類型和特點,結合數字化建設要求,選擇最為恰當的數字化方法。
2.1 印刷型文獻數字化方法 印刷型文獻是以紙為載體,以手寫、打字、印刷為記錄手段而產生的文獻。例如圖書、古籍、文稿、圖譜等。印刷型的文獻的數字化加工是指利用掃描技術、識別技術、數據庫技術、數據壓縮技術等技術手段把印刷型文獻轉化為電子文檔存儲的一種技術。對印刷型的云南少數民族醫藥文獻數字化可以采用掃描錄入方式進行模數轉換,這是最常用的數字化處理方法。這種方法的工作原理是采用掃描儀或數碼相機等光學輸入設備,將文本類民族醫藥文獻按照其原貌轉換為能夠在計算機上處理的圖像文件,文字部分可以通過OCR光學字符識別技術對所掃描的文字進行識別,轉換為計算機能處理的文字。采用掃描錄入方法能夠很好的展現文獻的原貌,具有投入少、費用低、速度快等優點。
2.2 刻寫型文獻數字化方法 云南少數民族醫藥古籍中存在大量的刻寫型文獻,即金石文獻,如傣族的貝葉經,早期彝族的碑刻文獻等。對于可寫性文獻的數字化方法,可采用拓印后掃描、數字拍攝等方式進行數字化[3]。經過掃描、拍攝轉換成圖像文件以后進行數字化加工處理。在加工處理過程中要注意保持文獻的原貌,因此需要考慮圖像處理的相關技術。
數字化后的圖像文獻一般要運用圖像處理軟件進行優化處理,進行圖像裁剪、圖像效果加強、圖像壓縮、圖片數據轉換等操作,以得到更好的圖片效果。比較常用的圖像處理軟件有Photoshop、Fireworks等。常用的數字化圖像存儲格式有TIF格式、JPEG格式、BMP格式等。圖像文件的數據量一般比較大,所需要的存儲空間也較大,因此,需要根據存儲空間以及圖像的需求進行圖片處理。
2.3 口碑文獻數字化方法 云南少數民族中流傳著許多反映各少數民族傳統醫學藥理內容的故事、傳說、歌謠、諺語等,它們是各民族文化的族群記憶,對考證各民族醫藥的起源、形成和發展有著重要價值。對于此類口碑文獻的數字化,需要從文獻采集工作開始。可以通過人工記錄、錄音或拍攝影像等方式采集口碑文獻,然后再進行數字化加工。人工記錄的資料可通過人工錄入或掃描的方式進行數字化加工,錄音或視頻數字化需要考慮到音視頻加工技術。
音頻文獻數字化,是將音頻資料通過音頻轉換設備進行識別、轉換、壓縮,生成標準格式的電子文件,并編目以及建立標引信息的過程。在音頻文獻數字化過程中需要注意兩點:一是采集聲音文件時音量要適當,如果采集音量太小,則得到的聲音文件會有損失;如果采集音量太大,則音量過載,得到的聲音文件就會變形,不能使用。二是要進行降噪處理,對于有噪音的聲音要進行優化處理,原則上是以過濾掉雜音為主,但不能過于依賴降噪器,以防止聲音文件本身及聲音細節受到損失。常用的音頻處理軟件有GoldWave、Music Match等,常用的音頻存儲格式有WAVE格式、MP3格式、RM格式等。
視頻文獻的數字化類似于音頻文獻的數字化,也是需要通過專業的視頻轉換設備對視頻文獻資源進行識別、轉換、壓縮,生成標準格式的電子文件,并將其編目標引。視頻文獻數字化的過程并不比音頻文獻數字化的復雜,在對視頻資料的處理中,需要使用視頻制作軟件對采集好的視頻文件進行切割、優化等處理,最后進行格式轉換、壓縮、存檔并上傳到數據庫中。相對于音頻文件來說,視頻文件占用的儲存空間較大,因此,選擇的視頻存儲格式既要保證畫質清晰,同時還要考慮占用空間和下載速度的問題。常用的視頻處理軟件有Adobe Premiere、Movie Maker等,常用的視頻存儲格式有AVI格式、MPEG格式、RM格式等。2.4 民族文字數字化方法 我國的55個少數民族中有23個有自己的文字,到目前為止,只有藏、滿、蒙古、朝鮮、維吾爾、柯爾克孜、傣、彝、壯和哈薩克等10種少數民族的語言文字能夠進行計算機文字處理,并能夠與漢、英等文字實現兼容。少數民族語言文字在數字化處理上的瓶頸,給民族醫藥文獻的數字化建設帶來了一定的困難[4]。目前,民族醫藥文獻中的民族文字的文本數字化處理方式主要有兩種:有民族文字字庫的,可以通過OCR光學掃描識別技術進行掃描輸入,這種方式大大提高了加工標引的效率。無民族文字字庫的一般是將民族文字文獻原件轉化為圖像文件,然后利用人工手段進行識別標引成漢字,這種方式存在加工成本高、加工效率低下等缺點。使用漢字而讀音與漢語不同的,可在進行讀音標引時單獨做標注,全方位展現民族醫藥文獻的特色。
對民族醫藥文獻資源進行收集整理,并進行進一步的數字化建設是開發利用民族醫藥資源的有效途徑,數字化技術的發展為民族醫藥文獻的整理發掘以及長期保存提供了強大的技術支持,民族醫藥信息資源的系統整理和有效管理是開發利用民族醫藥資源的基礎[5]。在“云時代”到來的大背景下,開發利用和共建共享具有代表性的民族醫藥信息資源,對及時搶救和保護民族醫藥文化遺產,深度挖掘民族醫藥文獻資源的價值,促進民族醫藥事業發展具有重要的現實意義。
[1]葛潔敏. 高校灰色文獻數字化研究[D].鄭州:鄭州大學,2010.
[2]曹霞,常存庫,裴麗.中醫古籍數字化建設及其平臺設計和實現[J]. 中華醫學圖書情報雜志,2016(03):45-47,53.
[3]侯艷,江蓉星,任玉蘭,等. 中醫藥古籍孤本文獻的保護與數字化建設[J]. 中華醫學圖書情報雜志,2011(02):30-31,70.
[4]趙東.論少數民族古籍的數字化建設[C].第十次全國民族地區圖書館學術研討會論文集.2008:279-286.
[5]諸國本.民族醫藥文獻發掘整理現狀及對策研究[J].中國民族醫藥雜志,2012(1):5-9.
Discuss on Yunnan Minority National Medical Literature Digitizing
BAO LiJuan
Yunnan University of Traditional Chinese Medicine, Kunming 650500, China
Digitalization of national medicine literature is an effective way to preserve and promote the knowledge and cultural dissemination of minority national medicine. This paper introduces the processes and steps of the digital construction of Yunnan minority national medical literature, include digital preparation, processing indexing, management and Publishment. Introduces the digital method of different literature types and minority characters in Yunnan. So as to provide reference for the digital work of national medicine literature, to promote the development of national medicine.
Minority Medical Literature; Digital Procedures; Digital Method
云南省教育廳科學研究基金項目(2014Y250)。
保麗娟(1983-),女,回族,碩士,館員,研究方向為醫學信息管理。E-mail:daibaoauto@163.com
R29
A
1007-8517(2017)11-0015-04
2017-04-27 編輯:穆麗華)