漆勝蘭
摘要:中醫古籍是中華民族幾千年防病治病的智慧結晶,是我國傳統文化的寶貴財富。本文綜合了2004-2014年中醫古籍數據庫的發展狀況,提出存在的問題,并對未來研究思路進行了闡述。
關鍵詞:中醫古籍:數據庫:建設:綜述
中醫古籍是中華民族幾千年防病治病的智慧結晶,是我國傳統文化的寶貴財富。古籍數字化是指利用現代技術將古籍中的文字或圖像信息轉化為能被計算機識別的數字符號,形成書目數據庫、全文數據庫和知識庫,從而實現古籍整理、存儲、檢索、閱讀、傳輸等目的,達到保護、利用和挖掘古籍知識的功效。通過數字化處理,既可以實現對珍貴古籍的保存,又可實現資源共享,傳承中華文明。古籍數據庫建設是古籍數字化的一種方式,本文對2004-2014年間國內外中醫古籍數據庫的建設進行綜述。
1 中醫古籍數據庫現狀
1.1 中醫古籍數據庫的建設形式及現狀
陳力認為中國大陸古籍成規模的數字化工作基本上是由教學和研究機構、圖書館、商業機構這3個類型的部門完成。從目前的數字化成果來看,中醫古籍數字化建設形式主要有書目型數據庫、全文型數據庫、全圖像型數據庫、圖文型數據庫、古籍知識庫。
1.1.1 中醫古籍書目型數據庫書目型數據庫是將古籍書名、著者、版本、卷次、摘要、出版年等信息輸入計算機而形成的數據庫,讀者可以通過書名、著者等檢索到某古籍的相關信息。該類型的代表是中國中醫科學院中醫藥信息研究所的“全國中醫藥珍善本古籍檔案管理系統”、“海外古籍書目數據庫”,及中國中醫科學院圖書館的“館藏中醫古籍目錄數據庫”。
目前國內有一定中醫藥古籍藏書規模的醫學院校、科研機構、圖書館也都相繼進行了書目數據庫的建設,如北京中醫藥大學圖書館的“中醫藥古籍書目數據庫”、上海圖書館的“古籍書目數據庫”和“中醫古籍善本書目提要”、大連圖書館的“特色館藏古籍線裝書目庫”、北京大學及多家圖書館的“CALIS(中國高等教育文獻保障系統)古籍聯合目錄”、上海中醫藥大學圖書館的“善本書目提要數據庫”、浙江中醫藥大學圖書館的“館藏古籍目錄數據庫”、山西中醫藥大學圖書館的“古籍書目數據庫”、山東中醫藥大學圖書館的“占籍書目數據庫”等等。但因國內沒有統一的建庫標準,各種書目數據庫揭示的深度不一樣。
1.1.2 中醫古籍全文型數據庫全文型數據庫是將古籍全文手工錄入,形成電子文本,供用戶查詢。這種數據庫存儲空間小,便于檢索和閱讀,但是沒有保持古籍原貌,且文字錄入有難度,容易出錯。中醫藥古籍含有穴位、圖譜等信息,數字化的困難更大。臺灣高雄市立中醫院的“中醫古籍文獻全文檢索系統”和由湖南電子音像出版社出版的光盤版《中華醫典》就是典型的全文型數據庫。
1.1.3 中醫古籍全圖像型數據庫 全圖像型數據庫是將古籍直接以圖像格式掃描存儲,加入簡單標題和分類,能保存古籍原貌,有助于專業研究,但是這種數據庫存儲空間大且不方便檢索。如武漢大學出版社開發出的《四庫全書》光盤版就是以文淵閣本《四庫全書》為底本,掃描全書,手工錄入總目。
1.1.4 中醫古籍圖文型數據庫 圖文型數據庫是利用圖像處理技術與超鏈接技術結合形成的數據庫,即在古籍書頁圖像化的基礎上,將書中具有檢索意義的信息轉化為電腦可識別的文字,并加以合適的軟件工具,為用戶提供快捷有效的檢索、統計、整理和編輯功能。這種數據庫能再現古籍原貌、方便檢索,是目前古籍數字化的最佳方式。中國中醫科學院中醫藥信息研究所的“中醫藥珍善本占籍多媒體數據庫”和由北京大學劉俊文教授總策劃、總編纂的《中國基本古籍庫》(醫書集成)可為此類代表。
1.1.5 古籍知識庫 古籍知識庫是人工智能和數據庫結合的產物,它以統一的形式存儲知識。知識庫的知識是高度結構化的符號數據,用戶可以進行深層次的知識挖掘,實現由書目到全文等多個知識點的關聯檢索,也可以由一個作者檢索到其他相關作者等。中國中醫科學院中國醫史文獻研究所中醫古籍數字化研究室的“中醫藥古文獻知識庫”是其代表。該知識庫構建了我國第一個中醫古籍知識庫系統,目前已經建成中醫古籍本草知識庫、中醫古籍方劑知識庫,以及張仲景、陳士鐸、新安醫學、婦科、醫案、蒙醫藥等6個中醫古籍專題知識庫。
1.1.6 國外中醫古籍數據庫 國內的中醫古籍數字化取得了一些成就,國外中醫古籍數據庫也在建設中。雖然在建設規模和涵蓋資源上與國內有些差距,但是也具有非凡的意義和價值。例如日本的全文數據庫“全國漢籍數據庫一一子部醫家類”“數字化善本書——醫學”“民族藥物資料館——證類本草”,加拿大的“中醫在線圖書館”以及美國的全影像數據庫“YiJing: The mlrror of medicine”等等。
1.2 中醫古籍養生數據庫的現狀
古今往來,健康長壽是人類的美好愿望,養生保健是人們永恒的話題和社會關注的熱點。特別是近年來,隨著科學的發展和生活水平的提高,人們自我保健意識和養生要求逐漸提高,中醫養生學顯示出強大的生命力,中國數千年積累的養生法備受世界青睞。我國養生學內容廣泛,方法眾多,養生論著卷帙浩繁,有的是養生專著,有的則是部分章節論述養生,更多的是散見于各類著作中,如道教、佛教、史學典籍等,未形成一個全面、系統的學科。中醫古籍數據庫的建設方興未艾,取得了一定成果,如《中華醫典》以及“中國中醫藥數據庫”“中國古籍資源數據庫”“龍語瀚堂典籍數據庫”都收錄了大量中醫古籍,但是關于養生類的專題數據庫發展還比較緩慢。如目前中醫古籍數據庫當中收錄最全、范圍最廣的電子資源文獻庫“龍語瀚堂典籍數據庫”所收錄的中醫藥文獻達700多部近10000冊,只在中醫藥類收錄養生類古籍35種。巨型數字古籍叢書《中國基本古籍庫》收錄了上自先秦、下至民國的歷代典籍10000余種,其中休閑養生目收錄28部,武術技擊目收錄14部,氣功健身目收錄11部。目前,南京中醫藥大學的“氣功基本古籍提要庫”是以專門的氣功、導引、養生著作為主要內容的數據庫,屬于氣功養生的專題庫。中國中醫科學院中醫藥信息研究所建設開發的“中醫古籍養生數據庫”收錄養生古籍110種,并可瀏覽全文圖片。
2 中醫古籍數據庫建設存在的問題
2.1 中醫古籍書目收集及錄入
中醫古籍數量大,版本多,全面收集版本優良的古籍是古籍數字化中的一大課題。古籍圖書印刷格式多樣,出版方式隨意,多處標有正題名且各處書名不盡相同,編目人員需要對各種書名信息進行分析、思考,方能準確而規范地著錄正題名。另外,摘要由編目人員編寫,編目人員的責任心和相關專業知識,如對古籍中同藥異名、異藥同名,古籍中的病證和現代病名等知識的掌握,也直接影響書目數據的質量。
2.2 中醫古籍用字
古籍數字化建設難度大,其中面臨最多的問題是有關用字的問題。據查,《康熙字典》收字就達49 030個。漢字在漫長的演變過程中產生的繁簡字、異體字、古今字、通假字就更數不勝數了。中醫古籍數字化目前面臨著無古籍大字庫、古籍生僻字錄入、古籍光學字符識別系統(Optical Character Recognition,OCR)識別、古籍排版等幾個難題。陳進等認為產生這些現象的原因主要是對字體的認知障礙和技術障礙。高晶晶認為可以通過私用區造字法、圖片代替法、自然語言描述法、動態組字法等方法在一定范圍內解決古籍閱讀和檢索用字的問題。
2.3 中醫古籍數字化標準尚未建立
合作與共享是中醫古籍數字化發展的趨勢,文獻標準化是文獻資源共享的前提和基礎。古籍數字化,需要規范的著錄條例、數據庫格式、編目軟件使用字庫,還要統一的古籍分類法。但是中醫古籍數字化標準尚未建立,國內至今未形成統一的古籍分類法。曾燕認為應以《四庫法》(即按經、史、子、集分類)為基礎,制定完善的古籍分類法。劉文波等認為《全國中醫圖書聯合目錄》的分類體系,基本上包括了現存中醫古籍的主要種類,比較符合讀者“以類求書”的使用習慣。李兵認為中醫古籍數據庫內容、檢索功能、輔助功能和服務功能這4個要素可以作為中醫古籍數據庫的評價要素和一級指標。
2.4 中醫古籍數字化的開發深度
符永馳等認為中醫古籍數字化不應僅僅滿足于對古籍的閱覽和查詢。劉毅認為在數據庫和網絡普及的時代,利用現代技術手段,挖掘中醫古籍的內涵知識很重要,但是目前由于各種因素的影響,數據庫不具備古籍知識深度挖掘的功能,從這方面來說,專業的中醫古籍數據庫尚處于初級階段。古代中醫藥文獻是一個知識寶庫,在數字化的基礎上挖掘古籍中的寶貴知識財富,實現知識發現和知識拓展,更好地為中醫藥事業的發展和人類健康服務是中醫古籍數字化的最高目標。
除上述內容以外,技術手段落后、經費制約等等也是中醫古籍數據庫建設中存在的問題。
3 總結與展望
中醫古籍數字化已經取得了一定成就,建立了不同類型的數據庫,在很大程度上實現了保護和利用中醫古籍的目的。但是數據庫建設中的用字問題、數據庫建設標準及數據庫知識的深度挖掘問題仍然有待研究。同時,養生學作為中醫的一個重要學科,其數據庫建設仍有待加強,構建數量多、版本齊全、信息涵蓋量大的古籍養生數據庫有著重要的現實意義和學術研究意義,對中醫養生學科的內涵外延的界定具有促進作用。在建立信息涵蓋量大的古籍養生數據庫的基礎上,從小處著眼,著重研究新安醫籍中的養生古籍,建立數據庫,研究其與前人、同時代及后世之間的學術繼承、借鑒和影響,可操作性強。作為中醫古籍數據庫建設的一部分,養生類古籍文獻的整理與數據庫開發有待進一步拓展與深化。總之,在計算機及網絡技術不斷發達的今天,中醫古籍數據庫的建設會有更大的發展前景,會為中醫傳承做出更大的貢獻。