藏醫藥古籍文獻搶救性收集整理及數據挖掘模式研究

2015-04-02 18:49:36聶佳等

中國民族民間醫藥·下半月 2015年2期

聶佳等

【摘要】目的：通過對藏醫藥古籍的收集、整理及挖掘，厘清藏醫藥學術淵源、學術流派及成就，為藏醫藥文化保護與傳承研究提供借鑒。方法：以西藏、青海、四川等幾大藏族聚居區的藏醫學院、圖書館、藏醫院及民間個人收藏為主要收集對象，走訪關鍵人物、田野調查等收集藏醫藥古籍文獻資料，整理、核對相關信息，規范術語，建立數據庫，探索數據挖掘方法。結果：共收集藏醫藥古籍410部，涉及藏醫、藏藥、及綜合藏醫藥類知識，分別建立藏醫藥古籍書目數據庫、圖片數據庫等，并根據古籍類屬特點分別確立聚類、關聯規則等數據挖掘方法研究模式。結論：利用現代計算機技術手段對藏醫藥古籍進行整理及挖掘研究，不僅可實現對藏醫藥古籍的原生性保護，也使其中蘊含的精髓得到科學體現。

【關鍵詞】藏醫藥；古籍；收集；整理；數據挖掘

【中圖分類號】R29 【文獻標志碼】 A 【文章編號】1007-8517（2015）04-0001-02

Collection， collation and mining rescue research of Ancient Tibetan medicine books

NIE Jia1 Zhang Yi1 Deng Du2 Jiang-Yongsilang1

1Chengdu University of Traditional Chinese Medicine，Chengdu 611137，China；

2Southwest university for Nationalities， Chengdu 610041，China

Abstract：Objective Clarify the Tibetan medicine academic origin， academic schools and achievement， provide reference for the protection and inheritance of Tibetan medicine culture based on the ancient Tibetan medicine books collection， collation and mining. Methods In Tibet， Qinghai， Sichuan and other major Tibetan inhabited areas of the Tibetan Medical College， library， hospital of Tibetan and folk personal collection as the main collection object， collecting visited key figures， field investigation of ancient Tibetan medicine books of literature， sorting， checkthe related information， standardized terminology，establish database， to explore the methods of data mining. Results There are 410 ancient books collection of Tibetan medicine， Tibetan medicine， Tibetan medicine， and relates to the comprehensive knowledge of Tibetan medicine， Tibetan medicine ancient books bibliographic database are established， the picture database， and respectively established clustering， association rules data mining method to study the mode according to the characteristics of the genus in ancient books. Conclusions On ancient Tibetan Medicine Books Collation and mining research using modern computer technology， not only can realize the primary protection of Tibetan medicine books， also make which contains the essence to get the scientific embodiment.

Keywords：Tibetan Medicine；Ancient Works；Collection；Arrangement；Excavate；Pattern

1 研究背景

1.1 意義藏醫藥學是藏族文化的重要組成部分，對研究藏族社會的發展具有極其重要的價值。民族醫藥古籍文獻作為民族醫藥文化的集中體現，具有鮮明的地域性與民族性。藏醫藥古籍文獻資料記載了歷代名醫專家重要而豐富的臨床醫療經驗和精辟的理論，整理發掘其中的藏醫藥學文獻資源，是后人在從事臨床醫療、教學和科研工作中可供學習與借鑒的寶庫。

12 研究現狀

1.2.1 藏醫藥古籍特色顯著，保護、研究形勢緊迫藏醫藥古籍既有文物價值又具學術特色，其以藏文、古藏文記錄為主，民族特色鮮明、內涵豐富、種類齊全、蘊藏量巨大。如四川甘孜州是藏醫藥的發祥地之一，南派藏醫藥的故鄉，當地絢麗多姿的康巴文化具有鮮明的地域特色，其中甘孜州南派藏醫藥、德格印經院、噶瑪噶孜畫派唐卡等典型代表進入了第一批國家級非物質文化遺產項目[1-3]。據初步統計，目前國內先后搶救挖掘藏醫藥古籍文獻2000多部（函），整理出版800多部，完成《藏醫藥經典文獻集成叢書》（100部），《藏醫藥大典》（60卷），《四部醫典唐卡大詳解》（18卷）等重大古籍文獻整理出版工程。目前在藏醫藥古籍整理中，嘗試引入包含普查和典型調查在內的田野調查法、藏醫藥文獻藏文特色數據庫，以及藏醫古籍信息化平臺等新思路。但由于版權保護、文化信仰等原因，藏醫藥古籍產生的即時經濟效益和社會效益并不突顯，加之藏族聚居區生活條件艱苦、科研經費匱乏、古籍存儲條件簡陋、古籍保護專門人才缺乏等等，很多古籍仍處于“塵封”狀態。隨著南派藏醫藥非物質文化傳承人唐卡·昂翁降措等大家的去世，精通古藏文和藏醫藥專家的減少，整理研究隊伍更是人才匱乏，因此，藏醫藥古籍保護研究工作刻不容緩[4-5]。

1.2.2 藏醫藥古籍研究有待深入挖掘藏醫藥古籍是不可再生的知識資源，若保護措施不力容易破損或老化，目前，許多科研機構雖都意識到了保護古籍的重要性，加大投入對其修復和掃描數字化，用縮微技術或者電子掃描的方式制作成電子版本，從而代替傳統的紙質文本保護中醫藥古籍紙本，但是數字化程度均比較初淺，主要停留在通過掃描進行數字化的錄入階段，只是對古籍文獻資源進行匯集和掃描，未對資源進行深入數據挖掘和開發利用，未能揭示潛在的知識和內容價值，其中所蘊含的巨大而寶貴的信息資源沒有得到有效利用[6-7]。

2 藏醫藥古籍的收集、整理

2.1 確定調研對象以西藏、青海、四川等民族大學圖書館、藏醫院、藏醫學院、印經院、藏傳佛教寺廟等藏醫藥古籍代表性收藏單位以藏醫民間個人等所收藏的藏醫藥古籍為調研對象，廣泛收集，核定版本。

2.2 確定調研規范參照中華古籍保護計劃制定的文獻古籍普查規范，以及古籍定級等相關標準，研究制定藏醫藥古籍調研的項目、數據采集規范標準，并制定相關數據匯交方案。

2.3 文獻征集通過實地調研、檢索、訪談等方式，結合參考《中國少數民族古籍總目提要》、《藏醫藥經典文獻集成》等對納入調研范圍的對象進行調研，采集相關數據，并適時匯交。

2.4 數據匯總進行項目交流匯總，對全部調研數據進行整合、校對，厘清歷代藏醫藥代表人物姓名、著作及著作所藏地。

2.5 編目在四川省民族醫藥文獻書目課題前期工作以及各地文獻整理情況梳理匯總的基礎上，系統開展調研，編纂410部藏醫藥古籍文獻目錄，包括書名、語言類別、著者等基本信息，如表1。

2.6 古籍掃描、圖片處理 ①根據掃描儀、古籍數字化平臺特點，參考國家標準，擬定古籍圖像掃描規則，圖片編號和文件夾命名方法；根據確定的書目，進行掃描古籍；掃描過程中，記錄文獻的頁碼和破損情況。②為便于古籍數字化平臺識別，須按照平臺要求對掃描的古籍圖片逐頁地進行黑白轉化、傾斜度調整。③為下一步對古籍進行源數據著錄，構建相關數據庫，待古籍圖片的逐步掃描和處理完成后，將已轉化的圖片上傳至服務器。

3 藏醫藥古籍挖掘研究

3.1 藏醫藥古籍文獻書目數據庫采用目前流行的C/S與B/A/S多層結構設計，以J2EE技術架構構建藏醫藥古籍數字化應用平臺，基于古籍數字化應用平臺，以確定的書目為研究對象，參照《中國少數民族古籍總目提要》、《藏醫藥經典文獻集成》等工具書，根據國家相關標準制定藏醫藥古籍源數據著錄標準，完成所有書目的源數據著錄；隨著源數據的完成，構建藏醫藥書目數據庫。厘清歷代藏醫藥著作，信息包括書名、版本類型、著者姓名、籍貫等基本信息。該庫對研究藏醫藥學術淵源、學術流派及傳承關系、學術特色及成就具有重要參考價值。

3.2 藏醫藥古籍圖片數據庫在整理已收集藏醫藥古籍書目的基礎上，通過掃描、加工處理，將收集的藏醫藥古籍的主要信息頁面掃描，轉化為既能為古籍數字化應用平臺所識別又可供電子閱覽的圖像格式，構建藏醫藥古籍圖片數據庫，用于存儲和交流檢索、查閱，實現對資源的再生性保護，為后期研究奠定基礎。

3.3 數據挖掘模式研究

3.3.1 顯性信息將書名、著者、疾病、癥候、方劑、藥物等基本字段導入Access表后，建立基本數據表，參考《藏醫學》、《藏藥學》等工具書，進行規范，采用頻數統計方法，實現顯性信息的挖掘。

3.3.2 隱形信息對于隱性信息的研究，由于其具有隱含性、未知性等特點，以Access基本數據表為來源，利用數據挖掘相關方法揭示出其潛在的價值信息，能夠更好地為臨床、科研服務。數據挖掘方法眾多，其中聚類分析方法又稱群分析，它是研究（樣品或指標）分類問題的一種統計分析方法。關聯規則方法是描述數據庫中數據項之間所存在的關系的規則，即根據一個事務中某些項的出現可導出另一些項在同一事務中也出現，即隱藏在數據間的關聯或相互關系[8]。根據所收集的藏醫藥古籍情況，按藏醫、藏藥等不同分類屬性分別采用聚類、關聯規則等挖掘方法實現藏醫疾病治療中診斷、處方規律等顯性化、可視化。

4 結論

利用計算機技術手段對藏醫藥古籍進行整理及挖掘研究，不僅可實現對藏醫藥古籍的原生性保護，也使其中蘊含的精髓得到科學體現。目前，藏醫藥古籍研究尚未有統一的術語規范標準，在對其進行數字化研究過程中，需充分結合藏醫藥理論體系和藏醫藥文化特點，參考相關國家標準，才能真正實現藏醫藥古籍知識的現代化傳承與利用。

參考文獻

[1]周毛.淺談藏學研究文獻的館藏建設及利用[J].中國藏學，2009，（4）：124-127.

[2]馮嶺.藏醫古籍文獻數據庫研究[J].中醫研究，2010，13（1）：77-78.

[3]鄧都.甘孜南派藏醫藥[J].中國藏學，2011，（4）：138-145.

[4]蔡景峰.民族醫學古文獻概述[J].中國民族醫藥雜志，1998，4（4）：3-5.

[5]馮嶺，黃福開.從民族文化保護和發展角度看民族醫藥古籍整理[J].中國民族醫藥雜志，2009，15（8）：9-10.

[6]張菽暉.略論民族古籍及其翻譯問題[J].廣東技術師范學院學報，2004，（5）：62-65.

[7]帝瑪爾·丹增彭措.晶珠本草[M].上海：上海科技出版社，1986：18.

[8]陳偉.使用垂直數據格式挖掘頻繁項集[J].微型機與應用，2011，30（18）：6.

（收稿日期：2014.12.26）