丁侃,胡曉峰,張麗君
中國中醫科學院中國醫史文獻研究所,北京100700
解析“中醫古籍圖像數據庫”的圖像標引*
丁侃,胡曉峰,張麗君△
中國中醫科學院中國醫史文獻研究所,北京100700
通過對中國中醫科學院中國醫史文獻研究所在“中醫古籍圖像數據庫”建設過程中的圖像標引工作的介紹,探討標引規則的制定;對書目、版本、圖像本體3類共26項元數據進行詳盡說明,輔以必要的示例;并對出處標引、規范制定、提高識圖能力、細化釋圖文字標引等重點、難點問題進行討論。
中醫;古籍;插圖;標引;圖像數據庫
本研究中的“中醫古籍圖像”,主要是指各類中醫古籍中所刊載的承載中醫知識的各類插圖。2009年、2013年、2014年,中國中醫科學院持續立項資助了中醫古籍圖像相關研究,前期研究共查閱診法、本草、針灸、推拿、內科、女科、兒科、外科、傷科、五官科、養生、基礎12類中醫古籍共2 773種,登記圖像41 831幅,收集整理編輯圖像29 428幅[1]。至此中醫界第一次系統掌握了中醫古籍圖像資源。
為此,本研究擬建設“中醫古籍圖像數據庫”[2],以更好地管理該資源,方便用戶查找、瀏覽、使用該圖像,更為后續研究工作的開展奠定基礎。數據庫建設通過標引過程完成,在對圖像識讀、分析的基礎上,選用確切的檢索標識,以此反映該圖像所承載的中醫知識內容。
由于中醫古籍圖像專題數據庫建設、針對圖像內容的深度標引在業內均屬首次,具有探索性質,因此本研究對該過程加以詳細介紹,以期為相關研究提供借鑒依據。
1.1標引對象本研究對象為中醫古籍圖像,標引粒度為“幅”,即將一幅明確、完整的古籍圖像作為標引的對象。此處引入兩個概念,即“自然頁”與“標引頁”。“自然頁”是通過掃描或拍照得到的古籍圖像的數字文件,一般為古籍中的半頁(半版);“標引頁”是標引的基本單位,刊載有一幅明確、完整圖像的古籍圖像文件作為一張標引頁。一般情況,若一張自然頁中僅包含有一幅插圖,則標引頁≈自然頁。而如果一張自然頁中包含有多幅插圖,或是一幅完整的插圖分布刊刻于多張自然頁上,則標引頁就需要在一張或多張自然頁基礎上,通過“框選”或“拼接”等操作加工獲得。
1.2標引方法所有圖像的標引工作均在“中醫古籍圖像標引系統”中完成,標引步驟大致如下:首先,在系統中創建一種古籍,標引書名、作者等書目信息;其次,在一種古籍之下分別建立其若干版本,標引題名、版本、館藏等版本信息;再次,上傳圖像文件,系統將每一個版本所刊載的一包圖像文件作為一個任務進行管理;以上新建任務與數據上傳工作完成后,根據設定的圖像元數據(基本元數據及擴展元數據),對圖像本體所蘊涵的信息逐條進行抽取標引,包括圖名、分類、主題以及與之相關的其他圖像等。
書目信息用以揭示圖像源自何種古籍,分“古籍信息”和“作者信息”2組進行標引。
2.1古籍信息
2.1.1總目序號古籍在《中國中醫古籍總目》[3](以下簡稱《總目》)中的順序號為古籍在此系統中的唯一標識。標引說明:如《外科心法要訣》一書,總目序號標引為“9387”。對于《總目》未收錄的古籍,以“2”開頭單獨為其依次編號,如“20001”“20002”……“2XXXX”,并經課題組備案。
2.1.2書名——古籍通用的名稱標引說明:此項標引一般參照《總目》上所著錄的書名。1)書名無需加書名號,如“外科心法要訣”;2)書名中有卷數的,卷數與書名之間需要空一格,如“黃帝內經素問十二卷”。
2.1.3又名——古籍的其他名稱標引說明:古籍的又名可以為多種,此項可重復標引。
2.1.4成書年代——古籍成書的年代標引說明:此項標引一般參照《總目》及《宋元明清醫籍年表》[4]。1)年代可考者,一般標引為公元紀年;2)具體年代不可考者,只能斷定朝代,按照方括號中加該朝代滅亡年代的格式標引,如明朝成書的古籍,標引為“[1644]”。
2.2作者信息每本古籍的作者及注釋整理者等可以有多位,此組可重復標引。
2.2.1作者作者的姓名。
2.2.2別稱作者的別稱。包括字、號、尊稱、謚號、官職等。標引說明:此項可重復標引。如朱丹溪的別稱有“彥修”“震亨”等。
2.2.3朝代作者生活的朝代。標引說明:1)此項標引參照《中國醫學史》[5]中附錄的“中國歷史年代簡表”;2)若作者為外國人,則此項視為“國別”,如《瘍科秘錄》作者為日人本間救,此項標引為“日”。
2.2.4責任方式作者對該書的責任方式。標引說明:常見的責任方式包括:撰著、纂、修、注、輯注、編輯、校注、編注、圖注、集注、編、輯、譯、繪、書、篆刻等。
版本信息用以揭示圖像所出之具體版本。分“版本信息”“館藏信息”“調研信息”“備注信息”4組進行標引。
3.1版本信息
3.1.1版本版本的名稱。標引說明:此項標引一般參照《總目》中著錄的版本名稱。格式一般為:朝代+年號紀年+干支紀年(公元紀年)+刊刻地點+刊刻者+版本類別。如《(徐評)外科正宗》選用的版本為“清咸豐10年庚申(1860)海寧許氏刻本”。
3.1.2題名古籍的題名。標引說明:收集古籍在牌記、卷首、卷末等處的不同題名。此項可重復標引。如《外科心法要訣》在卷首的題名為“編輯外科心法要訣”。
3.1.3刊刻年代古籍該版本的刊刻年代。標引說明:此項標引與“成書年代”的格式要求基本相同。
3.1.4所屬叢書該版本所屬的叢書。標引說明:該版本如果不是單行本,則列出所屬叢書。
3.2館藏信息
3.2.1收藏館該版本古籍所藏的圖書館。標引說明:此項標引參照《總目》中的“收藏館代號表”。如中國中醫科學院圖書館所藏,則標引為“139”;《總目》中未列出的圖書館,以“10”開頭單獨為其依次編號,如“1001”“1002”……“10XX”,并經課題組備案。
3.2.2索書號該古籍所在圖書館的索書號。標引說明:一般為圖書館自行編制。
3.3調研信息此組標引在圖書館實地查閱過程中,《中醫古籍圖像調查表》上所填寫的原始調研記錄。包括每本古籍中所刊載的圖總數、獲圖總數、墨線插圖數、彩繪插圖數、書影總數。單位均為“幅”。3.4備注信息
3.4.1版本形態對于書本實體形態的描述。標引說明:版本形態,或稱之為版本制度,包括行款、裝訂方式和板框形制等。
3.4.2任務備注關于此標引任務的備注說明。標引說明:包括任務中,關于圖像種類、數據完整性、擬分配標引人員等備注信息。
此為圖像標引的重點。將圖像本體所蘊涵的信息,即其所承載的中醫藥知識,分為“資源標識符”“正名”“圖名”“分類”“主題”“圖中文字”“釋圖文字”“相關圖像”“備注”,共9項逐條標引析出。
4.1資源標識符圖像在系統中的唯一編碼。標引說明:由系統根據總目序號、版本以及圖像流水號等要素自動生成。
4.2正名圖像的正式名稱。標引說明:此項標引是對無名圖進行命名、有名圖進行規范的過程,參照課題組擬定的《中醫古籍圖像命名規范》進行。
4.3圖名圖像的名稱。標引說明:1)此項客觀標引圖像原有的名稱,原則上對原圖名不作改動;2)本無圖名的圖,此項不必標引;3)對于本無圖名,但相關的篇名等適合作為圖名的情況,可對篇名適當取舍,作為圖名標引。
4.4分類圖像所屬的分類。標引說明:此項可重復標引,參照課題組擬定的《中醫古籍圖像分類標準》進行。
4.5主題圖像反映的主題。標引說明:此項可重復標引,主要參照《中國中醫藥主題詞表》[6]進行。主題詞之間用空格隔開,中間不加標點。
4.6圖中文字圖像中起到標記、指示等作用的文字。標引說明:原則上,圖像線條之內的、圖像邊框之內的文字一般視為“圖中文字”。或文字不在圖內,但指示的為圖中位置,亦視為“圖中文字”。1)不連續的圖中文字之間用空格隔開;2)圖中文字的標引順序以符合常規的閱讀順序為原則,一般采用從上至下,由右向左的順序;3)圖中文字重復者(如圖中對稱的穴位名稱),只需標引一次即可;4)成句、成段的圖中文字,中間加標點;5)文字統一為簡體。
4.7釋圖文字圖像外對其本體起到解釋、闡釋等作用的文字。標引說明:“釋圖文字”通常不僅存在于圖像所在本頁,還有可能出現在其前后頁的上下文中。1)不連續的釋圖文字之間(段句之間)用空格隔開;2)釋圖文字的標引順序以符合常規的閱讀順序為原則,一般采用從上至下,由右向左的順序;3)成句、成段的圖中文字,中間加標點;4)允許參考其他相關資料標引本頁中沒有的釋圖文字;5)文字統一為簡體。此外,根據特定研究工作的需要,還可進一步對釋圖文字進行必要的細化標引,針對不同類型圖像的釋圖文字,制定相應的擴展元數據。如針對疾病圖設置證候表現、辨證分析、治則治法、處方用藥等擴展元數據。
4.8相關圖像與標引對象有關聯的其他圖像。標引說明:如不同版本刊載的同一圖像、同名圖像、過程圖、組圖等,彼此之間建立關聯及順序。
4.9備注關于圖像本體需要備注說明的內容。標引說明:對已有圖像元數據標引未盡的信息,可填入備注中。1)對于標引對象殘損不全者備注為“殘損”;2)對于標引對象模糊不清者備注為“模糊”。
5.1圖像出處的標引在數據庫建設中十分必要通過對書目信息的標引,不但可以清楚地知道圖像出自何種古籍;更可藉此了解圖像出現的時代背景、學術淵源、流傳脈絡,將單幅的圖像定位于中醫學術傳承發展的大背景中進行考量。通過對版本信息的標引,不但可進一步明確圖像出自哪個版本;更可藉此探究版本之間的差異以及圖像在刊刻過程中的衍化傳承關系。此外館藏信息可為后續研究者實地調閱相關資料提供便利;調研信息不僅可用于調研數據、采集數據、標引數據之間的相互核實,還可排除大量無圖像刊載的古籍,為后續研究者縮小查找范圍。為此,在《國家圖書館古籍元數據規范及著錄規則》[7]以及相關研究[8]的基礎上,根據實際工作需要設置了如上古籍元數據和版本元數據。
5.2正名、分類、主題的標引是數據庫建設的主要任務
5.2.1正名正名指圖像的正式名稱。所謂“物之具名,本自有義,循名責實,義自明矣”[9],然而古人對圖像的命名并不統一,同樣一幅圖(完全相同或非常相似)常標有不同的圖名,此外對圖像不命名的情況在古籍中也普遍存在。若要達到通過名稱區分不同事物(圖像)的目的,就必須對每一幅圖像給予規范化正名。為此,課題組擬定了《中醫古籍圖像命名規范》,其中對正名所含的各種要素分別進行規范。
5.2.2分類分類指圖像所屬的分類。分類是對知識體系的次序化,沒有有效的分類,簡單累加的大量古籍圖像將不可能被有效利用。為此,課題組擬定了《中醫古籍圖像分類標準》,該標準設定了疾病圖、診斷圖、醫療圖、藥物圖、器具圖、養生圖、臟腑圖、經穴圖、部位圖、理論圖、符咒圖、人物圖共12個一級類目,其下設有相應的二級、三級類目。
5.2.3主題主題指圖像反映的主題。主題標引是揭示圖像所承載知識點的有效方法。本課題擬參考《中國中醫藥主題詞表》對圖像主題進行標引,以此更規范地抽取圖像所承載的中醫知識,同時起到優化檢索的目的。
以上標準規范,尚需在標引實踐過程中不斷加以調整、補充、完善,最終將成為圖像研究的主要成果之一。
5.3圖中文字、釋圖文字、相關圖像標引是深入研究的基礎圖中文字指圖像中起到標記、指示等作用的文字。標引過程中發現具有現代中醫學高度教育背景的標引人員,對于臟腑圖、疾病圖、經穴圖等的標引基本不存在障礙,但對于運氣、卦象、符咒等圖像的識讀,則相對困難,需要相關領域專家指導,以及標引人員自身加強相關知識的學習積累。釋圖文字指圖像外對其本體起到解釋、闡釋等作用的文字。釋圖文字通常不僅出現在圖像當前頁(自然頁),前后頁中也常有大段的釋圖文字。啟動古籍圖像研究之初,既已意識到將古籍圖像從整部書中割裂出來可能造成圖像相關信息的缺失,但限于研究條件,尚無法做到將圖像及其相關的上下文古籍書影進行厘定,并采集完整的相關圖像數據。為此特設此項,以彌補相關信息的缺失。相關圖像指與標引對象有關聯的其他圖像。通過相關圖像的標引,在現有縱向分類基礎上,可以進一步建立橫向的關聯,形成關系網絡,為圖像的對比、圖形刊刻演變研究打下基礎。
前期研究中收集了大量的圖像數據,研發了相關的工具軟件,制定了相應的規范,形成了較為成熟的標引方案,完成了對3 860幅外科類古籍圖像的標引工作,為圖像的研究工作奠定了較好基礎。
依托現有工作基礎,希望探索一種數據共享、平臺開放、專題定制的研究機制,讓更多的有志同道參與到研究工作中,共同開拓中醫古籍圖像更廣闊的研究領域。
[1]秦秋.我國首次開展中醫古籍圖像研究[N].中國中醫藥報,2011-12-16(01).
[2]丁侃,胡曉峰,張麗君.中醫古籍圖像數據平臺構建方案探討[J].中國醫藥導報,2012,9(14):123-124.
[3]薛清錄.中國中醫古籍總目[M].上海:上海辭書出版社,2007:1-999.
[4]劉時覺.宋元明清醫籍年表[M].北京:人民衛生出版社,2005:306-347.
[5]甄志亞.中國醫學史[M].2版.上海:上海科學技術出版社,1997:187.
[6]吳蘭成.中國中醫藥主題詞表[M].北京:中醫古籍出版社,1996:111-213.
[7]肖瓏,蘇品紅,劉大軍.國家圖書館古籍元數據規范與著錄規則[M].北京:國家圖書館出版社,2014:3-37.
[8]丁侃.基于知識元信息技術的中醫古籍元數據研究[D].北京:中國中醫科學院,2009.
[9]金麗.考證名物與中醫古籍閱讀[J].江西中醫學院學報,2008,20(6):25-27.
Analysis on Image Indexing of″TCM Ancient Books Image Database″
DING Kan,HU Xiaofeng,ZHANG Lijun△
Institute of Medical History and Literature in China Academy of Chinese Medical Sciences,Beijing 100700,China
By introducing image indexing in the construction period of“TCM Ancient Books Image Database”,the establishment of indexing regulations are explored;26 items of metadata about the book,edition and image were elaborately explained,accompanied by necessary typical examples;the important and difficult problems including the reference and indexing,regulation establishment,raising the ability of image identification,refining figure legends were discussed.
TCM;ancient books;illustration;indexing;image database
R-092
A
1004-6852(2016)05-0048-04
2015-05-19
中國中醫科學院基本科研業務費自主選題項目(編號ZZ070504,ZZ090503)。
丁侃(1982—),男,博士學位,助理研究員。研究方向:中醫古籍整理與數字化。
張麗君(1982—),女,碩士學位,助理研究員。研究方向:中醫古籍圖像整理。