, ,
探討方劑源流關系是類方研究的內容之一[1]。“祖方”作為一組類方中的源頭的“基本方”,除了“基本”的含義外,還應包含制方時間最早這一必要條件[2]。方劑中藥物的劑量及配伍比例與臨床療效有著直接關系,而古方劑量受成方年代影響很大,李時珍就曾有“古之一兩,約今之一錢”的說法。基于以上兩點,本研究需要考量方劑的制方時間。為簡化考慮,以方劑首次記載的文獻產生時間(即方源信息)作為制方時間。
本研究在整合前人研究成果的基礎上,對不同歷史年代的、海量的半結構化的方劑數據進行信息抽取,以人機結合的方式完成方源、藥物的標準化及劑量的規范化,建立結構化的方劑數據庫。以此進行分析挖掘,不但可以探討類方衍化發展規律,較為準確地估算古方中藥物劑量及配伍比例,還可以實現歷代方劑藥物知識發現,如歷代方劑用藥規律的變化分析(包括藥物種類、劑量及其與氣候變遷、疾病流行的關系等)、中醫流派發展歷史等。
方劑數據主要來自中國中醫科學院中醫藥信息研究所的方劑數據庫[3]。該數據庫收錄了710余種古籍及現代文獻中的古今中藥方劑85 989首,為半結構化數據庫,主要包含方劑的名稱、藥物組成、來源出處(方源)、用法、主治等信息。采用文獻[4]的方法對方劑數據庫中的方源信息進行標準化,建立“方劑來源出處標準表”,用于確定方劑的產生年代,包括方劑來源出處的名稱、作者、年代等信息。表中錄入的數據包括《中國中醫古籍總目》[5](下稱《總目》)收錄的1949年以前出版的13 455種中醫圖書和1949年以后的200余種圖書、期刊及相關標準等文獻信息。在錄入方劑信息的時候,根據其記載的方源信息,對文獻來源出處進行標準化處理。
在待處理的方劑數據中,因相當一部分來源出處信息并不標準(少部分是因為錄入錯誤造成的)而不能直接使用“方劑來源出處標準表”進行精確匹配。因此課題組開發了專門的程序,以人機結合的方式完成方源信息的標準化。
通過程序查找,如果能找到唯一的來源出處信息,則直接自動完成匹配;如果發現對應多個版本的,則優先匹配年代最早的,并由領域專家審核確認。如《傷寒論》歷經漢唐宋明多部著作轉載校注,其中的方劑也在各朝代廣被引用,但都以東漢為其成方年代;再如補氣名方“四君子湯”,在不同方書中以不同名稱出現,但首見于《圣濟總錄》卷八十中,名“白術湯”[6],因此以《圣濟總錄》成書年代作為“四君子湯”成方年代。
對于精確匹配到的,則采用基于字符串的相似度算法,即通過計算編輯距離(Levenshtein Distance)[7]進行相似度排序,找出若干最相似的候選記錄,再由領域專家完成選擇和審核。確屬沒有的記載,在系統中記錄,由下一步人工處理進行完善。
經過前期計算機自動篩選后,尚余2 697條方劑數據的方源信息未能匹配,共涉及方源信息676條。對這些數據進行人工處理,從方劑信息、綜合對比書籍正異名、成書時間等,發現機器未能識別的方源信息多屬于出自現代書籍、書名簡寫或衍文、書名中含有錯別字/繁體字或符號、書籍已佚等問題。
一是出自現代文獻。部分方源信息出自《總目》中沒有收錄的現代書籍,導致機器未能識別。以1949年為限,核有151條方源信息來自現代期刊、講義講稿、教材、手冊、規范、標準等。
二是書名簡寫。129條方源信息采用了簡寫、縮寫形式,導致機器無法識別。如《痘疹活幼至寶》簡寫為《活幼至寶》,《重樓玉鑰續編》簡寫為《玉鑰續編》,《醫宗己任編》簡寫為《己任編》等。
三是衍文。部分方源信息中添加了作者信息、出版信息、內容信息等,導致機器未能識別。如《格物堂經驗良方》實為《經驗良方》格物堂刻本,《重慶堂醫學隨筆》正式書名為《重慶堂隨筆》,《顧松園醫鏡》原名《顧氏醫鏡》,作者顧靖遠,字松園,故名。
四是子目及章節。有些方源信息是某古籍的一節或部分內容,可以在《總目》中某本古籍下對應的子目中找到,屬于此類情況的書籍共72冊。如《許氏幼科七種·治驗》,《總目》中收錄有《橡村治驗》一書,版本項中備注“見《許氏幼科七種》”,可見《許氏幼科七種·治驗》即為《橡村治驗》;《壽世青編·病后調理服食法》,實際為《總目》中的《病后調理服食法》,其版本項記載“見《壽世青篇(版本附錄)》”;《徐評外科正宗·附錄》,收錄于總目《中國醫學大成》中,其子目第八集外科叢刊類記載有“《徐評外科正宗十二卷》/(明)陳實功撰,(清)徐大椿評”。
五是書籍已佚。經查找,共有13本書籍有文獻顯示為已佚,它們是《深師方》《張文仲方》《近效方》《隱居效方》《胎產救急方》《劉氏家傳》《續傳信方》《隱居效驗方》《醫林方》《王氏手集》《大清經》《傷寒類要》《煙霞圣效方》。部分書籍雖然佚失,但可以確定書寫朝代,進而確定成方時間。
六是信息錯誤。因錯字漏字導致的機器無法識別的數據約73條,如“瘍”誤為“病”、“入”誤為“人”、“綱”誤為“鋼”等,屬于半結構化數據庫中原有錯誤未能及時發現、糾正,導致機器識別障礙。此外,還有28條方源信息中因攜帶符號、繁體字等問題導致機器未能識別。
經統計,676條未能匹配的方源信息經人工處理修正后,大部分可在《中國中醫古籍總目》中檢索到。雖有151種屬于1949年之后的現代文獻,13種書籍顯示為已佚,但其中大部分可以確定年代,僅有6條方源信息(含8首方劑)無法確定成書年代。
本文根據上述問題對“方劑來源出處標準表”進行了修訂,如增添了現代文獻,增加了佚失文獻的成書時代和方書異名、子目,加強了對繁簡字和符號的識別、校正等,最終得到如下結果。
對人工校正后的數據進行統計分析發現,方劑數量最多的10本方書,從多到少依次為《圣濟總錄》10 949首、《太平圣惠方》9 907首、《普濟方》5 229首、《千金翼方》1 880首、《外臺秘要》1 612首、《醫方類聚》1 502首、《幼幼新書》1 212首、《辨證錄》1 211首、《雞峰普濟方》1 206首、《楊氏家藏方》974首。而成方年代(圖1)和方書著作年代(圖2)也發現了一定的規律性。
由圖1可見,第一次方劑發展出現于公元200-400年;從公元600年開始,方劑數目明顯增長;600-1200年期間,方劑數量雖然有時會減少,但其整體趨勢是在增加,1100-1200年時方劑數量最多,超過15 000首方劑;1200年之后,方劑數量整體有所下降,但基本起伏不大,數量相對穩定。

圖1成方年代分布

圖2 方書年代分布
由圖2則發現,公元200-400年方書出現了小幅度增長,此后一直無較大發展;1000-1200年,方書成書逐漸增加,1200年出現一個小高潮,此后方書數量稍有回落;1400年后進入了穩定高速增長階段。無論是方劑還是方書,其增長跌落的情況基本符合中國平穩和戰亂的政治經濟態勢。
如公元600年之前,成方和方書都較少,僅在200-400年間出現了小幅度增長。這段時間恰逢三國兩晉南北朝,兩漢時代的文化沉淀和南北混戰、文化碰撞一定程度上促進了醫學發展,尤其是被譽為中醫學辨證論治奠基之作的《傷寒論》和《金匱要略》的成書。書中記載了將近300首方劑,大多沿用至今。但綜合數據分析可發現,這段時間的方書很多散佚,僅在后人記載中出現書名,如《深師方》《張文仲方》等,而成方多為后人轉載記錄而保存。
公元600年后,方書雖然沒有大幅度增長,但方劑數量有了一個小幅度上揚。這段時間處于隋唐時代,政治經濟比較穩定,出現了幾本收錄了大量方劑的書籍,如《千金翼方》《外臺秘要》等。
公元600-1200年,方劑數量雖然有時會減少,但其整體趨勢是在增加。公元900-1200年,方書數量開始緩緩增加,方劑數量兩次達到高峰,這很有可能與宋代兩次官修方書有關。淳化三年(992年)第一本官修方書《太平圣惠方》刻印出版,該書收錄了近1萬首方劑;政和年間(1111-1118年),北宋官府又主持醫家編纂《圣濟總錄》(又名《政和圣濟總錄》),收錄方劑1萬余首,所錄方劑中,丸、散、膏、丹、酒劑等明顯增加。因此公元1100-1200年,方劑數量達到最多,超過15 000首方劑。這充分反映了宋代官府支持與重視成藥的特點。
公元1200-1500年,方劑數量明顯減少,此時的方書數量也有下降趨勢,這種現象很有可能與戰亂有關。因為在這短短300年,經歷了南宋、西夏、金、元、明五朝的朝代更迭,導致了方書及方劑的散佚。
公元1500年之后,方書數量逐漸增多,但是方劑數量卻變化不大,可見此時方劑的重復率較高,大部分方書是對前人編撰的方書進行匯編、摘抄而成書,且以小型方書為多。方書數量增多還有兩個重要原因,一是由于經濟發展、印刷術的進步,書籍刊刻成本下降;二是由于明、清兩個朝代相對平穩,很多書籍得以保存。
由上面分析可知,方劑及方書的產生與發展與社會穩定、戰亂等規律基本相符,成方年代統計結果較為可靠。
本文根據記載方劑的方源信息,建立了“方劑來源出處標準表”,采用字符串相似度算法、計算編輯距離進行相似度排序,再加以人工干預,根據首次記載該方劑的書籍成書年代推算出了方劑的成方年代。成方年代的確定是類方衍化研究中的一個關鍵環節,對確立衍化關系,研究方劑衍化規律,尤其對于方劑中藥物劑量的推算,有著積極意義。根據方源信息可以相對準確地判斷方劑的成方時間,結合“計量單位轉換標準表”,能夠快速準確地將古方中的藥物劑量統一換算為現代的“克”數,完成古今劑量及單位的自動轉換。這樣處理后的數據,更能準確反映方劑中的藥物劑量,進而推算方劑的量效關系、配伍比例、衍變規律等。
方劑成方年代的確立,對抽取不同歷史年代的方劑信息也是一種補充和幫助。如可以嘗試根據成方年代的語言特點分別建立語料庫,針對文本化古籍數據進行分詞和信息抽取。
此外,我們將人工校正后的方源信息補充進“方劑來源出處標準表”,進一步加強了方源信息自動抽取的準確性。而信息抽取是文本挖掘的初始階段,也是當前文本挖掘預處理操作中最關鍵的技術。