摘要 計算機與古籍整理的結合帶來了古漢語電子語料庫建設的繁榮。文章在對古漢語電子語料庫的建設情況進行充分調查的基礎上,提出古漢語電子語料庫的概念和類型,并指出古籍數據庫與古漢語電子語料庫之間的關系。
關鍵詞 古漢語電子語料庫 計算機 古籍數據庫
與現代漢語語料庫的開發建設相比,古漢語電子語料庫的建設顯得相對薄弱。究其原因,除了開發古漢語電子語料庫技術上存在的諸多難題外,與古漢語電子語料庫理論研究的滯后關系甚大。迄今,關于古漢語電子語料庫的概念描述、建庫歷史回顧以及語料庫類型劃分等方面均鮮有人論述。本文通過對古漢語電子語料庫建設情況的調查,嘗試提出古漢語電子語料庫的概念,并將古漢語電子語料庫分為字詞索引型語料庫、工具書型語料庫和標記型語料庫三種類型。
一、古漢語電子語料庫的概念,
語料庫通常是指大量電子化了的、原始或者添加了語言信息標記的文本集合。語料庫是一個龐大的語言素材集合體,主要用于觀察、分析和研究目標語的各種特征。我國語料庫的建設始于20世紀80年代,當時的主要目標是漢語詞匯統計研究。20世紀90年代以后,語料庫方法在自然語言信息處理領域得到了廣泛的應用,建立了各種類型的語料庫。
所謂古漢語電子語料庫是指經過深度加工,標注了各種語言學屬性以便進行語言學研究的古籍數據庫,又稱漢語古籍語料庫(楊建軍2006:103—109)或古文獻數字語料庫(王東海2005:117—121),建立古漢語電子語料庫的目的是要運用計算機技術,通過語料庫來研究古代漢語的語言規律。……