馬海麗 王 曦
關(guān)鍵詞:古漢語(yǔ);古籍?dāng)?shù)字化;分詞;詞性標(biāo)注
中國(guó)漢語(yǔ)典籍浩如煙海,但因其歷史久遠(yuǎn)、難理解、無(wú)句讀等問(wèn)題,人們難以研讀學(xué)習(xí)。雖有不少古漢語(yǔ)工作者堅(jiān)持傳承傳統(tǒng)文化,但因標(biāo)點(diǎn)斷句等基礎(chǔ)性工作而耗費(fèi)了大量的時(shí)間和精力。“我們期望能有可以用於漢語(yǔ)史電子文獻(xiàn)自動(dòng)分詞、自動(dòng)斷句、自動(dòng)標(biāo)注的軟件早日問(wèn)世, 專家只需對(duì)結(jié)果刊謬補(bǔ)缺,這將大大減輕屬性式標(biāo)注的勞動(dòng)強(qiáng)度,加快工作進(jìn)度。”(1)尉遲治平:《計(jì)算機(jī)技術(shù)和漢語(yǔ)史研究》,《古漢語(yǔ)研究》2000年第3期,第56—60頁(yè)。尉遲治平的呼籲反映了衆(zhòng)多古漢語(yǔ)工作者的心聲。採(cǎi)用計(jì)算機(jī)自然語(yǔ)言處理技術(shù)實(shí)現(xiàn)對(duì)古代典籍自動(dòng)化處理,承載著學(xué)者們殷切的希望,也是傳承中華文明的重大責(zé)任。
隨著近年來(lái)自然語(yǔ)言處理技術(shù)的發(fā)展,現(xiàn)代漢語(yǔ)分詞與詞性標(biāo)注工作已經(jīng)取得了頗爲(wèi)優(yōu)秀的成果,但是在古漢語(yǔ)處理方面的研究是較爲(wèi)薄弱的。目前對(duì)古籍文獻(xiàn)處理現(xiàn)代化的研究主要是字的輸入、輸出、建立電子資源庫(kù),在詞彙、語(yǔ)義層面上的研究卻是寥寥。本文將綜合多篇相關(guān)論文討論古籍?dāng)?shù)字化自然語(yǔ)言處理的研究現(xiàn)狀。
想要實(shí)現(xiàn)對(duì)古籍文獻(xiàn)處理的現(xiàn)代化,構(gòu)建古漢語(yǔ)語(yǔ)料庫(kù)是最爲(wèi)基礎(chǔ)的工作。相關(guān)研究最早是從計(jì)算機(jī)技術(shù)較爲(wèi)發(fā)達(dá)的美國(guó)開(kāi)始的,直到20世紀(jì)80年代,海岸兩峽及香港相繼開(kāi)始研發(fā)中文古籍?dāng)?shù)字化專案。1984年,中國(guó)臺(tái)灣“中研院”開(kāi)始“史籍自動(dòng)化計(jì)劃”,計(jì)劃開(kāi)發(fā)《二十五史(全文資料庫(kù))》全文資料庫(kù),後又於1990年著手建立“古漢語(yǔ)語(yǔ)料庫(kù)”。經(jīng)過(guò)三十多年不懈努力,現(xiàn)已整理建設(shè)了一個(gè)具有數(shù)億字的古籍資料庫(kù),具有重要實(shí)用價(jià)值。其次,香港中文大學(xué)在1988年開(kāi)始著手古漢語(yǔ)典籍的數(shù)字化建設(shè),建立了“漢達(dá)文獻(xiàn)資料庫(kù)中心”,該中心致力於將全部出土文獻(xiàn)收入文獻(xiàn)資料庫(kù)。相較於臺(tái)灣、香港地區(qū),大陸地區(qū)的古籍?dāng)?shù)字化建設(shè)相對(duì)起步較晚,1998年成立北京愛(ài)如生數(shù)字化計(jì)算研究中心進(jìn)行相關(guān)研究。雖起步較晚,但發(fā)展速度迅猛,國(guó)家、地方高校及商業(yè)機(jī)構(gòu)都在積極研發(fā)相關(guān)專案,如現(xiàn)有規(guī)模較大的“北大CCL古代漢語(yǔ)語(yǔ)料庫(kù)”“國(guó)家語(yǔ)委古籍語(yǔ)料庫(kù)”“中華古籍語(yǔ)料庫(kù)”等語(yǔ)料庫(kù)。
學(xué)者對(duì)古籍?dāng)?shù)字化的研究不僅體現(xiàn)在上述語(yǔ)料庫(kù)的構(gòu)建方面,相關(guān)的理論研究也在逐步深入。2014年常繼紅和魏曉峰發(fā)表的《國(guó)內(nèi)古籍?dāng)?shù)字化研究進(jìn)展與啓示》(2)常繼紅、魏曉峰:《國(guó)內(nèi)古籍?dāng)?shù)字化研究進(jìn)展與啓示》,《河北科技圖苑》2014年第3期,第82—85頁(yè)。中,以中國(guó)知網(wǎng)(CNKI)全文期刊資料庫(kù)爲(wèi)樣本,以“古籍?dāng)?shù)字化”爲(wèi)檢索詞,選定2001—2013的特定年限進(jìn)行模糊檢索,經(jīng)過(guò)人工資料篩選處理,排除不相關(guān)數(shù)據(jù),最後得到國(guó)內(nèi)CNKI期刊論文數(shù)據(jù)361條。發(fā)文量總體呈穩(wěn)步增長(zhǎng)的態(tài)勢(shì),21世紀(jì)初期發(fā)文量增長(zhǎng)平緩,自2004年開(kāi)始迅速增長(zhǎng),年均論文數(shù)達(dá)到28篇,其中2012年達(dá)到最高值52篇,研究成果主要集中在圖書(shū)情報(bào)與檔案文獻(xiàn)等領(lǐng)域,同時(shí)廣泛涉及中文、教育、醫(yī)藥、計(jì)算機(jī)技術(shù)、信息工程等專業(yè)領(lǐng)域。研究熱點(diǎn)主要有6個(gè)方面,如圖表所示。

古籍?dāng)?shù)字化研究熱點(diǎn)對(duì)比圖表
2020年李明傑、張纖軻、陳夢(mèng)石發(fā)表的《古籍?dāng)?shù)字化研究進(jìn)展述評(píng)(2009—2019)》(3)李明傑、張纖軻、陳夢(mèng)石:《古籍?dāng)?shù)字化研究進(jìn)展述評(píng)(2009—2019)》,《圖書(shū)情報(bào)工作》2020年第6期,第130—137頁(yè)。,同樣以中國(guó)知網(wǎng)(CNKI)全文期刊資料庫(kù)爲(wèi)樣本,以“古籍”“數(shù)字化”等爲(wèi)主題,以2009年至2019年?duì)?wèi)時(shí)間限定,篩選、剔除後得到759條相關(guān)結(jié)果。結(jié)果顯示研究者多來(lái)自于不同的學(xué)科背景,研究主題較爲(wèi)分散,成果主要還是涉及圖書(shū)情報(bào)、文史、醫(yī)藥等,但在計(jì)算機(jī)方面的研究有所增加。作者將研究熱點(diǎn)也歸爲(wèi)6個(gè)方面,如圖表所示。
對(duì)比兩篇文章中的研究熱點(diǎn),不難發(fā)現(xiàn),學(xué)者對(duì)於古籍?dāng)?shù)字化的研究,理論方面、技術(shù)層面都在不斷深入,且始終秉持著通過(guò)古籍?dāng)?shù)字化實(shí)現(xiàn)古籍再生性保護(hù)的信念,國(guó)家、高校、商業(yè)機(jī)構(gòu)之間也在不斷地進(jìn)行統(tǒng)籌協(xié)作,努力實(shí)現(xiàn)各類古籍資源的共用;各學(xué)科的古籍整理也在不斷的精細(xì)化,同時(shí)也在不斷加強(qiáng)學(xué)科之間的交叉研究。但是,縱觀古籍?dāng)?shù)字化的理論研究與不同高校、機(jī)構(gòu)之間的實(shí)際語(yǔ)料庫(kù)整理可以發(fā)現(xiàn),古籍?dāng)?shù)字化還未能構(gòu)建出一套完整的學(xué)術(shù)規(guī)範(fàn)體系,以至於無(wú)法保障古籍?dāng)?shù)字化的品質(zhì);其次,進(jìn)行古籍?dāng)?shù)字化研發(fā),一方面是爲(wèi)了保護(hù)古籍資源,但另一方面也是爲(wèi)相關(guān)的人文社會(huì)科學(xué)研究者進(jìn)行古籍知識(shí)研究提供服務(wù),但目前多數(shù)古籍?dāng)?shù)字化研發(fā)停留在文本的輸入、輸出層面,深度的處理技術(shù)層面還遠(yuǎn)不能滿足古籍工作者的需求。
分詞是指將一個(gè)句子中的字元切分爲(wèi)詞的過(guò)程,是中文信息處理的最基礎(chǔ)研究工作。關(guān)於自然語(yǔ)言處理系統(tǒng),國(guó)內(nèi)研究相較於國(guó)外,起步較晚。中文分詞系統(tǒng)始於20世紀(jì)80年代初北京航空航天大學(xué)的CDWS(Chinese Distinguishing Word System),在該系統(tǒng)研發(fā)過(guò)程中,研究人員首次論證了中文分詞的可行性並初步建立了相關(guān)的計(jì)算模型。隨後,中文分詞研究在國(guó)內(nèi)興起一片浪潮,更多的研究人員投身其中,取得豐碩的研究成果。首先在分詞方法方面,常見(jiàn)的主要分爲(wèi)三種:機(jī)械分詞方法、基於規(guī)則的分詞方法和基於統(tǒng)計(jì)的分詞方法。在基於統(tǒng)計(jì)的分詞方法中,最基本的方法包括隱馬爾科夫模型(HMM)、最大熵馬爾科夫模型(MEMM)以及條件隨機(jī)場(chǎng)模型(CRF)。利用上述方法開(kāi)發(fā)且已開(kāi)放的引擎有中國(guó)科學(xué)院技術(shù)研究所的ICTCLAS分詞系統(tǒng)、SCWS分詞系統(tǒng)、搜狗分詞、結(jié)巴分詞、盤(pán)古分詞、庖丁解牛等。
詞性標(biāo)注是指在給定句子中判定每個(gè)詞的語(yǔ)法範(fàn)疇,確定其詞性並加以標(biāo)注的過(guò)程,這也是自然語(yǔ)言處理中一項(xiàng)非常基礎(chǔ)且重要的研究工作。詞性標(biāo)注的研究分爲(wèi)標(biāo)注集的研究和方法的研究。在詞性標(biāo)注集方面,對(duì)於同一種自然語(yǔ)言,劃分標(biāo)注集時(shí),多是根據(jù)不同的應(yīng)用目的針對(duì)性地制定相應(yīng)的劃分標(biāo)準(zhǔn),所以目前還沒(méi)有統(tǒng)一的詞性標(biāo)注集。在詞性標(biāo)注方法方面,研究者的方向主要集中在兩種,一種是基於規(guī)則的方法,一種是基於統(tǒng)計(jì)的方法。在基於規(guī)則的方法中,最基礎(chǔ)的就是先要制定出一個(gè)有一套標(biāo)注規(guī)則集的規(guī)則庫(kù),但因爲(wèi)語(yǔ)言表達(dá)的相對(duì)抽象性,人們難以制定出一套十分完備的規(guī)則集,且過(guò)多的規(guī)則,相互之間又會(huì)産生種種衝突。所以,基於規(guī)則的方法因自身的矛盾性漸漸退到邊緣,基於統(tǒng)計(jì)的標(biāo)注方法逐漸成爲(wèi)詞性標(biāo)注研究的主流方法。另外,因爲(wèi)詞性標(biāo)注任務(wù)和分詞任務(wù)兩者從本質(zhì)上講都是序列標(biāo)注任務(wù),所以研究人員多採(cǎi)用相同模型來(lái)解決此類問(wèn)題,即隱馬爾科夫模型(HMM)、最大熵馬爾科夫模型(MEMM)以及條件隨機(jī)場(chǎng)模型(CRF)等。
歷史進(jìn)程的推進(jìn),隨之而來(lái)的時(shí)代特徵也是在不斷變化的,這些特徵不僅僅是表現(xiàn)在社會(huì)的政治、經(jīng)濟(jì)方面,文化方面的變化也是顯著的,僅僅聚焦在字詞的形、音、義及使用規(guī)則這一小點(diǎn)上,時(shí)代的差別性也是顯而易見(jiàn)的。所以,對(duì)漢語(yǔ)史進(jìn)行時(shí)代的劃分,明確界定古籍所屬時(shí)代是十分重要的。目前對(duì)於漢語(yǔ)史的分期問(wèn)題,學(xué)界還有爭(zhēng)議,不過(guò)方一新所持觀點(diǎn):“以東漢爲(wèi)界,把西漢列爲(wèi)過(guò)渡期和參考期,把古代漢語(yǔ)分爲(wèi)上古漢語(yǔ)和中古漢語(yǔ)兩大塊,以東漢魏晉南北朝隋爲(wèi)中古漢語(yǔ)時(shí)期,從語(yǔ)法、詞彙上看都是比較合理的。”(4)方一新:《從中古詞彙的特點(diǎn)看漢語(yǔ)史的分期》,《漢語(yǔ)史學(xué)報(bào)》第4輯,上海教育出版社2004年,第178—184頁(yè)。基本被學(xué)界認(rèn)同。所以可基本明確:漢語(yǔ)史分期,可以東漢爲(wèi)界,在大約3世紀(jì)以前的是上古漢語(yǔ);東漢其下的是中古漢語(yǔ);南宋(大約13世紀(jì))之後,則是近代漢語(yǔ);1919年五四運(yùn)動(dòng)以來(lái),就是現(xiàn)代漢語(yǔ)。
(1) 上古漢語(yǔ)古籍研究
對(duì)上古漢語(yǔ)古籍文獻(xiàn)的自動(dòng)分詞、詞性標(biāo)注的研究是一個(gè)循序漸進(jìn)的過(guò)程。臺(tái)灣“中研院”的“漢籍電子文獻(xiàn)”在對(duì)以《十三經(jīng)》爲(wèi)主的先秦文獻(xiàn)進(jìn)行分詞和詞性標(biāo)注時(shí),以較爲(wèi)傳統(tǒng)的最大概率和隱馬爾科夫模型爲(wèi)主;其後邱冰、皇甫娟提出啓發(fā)式的混合分詞方法,以反向最大匹配分詞爲(wèi)主,針對(duì)《論語(yǔ)》《國(guó)語(yǔ)》等21種古代漢語(yǔ)語(yǔ)料進(jìn)行研究(5)邱冰、黃甫娟:《基於中文信息處理的古代漢語(yǔ)分詞研究》,《微計(jì)算機(jī)信息》,2008年第24卷第8—3期,第100—102頁(yè)。;石民、李斌、陳小荷以《左傳》爲(wèi)例,採(cǎi)用條件隨機(jī)模型(CRF),通過(guò)自動(dòng)分詞、詞性標(biāo)注、分詞一體化的對(duì)比實(shí)驗(yàn),證明了一體化分詞比傳統(tǒng)先分詞後標(biāo)注的“兩步走”方法更有效(6)石民、李斌、陳小荷:《基於CRF的先秦漢語(yǔ)分詞標(biāo)注一體化研究》,《中文信息學(xué)報(bào)》,2010年第2期,第39—45頁(yè)。。
梁社會(huì)、陳小荷《先秦文獻(xiàn)〈孟子〉自動(dòng)分詞方法研究》(7)梁社會(huì)、陳小荷:《先秦文獻(xiàn)〈孟子〉自動(dòng)分詞方法研究》,《南京師範(fàn)大學(xué)文學(xué)院學(xué)報(bào)》,2013年第3期,第175—182頁(yè)。以先秦文獻(xiàn)《孟子》爲(wèi)例,研究了上古漢語(yǔ)古籍的分詞方法。文中採(cǎi)用了兩種分詞方法:1. 基於條件隨機(jī)場(chǎng)統(tǒng)計(jì)模型的自動(dòng)分詞方法;2. 利用注疏文獻(xiàn)的自動(dòng)分詞方法。在基於條件隨機(jī)場(chǎng)統(tǒng)計(jì)模型的分詞實(shí)驗(yàn)中,採(cǎi)用《左傳》《論語(yǔ)》作爲(wèi)訓(xùn)練語(yǔ)料,根據(jù)古漢語(yǔ)的語(yǔ)料構(gòu)成,選取了簡(jiǎn)單字面信息和複雜漢字特徵作爲(wèi)文本特徵進(jìn)行自動(dòng)分詞實(shí)驗(yàn),值得一提的是在複雜漢字特徵中作者將漢字的聲、韻、調(diào)及部首信息涵蓋其中。最終結(jié)果爲(wèi):基於上下文3個(gè)漢字、三字同現(xiàn)、並考慮字元分類的模板“3W+3+C1”,是最適合《孟子》的自動(dòng)分詞的。其中,在字元基礎(chǔ)上再增加聲、韻、調(diào)及部首信息,實(shí)驗(yàn)效果差別不大。僅就聲韻方面究其原因,一方面上古漢語(yǔ)的聲、韻、調(diào)皆是後人構(gòu)擬的,沒(méi)有準(zhǔn)確的標(biāo)準(zhǔn),作者選用描寫(xiě)中古漢語(yǔ)的《廣韻》字表作爲(wèi)基本資料庫(kù),這其中肯定會(huì)産生不可避免的誤差;另一方面因爲(wèi)漢字有一字多音的特性,以及上古漢語(yǔ)的文獻(xiàn)中會(huì)有很多的通假字、諧音等,漢字的聲、韻、調(diào)在不同的詞性或者義項(xiàng)下往往又是不同的。這方面問(wèn)題還是值得學(xué)者們深入研究的。其次作者還進(jìn)行了利用注疏文獻(xiàn)幫助自動(dòng)分詞的實(shí)驗(yàn)。這也是一種另闢蹊徑的辦法,可以説作者以一種獨(dú)特的眼光抓住了古漢語(yǔ)分詞的優(yōu)勢(shì),上古漢語(yǔ)文獻(xiàn)年代久遠(yuǎn),一些字詞句的含義,後人難以理解,因此産生了大量的注疏文獻(xiàn),這些注疏文獻(xiàn)的存在,恰好爲(wèi)計(jì)算機(jī)的機(jī)器學(xué)習(xí)提供了一個(gè)重要的語(yǔ)言知識(shí)庫(kù)。最後的實(shí)驗(yàn)結(jié)果也證明這種方法行之有效,是進(jìn)行古籍文獻(xiàn)信息處理的新方法。
留金騰、宋彥、夏飛的《上古漢語(yǔ)分詞及詞性標(biāo)注語(yǔ)料庫(kù)的構(gòu)建》(8)留金騰、宋彥、夏飛:《上古漢語(yǔ)分詞及詞性標(biāo)注語(yǔ)料庫(kù)的構(gòu)建:以〈淮南子〉爲(wèi)範(fàn)例》,《中文信息學(xué)報(bào)》,2013年第6期,第6—15,81頁(yè)。以《淮南子》爲(wèi)文本,採(cǎi)用自動(dòng)標(biāo)注和人工校正相結(jié)合的方法構(gòu)建深加工的上古語(yǔ)料庫(kù)。首先文章以《淮南子》爲(wèi)底本分析了上古漢語(yǔ)詞語(yǔ)的特點(diǎn),主要集中在古漢語(yǔ)複音詞的構(gòu)詞特點(diǎn)、詞語(yǔ)的形態(tài)特徵和詞語(yǔ)的詞性轉(zhuǎn)化三個(gè)方面,深入細(xì)緻的分析,爲(wèi)下文的實(shí)驗(yàn)提供了很好的特徵模板。在進(jìn)行分詞、標(biāo)注實(shí)驗(yàn)過(guò)程中,該文創(chuàng)造性的提出,在適應(yīng)領(lǐng)域方面,採(cǎi)用半監(jiān)督學(xué)習(xí)領(lǐng)域適應(yīng)技術(shù),將基於現(xiàn)代漢語(yǔ)訓(xùn)練的模型應(yīng)用到古漢語(yǔ)的分詞任務(wù)中,且取得較爲(wèi)理想的效果。在進(jìn)行詞性標(biāo)注實(shí)驗(yàn)中,綜合分析了前人的實(shí)驗(yàn)結(jié)果,爲(wèi)了取得更爲(wèi)理想的詞性標(biāo)注結(jié)果,拋棄了其他學(xué)者常用的分詞和詞性標(biāo)注的聯(lián)合解碼,而採(cǎi)用串列的分詞+標(biāo)注的方案,實(shí)驗(yàn)結(jié)果也證明了其方法的有效性。同時(shí),該文最後基於人工校正的實(shí)際情況匯總了自動(dòng)分詞和詞性標(biāo)注時(shí)産生的常見(jiàn)錯(cuò)誤,爲(wèi)後來(lái)者的研究提供了很好的借鑒。
魏一《古漢語(yǔ)自動(dòng)句讀與分詞研究》(9)魏一:《古漢語(yǔ)自動(dòng)句讀與分詞研究》,北京:北京大學(xué)碩士學(xué)位論文2020年。結(jié)合最新的深度學(xué)習(xí)技術(shù),提出古漢語(yǔ)的BERT預(yù)訓(xùn)練模型,以期更好地解決古漢語(yǔ)研究中的句讀與分詞問(wèn)題。在進(jìn)行古漢語(yǔ)分詞任務(wù)時(shí),作者以《左傳》作爲(wèi)測(cè)試語(yǔ)料,首次嘗試使用無(wú)指導(dǎo)方法,通過(guò)將非參數(shù)貝葉斯模型與預(yù)訓(xùn)練BERT深度學(xué)習(xí)語(yǔ)言建模方法相結(jié)合。經(jīng)測(cè)試,隨著訓(xùn)練集使用資料量的增大,其分詞效果能取得與有指導(dǎo)訓(xùn)練下測(cè)試的相同結(jié)果,甚至在準(zhǔn)確率、召回率等值上遠(yuǎn)超前人基於CRF方法取得的數(shù)值。並且在使用有指導(dǎo)訓(xùn)練後,這一模型表現(xiàn)出極佳的泛化能力和穩(wěn)定性,具有很大的實(shí)用化潛力。最值得肯定的是,作者提出的這一新方法不僅可以利用無(wú)標(biāo)注文本,而且不需要除了分詞以外的任何語(yǔ)言學(xué)特徵標(biāo)注,這無(wú)形中就解決了前人研究中的一大難題,即需要考慮漢字聲、韻、調(diào)、部首信息等各種複雜的特徵,極大的降低了工作成本。
(2) 中古漢語(yǔ)古籍研究
王嘉靈以中古時(shí)期的傳世文獻(xiàn)《漢書(shū)》爲(wèi)例,從詞彙獲取和字標(biāo)注兩個(gè)層面探討了古代漢語(yǔ)分詞的多種方法(10)王嘉靈:《以〈漢書(shū)〉爲(wèi)例的中古漢語(yǔ)自動(dòng)分詞》,南京:南京師範(fàn)大學(xué)碩士學(xué)位論文2014年。。首先在詞彙獲取層面,作者結(jié)合中古時(shí)期的詞彙特徵,針對(duì)性地做出《漢書(shū)》 詞語(yǔ)的切分細(xì)則,並且創(chuàng)造性地提出關(guān)於疑難字串的處理辦,雖是淺嘗輒止,但是這方面的研究還是值得大家深入探究。在上述工作的基礎(chǔ)上,作者對(duì)《漢書(shū)》中的專有名詞和已登録詞這類特殊的複音詞進(jìn)行了匯總處理,整理出人名表、地名表、先秦沿襲詞表、互信息詞表以及注疏詞表五張?jiān)~表,分別統(tǒng)計(jì)了單個(gè)詞表及各個(gè)詞表組合後對(duì)分詞結(jié)果的影響。最後得出結(jié)論:加入專名詞表和注疏詞表的分詞結(jié)果要明顯優(yōu)於其他詞表的分詞結(jié)果。這一結(jié)果也表明,將多個(gè)詞表綜合運(yùn)算並不代表其分詞效果就最好,古漢語(yǔ)詞彙的表達(dá)、劃分是極其複雜的,且進(jìn)行分詞時(shí)過(guò)多的細(xì)則反而會(huì)影響分詞的結(jié)果。其次在字標(biāo)注層面,利用CRF模型對(duì)《漢書(shū)》進(jìn)行了一系列的實(shí)驗(yàn),選用了字元分類,中古聲、韻,上古聲、韻等語(yǔ)言特徵來(lái)輔助分詞,最終結(jié)果表明:增加了字元分類和上古音的1W+2+C1’5’模板在特徵二元同現(xiàn)的情況下分詞效果可以達(dá)到最優(yōu)。同時(shí)從音韻學(xué)角度來(lái)看,《漢書(shū)》屬於中古時(shí)期的文獻(xiàn),但是在上古音語(yǔ)音特徵的輔助下分詞效果較好,也表明了漢語(yǔ)發(fā)展的繼承性,因爲(wèi)中古語(yǔ)音中仍保留著上古語(yǔ)音的特徵。
王曉玉《中古漢語(yǔ)語(yǔ)料庫(kù)分詞不一致問(wèn)題研究》(11)王曉玉:《中古漢語(yǔ)語(yǔ)料庫(kù)分詞不一致問(wèn)題研究》,南京:南京師範(fàn)大學(xué)碩士學(xué)位論文2016年。從中古漢語(yǔ)語(yǔ)料庫(kù)中選取史書(shū)、佛經(jīng)、小説三類共28萬(wàn)餘人工分詞語(yǔ)料,通過(guò)計(jì)算機(jī)自動(dòng)處理和人工校對(duì)的方法,分析匯總出中古語(yǔ)料分詞不一致現(xiàn)象産生的原因和分類,並提出初步解決的設(shè)想方案。在上述研究的基礎(chǔ)上,王曉玉、李斌發(fā)表《基於CRFs和詞典信息的中古漢語(yǔ)自動(dòng)分詞》(12)王曉玉、李斌:《基於CRFs和詞典信息的中古漢語(yǔ)自動(dòng)分詞》,《數(shù)據(jù)分析與知識(shí)發(fā)現(xiàn)》,2017年第5期,第62—70頁(yè)。,針對(duì)中古漢語(yǔ)中常常發(fā)生分詞不一致的字串,制定並優(yōu)化分詞規(guī)範(fàn),以此規(guī)範(fàn)校準(zhǔn)人工分詞語(yǔ)料,然後將整理後的語(yǔ)料,引入字元分類和字典信息兩種特徵進(jìn)行隨機(jī)場(chǎng)分詞實(shí)驗(yàn)。最後認(rèn)爲(wèi),在有效提高分詞一致性的前提下,字元分類、詞典標(biāo)記特徵能夠有效提高中古漢語(yǔ)CRFs分詞的精確度。
古漢語(yǔ)的自然語(yǔ)言處理除上文提到的分詞和詞性標(biāo)注技術(shù)之外,還有一項(xiàng)較爲(wèi)基礎(chǔ)性的研究工作——斷句標(biāo)點(diǎn)(也稱句讀)。國(guó)內(nèi)利用計(jì)算機(jī)對(duì)古籍進(jìn)行自動(dòng)標(biāo)點(diǎn)的研究,最初多是集中在詩(shī)歌、韻文方面。1997年,北京大學(xué)計(jì)算機(jī)語(yǔ)言研究所和北京大學(xué)古文獻(xiàn)研究所合作開(kāi)發(fā)《全宋詩(shī)》系統(tǒng),該系統(tǒng)可根據(jù)已儲(chǔ)存的韻書(shū)和押韻規(guī)則自動(dòng)判斷任一詩(shī)作的押韻狀況與韻腳,這可視爲(wèi)利用計(jì)算機(jī)對(duì)古籍進(jìn)行自動(dòng)斷句標(biāo)點(diǎn)的先聲。後臺(tái)灣陳郁夫先生在進(jìn)行《古今圖書(shū)集成》項(xiàng)目時(shí),成功實(shí)現(xiàn)對(duì)句法嚴(yán)整,兼有押韻的收録詩(shī)文詞賦的“藝文”、“選句”,約1700萬(wàn)字韻文的自動(dòng)標(biāo)點(diǎn)。隨著計(jì)算機(jī)技術(shù)的發(fā)展,對(duì)古籍進(jìn)行自動(dòng)斷句標(biāo)點(diǎn)的研究也有了較大突破,其常用方法與分詞、標(biāo)注技術(shù)相同,有基於規(guī)則和基於統(tǒng)計(jì)的兩種方法。目前,魏一(13)魏一:《古漢語(yǔ)自動(dòng)句讀與分詞研究》,北京:北京大學(xué)碩士學(xué)位論文2020年。等人利用較爲(wèi)流行的深度學(xué)習(xí)技術(shù),又提出使用BERT預(yù)訓(xùn)練模型加微調(diào)來(lái)解決斷句標(biāo)點(diǎn)任務(wù),取得較爲(wèi)可觀的效果。同時(shí)針對(duì)古籍文本無(wú)句亦無(wú)段,可能長(zhǎng)達(dá)若干千字的連續(xù)文本,設(shè)計(jì)了基於滑動(dòng)視窗的句讀方法,使得模型可處理的序列長(zhǎng)度不受限制,具有較強(qiáng)的實(shí)用性。
深入研究斷句標(biāo)點(diǎn)、分詞、標(biāo)注技術(shù)的同時(shí),學(xué)者們也在努力開(kāi)拓新的疆土,例如利用計(jì)算機(jī)對(duì)古漢語(yǔ)進(jìn)行自動(dòng)句法語(yǔ)義分析,但相關(guān)研究較少,現(xiàn)有馮秋香《基於數(shù)據(jù)庫(kù)語(yǔ)義學(xué)的古漢語(yǔ)句法語(yǔ)義分析研究》(14)馮秋香:《基於數(shù)據(jù)庫(kù)語(yǔ)義學(xué)的古漢語(yǔ)句法語(yǔ)義分析研究》,大連:大連理工大學(xué)博士學(xué)位論文2011年。,馮秋香等《數(shù)據(jù)庫(kù)語(yǔ)義學(xué)在古漢語(yǔ)自動(dòng)分析上的應(yīng)用》(15)馮秋香、汪榕培:《數(shù)據(jù)庫(kù)語(yǔ)義學(xué)在古漢語(yǔ)自動(dòng)分析上的應(yīng)用》,《大連理工大學(xué)學(xué)報(bào)》2012年第6期,第902—907頁(yè)。;樹(shù)庫(kù)構(gòu)建方面,因古漢語(yǔ)的句法標(biāo)注資源較少,樹(shù)庫(kù)的構(gòu)建多是在小樣本集上的嘗試,如John Lee等構(gòu)建的唐詩(shī)依存樹(shù)庫(kù),彭煒明等選取《論語(yǔ)》等語(yǔ)料構(gòu)建的圖解樹(shù)庫(kù)(16)何靜、宋天寶、彭煒明、朱淑琴、宋繼華:《基於“詞—詞性”匹配模式獲取的古漢語(yǔ)樹(shù)庫(kù)快速構(gòu)建方法》,《中文信息學(xué)報(bào)》,2017年第31卷第4期,第114—121頁(yè)。;研究方法上,有學(xué)者開(kāi)始探究利用最新流行的深度學(xué)習(xí)方法設(shè)計(jì)針對(duì)古漢語(yǔ)分詞的長(zhǎng)短時(shí)神經(jīng)網(wǎng)絡(luò),但相關(guān)研究較少,現(xiàn)有如高毅《基於長(zhǎng)短時(shí)神經(jīng)網(wǎng)絡(luò)的古漢語(yǔ)分詞系統(tǒng)》(17)高毅:《基於長(zhǎng)短時(shí)神經(jīng)網(wǎng)絡(luò)的古漢語(yǔ)分詞系統(tǒng)》,《自動(dòng)化與儀器儀錶》2020年第2期,第128—131頁(yè)。。
綜上所述,我國(guó)在古漢語(yǔ)自然語(yǔ)言處理研究的過(guò)程中有值得肯定的地方,也有其不足之處。值得肯定的是,無(wú)論是對(duì)上古漢語(yǔ)古籍的研究還是對(duì)中古漢語(yǔ)古籍的研究,學(xué)者都在盡自己最大的努力一步步深入,不斷提出新的研究思路。例如,學(xué)者在進(jìn)行分詞、標(biāo)注研究時(shí),將漢字的形、音作爲(wèi)輔助工具,不單單是從技術(shù)上革新,更多關(guān)注到理論知識(shí)層面,解構(gòu)漢字的形、音本質(zhì)。能與時(shí)俱進(jìn),將最新技術(shù)運(yùn)用到古漢語(yǔ)的具體研究中,即深度學(xué)習(xí)技術(shù)的應(yīng)用。其不足之處在于,古漢語(yǔ)信息處理技術(shù)需要跨學(xué)科研究,研究者知識(shí)儲(chǔ)備不足時(shí),相關(guān)研究只能淺嘗輒止,如上文提到的《漢書(shū)》中疑難字串的處理,這就需要進(jìn)一步加強(qiáng)學(xué)科之間的交流合作或培養(yǎng)知識(shí)更加全面的人才。同時(shí),無(wú)論是在古漢語(yǔ)語(yǔ)料庫(kù)構(gòu)建方面還是在古漢語(yǔ)分詞、詞性標(biāo)注方面,其成果遠(yuǎn)遠(yuǎn)比不上現(xiàn)代漢語(yǔ),未能達(dá)到古漢語(yǔ)研究者的期望。除此之外,筆者查找論文時(shí)發(fā)現(xiàn),關(guān)於古漢語(yǔ)自然語(yǔ)言處理研究的文章較多集中在2014—2017年,近幾年發(fā)表的文章寥寥無(wú)幾,這是一個(gè)令人擔(dān)憂的現(xiàn)象,古漢語(yǔ)自然語(yǔ)言處理技術(shù)藴藏著巨大的潛能,值得人們深入挖掘。