999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

林業(yè)古籍?dāng)嗑淠J秸Z料庫建設(shè)方案探討——以《樹藝篇》為訓(xùn)練文

2015-08-15 00:54:11
科技視界 2015年3期
關(guān)鍵詞:規(guī)則詞匯文本

趙 陽

(南京林業(yè)大學(xué)人文學(xué)院,江蘇 南京210036)

古籍?dāng)嗑?,是古籍整理實踐中重要的組成部分。通過標點原文,能夠區(qū)分出原文字句段落,厘清上下文關(guān)聯(lián),從而引導(dǎo)讀者理解內(nèi)容。這是非常有助于古籍的傳播和閱讀的。中國林業(yè)類古籍的整理主要功在收集,但其中僅有少量的文獻被標點。那么如果希望更多的林業(yè)古籍被有效利用,就必須加大古籍整理的力度。中文信息處理技術(shù)的介入,提高了該領(lǐng)域的工作效率,這其中尤以自動化標點的實現(xiàn)最為緊要。目前已有不少這樣的研究成果:有古籍?dāng)嗑涞南到y(tǒng)結(jié)構(gòu)圖以及基于模式匹配的斷句方法;有基于前后n-gram模型的古漢語斷句算法和一種可用于古文自動斷句的以兩個統(tǒng)計量互信息和測試差為特征的條件隨機場模型;另外2011年國學(xué)網(wǎng)還開放了一個古籍?dāng)嗑湓u測系統(tǒng)。但是林業(yè)古籍有其專業(yè)性,有該領(lǐng)域獨特的表達和術(shù)語,與一般的古籍是存在區(qū)別的。這就需要我們對林業(yè)古籍自動化斷句方式進行研究。而這其中的關(guān)鍵,就是建立斷句模式語料庫。

1 斷句模式語料庫建設(shè)的必要及文本對象的選擇

斷句模式語料庫,是實現(xiàn)林業(yè)古籍自動化斷句的基礎(chǔ),是建立識別特征的規(guī)則、數(shù)量、質(zhì)量的關(guān)鍵所在。這里對斷句模式語料庫的研究,特別強調(diào)林業(yè)古籍本身特征的提取,而不完全依賴于計算機識別程序的運用。因為計算機識別程序,有其基本的功能模塊,也能進行專門的文本處理,但是如上所述,林業(yè)古籍與一般古籍的確實存在區(qū)別,所以應(yīng)該設(shè)置出更具針對性的模式語料庫,然后再結(jié)合計算機模式識別程序進行操作。這里語料庫建設(shè)不是古籍原文的整體輸入,而是從事理邏輯、敘事層次、語義層次、語詞特征等性質(zhì)入手,建立起識別規(guī)則和模式,同時要兼顧古籍整理標點中的諸多規(guī)定和限制,最終形成一套可以按照一定規(guī)則進行優(yōu)化、合并,歸類的體系。這對林業(yè)古籍自動點校的實現(xiàn)是非常重要的。

在文本對象的選擇上,本文選擇《樹藝篇》為實驗對象?!稑渌嚻繁涣腥胱硬哭r(nóng)家類,共33卷。整部書先列總目,后分列谷部、蔬部、草部、草藥部,木部、果部共六類。本論文主要以木部為研究對象,其中木部包含有合歡、榆 楊柳、綿柳、白楊、黃楊等14種中國常見的樹種。木部的資料收集時間上跨越性較大,上及漢代,下迄明代。從材料性質(zhì)上看,不僅涉及到樹木的基本介紹、還有技術(shù)性指導(dǎo),甚至還有文學(xué)材料的介入;因此,選擇本書作為研究個案,具有較好的代表性。另外這部書到目前為止,沒有任何單行本或者合集的方式做過點校,相對選擇已有過點校本的古籍來說難度更大,從語料學(xué)角度看,具有代表性,從實踐意義來說,具有較大的開拓價值。

2 林業(yè)古籍?dāng)嗑淠J秸Z料庫建設(shè)的難點

斷句模式語料庫的建設(shè),必須結(jié)合林業(yè)古籍本身特點來設(shè)計,這里提出以下幾點難點問題:第一,重視林業(yè)古籍中的專門詞匯的分割。詞匯的分割一直也是人工古籍標點的難點之一,有語言學(xué)者提出“語言中存在大量的復(fù)音詞語。它們無論是合成詞、聯(lián)綿詞還是短語,都作為一個造句單位使用,不容許割裂。如果在中間加上標點,就把它們一分為二,也就是點破了詞語,從而破壞了意義的完整,改變了整段乃至全篇文字的意旨。這也是句讀標點中常見的錯誤?!雹俣偶械脑~匯由于時代的變遷,詞匯的含義及使用都發(fā)生了變化。這樣的特征,再加上林業(yè)類詞匯有其專業(yè)性,所以詞匯的分割正確與否,直接關(guān)系到全文的連貫性。第二,注意詞句位置及歸屬。詞句的位置及歸屬判斷直接影響到閱讀者對文章的理解。一般古籍,可以借助上下文理解,或者借助史料背景去解決詞句歸屬的難點,而林業(yè)古籍,從現(xiàn)代圖書分類來看,屬于技術(shù)類文本,所以出現(xiàn)詞句位置判斷失誤或者誤判歸屬的問題會更多。這其中必須加強對關(guān)鍵詞的判斷,如若關(guān)鍵詞判斷失誤,那么接下里的斷句也會產(chǎn)生較大的偏差。第三,注意林業(yè)古籍中的引文、補遺、注釋等文字。這類文字是引自各種方志類書,不同朝代,不同性質(zhì),甚至有些引用文獻都已亡佚。以《樹藝篇》為例,書后有章鈺手寫目錄,統(tǒng)計193種文獻。如木部榆這一條的論述中,所引各種文獻若干條,涉及到《爾雅》、《廣志》、《云山志》、《九華志》、《武夷志》、《九江府志》、《興化府志》、《松江府志》等等,這其中涉及到很豐富的背景知識,有典章制度,官制,地理、風(fēng)俗習(xí)慣,典故等等,所以這是一個非常值得關(guān)注的問題。

3 林業(yè)古籍?dāng)嗑湔Z料庫的標注識別規(guī)則

傳統(tǒng)計算語言學(xué)基本離不開語料統(tǒng)計,但是面對復(fù)雜的文本,還需要有針對性地結(jié)合一些規(guī)則。這里結(jié)合林業(yè)古籍的特征以及上述難點,在古籍人工點校和計算機處理的雙重技術(shù)支撐下,考慮在普通古籍語料庫模式類型基礎(chǔ)上,著重以下幾條識別規(guī)則。識別規(guī)則實際上與標注方式有關(guān),關(guān)鍵是將林業(yè)古籍文本的特色融合到標注過程中,在此基礎(chǔ)上取得最優(yōu)的標注效果。

3.1 詞匯特征識別規(guī)則

在林業(yè)詞匯中,不少專業(yè)詞匯與普通古籍中的詞匯可能字面一樣,但是卻有獨特的含義。所以在林業(yè)古籍文獻的語料庫中,有必要將專業(yè)詞匯列入分詞識別規(guī)則中,否則會大大增加標點的誤差率。目前有關(guān)命名實體化的方法日漸成熟,這里在技術(shù)上借鑒半監(jiān)督的中文信息處理手段,來實現(xiàn)林業(yè)專業(yè)術(shù)語的標注。林業(yè)類詞匯可以分為直接表述性詞匯和簡介表述性詞匯。直接表述性詞匯包括植物類,植物部位詞,加工模式詞等,而間接表述性詞匯包括色彩詞、形狀詞、時間詞、地點詞等。林業(yè)類專業(yè)詞匯的特別處理,有助于標注的效率。如《樹藝篇》中有一段文字:“圖經(jīng)曰合歡夜合也生益州山谷今近京雍洛間皆有之人家多植于庭除間木似梧桐枝甚柔弱葉似皂莢槐等極細而繁密互相交結(jié)每一風(fēng)來輒似相解了不相牽綴其葉至暮而合古一名合昏五月花發(fā)紅白色瓣上至秋而實作莢子極薄細采皮及藥用不抱時月?!边@段話中,“合歡”、“梧桐”、“皂莢”、“槐”、“合昏”、等是直接表述性詞匯中的植物類名稱(簡稱ZM),“花”、“枝”、“葉”、“瓣”、““莢子”、“皮“等屬于植物部位詞(簡稱ZB)。”植“、”交結(jié)“、”牽綴“、”采“為加工模式詞等(簡稱JG)。這些專業(yè)詞匯可以作為斷句的輔助依據(jù)。一般來說,如果ZM(ZB)后面是JG,那么考慮在ZM(ZB)前面做斷句;如果JG后面是ZM(ZB),一般在ZM(ZB)后面做斷句。

3.2 事理邏輯斷句模式

林業(yè)古籍中的語言敘述的事理邏輯,與現(xiàn)代語言中的科技語體有部分相似。他的描述基本無贅語,簡約而規(guī)范。以《樹藝篇》中的“柳”為例。柳樹是中國傳統(tǒng)的樹種,早在先秦時期就有相關(guān)記錄。《樹藝篇》中有關(guān)于柳樹栽培技術(shù)的敘述:“種柳正月二月中取弱柳枝大如臂長一尺半燒下頭二三寸埋之令沒常足水以澆之必數(shù)條俱生留一根茂者余悉掐去別豎一柱以為依主每一尺以長繩柱欄之若不欄必為風(fēng)所摧不能自立一年中即高一丈余其旁生枝葉即掐去令直聳上高下任人取足便掐去正心即四散下垂婀娜可愛若不掐心則枝不四散或斜或曲生亦不佳也”。 這里有一些關(guān)鍵性的詞語 “種”、“取”、“燒”、“埋”、“澆”、“留”、“掐”、“豎”等詞,還有數(shù)量單位 “尺”、“寸”、“條”、“根”、“柱”、“丈”等。這里主要依賴于概念分類和概念之間的關(guān)系的判斷,在一大段話中,根據(jù)動詞出現(xiàn)的位置,在前后考慮這里有可分割的片段,以此形成邏輯子語言來提供判定。比如在動詞前或者后是否存在某相關(guān)概念,而關(guān)鍵詞語概念之間是否存在一定的關(guān)系。這樣的片段邏輯模式積累到一定程序,可以去歸納類型,最終在此基礎(chǔ)上構(gòu)造邏輯模型。

3.3 引文識別規(guī)則

在古籍文本中有豐富的引文資料存在,衡中青等學(xué)者針對引文的標點問題構(gòu)建了一種引書挖掘系統(tǒng)。他提出若是作者直接稱引的可以將文本生成電子文本后,計算機直接抽??;若是沒有任何標注的引文,可以使用模式識別方法加n-gram分詞法。②這種方法并不是針對斷句功能建立的,他主要是用于后期的文獻計量分析,不過對斷句模式有一定的啟發(fā)。我們可以建立引文識別的邏輯語言模式:如“某某曰”、“某某記”、“某某志”,那么在此前或者此后,就應(yīng)該考慮斷句。這里特別注意的是,因為林業(yè)古籍中有時候會重復(fù)引用同一部文獻,那么在上面已經(jīng)引用過的情況下,后面的書名可能是簡稱?!稑渌嚻分幸母┦敖允牵绕湟⒁?。

4 結(jié)束語

需要注意的是,這幾種模式是相輔相成,不可偏缺的。以《樹藝篇》作為訓(xùn)練文本對象,有其代表意義和價值,但是也有局限性。雖然書中涉及文獻約有200篇,但是與浩如煙海的林業(yè)古籍總數(shù)相比,還是相去甚遠。另外林業(yè)古籍還有其他一些特征有待挖掘,這是在后面的研究中亟待補充的。

[1]胡古愚.樹藝篇[M]//續(xù)修四庫全書977冊.上海:上海占籍出版社,2002

[2]引文索引法的理論及應(yīng)用[M].北京:北京圖書館出版社,2004.

[3]吳小如.古籍整理中的點校注譯問題[M]//古籍點校疑誤匯錄北京:中華書局,1989.

[4]昌寧,李涓子,等.語料庫語言學(xué)[M].商務(wù)印書館,2002.

[5]劉開瑛.中文文本 自動分詞和標注[M].北京:商務(wù)印書館,2000.

注釋:

①葛本儀,主編.漢語詞匯學(xué)[M].山東大學(xué)出版社,2003:1013.

②衡中青.《方志物產(chǎn)》引書挖掘及分析研究[J].中華農(nóng)史,2007,3.

猜你喜歡
規(guī)則詞匯文本
撐竿跳規(guī)則的制定
數(shù)獨的規(guī)則和演變
本刊可直接用縮寫的常用詞匯
一些常用詞匯可直接用縮寫
在808DA上文本顯示的改善
本刊可直接用縮寫的常用詞匯
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
讓規(guī)則不規(guī)則
Coco薇(2017年11期)2018-01-03 20:59:57
TPP反腐敗規(guī)則對我國的啟示
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
主站蜘蛛池模板: 青草91视频免费观看| 国产高清在线精品一区二区三区| 日韩国产黄色网站| 成人综合久久综合| 国产在线啪| 97狠狠操| 中文国产成人精品久久一| 中文字幕人成人乱码亚洲电影| 亚洲九九视频| 91精品伊人久久大香线蕉| 91色在线观看| 国产精品蜜臀| 精品人妻一区无码视频| 99在线视频免费观看| 免费毛片a| 亚洲成a人片| 亚洲国产成人精品无码区性色| 久久精品国产在热久久2019| 欧美日韩在线成人| 日韩色图在线观看| 凹凸国产分类在线观看| 国产精品自在线拍国产电影 | 国产素人在线| 久草视频中文| 午夜影院a级片| 制服丝袜一区二区三区在线| 波多野结衣二区| 亚洲人网站| 丁香六月激情婷婷| 成人第一页| 视频一区亚洲| 午夜视频免费试看| 国产一级在线观看www色| a级毛片视频免费观看| 国产成人亚洲精品色欲AV | 九九久久精品国产av片囯产区| 青草国产在线视频| 99re在线免费视频| 亚洲成a人片77777在线播放| 永久免费无码日韩视频| 综合五月天网| 国产成人久视频免费| 国产网站在线看| 制服丝袜一区| 亚洲高清免费在线观看| 日本五区在线不卡精品| 青青草原国产av福利网站| 国产成人精品在线1区| 国产成熟女人性满足视频| 色婷婷亚洲综合五月| 色偷偷av男人的天堂不卡| 三上悠亚一区二区| AⅤ色综合久久天堂AV色综合| 在线观看av永久| 免费可以看的无遮挡av无码| 在线色综合| 久久综合AV免费观看| 国产免费久久精品99re丫丫一| 91免费片| 无码高潮喷水专区久久| 777午夜精品电影免费看| 亚洲欧洲日韩综合色天使| 女人av社区男人的天堂| 国产精品久久久久鬼色| 日韩欧美中文字幕在线韩免费| 免费无码在线观看| 91福利在线观看视频| 成人国产三级在线播放| 国产久操视频| 免费在线色| 久久永久免费人妻精品| 尤物国产在线| 日韩中文无码av超清 | 无码福利视频| 亚洲Av综合日韩精品久久久| 69视频国产| 精品成人免费自拍视频| 欧美第二区| 国产打屁股免费区网站| 中国国语毛片免费观看视频| 日本高清免费一本在线观看 | 成人在线不卡视频|