999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

先秦文獻信息處理的最新力作

2022-05-22 11:43:00匡海波譚昕
文教資料 2022年4期

匡海波 譚昕

摘 要:北京大學出版社出版的《基于注疏文獻的〈孟子〉信息處理研究》一書是對《孟子》及其注疏進行信息處理的研究。本文從文獻自身、橫向比較、利用注疏三個層面來分析梁著的基本框架、研究思路和研究價值,并介紹該書如何創新地借用中文信息處理方法進行古文獻信息處理。

關鍵詞:注釋文獻 中文信息處理 古文獻信息處理

古文獻信息處理作為數字人文的重要研究領域之一,近年來尤為引人注目。古文獻信息處理對于我國古代典籍整理傳承和古代歷史語言文化研究,其重要性不言而喻。如何利用現代化的計算機方法,拓寬古文獻研究思路,則同樣是古漢語學界、語言學學界以及計算機學界都非常關心的研究課題。

二十世紀七八十年代,古文獻信息處理起步于古文獻電子化[1],經過三四十年的發展已經有了眾多研究成果,但仍存在不小的進步空間[2-3],主要表現在大量傳世及出土文獻沒有進行數字化,經過信息處理的文獻只能說“九牛一毛”。另外,目前的古文獻數字化往往只是淺層處理,尚不能為古漢語研究提供更深層次的數據支撐。基于計算語言學方法的古漢語語法、語義、語用研究還比較少見。實際上,如果只是對古籍進行單純數字化,則大有“暴殄天物”

之嫌。

就先秦傳世經典的信息處理而言,這些經典的注疏文獻實際上是最好的語言材料。所謂“注疏文獻”,其實是后人由于去古已遠,無法對古文獻進行直接閱讀,而所作的隨文注釋。“注疏”包羅萬象,包含文字、音韻、訓詁等各方面內容。基于注疏文獻的古文獻信息處理是學者對于古文獻注疏的一種延續和繼承,只是我們有了現代化的信息處理手段,理應做得比前人更細更好。而基于注疏文獻進行信息處理的主要難點在于,如何從非結構化的注疏文獻中抽取并識別我們想要的語言知識。

梁社會博士撰寫的《基于注疏文獻的〈孟子〉信息處理研究》(北京大學出版社2021年出版,以下稱“梁書”)分為五章[4],屬于利用注疏對古文獻專書進行信息處理的研究。我們將從文獻自身、橫向比較、利用注疏三個層面來分析梁著的基本框架、研究思路和研究價值,并介紹梁書如何創新地借用中文信息處理方法進行古文獻信息處理,以期為后續工作者提供思考。

一、文獻自身軸:《孟子》深層次信息處理

上文有所表述,大量古文獻沒有進行信息處理,但急于對大規模跨時代古文獻進行批量處理,難免“眉毛胡子一把抓”。同時,古文獻信息處理的研究范式本身就尚未形成,不同時代文獻的處理方法是否具有遷移性,還需要深入研究。因此,針對某一部斷代專書進行研究,理所應當。

梁書選取了《孟子》作為信息處理對象。據其介紹,其大致理由有三:一是《孟子》及其注疏在十三經注疏中篇幅較長(《孟子》約4萬字,《孟子注疏》約27萬字,《孟子集注》約12.1萬字,《孟子正義》約33.3萬字),相較于大多數十三經文獻便于統計和機器學習;二是針對《孟子》的自動分詞、詞性標注、詞義消歧研究尚屬空白,亟待進行拓荒;三是《孟子》流傳甚廣,語言風格明顯,修辭使用廣泛,專于邏輯說理,便于進行語言風格計算。這三條理由是完全站得住腳的。

梁書中對《孟子》的處理流程包括自動分詞,詞性標注,語義消歧,風格計算等。經過這一系列的縱向處理,所得到的《孟子》語料屬于“熟語料”,具有了相當的研究價值,不僅便于一般用戶進行理解閱讀、智能化搜索等,同時也可以協助古漢語專家進行詞匯、語法等研究,或對《孟子》及其他十三經進行橫向比較。

自動分詞是古文獻信息處理的基礎性工作之一。梁書利用規則方法、統計模型以及注疏文獻三種方法對《孟子》進行了自動分詞實驗。根據梁書報告,規則方法分詞結果F值最高達0.946。統計模型(采用條件隨機場模型)分詞結果F值最高達0.982。其中,統計模型特別考慮了將漢字的聲韻調及部首信息加入學習模板進行對比實驗,具有很強的針對性。實驗表明,漢字的聲母信息對分詞結果有所提高,但再加入韻母、聲調、部首信息反而造成了分詞結果的精度失落。另外,利用《孟子》傳世注疏對孟子進行分詞是本書的一大特色(第4節詳述),其分詞結果F值最高可達0.928,實驗結果相比其余兩種方法并沒有較大差距。

先秦文獻所使用的語言屬于上古漢語,與現代漢語在詞類分布方面有所不同。梁書根據《孟子》及其他先秦文獻的語言詞匯特點,設計了13大類43小類的詞性類別,同時特別強調,先秦漢語較現代漢語普遍存在詞語兼類和活用現象[5],應當是詞性標注實驗的重點難點。梁書拋開詞語兼類與活用的區分不論,據其統計,《孟子》全文詞語兼類及活用比例一共高達22.24%。梁書采用條件隨機場模型進行詞性標注實驗,詞語F值最高達0.941。同時,梁書對標注錯誤進行了統計分析,發現名詞動詞混淆是《孟子》詞性標注錯誤的主要來源,占比達45.58%。這個結果也佐證了我們對于上古漢語的大致印象,即名詞動詞的活用比較普遍且寬泛。此外,梁書還創造性地使用注疏信息對詞性標注結果進行校正,具體情況見第4節。

在分詞和詞性標注的基礎上,梁書對《孟子》中最常見的10個多義詞,即“之”“而”“以”“有”等進行了詞義消歧。與現代漢語相比,這些多義單字詞詞頻占比更高,義項也更為豐富(多則12項,少則4項),因此,數據量更小更稀疏,消歧難度更大,但也是理解先秦文獻的關鍵之一。梁書分別采用了條件隨機場模型,詞義消歧樹兩種算法進行詞義消歧實驗。在窗口長度為2,且綜合考慮詞語詞性、讀音等語言特征的情形下,封閉測試正確率平均為86.36%與87.95%,開放測試正確率平均為84.76%與85.54%,消歧效果尚佳且兩種算法結果基本接近。

上文介紹,先秦文獻數量眾多,體裁豐富,據李零[6]介紹,大致有八大類別。其中,不同體裁的先秦文獻語言風格存在差異,即便是同一體裁,不同文獻之間也或多或少存在著差異。相較于其他先秦文獻而言,人們總的感覺是《孟子》修辭使用廣泛,專于邏輯說理。根據這一特點,梁書首先對《孟子》的文本特征進行了大規模的細致統計,統計內容十分豐富,包括篇幅,用字頻率,用字熵值,用詞頻率,平均詞長,句型分布等,從各層面對《孟子》的語言風格進行了系統統計,并與其他先秦文獻做了比較,具體情況見第3節。另外,梁書分析《孟子》說理磅礴,其原因之一是大量使用排比句,因此對《孟子》進行了排比句這樣的修辭格識別實驗。其識別算法融合了最長公共子序列求解,相似度計算、句珠遍歷等算法,封測測試和開放測試的F值達0.61與0.59,這項研究為古漢語修辭格自動識別進行了拓荒。

二、橫向比較軸:《孟子》與其他先秦文獻信息處理的比較

以十三經為代表的先秦文獻,其篇幅長短及語言風格是具有差異的。即便是同樣的體裁,例如《孟子》和《論語》,也存在著語言風格差異。梁書介紹,《孟子》語言風格特點“喻體廣泛,方式多樣”,這是文獻學和古漢語研究已有的確論。但文獻差異是否體現為語言計算結果的不同,這種差異對于信息處理的方法遷移又具有多大影響,哪些文獻具有獨特的處理方法,這都是極具價值的文獻橫向研究課題。

基于上述考慮,梁書牢牢抓住《孟子》的語言特點,在與其他先秦文獻的信息處理結果比對中,展開研究。

梁書采用《漢語大詞典》《孟子譯注附錄詞表》《論語詞表》《左傳詞表》四種詞表對《孟子》進行了機械分詞,分詞結果F值分別為0.863,0.935,0.946,0.909,得出了《孟子譯注附錄詞表》效果最佳,《論語詞表》比《左傳詞表》效果更好的結論。統計分詞方法方面,梁書用《左傳》訓練,測試《孟子》,其分詞結果F值最高達0.609,《論語》作為訓練語料,F值最高則為0.699,而《孟子》自我訓練則達到了0.956,可見統計方法對于不同文獻的遷移,其精度失落還是比較大的。

詞性標注方面,梁書用《孟子》自我訓練,F值封閉測試最高達0.941,開放測試平均為0.897。而用《左傳》作為訓練語料,F值為0.845,用《論語》作為訓練語料,F值則為0.869。就詞性標注錯誤而言,梁書指出,用《左傳》《論語》訓練,人名地名標記出現了較大的精度失落。且《左傳》比《孟子》錯誤率更高一些。但名詞動詞活用方面,使用了《左傳》《論語》語料,反倒比單純使用《孟子》語料有了一定提升,這似乎說明了就詞性標注試驗而言,不同文獻的數據也有可遷移的一面。

梁書在對《孟子》的文本特征進行統計的基礎上,展開了與《左傳》《論語》的比較。結果顯示,《左傳》用字最為繁復,數量大約是《孟子》的1.74倍和5.08倍。就具體用字而言,《孟子》中含有大量的“不”字,梁書分析這是因為孟子在辯論時,習慣于提出假設,從而增強辯說的效力。梁書繼而分析,《孟子》中出現的“王”“則”等字在《論語》中未曾出現,這體現了《孟子》的敘述內容和語言風格。同時,梁書計算了《孟子》與《左傳》《論語》的文本相似度,前者為0.4238,后者為0.7411,顯然《孟子》與《論語》用字更接近,這與語言學本體研究和文章的體裁分類也是基本相符的。

詞型方面,梁書統計,《孟子》《論語》單字詞詞型占比超過半數,但《左傳》雙字詞詞型占比最高。梁書進一步對詞語詞性標注結果進行統計,發現經過詞性標注后,《孟子》的帶標記詞型數目比不帶標記詞型數目增長了33.28%,《論語》為33.87%,而《左傳》只增長了20.25%,由此梁書判斷,《孟子》《論語》的兼類現象較《左傳》更為突出,這與我們的語言感覺基本類似。

梁書還對《孟子》《論語》《左傳》文獻中的陳述句、疑問句、感嘆句、祈使句等句型進行了人工標注、比對分析。結果顯示,《孟子》論辯色彩最濃,疑問句占比高達0.2323,《論語》中的感嘆句占比最高,達0.0960。顯然,這樣的計量特征讓我們能夠從數據方面領略到先秦文獻的語體差異。

梁書中關于《孟子》與其他先秦文獻的信息處理橫向比對研究,具有一定的普遍意義,其給我們的啟示在于,不同文獻作為訓練語料,其針對某部專書的處理結果是具有差異的。體裁接近,語言風格類似的文獻自然可以取得更好的成績,一味擴大語料,進行統計學習,可能并不有利于古文獻信息處理。但就某一方面而言,利用其他文獻也可能提高處理效果。因此,這種遷移學習的適應領域和效果優劣值得學界進行深究。

三、利用注疏軸:基于《孟子》及其注疏的信息處理

梁書的一大創新之處在于利用《孟子注疏》《孟子集注》《孟子正義》等注疏語料,結合《孟子》原文進行信息處理。上文介紹注疏文獻是古文獻信息處理的最好材料,并指出注疏處理的問題在于如何從非結構化的注疏文獻中抽取注疏,并識別出結構化或半結構化的語言知識。因此,梁書的第一章開宗明義地介紹如何進行注疏對齊這樣的必要先期工作。

據梁書介紹,注疏對齊分為句子對齊和注釋對齊兩個部分。所謂“句子對齊”,即將“夾引夾議”的注疏文獻重組為“引議平行”的結構模式。參考平行語料庫的制作方法[7],梁書設計了基于范圍檢查以及基于字符串相似度等算法,對孟子及其注疏進行句子對齊。三本注疏的實驗結果基本都在98%以上,略加人工修正,即可以形成完善的句子對齊注疏語料。

所謂“注釋對齊”,即將已經完成句子對齊的語料中,關于具體字詞的解釋,錨定到原文的字詞位置。注疏中的字詞解釋,對于自動分詞、詞性標注,乃至理解原文自然極有幫助。同時,不同時期的注疏還可以進行相互比對,分析孰優孰劣,起到明辨源流的作用。但注疏對齊的工作量也是不言而喻的,目前詞語級別的注疏對齊結果尚屬少見。因此,梁書設計了基于正則表達式匹配的對齊方法,利用“反切法”“訓詁術語”等53種固定格式從《孟子》注疏中抽取注音及訓詁注釋。實驗結果表明,就字詞短語三種語言單位的注釋而言,注釋對齊F值平均為0.887。基于這些工作,梁書構建了一個合并注疏數目772條的數據庫,以便后期綜合考察利用。

利用《孟子》傳世注疏對孟子進行分詞是本書的一大特色。注疏分詞的優點在于,一是無須事先準備詞表;二是能抽取到通用詞表中未出現的大量未登錄詞;三是能改造為帶有增強學習性質的深度學習分詞方法。梁書利用詞語注釋對齊結果,制作了《孟子》分詞詞表(其中,《孟子注疏》收詞1828個,《孟子集注》收詞1136個,《孟子正義》收詞1952個),而后采用規則方法進行分詞,F值最高可達0.928,實驗結果相比傳統方法基本接近,但與主流的統計方法相比,算法的時間復雜度大為下降。

利用注疏信息進行詞性校正,是梁書的又一大創新。梁書介紹,詞性概念起源于西方,注疏文獻中自然也就沒有關于詞語詞性的內容,但注疏中至少有三種對詞性標注極有價值的信息:詞語是否為語助辭,人名地名以及反切聲調等。梁書從規模和規律性的角度出發,利用反切聲調信息中的去聲信息來進行詞性自動校正,實驗的校正精度超過80%,初步證明了聲韻信息對于詞性校正的可操作性,以及注疏信息的待挖掘使用空間。

另外,梁書首次對《孟子注疏》《孟子集注》《孟子正義》進行了文本特征統計分析,側面反映了不同時代學者對《孟子》作注的語言風貌。梁書發現,盡管上述三本注疏成書年代跨越千年,但用字數目卻相差不大,可見一本注疏的字型是比較趨同的。句型分類方面,梁書考察了《孟子》三部注疏的句型占比。結果顯示,《孟子集注》專于作注,因此疑問句,感嘆句占比相對較少。這也是用計算機進行大規模自動挖掘才能發現的文本特征之一。

四、結語

通過上述三個層面的分析,我們對梁書的研究思路、研究成果和研究價值進行了梳理。我們從書中充分認識到,古文獻信息處理不免借用中文信息處理的方法,但又不能生搬硬套,否則效果自然不佳,因此如何借用改造中文信息處理方法,是古文獻信息處理的核心課題之一。

顯然,梁書中借用了大量中文信息處理的方法,比如雙語對齊算法、正則表達式、分詞詞性標注方法等。實驗結果也的確顯示,這些方法對于古文獻信息處理基本適用。同時,梁書也針對上述中文信息處理方法進行了諸如匹配對齊,古漢語特征學習等相關改進,這為我們遷移到其他古文獻提供了實驗參考。梁書充分利用先秦文獻獨有的注疏資源,設計了若干從注疏材料中挖掘語言知識的方法,對自動分詞、詞性標注等相關信息處理提供了新的思路。另外,梁書在不同文獻比對研究的過程中所得到的一些結論對現代漢語信息處理也是具備參考價值的,比如跨領域非平衡語料之間的學習遷移、多源學習與領域自適應、排比修辭格的識別等。

參考文獻:

[1] 曹書杰. 古籍整理與電子計算機應用研究的思考[J]. 古籍整理研究學刊,1988(1):44-49.

[2] 毛建軍. 古籍數字化研究的回顧與思考[J]. 國家圖書館學刊,2007(3):62-65.

[3] 周迪,宋登漢. 中文古籍數字化開發研究綜述[J]. 圖書情報知識,2010(6):40-49.

[4] 梁社會. 基于注疏文獻的《孟子》信息處理研究[M]. 北京:北京大學出版社,2021.

[5] 羅竹蓮. 詞類活用與詞的兼類論析[J]. 南華大學學報(社會科學版),2005(2):96-99.

[6] 李零. 簡帛古書與學術源流[M]. 北京:生活·讀書·新知三聯書店,2004.

[7] 李維剛,劉挺,張宇,等. 基于長度和位置信息的雙語句子對齊方法[J]. 哈爾濱工業大學學報,2006(5):689-692.

[8] 陳小荷,馮敏萱,徐潤華. 先秦文獻信息處理[M]. 北京:世界圖書出版公司北京公司,2013.

主站蜘蛛池模板: 免费在线不卡视频| 欧美成人一级| 不卡午夜视频| 五月天丁香婷婷综合久久| 国产亚洲精品自在线| 国产综合网站| 欧美一级色视频| 日韩第一页在线| 国产爽爽视频| 欧美激情网址| 伊人丁香五月天久久综合 | 国产精品99久久久| 免费人成在线观看视频色| a毛片在线| 四虎永久在线| 最新国产麻豆aⅴ精品无| 欧美视频二区| 嫩草国产在线| 日韩国产一区二区三区无码| 小说 亚洲 无码 精品| 国产精品一区二区在线播放| 国精品91人妻无码一区二区三区| 亚洲三级网站| 55夜色66夜色国产精品视频| 亚洲中文精品人人永久免费| 97青草最新免费精品视频| 九九线精品视频在线观看| swag国产精品| 国产美女丝袜高潮| 欧美精品成人| 国产免费网址| 亚洲第一网站男人都懂| 巨熟乳波霸若妻中文观看免费| 一区二区三区国产精品视频| 亚洲三级色| 亚洲欧洲日产国码无码av喷潮| 久久国产黑丝袜视频| 成人小视频在线观看免费| 亚洲最大福利视频网| 国产极品美女在线观看| 久久久久无码精品| 国产成人精品视频一区视频二区| 99精品福利视频| 国产一区在线观看无码| a色毛片免费视频| 国产福利一区二区在线观看| 欧美午夜视频| 在线观看国产小视频| 国产高清免费午夜在线视频| 国产美女免费网站| 97影院午夜在线观看视频| 亚洲欧美精品日韩欧美| 在线免费看片a| 国产成人无码AV在线播放动漫 | 亚洲第一综合天堂另类专| 亚洲精品第一页不卡| 国产流白浆视频| 中文毛片无遮挡播放免费| 一区二区三区在线不卡免费| 国产成人一区免费观看| 亚洲美女AV免费一区| 香蕉色综合| 天天综合亚洲| 亚洲欧美不卡视频| 国产波多野结衣中文在线播放| 亚洲无码免费黄色网址| 亚洲日韩欧美在线观看| 国产精品2| 欧美综合激情| 亚洲国产精品一区二区第一页免| 亚洲国产精品日韩专区AV| 国产欧美日韩免费| 婷婷色婷婷| 露脸国产精品自产在线播| 欧美精品在线观看视频| 亚洲无卡视频| 亚洲嫩模喷白浆| 中文字幕 91| 久久久久国产一区二区| 99久久精品国产精品亚洲| 国产主播在线一区| 五月天久久综合|