999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

《論語》中古注疏語料庫的建設

2017-01-28 21:40:42孫尊章徐凌
山西檔案 2017年5期
關鍵詞:排序

文 / 孫尊章 徐凌

《論語》中古注疏語料庫的建設

文 / 孫尊章 徐凌

古代漢語語料庫的研究,還有很大的發展空間。專題小型語料庫的建設,能夠為研究帶來極大的便利。建設思路可包括:對電子文本進行校對;將語料進行分離,剝離不需要的語料,將需要的語料進行分類;對語料進行加工,包括分詞和詞性標注。

論語;中古;注疏;語料庫

隨著計算機的普及和信息技術的發展,科研工作中越來越多地使用到了語料庫,這為我們的研究帶來了極大的便利。語言的研究應基于語言事實來展開。因此,它需要占有盡可能詳盡的語料。傳統的語言學研究,靠人工來收集、分析語料,耗時太大,枯燥且易出現錯誤。漢語史研究中語料庫的使用,能夠使我們的研究建立在堅實的語料基礎上,使我們的研究更有說服力。

但相對于現代漢語和外語而言,古代漢語語料庫的建設還處于較弱的位置。我們在從事《論證》中古注疏研究時,建設了一個《論語》中古注疏的小型語料庫,主要包括《論語》正文、何晏注及皇侃義疏。現將建設思路略作解析,以就正于方家。

一、電子文本的校對

首先,選用已有的電子版本進行校對。已有的電子版本大多較粗糙,不僅有大量的錯別字,甚至存在大段缺失的情況。因此,我們先使用善本對它們進行了校對。

我們選取的底本是中華書局1998年出版的四部要籍注疏叢刊《論語》。此本選用的是清同治十二年粵東書局據《知不足齋叢書》本刻《古經解匯函本》。

參考的校本有以下兩種:

其一,《儒藏》精華編104冊經部四書類《論語義疏》。此本原為1923年日本大阪懷德堂的排印本,由武內義雄據日本國內多種古抄本合校而成,其特點是保持了抄本皇侃《義疏》的體式,而不像根本遜志刻本那樣將皇侃《義疏》的體式完全比照中國習見的注疏體式作過改動。

其二,《儒藏》精華編281冊出土文獻類《唐寫本論語集解》。20世紀初以來,敦煌及吐魯番等地出土了唐人寫何晏《集解》單行本60多件,同時還有白文《論語》、《論語鄭氏注》和《論語皇侃義疏講經提綱》。此本既以《集解》寫本為底本和校本對校,并以白文《論語》、《論語鄭氏注》及有關刊本為參校本,并參考《論語皇侃義疏講經提綱》進行整理與研究,也有一定的參考價值。

在語料整理過程中,我們還參考了清吳騫撰《皇氏論語義疏參訂十卷附錄一卷》,《續修四庫全書》第153冊,經部·四書類等。

二、語料的分離

我們在將文本進行了多次校對之后,得到了一個錯誤盡可能少的《論語》中古注疏語料。在這個基礎上,將語料進行分離。把語料中的四種類型分別用不同的顏色標上。黑色,包括注疏用語、注中全部引用《論語》原文的話、疏中全部引用《論語》原文或何注的話。這部分是不列入研究范圍的、需要剝離的語料;橙色,屬于《論語》正文;紅色,屬于何晏注;藍色,屬于皇侃疏;再利用POI技術對文檔進行分享操作。POI技術中的HWPF介面的主要功能是讀寫Word,完成提取Word正文文本、批注、Word總頁數、總頁數等一系列操作,功能強大且易用。借助它,我們可以方便地將正文、何注和皇疏分別分離到三個word文檔中。同時去除文檔中的標點,得到了純凈的文本。方法如下:

POI下載解壓后,首先將POI中操縱Word有關的包導入項目中,然后創建一Java類,在類中導入java.io包中的File、FileInputStream類,poi包中的Now、HWPFDocument、CharacterRun和Range等類。

三、分詞和詞性標注

我們分別將三個文檔,用“MyTxtSegTag分詞和詞性標注工具”進行初步的分詞及詞性標注。不過,這個軟件對繁體字無法識別,必須先將語料轉化為簡化字之后再操作。另外,這個軟件對古代漢語語料的分詞和詞性標注錯誤較多。用它操作完畢后,還必須進行詳細的人工校對。

完成分詞和詞性標注后,我們將得到的內容,轉入excel表格中,何晏注和皇侃疏各建立一個excel表格。每一個詞及其詞性標注內容,都占用一個單元格,每一行只存放一個詞。

在何晏注和皇侃疏這兩個excel工作薄中,分別建立以下工作表:

(1)原文:這是直接從word中轉換到excel表格中的內容。

(2)排序后:這個表里面的數據,是將所有數據按音序排列后的內容。

(3)去除重復后:將排序后的數據,通過excel表格“篩選”中的“高級篩選”功能,勾選“選擇不重復的記錄”,并設置“將篩選結果復制到其它位置”,在“復制到”里面選擇B1單元格。由此去除重復的記錄,即詞形和詞性都完全相同的記錄,只保留一個。

(4)按音節排序:將去除重復記錄后的數據,再一次按音節排序。

(5)去除被釋詞:在前面的詞性標注中,已經將所有被釋詞等不需要列入統計的語料,用“bj”進行了標注。在此表中,刪除所有帶有“bj”字段的單元格。它的方法有許多,下面提供兩種辦法。其一,點擊“編輯”菜單,選擇“查找”功能,在“查找內容”框中輸入“bj”,并點擊“查找全部”,再在查找結果框中全選,然后在工作表上點右鍵,選擇“刪除”,在彈出的對話框中選擇刪除“整行”。其二,點擊“編輯”菜單,選擇“替換”功能,在“查找內容”框中輸入“*bj”,“替換為”框中不輸入任何數據,并點擊“全部替換”。這樣,所有帶被釋詞的單元格,都變成了空白單元格。之后,我們再將所有空白單元格刪除。它的方法是:選定需要去除空白單元格的列,再點擊“編輯”菜單,選擇“定位”功能,在“選擇”下面的內容中,選擇“空值”,(如圖)然后右鍵點擊工作表,在彈出的菜單中選擇“刪除”,并選擇“下方單元格上移”。

說明:“*bj”,表示帶有字符“bj”的單元格的所有內容。

(6)單音詞:將“去除被釋詞”工作表中的數據導入到此表中,再在B1單元格里輸入“=LEN(A1)”,填充至Bn單元格。在C1單元格輸入“=MID(A1,2,1)”,填充至Cn單元格。

說明:“=LEN(A1)”的目標是,在B1單元格中返回A1單元格的字符數。

“=MID(A1,2,1)”的目標是,在C1單元格中返回A1單元格中的第2個字符的內容。

若B1單元格顯示的是3,表明A1單元格的字符數是3個,那么A1單元格里面的詞肯定是單音詞。若B1單元格顯示的是4,表明A1單元格的字符數是4個,那么A1單元格里面的詞有可能是單音詞,也有可能是復音詞。因為在標注詞性時,有些詞的詞性是用兩個字母來標注的,如助動詞,用的是vu,再如人名,用的是nh。這就需要第二步的判斷。

若C1單元格顯示的是“/”,表明A1單元格的第二個字符不是漢字,而是漢字和詞性標注之間的符號“/”,那么A1單元格里面的詞肯定是單音詞。若C1單元格顯示的不是“/”而是漢字,則表明A1單元格的第二個字符是漢字,說明A1單元格里的詞是復音詞。

以上數據得出后,再進行“排序”中的“自定義排序”操作,設置“主要關鍵字”為“列B”,“次要關鍵字”為“列C”,“第三關鍵字”為“列A”,都使用“升序”排列。這樣,所有B列為3的,或B列為4同時C列為“/”的數據,都排在了前面。這些全部是單音詞。保留這些數據,刪除其它,就得到了單音詞表。

(7)雙音詞:將“去除被釋詞”工作表中的數據導入到此表中,再在B1單元格里輸入“=LEN(A1)”,填充至Bn單元格。在C1單元格輸入“=MID(A1,3,3)”,填充至Cn單元格。得出數據后,再按前面的辦法,繼續進行“排序”中的“自定義排序”操作。所有B列為4同時C列為漢字而非“/”的數據,或B列為5同時C列為“/”的數據,都排在了前面。這些全部是雙音詞。保留這些數據,刪除其它,就得到了雙音詞表。

(8)三音詞:將“去除被釋詞”工作表中的數據導入到此表中,再在B1單元格里輸入“=LEN(A1)”,填充至Bn單元格。在C1單元格輸入“=MID(A1,3,3)”,填充至Cn單元格。

得出數據后,再按前面的辦法,繼續進行“排序”中的“自定義排序”操作,內容同上。所有B列為5同時C列為漢字而非“/”的數據,或B列為6同時C列為“/”的數據,都排在了前面。這些全部是三音詞。保留這些數據,刪除其它,就得到了雙音詞表。

(9)四音及以上詞:除了剛才所列的“單音詞”、“雙音詞”及“三音詞”三類之外的所有其它“去除被釋詞”工作表中的數據,都歸入此表。于是,我們得到了“四音及以上詞”的數據。

(1 0)單音詞詞類統計:將“單音詞”工作表中的數據導入此表。再在B1單元格里輸入“=MID(A1,3,2)”,填充至Bn單元格。之后用“排序”里面的“自定義排序”功能,設置“主要關鍵字”為“列B”,“次要關鍵字”為“列A”,都使用“升序”排列。

(1 1)雙音詞詞類統計:將“雙音詞”工作表中的數據導入此表。再在B 1單元格里輸入“=MID(A1,4,2)”,填充至Bn單元格。之后用“排序”里面的“自定義排序”功能,設置“主要關鍵字”為“列B”,“次要關鍵字”為“列A”,都使用“升序”排列。

(12)雙音詞結構分析統計:將“雙音詞”工作表中的數據導入此表。按照對雙音詞結構判斷的標準,對除專有名詞在外的所有雙音詞進行結構分析。之后再將它們排序,分析統計雙音詞的結構。

(13)詞語使用頻率統計:將“原文”工作表中的數據導入此表。先去除被釋詞(方法同上),再在B1單元格里輸入“=COUNTIF(A:A,A1)”,填充至Bn單元格。之后用“排序”里面的“自定義排序”功能,設置“主要關鍵字”為“列B”,“次要關鍵字”為“列A”,都使用“升序”排列。

通過以上步驟,建立起《論語》中古注疏語料庫后,我們可以更好地統計分析《論語》中古注疏語言的情況,提高語言研究質量。在詞匯研究中,這可以快捷地統計詞匯的使用頻率、單音詞和復音詞的基本信息,以及詞語搭配的規律。在語法研究中有了這個語料庫作為堅實的基礎,可以高效地統計雙音詞的結構,對《論語》中古注疏語料的詞類進行窮盡性研究。

[1]四部要籍注疏叢刊本.論語[M].北京:中華書局,1998.

[2]北京大學《儒藏》編纂中心.論語義疏[M].北京:北京大學出版社,2007.

[3]北京大學《儒藏》編纂中心.唐寫本論語集解[M].北京:北京大學出版社,2007.

[4](梁)皇侃.論語義疏[M].北京:中華書局,2013.

[5](清)吳騫.皇氏論語義疏參訂十卷附録一卷[M],上海:上海古籍出版社,1996.

[6]黃青云,裴冬菊.POI在Word文檔不同顏色文本分離中的應用研究[J].南昌工程學院學報,2014(3).

江西省高校人文社科項目“《論語》漢魏六朝注疏詞匯研究”(項目編號:YY1524)、國家社科基金重大項目“漢語詞匯通史”(項目編號:14ZDB093)、江西省社會科學規劃項目“六朝至宋《論語》四種注疏詞匯比較研究”(項目編號:17YY07)的階段性成果。

(責任編輯:虞志堅)

孫尊章(1979-),男,廣東梅州人,博士,江西農業大學人文與公共管理學院教師,研究方向:漢語史。

徐凌(1977-),女,河南鹿邑人,四川大學文學與新聞學院博士研究生,江西農業大學人文與公共管理學院教師,研究方向:漢語史。

G256;H13

A

1005-9652(2017)05-0174-03

猜你喜歡
排序
排排序
排序不等式
作者簡介
名家名作(2021年9期)2021-10-08 01:31:36
作者簡介
名家名作(2021年4期)2021-05-12 09:40:02
作者簡介(按文章先后排序)
名家名作(2021年3期)2021-04-07 06:42:16
恐怖排序
律句填空排序題的備考策略
節日排序
刻舟求劍
兒童繪本(2018年5期)2018-04-12 16:45:32
作者簡介(按文章先后排序)
名家名作(2017年2期)2017-08-30 01:34:24
主站蜘蛛池模板: 在线高清亚洲精品二区| 97国内精品久久久久不卡| 狠狠亚洲五月天| 伊人激情综合网| 国产精品视频观看裸模| 国产噜噜噜视频在线观看 | 丁香婷婷久久| 国产综合欧美| 欧洲日本亚洲中文字幕| 99热这里只有精品免费| 国产精品va| 日韩在线观看网站| 亚洲人人视频| 黄色国产在线| 99热这里只有精品免费| 无码乱人伦一区二区亚洲一| 91久久国产成人免费观看| 国产地址二永久伊甸园| 中文字幕无码电影| 亚洲天堂久久| 国产人碰人摸人爱免费视频| 国产成人精品日本亚洲| 亚洲中文无码av永久伊人| 国产成人精品亚洲日本对白优播| 一级爆乳无码av| 国产毛片高清一级国语 | 欧美国产日本高清不卡| 久久精品这里只有国产中文精品 | 国产18在线| 波多野结衣中文字幕一区二区| 亚洲色婷婷一区二区| 精品99在线观看| 中文字幕佐山爱一区二区免费| 伊人久久大香线蕉成人综合网| 亚洲中文精品人人永久免费| 青草国产在线视频| 成年网址网站在线观看| 国产高潮流白浆视频| 久久综合九色综合97网| 国产精品第页| 国产日韩欧美成人| 国产视频大全| 91网站国产| 第一页亚洲| 一本久道热中字伊人| 激情国产精品一区| 午夜无码一区二区三区在线app| 少妇人妻无码首页| 国产剧情一区二区| 国产精品v欧美| 亚洲Av综合日韩精品久久久| 国产精品一区在线观看你懂的| 精品成人一区二区三区电影| 美美女高清毛片视频免费观看| 欧美一区二区啪啪| 亚洲资源站av无码网址| 最新国语自产精品视频在| 久久精品国产精品一区二区| 三级国产在线观看| www.亚洲一区| 国产av无码日韩av无码网站| 性色一区| 美女被狂躁www在线观看| 亚洲男人天堂久久| 欧美成人国产| 国产老女人精品免费视频| 精品久久国产综合精麻豆| 国产又大又粗又猛又爽的视频| 国产高清免费午夜在线视频| 国产成人免费手机在线观看视频 | 日韩视频免费| 国产精品丝袜视频| 亚洲乱码在线播放| 国产免费怡红院视频| 亚洲无码91视频| 久久国产精品电影| 成人午夜免费观看| 亚洲天堂视频在线免费观看| 最新国产午夜精品视频成人| 国产又爽又黄无遮挡免费观看| 99热这里只有精品5| 亚洲欧美色中文字幕|