999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

教材語料庫驅(qū)動的漢語學(xué)生工具書編寫

2025-01-26 00:00:00黃攀偉
辭書研究 2025年1期

摘 要 語料庫輔助工具書編寫的歷史由來已久,教材語料庫對學(xué)生工具書的編寫尤其重要。文章首先梳理了20世紀(jì)80年代以來國內(nèi)主流的教材語料庫,并評述了其在輔助新時代學(xué)生工具書編寫方面的局限性;繼而從架構(gòu)設(shè)計、語料情況、功能實(shí)現(xiàn)幾個方面介紹了人民教育出版社自建的中小學(xué)生教材語料庫PEPTC;并詳細(xì)介紹了PEPTC如何從種數(shù)統(tǒng)計、頻率統(tǒng)計、搭配統(tǒng)計、統(tǒng)計與多重條件過濾相結(jié)合、知識圖譜等幾個方面,驅(qū)動人教學(xué)生工具書在立目出條、完善釋義、補(bǔ)充例證、板塊設(shè)計、難度分級、中觀呼應(yīng)和立體編寫等諸多方面不斷提升。最后,文章總結(jié)了PEPTC在驅(qū)動人教學(xué)生工具書編寫方面發(fā)揮的實(shí)際效能,并對包括PEPTC在內(nèi)的漢語語料庫的發(fā)展方向進(jìn)行了探討。

關(guān)鍵詞 教材語料庫 學(xué)生工具書 PEPTC 人教辭書

一、 語料庫輔助工具書編寫的歷史

辭書編寫者對語料庫的應(yīng)用由來已久。“在計算機(jī)出現(xiàn)之前,研究者——特別是詞典編纂者,也有語料庫,只是規(guī)模小、范圍窄,因而難以在學(xué)術(shù)界形成氣候。”(黃昌寧等 2002)而隨著信息技術(shù)的不斷發(fā)展,“用辭書語料庫代替人工卡片庫,是詞典編纂方法上的重大變革”(呂海春 2023)。早在20世紀(jì)60年代,美國Heritage出版社為了編寫適合中學(xué)生使用的詞典,就專門設(shè)計了AHI語料庫(American Heritage Intermediate Corpus),收錄出版物1000余種約500萬詞次。20世紀(jì)80年代,柯林斯出版社資助了COBUILD語料庫的建設(shè),該庫收錄2000萬詞次,柯林斯也利用該庫編寫出版了《柯林斯COBUILD英語大詞典》,它被譽(yù)為“全世界第一部用計算機(jī)編纂的詞典”,開創(chuàng)了辭書例句全部來自真實(shí)語料的先河,該詞典時至今日仍然不斷修訂再版。20世紀(jì)80至90年代,我國開始探索建設(shè)辭書語料庫,并應(yīng)用于辭書編纂,其中比較有代表性的是南京大學(xué)雙語詞典研究中心從1986年起開始進(jìn)行的《綜合英漢大辭典》編纂工作,“為便于今后對這本大型英漢詞典進(jìn)行修訂、增訂及由其生成各種系列派生詞典”,南京大學(xué)與商務(wù)印書館共同籌建了“商務(wù)—南大英漢語言資料庫(CONULEXID)”。(張柏然 1995)時至今日,依托適配程度高、功能相對完善的語料庫已經(jīng)成為了辭書編纂現(xiàn)代化的重要特征。但是,國內(nèi)為辭書編寫而專門建設(shè)的語料庫,仍主要服務(wù)于雙語工具書,漢語辭書的編寫還是主要依靠北京大學(xué)CCL現(xiàn)代漢語語料庫、北京語言大學(xué)BCC語料庫、國家動態(tài)平衡語料庫這樣的大型綜合性語料庫。

人教社[1]的辭書編纂以學(xué)生工具書為主。學(xué)生工具書,通常指面向母語學(xué)習(xí)者的學(xué)習(xí)型工具書,以語文詞條為主,兼收百科詞條。與《新華字典》《現(xiàn)代漢語詞典》等“面向大眾”的工具書不同,人教社出版的《新編小學(xué)生字典》《新編學(xué)生字典》《新編學(xué)生詞典》等學(xué)生工具書明確“以中小學(xué)生為讀者對象”,所以既要考慮學(xué)生的認(rèn)知能力與水平,又要最大限度地滿足學(xué)生的學(xué)習(xí)需要。上述大型綜合性語料庫雖然規(guī)模龐大,但是來源復(fù)雜,對教材及青少年語料的收錄規(guī)模和標(biāo)注精細(xì)度不能滿足學(xué)生工具書的編寫需求。人教辭書亟需一個針對性強(qiáng)、精標(biāo)細(xì)注的教材語料庫輔助編寫。

二、 中小學(xué)教材語料庫的現(xiàn)狀與局限

教材語料庫,是語料庫中的一個特殊門類,是“主要以教材中的課文和練習(xí)為建庫對象的語料庫,其語料來源多為書面語或用書面語轉(zhuǎn)寫的口語,庫內(nèi)的語料根據(jù)需要進(jìn)行賦碼和標(biāo)注,并具有檢索功能”(羅慶銘 2017)。通過調(diào)研,我們發(fā)現(xiàn),我國教材語料庫的構(gòu)建工作有著起步早、發(fā)展慢的特點(diǎn):(1) 1979—1980年,北京語言學(xué)院(今北京語言大學(xué))對約200萬字語料進(jìn)行了詞語切分和統(tǒng)計,其中約52萬字語料來自中小學(xué)語文教材,包括人教社1978—1980年出版的全日制十年制《語文》課本(試用本)共20冊; (2) 1985年,北京師范大學(xué)建成了“中小學(xué)語文課本語料庫”,收錄1983—1984年中國統(tǒng)一使用的中小學(xué)語文教材共24冊;(3) 21世紀(jì)初,廈門大學(xué)國家語言資源監(jiān)測與研究教育教材中心建設(shè)了“現(xiàn)代漢語語料庫”,其中的教材語料包括2016年以前出版的部分對外漢語教材、中小學(xué)語文教材、其他學(xué)科教材語料,教材語料可以單獨(dú)檢索,但是在總庫內(nèi)的占比不詳;[2](4) 一些高校學(xué)者也敏銳地意識到了教材語料庫的重大意義,對自建語料庫進(jìn)行了相關(guān)研究,如果在中國知網(wǎng)以“教材語料庫”為主題關(guān)鍵詞進(jìn)行檢索,可得到期刊和碩博論文檢索結(jié)果400多條,其中大部分以自建的教材語料庫為研究基礎(chǔ),僅供內(nèi)部使用。

若將現(xiàn)有的中小學(xué)教材語料庫應(yīng)用于學(xué)生工具書的編寫,主要存在以下問題:(1) 建庫初衷并非服務(wù)辭書編寫或出版,標(biāo)注極為有限;(2) 年代久遠(yuǎn)、語料陳舊;(3) 取材時段短,不能提供歷時研究線索;(4) 覆蓋學(xué)科少,以語文為主;(5) 大庫套小庫,大庫語料來源說明包含教材,但不能單獨(dú)檢索教材語料;(6) 提供的檢索和分析工具有限,不能滿足研究者導(dǎo)出、統(tǒng)計、量化分析等需求;(7) 未開放權(quán)限,難以調(diào)用。

因此,構(gòu)建與時俱進(jìn)的中小學(xué)教材語料庫,對于人教社這樣集教材編寫和研究于一體的出版單位來說,勢在必行、意義重大。一方面,在開發(fā)建設(shè)的過程中,人教社基于多年的教材和教育類圖書編修積累,有著資源方面的天然優(yōu)勢;另一方面,在建庫完成之后,人教社也能夠從中獲得可供檢索和分析的一手資料,反哺新選題的策劃和編寫出版。因此,人教社研發(fā)了自有的、集成語料和語料分析工具的教材語料庫。

三、 人教社中小學(xué)教材語料庫(PEPTC)概況

人教社中小學(xué)教材語料庫(People’s Education Press Textbook Corpus,以下簡稱PEPTC)依托人教社資源管理及智能服務(wù)平臺建設(shè),遵從元數(shù)據(jù)規(guī)范標(biāo)引、海量存儲、引入大數(shù)據(jù)分析、面向服務(wù)的原則進(jìn)行開發(fā)。目前,二期工程已通過驗(yàn)收。

語料庫包含“現(xiàn)代漢語、古代漢語、英語語料庫”三個子庫,目前已入庫教材近300種,語料近2500萬字節(jié)。其中,現(xiàn)代漢語語料以人教社中小學(xué)各科教材中的現(xiàn)代漢語內(nèi)容為主體,涉及語文、歷史、政治、數(shù)學(xué)、物理、化學(xué)生物等多學(xué)科領(lǐng)域;古代漢語語料以國家統(tǒng)編語文教材中的古代漢語篇目為主體,輔以文言文和古代詩詞的常見選本選篇;英語語料庫以人教社中小學(xué)英語教材為主體,輔以歷年中高考真題、權(quán)威英語報刊資料等。三個子庫集成于統(tǒng)一頁面,通過首頁側(cè)欄的點(diǎn)選調(diào)取相應(yīng)子庫的語料。[3]詳見圖1。

在語料加工方面,近些年建立的語料庫的主流趨勢是對語料進(jìn)行加工,通過自動分詞、自動標(biāo)注等處理,將“生語料”變?yōu)椤笆煺Z料”。但實(shí)際上,正如詹衛(wèi)東等(2019)所言,對于語料庫中的語料是否應(yīng)該標(biāo)注,一直有不同的觀點(diǎn):支持標(biāo)注的,是考慮到豐富的標(biāo)注信息可以在研究中提供工具支持;不支持標(biāo)注的,是認(rèn)為標(biāo)注不可避免地暗含著預(yù)設(shè)的理論,這會影響研究者對語料的判斷。這兩種主張實(shí)際上反映的是不同類型的研究需要,為了兼顧二者,我們在呈現(xiàn)界面保留了生語料和熟語料兩個選項,比如:進(jìn)行“AABB”模式的檢索時,若選擇“生語料”,則凡是符合檢索要求的形式都會出現(xiàn)在檢索結(jié)果中,既有“可可愛愛”“兢兢業(yè)業(yè)”類的詞語,也有“他的詩讀起來往往朗朗上口”中的“往往朗朗”。若選擇“熟語料”,經(jīng)過分詞處理的“往往朗朗”類結(jié)果就不會 出現(xiàn)。

在功能實(shí)現(xiàn)方面,PEPTC采用瀏覽器—服務(wù)器的體系架構(gòu)、語料庫與語料庫分析工具合二為一的模式,通過友好的交互界面,為用戶提供:信息概覽(關(guān)鍵數(shù)據(jù)概覽、入庫統(tǒng)計、學(xué)科統(tǒng)計、詞云畫像等),語料分析工具(多重條件過濾器、多模式檢索、多維度統(tǒng)計和對比、近義詞辨析等),資源管理工具(人工干預(yù)、標(biāo)注審核、語料導(dǎo)入等),大數(shù)據(jù)分析工具(語義分析、關(guān)鍵字提取、實(shí)體識別、情感分析)等。

值得一提的是,PEPTC的研發(fā)與應(yīng)用始終同步進(jìn)行。在首批XML文件入庫、網(wǎng)頁基本框架搭建完成之后,辭書編輯就開始利用語料庫開展編寫編輯工作,將語料分析結(jié)果應(yīng)用到編校實(shí)踐當(dāng)中,也將改進(jìn)意見反饋給語料庫工程師;工程師們根據(jù)反饋調(diào)整平臺,同時導(dǎo)入新語料、按原定計劃進(jìn)行功能開發(fā)。筆者認(rèn)為這是很好的開發(fā)模式,語料庫資源第一時間發(fā)揮價值,也第一時間得到調(diào)整完善。

四、 PEPTC對人教學(xué)生工具書編寫的驅(qū)動作用

關(guān)于語料庫在研究和應(yīng)用中的定位,通常有“corpus-based(基于語料庫的)”和“corpus-driven(語料庫驅(qū)動的)”兩種提法。詹衛(wèi)東等(2019)談到了二者的區(qū)別:前者把語料庫作為工具看待,主張在標(biāo)注語料基礎(chǔ)上開展研究和實(shí)踐;后者則更看重語料的原汁原味。人教學(xué)生工具書的編寫雖然把語料庫當(dāng)作重要工具,并且參考語料標(biāo)注的結(jié)果,但是也深知語料標(biāo)注的局限性,并在觀照原始語料和對標(biāo)注結(jié)果進(jìn)行人工干預(yù)的前提下開展工作,所以從本質(zhì)上來說,PEPTC對人教辭書編寫的作用是“驅(qū)動”性的。

關(guān)于語料庫數(shù)據(jù)在詞典中的呈現(xiàn)方式,Rundell(2009a,2009b)將其分為隱性和顯性兩種:“隱性”呈現(xiàn)方式是指語料庫提供的數(shù)據(jù)或分析結(jié)果并不直接在詞典中顯現(xiàn)出來,而是在編寫過程中幫助詞典編寫者決策如何立條立項、排序、設(shè)立板塊;“顯性”呈現(xiàn)方式則是將數(shù)據(jù)直接呈現(xiàn)在讀者面前,包括例證、頻率數(shù)據(jù)、核心詞表、搭配說明等。PEPTC在人教學(xué)生工具書中的隱形呈現(xiàn)主要包括本節(jié)(一)至(三)小節(jié)的內(nèi)容,顯性呈現(xiàn)主要包括本節(jié)(四)、(五)小節(jié)中的內(nèi)容。

(一) 字種詞種數(shù)統(tǒng)計——輔助出條

和大多數(shù)具備第四代語料庫分析工具的語料庫一樣,字詞語種數(shù)的統(tǒng)計和分析是PEPTC的基礎(chǔ)功能之一。其中,字種統(tǒng)計靠統(tǒng)計字形即可完成,詞和語的統(tǒng)計需要依靠中文分詞和詞性標(biāo)注算法輔助。這項工作對人教辭書的編寫完善起到了一定的作用:

1. 覆蓋教材字頭,增收現(xiàn)代漢語詞條

一般的中小型紙質(zhì)工具書受篇幅限制,釋義通常以常用義、本義為先,選字立條通常考慮一般大眾的使用頻率。但教材語言在共時層面涉及學(xué)科廣、在歷時層面涉及部分古代漢語和近代漢語內(nèi)容,學(xué)生對字詞學(xué)習(xí)性內(nèi)容的需求也遠(yuǎn)遠(yuǎn)超出成年人。為了讓這些內(nèi)容得到較好的呈現(xiàn),人教學(xué)生工具書在PEPTC的幫助下,利用字種統(tǒng)計功能實(shí)現(xiàn)了教材漢字的全覆蓋,避免教材用字失查;利用詞統(tǒng)計功能切分并提取出教材中的全部詞語,通過與已有詞條的比對,查缺補(bǔ)漏。

比如,在《新編學(xué)生詞典》的修訂過程中,編寫組根據(jù)PEPTC的詞種統(tǒng)計結(jié)果補(bǔ)充了統(tǒng)編語文教材七上《從百草園到三味書屋》中“木蓮、斑蝥、何首烏、赤練蛇”等諸多動植物名詞。這一類詞有的在課文中只進(jìn)行了簡單的隨文注釋,但學(xué)生往往不能從中獲得更加全面具體的認(rèn)知(如“木蓮”);有的完全沒有注釋(如“赤練蛇”);如果查檢學(xué)生常用的《現(xiàn)代漢語詞典》第7版(以下簡稱《現(xiàn)漢》),則發(fā)現(xiàn)有些收條而未配圖,有些則沒有收條(詳見表1)。通過PEPTC窮盡性地提取、比對和補(bǔ)條,學(xué)生可以更好地理解課文內(nèi)容,而不是模模糊糊地“大概知道是個動物/植物”。

2. 增收古代漢語用字義項和詞條

得益于計算機(jī)古漢語分詞研究的成果,PEPTC對古代漢語子庫中的生語料進(jìn)行了加工處理,“中文詞統(tǒng)計”亦可對教材古詩文字詞進(jìn)行檢索、定位、統(tǒng)計。[4]據(jù)此,人教辭書補(bǔ)充了部分古代漢語字的義項和詞條,如:語文教材一上《江南》中的“田田”、九上《長沙過賈誼宅》中的“謫宦”,等等。這些詞在教材中未提供相應(yīng)的注釋或釋而不詳,學(xué)生的理解難免疏誤;即便學(xué)生能夠自主查檢工具書,他們常見的《現(xiàn)漢》和《新華字典》也都是以現(xiàn)代漢語字詞為收錄對象,無法從中查得古詩文中字詞的準(zhǔn)確釋義。而突出學(xué)習(xí)功能的學(xué)習(xí)型詞典,可以不受時間界限的約束,兼顧教材中的古今字詞,人教辭書通過PEPTC對教材古詩文篇目中的字詞進(jìn)行窮盡性地立項、出條、舉例,為學(xué)生提供了幫助。(二) 統(tǒng)計與多重條件過濾相結(jié)合——輔助難度分級、板塊設(shè)計等配合著多維度的統(tǒng)計,PEPTC還提供了多重條件過濾功能,用戶可以對“年代”“查詢對象(課文/注釋/標(biāo)題)”“學(xué)科”“年級”“階段”“語料范圍(生語料/熟語料)”等十余項條件進(jìn)行過濾,并決定是否“去重”、范圍是否限定在“統(tǒng)編三科”或“最新教材”等(詳見圖2)。

多重條件過濾和統(tǒng)計分析結(jié)合,可以挖掘出教材蘊(yùn)含的許多數(shù)據(jù)信息,包括教材難度、教學(xué)重點(diǎn)的變化等,這些信息同樣可以服務(wù)于辭書編寫的多個方面,如:

1. 辭書的難度階梯設(shè)計

如果分年級、分學(xué)段地統(tǒng)計字詞種數(shù)和頻率,可以發(fā)現(xiàn):PEPTC統(tǒng)計小學(xué)階段的字種數(shù)為4000多個,而統(tǒng)計小初高三個階段的字種數(shù)則為6000多個。這意味著,編寫服務(wù)小學(xué)階段的學(xué)生字典應(yīng)以這4000多字為重點(diǎn)進(jìn)行釋義和知識講解,同時根據(jù)頻率統(tǒng)計和教學(xué)經(jīng)驗(yàn)調(diào)整篇幅,并適當(dāng)擴(kuò)充收字范圍;而編寫服務(wù)整個基礎(chǔ)教育階段的學(xué)生字典,則應(yīng)在6000多字的基礎(chǔ)上,調(diào)整內(nèi)容、適當(dāng)擴(kuò)充。通過PEPTC,我們對小初高的用字情況進(jìn)行了比對分析,并對服務(wù)不同學(xué)段的工具書進(jìn)行了細(xì)化,如:我們發(fā)現(xiàn)“”字只出現(xiàn)在統(tǒng)編語文教材八年級上冊《三峽》“絕多生怪柏”中,小學(xué)教材及同齡讀物中沒有出現(xiàn);因此,該字只收錄在服務(wù)全學(xué)段的《新編學(xué)生字典》中,并以“絕”為例證,并未收錄專門服務(wù)小學(xué)階段的《新編小學(xué)生字典》中。又如:“酐”“炔”等只在高中化學(xué)教材中出現(xiàn)的用字,也只收錄《新編學(xué)生字典》中。如此,《新編小學(xué)生字典》可以將更多的版面留給筆順、組詞、辨析等小學(xué)階段更需要的知識板塊,兩個系列產(chǎn)品在收字方面的難度階梯也自然形成。

2. 辭書知識板塊設(shè)計

教材同樣體現(xiàn)著教學(xué)重點(diǎn)的變化,教學(xué)重點(diǎn)也應(yīng)在配套教材的學(xué)生工具書中得到體現(xiàn)。比如:《義務(wù)教育語文課程標(biāo)準(zhǔn)》(2022年版)在第一學(xué)段(1~2年級)“學(xué)段要求”的“識字與寫字”板塊就明確提出“掌握漢字的基本筆畫和常用的偏旁部首,能按基本的筆順規(guī)則用硬筆寫字……”。由此,《新編學(xué)生字典》等工具書不僅在附錄中提供《漢字筆畫名稱表》《寫字筆順規(guī)則表》等,還通過PEPTC分別提取了小學(xué)各個學(xué)段的識寫漢字,以第一學(xué)段識寫表中的漢字為重點(diǎn),以二、三學(xué)段識寫表中的漢字為補(bǔ)充,為其中常用于構(gòu)字的獨(dú)體字和易錯字(如“里”“為”“鼠”等)設(shè)立“筆順”板塊,提供逐筆書寫示范。

(三) 頻率統(tǒng)計——輔助排序和篇幅設(shè)定

“一個語詞的使用頻率與其復(fù)雜性(該詞的意義數(shù)量、詞組和搭配數(shù)量等)之間存在著顯著的相關(guān)性。反過來,語詞的使用頻率和復(fù)雜性與它們對學(xué)習(xí)者的重要性之間又存在著相關(guān)性。”(Rundell等 2009b)故使用頻率是學(xué)生工具書編寫的參考數(shù)據(jù)之一,PEPTC將頻率信息單獨(dú)放在“語料報表”板塊,可據(jù)選定的語料范圍對中文字、中文詞、古詩文字進(jìn)行統(tǒng)計,并詳列其具體位置、頻次、頻率、累計頻率。這些信息可以為編寫學(xué)生工具書提供多方面的參考,如:

1. 義項設(shè)立和排序

工具書中字頭和詞條通常按照音序排列,但義項的排序通常和是否為本義、常用義相關(guān)。對于學(xué)生工具書而言,義項排序不僅要考慮這些,還要考慮中小學(xué)生使用頻率高、與教學(xué)內(nèi)容正相關(guān)等因素。通過PEPTC,我們可以得到字詞的頻率統(tǒng)計,看到它們在教材中每一次出現(xiàn)時的語境,并據(jù)此判斷是否對義項進(jìn)行分合增減或改變排序的調(diào)整。如“孵化”一詞,通過PEPTC提取并去重之后,可看到出現(xiàn)在教材的37處語境當(dāng)中,有30處表示“昆蟲、魚類、鳥類或爬行動物的卵在一定的溫度和其他條件下變成幼蟲或幼體”——這是常見語文工具書中收列的義項,又有7處用來“比喻對新事物進(jìn)行培育、培養(yǎng)”(如“對高新技術(shù)成果、科技型企業(yè)和創(chuàng)業(yè)企業(yè)進(jìn)行孵化”),這個用法近年來隨著高新技術(shù)發(fā)展和創(chuàng)業(yè)環(huán)境變化也已經(jīng)被大眾所接受認(rèn)可,因而《新編學(xué)生詞典》為其增加新義項,但又因其使用頻率不及前者,故而列為第二義項。

2. 釋義篇幅的設(shè)定

Rundell等(2009b)提道,在沒有為讀者提供顯性頻率信息或重要性等級的情況下,“衡量一個單詞‘重要性’的唯一指標(biāo)就是詞典用于解釋該詞的篇幅”。這個說法雖然未免過于絕對,但工具書在設(shè)計編寫體例的過程中,確實(shí)會對篇幅大小有所約定,而且越是預(yù)設(shè)中讀者需要的信息,獲得的篇幅就越大。人教學(xué)生工具書的編寫者要對PEPTC的頻率統(tǒng)計結(jié)果進(jìn)行分析:一是,高頻出現(xiàn)的,特別是學(xué)生常在其義項區(qū)分和用法上有困惑的,需要單獨(dú)列表,并交由主編確認(rèn)是否需要擴(kuò)充篇幅,甚至增加學(xué)習(xí)板塊進(jìn)行詳細(xì)解釋,如:在PEPTC提供的對教材用詞頻次排名中,我們發(fā)現(xiàn),像“起來”這樣的詞,看似不起眼,卻在教材中使用超過3000次,頻次排名前60,其用例涉及它作為主動詞、趨向動詞,充當(dāng)謂語、補(bǔ)語等情況,因而經(jīng)過主編分析討論,在《新編學(xué)生詞典》相應(yīng)的位置,一方面結(jié)合“起來”的語法位置和語義特點(diǎn)進(jìn)行釋義,另一方面設(shè)立“小知識”板塊,由“起來”聯(lián)系“下去、上來、上去、出來、出去、過來、過去、進(jìn)來、進(jìn)去”等一系列趨向動詞,講解它們的用法和讀音變化。二是,低頻出現(xiàn)的,且學(xué)生在其他常用工具書中不易查得的,也需要作為收錄對象單獨(dú)列表,這是解決篇幅的從無到有,如:“午時花”一詞只在統(tǒng)編語文三年級下冊《花鐘》中出現(xiàn)1次,且其他語文工具書多未收錄,為幫助小學(xué)生更好地理解課文,《新編學(xué)生詞典》收錄該詞條并選配彩圖。

(四) 搭配統(tǒng)計——在例證和學(xué)習(xí)板塊中補(bǔ)充語法語用信息

詞語搭配也是運(yùn)用語料庫開展詞典學(xué)應(yīng)用與研究的基本方向之一。黃昌寧等(2002)指出:“一個詞的詞義只能通過與之相伴出現(xiàn)的搭配詞才能加以辨識。從這一觀點(diǎn)出發(fā),無論是要識別一個詞的不同詞義,還是學(xué)會這個詞的不同用法,都必須普遍調(diào)查詞語的搭配關(guān)系和用法模式。”英語學(xué)習(xí)型詞典一直對呈現(xiàn)詞語搭配情況非常重視,也很早就開始利用語料庫分析并描寫單詞的搭配情況——“眾所周知,搭配是語言的共性,是文本‘地道’與否的關(guān)鍵之一(也許是最關(guān)鍵點(diǎn))。對學(xué)習(xí)者來說,其重要性怎么強(qiáng)調(diào)都不過分。所以,詞典——從最早期的學(xué)習(xí)詞典開始——已經(jīng)努力去記錄語詞的搭配特征。現(xiàn)在,科技的發(fā)展使我們在這一領(lǐng)域可以做得更多”(Rundell等 2009b)。漢語語料的搭配統(tǒng)計原先需要通過AntConc等專門的語料管理工具來完成,近年來,隨著第四代語料庫工具的發(fā)展,語料庫也開始向用戶提供搭配統(tǒng)計和分析的功能。在PEPTC的漢語檢索結(jié)果中,點(diǎn)擊“搭配統(tǒng)計”選項,可分別顯示被檢索詞左搭配和右搭配的成分,以及搭配成分的相關(guān)信息,包括:詞性、詞總數(shù)、占比、頻率、語義韻等(詳見圖3)。

這里提供的是被檢詞語及相關(guān)成分在文本中的語法分布和語用信息,可以幫助我們解決在教學(xué)一線調(diào)研中發(fā)現(xiàn)的“搭配不當(dāng)”“使用不當(dāng)”“句式雜糅”等問題。比如:

* 這頓火鍋真是津津有味。

* 鵝嶺公園太美了,我都流連忘返了。[5]

這兩個錯例反映出,學(xué)生掌握了兩個詞語的基本含義[前者是“滋味濃厚”,后者是“留戀于某種事物(多指景物)而舍不得離去”],但是對于前者的比喻用法及二者和相關(guān)成分的句法分布把握不準(zhǔn)。這樣的問題在教學(xué)一線的調(diào)研中非常普遍,學(xué)生能夠理解新詞、高階詞語的基本含義,也有很強(qiáng)的使用意愿,卻不了解詞語使用的語境、句式、表達(dá)的感情色彩等;教師在感性認(rèn)識上知道“用得別扭”,卻不能“一針見血”地指出癥結(jié)所在。

學(xué)生工具書在適當(dāng)?shù)奈恢锰峁┱Z法和語用信息,可以幫助學(xué)生正確地運(yùn)用這些詞語。為此,我們結(jié)合教材使用經(jīng)驗(yàn)和一線調(diào)研反饋,遴選出具有代表性的一批詞語,在PEPTC中進(jìn)行檢索,導(dǎo)出并分析教材用例的搭配情況,比如:“津津有味”在教材中出現(xiàn)過11次,緊挨著的左側(cè)成分最多的是“得”,“得”左側(cè)的成分是動詞,細(xì)察每一個用例,其主語都是人或擬人化的動物,最常見的句式是“主語sb+V看、聽、吃+得+津津有味”;“流連忘返”出現(xiàn)5次,緊挨著的左側(cè)成分有代詞(3次)、名詞(2次,都是“人”),再左側(cè)的成分是致使動詞“使”“讓”“令”。在之后的修訂中,我們將考慮把這些語法和語用信息融入例證、辨析或小知識板塊,通過這些顯性的呈現(xiàn)方式,幫助學(xué)生提高字詞語的運(yùn)用能力。(五) 知識圖譜——關(guān)聯(lián)知識點(diǎn)、輔助工具書的中觀呼應(yīng)和立體編寫劉嶠等(2016)對知識圖譜的定義是:“知識圖譜是結(jié)構(gòu)化的語義知識庫,用于以符號形式描述物理世界中的概念及其相互關(guān)系。”知識圖譜的前身是“語義網(wǎng)”的概念,關(guān)注“語義”意味著人們對自然語言的分析處理不再滿足于形式,而將目光將轉(zhuǎn)向更深層次的意義理解。Google于2012年5月17日正式提出了知識圖譜(Knowledge Graph),其初衷是讓人們在檢索時,不僅能獲得檢索字段本身,還能夠獲得最佳的概括和更深、更廣的知識:It’s why we’ve been working on an intelligent model-in geek-speak,a“ graph”-that understands real-world entities and their relationships to one another:things,not strings。[6]

比如,人們在利用傳統(tǒng)方式檢索“甲骨文”的時候,本質(zhì)上就是將關(guān)鍵字與查詢相匹配,但它其實(shí)有更豐富的含義,它代表世界上最古老的文字之一,同時也是一個公司的名稱,而且它會讓人們聯(lián)想到安陽、殷墟、龜甲、獸骨、金文、石鼓文等,這些在人們認(rèn)知中與之關(guān)聯(lián)的信息點(diǎn),以及它們之間的關(guān)系,應(yīng)該能夠通過更先進(jìn)的檢索方式得到呈現(xiàn)。最近幾年,隨著自然語言處理技術(shù)取得巨大進(jìn)展,大型預(yù)訓(xùn)練語言模型與知識圖譜融合,使得文本的檢索和理解更加智能,也大大提升了語料庫向知識庫轉(zhuǎn)化的效率。

知識圖譜技術(shù)應(yīng)用以web為基礎(chǔ),因此天然與網(wǎng)絡(luò)詞典(主要是網(wǎng)絡(luò)百科詞典)相關(guān)聯(lián),不僅是Wikipedia、Baidu等搜索引擎都使用該技術(shù),由傳統(tǒng)紙質(zhì)出版轉(zhuǎn)型的《中國大百科全書》第三版也使用了該技術(shù)。目前,PEPTC也在嘗試通過知識圖譜技術(shù),由語料庫向知識庫轉(zhuǎn)型,但仍處于初級階段,其成果主要體現(xiàn)在“知識檢索”板塊,效果尚不盡如人意。如對“甲骨文”進(jìn)行知識檢索時,確實(shí)可以關(guān)聯(lián)到歷史和道法教材中的與語言文字歷史、政策相關(guān)的段落,但檢索不到語文課文《我愛你,漢字》中的相關(guān)段落。

目前,我們正致力于進(jìn)一步完善知識圖譜技術(shù)和大模型的結(jié)合,我們希望它未來能夠輔助的詞典編修工作包括但不限于:同一語義場內(nèi)的詞條選錄,如檢索“動物”則出現(xiàn)教材內(nèi)的所有動物條;輔助完善詞條編寫的中觀結(jié)構(gòu),如檢索“九州”則應(yīng)列舉各種觀點(diǎn)下的九州詞條及其釋義;輔助詞條體例編寫一致性的檢查,如檢索“化學(xué)元素”,則應(yīng)給出所有的化學(xué)元素字頭及釋義,通過對比查檢編寫體例是否一致;輔助插圖選配,如檢索“植物”,則出現(xiàn)教材內(nèi)的所有植物條,并與人教選圖庫相關(guān)聯(lián),提示教材內(nèi)是否已經(jīng)選配了科學(xué)插圖;輔助學(xué)習(xí)板塊的編寫,如輸入“寫字表”,則應(yīng)按順序列出語文教材識字表內(nèi)的所有漢字,并標(biāo)示在人教相關(guān)工具書中,哪些已經(jīng)提供了筆順、字理等相關(guān)信息;等等。

事實(shí)上,知識圖譜的服務(wù)目標(biāo)就是窺一斑而見全豹;通過知識圖譜,立足于檢索和分析的語料庫便如虎添翼,逐步向知識庫轉(zhuǎn)化,隨著更多數(shù)據(jù)的入庫發(fā)揮更大的作用。

五、 結(jié) 語

綜上所述,PEPTC對人教辭書的驅(qū)動作用可以概括為:(1) 對教材及相關(guān)圖書中的信息進(jìn)行數(shù)據(jù)化處理和儲存,并通過方便友好地檢索和分析工具,輔助人教辭書提升編纂效能;(2) 使人教辭書在立項立目、板塊設(shè)計、釋義例證等諸多方面,更高程度地適配教材、更精準(zhǔn)地服務(wù)學(xué)生,在幫助學(xué)生查漏補(bǔ)缺、開拓視野、提升語言文字運(yùn)用能力和綜合素養(yǎng)的同時,也凸顯了人教辭書的品牌價值;(3) 為人教辭書未來的選題研發(fā)、圖書編寫、數(shù)字產(chǎn)品研發(fā)提供了完整的內(nèi)容資源儲備,賦能教育出版新模式。

未來,專門為配合圖書編寫出版而建設(shè)的現(xiàn)代化新型語料庫仍有很長的路要走。毛文濤(2023)將辭書編纂現(xiàn)代化的歷程概括為三個階段:第一階段是信息化階段,已經(jīng)基本完成;第二階段是數(shù)字化階段,接近完成,還將持續(xù);第三階段是智能化階段,初露端倪,即將開啟。我們現(xiàn)在正是處于從第二階段邁向第三階段的關(guān)鍵時期,以GPT為代表的預(yù)訓(xùn)練模型應(yīng)用于辭書編寫出版,乃至整個出版領(lǐng)域,為這個傳統(tǒng)行業(yè)帶來了新的契機(jī)。為了更好地服務(wù)垂直領(lǐng)域,包括PEPTC在內(nèi)的教材語料庫,以及其他各類語料庫在未來的發(fā)展中都需要面對以下幾個重要任務(wù):

(1) 擴(kuò)充語料。從數(shù)字時代走向智能時代,無論是對于致力發(fā)展人工智能的科技大廠來說,還是對于數(shù)字化轉(zhuǎn)型中的傳統(tǒng)出版企業(yè)來說,標(biāo)注數(shù)據(jù)(即標(biāo)注語料)的質(zhì)量和規(guī)模始終是核心競爭力。因此,PEPTC的一期、二期著重于基礎(chǔ)搭建,三期開始將進(jìn)行語料的大批量入庫。其中,精細(xì)標(biāo)注的熟語料需花費(fèi)較多時間,可按需求程度排期入庫,包括現(xiàn)行教材語料、各時期人教版教材語料,部分人教自主版權(quán)的教參、教輔、一般圖書等。無需精細(xì)標(biāo)注就能反映兒童和青少年語言特征的一般讀物,則可作為生語料直接入庫。

(2) 完善功能。便捷易用是語料庫建設(shè)和應(yīng)用之間良性循環(huán)的重要基礎(chǔ)。因此,PEPTC一是要進(jìn)一步加深服務(wù)應(yīng)用的開發(fā),逐步實(shí)現(xiàn)配置式開放型導(dǎo)入、英漢雙語對照檢索與分析、各類英漢工具書的同一檢索與個性化展現(xiàn)等;二是要進(jìn)一步增加和改進(jìn)分析工具,如增加繁簡轉(zhuǎn)換、漢英互譯、音視頻轉(zhuǎn)錄等智能工具。

(3) 向知識庫轉(zhuǎn)型。如上文第四節(jié)第(五)小節(jié)所述,從數(shù)據(jù)點(diǎn)狀分布的簡單語料庫、走向樹結(jié)構(gòu)的數(shù)據(jù)庫,再走向圖結(jié)構(gòu)的知識庫,是語言資源建設(shè)的大勢所趨。利用知識圖譜和預(yù)訓(xùn)練模型,構(gòu)建教材知識庫,不僅能助益?zhèn)鹘y(tǒng)紙質(zhì)辭書、教材等的編寫,更打破了系統(tǒng)內(nèi)部的信息孤島、促進(jìn)數(shù)據(jù)的互聯(lián)互通,激發(fā)和提升數(shù)據(jù)資源的應(yīng)用價值。

附 注

[1] 人民教育出版社,以下簡稱“人教社”;人民教育出版社所出版的圖書產(chǎn)品,以下簡稱“人教……”。

[2] http://nclds.xmu.edu.cn/default。該語料庫說明中,將語料來源分為國內(nèi)對外漢語教材、中小學(xué)語文教材、現(xiàn)代漢語語料庫、現(xiàn)代漢語分類詞典、學(xué)科教材語料庫,對于教材類語料只說明了學(xué)段、出版/初審時間,并未說明具體冊次。且“詞典”類語料顯示“無統(tǒng)計數(shù)據(jù)”,因而無法計算各類語料的占比。

[3] 由于本文討論漢語學(xué)生工具書的編寫,以下內(nèi)容均只圍繞PEPTC的漢語子庫展開。

[4] 截至本文寫作完成時,古漢語的自動分詞技術(shù)仍有很大的提升空間,所以目前的PEPTC的古漢語分詞結(jié)果仍需改善。

[5] 以上例句均來自中國教育學(xué)會2023年度課堂教學(xué)展示與觀摩(培訓(xùn))系列活動教學(xué)現(xiàn)場。[6] https://blog.google/products/search/introducing-knowledge-graph-things-not。

參考文獻(xiàn)

1. 黃昌寧,李涓子.語料庫語言學(xué).北京:商務(wù)印書館,2002.

2. 黃水清,王東波.國內(nèi)語料庫研究綜述.信息資源管理學(xué)報,2021,11(3):4-17,87.

3. 劉華.語料庫語言學(xué)——理論、工具與案例.北京:外語教學(xué)與研究出版社,2020.

4. 劉嶠,李楊,段宏,等.知識圖譜構(gòu)建技術(shù)綜述.計算機(jī)研究與發(fā)展,2016,53(3):582-600.

5. 羅慶銘. 教材語料庫的建構(gòu)與應(yīng)用:以新加坡小學(xué)華文教材為例. 北京:中國社會科學(xué)出版社,2017.

6. 呂海春.中國辭書數(shù)字化發(fā)展三十年. 語言戰(zhàn)略研究,2023,8(5):85-96.

7. 毛文濤. 從《辭海》到“聚典數(shù)據(jù)開放平臺”. //第十三屆中國數(shù)字出版博覽會,2023.

8. 錢小飛. 語言數(shù)據(jù)資源建設(shè)中的關(guān)鍵問題及對策. 語料庫語言學(xué),2021,8(2):94-105.

9. 人民教育出版社辭書研究中心,北京大學(xué)中文系現(xiàn)代漢語教研室,北京大學(xué)中文系古代漢語教研室編.新編學(xué)生詞典.北京:人民教育出版社,2020.

10. 孫仕光. 語料庫數(shù)據(jù)性質(zhì)面面觀. 語料庫語言學(xué),2020,7(1):44-56,114.

11. 詹衛(wèi)東. 近30年來中文語言知識資源發(fā)展及應(yīng)用.語言戰(zhàn)略研究,2018,3(4):58-69.

12. 詹衛(wèi)東,郭銳,常寶寶,等. 北京大學(xué)CCL語料庫的研制.語料庫語言學(xué),2019,6(1):71-86,116.

13. 張柏然. 語言資料庫與雙語詞典編纂.辭書研究,1995(1):2-10.

14. 張永偉,吳冰欣. 基于網(wǎng)絡(luò)的第四代語料庫分析工具核心功能評介.當(dāng)代語言學(xué),2023,25(4):611-624.

15. 中國社會科學(xué)院語言研究所詞典編輯室編.現(xiàn)代漢語詞典(第7版).北京:商務(wù)印書館,2021.

16. 中華人民共和國教育部制定.義務(wù)教育語文課程標(biāo)準(zhǔn)(2022年版).北京:北京師范大學(xué)出版社,2022.

17. Rundell M,夏立新,朱冬生.語料庫詞典學(xué)的最新發(fā)展和未來趨勢(上)——語料庫數(shù)據(jù)在學(xué)習(xí)詞典中的顯性應(yīng)用.辭書研究,2009a(3):71-78.

18. Rundell M,夏立新,朱冬生.語料庫詞典學(xué)的最新發(fā)展和未來趨勢(下)——語料庫數(shù)據(jù)在學(xué)習(xí)詞典中的顯性應(yīng)用.辭書研究,2009b(4):81-91.

(人民教育出版社課程教材研究所 北京 100081)

(責(zé)任編輯 劉 博)

主站蜘蛛池模板: 亚洲高清无在码在线无弹窗| 欧美国产日产一区二区| 国产精品网址在线观看你懂的| 亚洲三级视频在线观看| 老司国产精品视频91| 国产香蕉97碰碰视频VA碰碰看| 女人一级毛片| 精品午夜国产福利观看| 成人免费视频一区二区三区 | 国产精品无码久久久久久| 青草午夜精品视频在线观看| 精品一区二区三区自慰喷水| 国产在线拍偷自揄观看视频网站| 欧美第九页| 欧美人与性动交a欧美精品| 欧美劲爆第一页| 日韩天堂在线观看| 国产欧美日韩va另类在线播放| 一级毛片不卡片免费观看| 日韩a级片视频| 国产欧美在线观看精品一区污| 日韩天堂在线观看| 97色伦色在线综合视频| 中文字幕无线码一区| 亚洲欧美日韩中文字幕在线| 一区二区午夜| 国模极品一区二区三区| 国产尤物视频网址导航| 中文字幕在线日韩91| 亚洲一区网站| 精品国产污污免费网站| 99在线国产| 99在线视频精品| 久久精品人人做人人爽电影蜜月| 国产主播福利在线观看| 国产xx在线观看| 久综合日韩| 国产高潮流白浆视频| 暴力调教一区二区三区| 国产亚洲欧美日韩在线一区二区三区 | 666精品国产精品亚洲| 亚洲天堂视频在线观看免费| 在线精品自拍| 99精品国产自在现线观看| 五月丁香在线视频| 精品久久高清| 真人免费一级毛片一区二区| 欧美在线视频不卡第一页| 亚洲AV人人澡人人双人| 视频国产精品丝袜第一页| 超薄丝袜足j国产在线视频| 91国内外精品自在线播放| 欧美不卡视频一区发布| 欧美国产三级| 亚洲男人的天堂网| 啊嗯不日本网站| 亚洲精品黄| 这里只有精品免费视频| 欧美一级99在线观看国产| 国产福利免费观看| 日韩黄色精品| 亚洲男人天堂久久| 久热精品免费| 亚洲国产一成久久精品国产成人综合| 亚洲人成电影在线播放| 免费中文字幕一级毛片| 欧美精品v日韩精品v国产精品| 国产精品欧美亚洲韩国日本不卡| 男人天堂亚洲天堂| 久久99热66这里只有精品一| 2019年国产精品自拍不卡| 亚洲an第二区国产精品| 国产精品美女免费视频大全| 韩国福利一区| 一级毛片免费的| 波多野结衣久久精品| 亚洲国产综合精品中文第一| 国产无码精品在线播放| 久久免费成人| 亚洲视屏在线观看| 精品乱码久久久久久久| 欧美高清国产|