999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于語料庫的對外漢語教學領域術語提取

2024-04-30 00:00:00盧一鑫
中國科技術語 2024年1期

摘 要:文章介紹了自動提取對外漢語教學領域術語的方法。以對外漢語教學領域文本為目標文本,遵循主題取向、語料科學性、樣本代表性、規模有限性等原則,建立專用語料庫,并對其進行分詞標注等加工;將統計學和語言學規則相結合,引用C-value方法計算術語度值,探索該領域內不同長度術語的發現、辨識及提取的“混合方法”(hybrid solution),最終建立對外漢語教學術語集,其中包含單詞型術語238個,兩詞術語375個,三詞術語121個和50個由4~6個單詞組成的長術語。

關鍵詞:專用語料庫;術語提取;對外漢語教學;對外漢語教學術語集;C-value算法

中圖分類號:H083;TP391" 文獻標識碼:A" DOI:10.12339/j.issn.1673-8578.2024.01.002

Corpus-Based Term Extraction in Field of Chinese Teaching as a Foreign Language//LU Yixin

Abstract:This paper introduces a method to extract terms of Chinese teaching as a foreign language. We take the text in the field of Chinese teaching as a foreign language as the target text, follow the principles of subject orientation, scientific corpus, and limited sample representation to establish a specialized corpus, and process it such as word segmentation and POS tagging. We combine statistical and linguistic rules, use the C-value method to calculate the term degree value, and explore the “hybrid solution” to find, define and extract terms of different lengths in this field. Finally a terminology base for Chinese teaching as a foreign language is established, including 238 single word terms, 375 two word terms, 121 three word terms, and 50 long terms (consisting of 4-6 words).

Keywords: specialized corpus; term extraction; Chinese teaching as foreign language; terminology base for Chinese teaching; C-value algorithm

收稿日期:2023-07-09" 修回日期:2023-08-25" 網絡出版日期:2023-11-16

基金項目:“中國外語教育基金”項目“基于語料庫的漢俄對外語言教學術語詞典編纂方式探究”(ZGWYJYJJ11A102)階段性成果

0 引言

術語作為描述和傳播科學概念、定義和規律的基本要素,集中體現和負載了一個學科領域的核心知識,是人類科學知識在語言中的結晶,也是促進學科建設的有力工具。一種學問要成為一門獨立的學科,必須有一整套術語來描述其研究對象、目的、方法、規律和定理的基本概念。科學、規范、系統的術語體系能促進一門學科的健康發展,相反,不科學、混亂的術語體系常常會阻礙一門學科的發展。

隨著對外漢語教學在全球的推廣,有關對外漢語教學法、教學理論的研究越來越多。為促進對外漢語教學在全球的進一步發展,建立一個科學、規范的術語集具有重要意義。它不僅可以輔助編纂專業詞典,同時也可在知識傳播、機器翻譯、科技寫作等方面發揮重要作用。

術語來源于文獻資料,其中包括標準、詞表、辭書、數據庫、專著及論文等[1]277。語料庫是由大量在真實情況下使用的語言信息經過科學地收集和組織而集成的專供研究使用的資料庫,其主要應用領域為詞典編纂、語義學研究、語言教學、信息獲取、未登錄詞(out of vocabulary)獲取以及基于實例的機器翻譯等[2]5。對于自然語言處理而言,術語通常都是未登錄詞[3]。為此,建設用于提取對外漢語教學領域術語的專用語料庫(specialized corpus),并對其進行加工,使其信息更加豐富,可以大大提高術語的辨識和提取效率。

1 語料庫的設計與建立

語料庫并非語篇的簡單堆砌或集合,它應具有樣本代表性、規模有限性、機讀形式化等特征[2]2。本研究中創建語料庫的目的是提取對外漢語教學術語,同時形成一個術語數據庫,因此在創建該專用語料庫時,遵循以下語料選取原則。

1.1 主題取向性

對外漢語教學是指對外國人的漢語教學。作為應用語言學下的一個分支學科,其理論基礎是語言學理論(包括心理語言學、社會語言學、人類語言學)、心理學理論和教育學理論。它的研究對象就是對外漢語教學中的一般原則、方法和規律,以及與此相關的各種內部聯系和外部聯系。對外漢語教學研究圍繞“怎樣教”“教什么”“如何學”三方面展開,其實質就是作為第二語言或外語的漢語本體研究及其教學規律與習得過程研究。

在目標領域文本中,術語具有較高的出現頻率,而在其他領域文本中出現的頻率則較低[3]。為保證該領域術語的識別和提取效率,減少噪聲和漏提現象,在建庫過程中,應選擇專門研究以上對外漢語教學理論和方法論的書面文獻,同時作者應是以中文為母語的對外漢語教學領域的學者。

1.2 語料科學性

術語作為專業領域中用來表示特定理論體系中普遍概念的專用詞匯單位[4]60,具有專業性、科學性、理據性、確切性、系統性等特點。科技語體通常用來準確表述科學原理和科學規律,或系統地表述研究成果,因術語的含義固定、概念明確而大量運用術語,術語性就成為科技語體的首要和顯著特點。因此,研究中僅選擇符合上述主題取向的科技語體文獻作為目標文本納入語料庫。

1.3 樣本代表性

所選擇的文獻資料是否具有科學性和權威性,能否從總體上體現學科整體框架,直接影響術語抽取的精確率。1983年“中國教育學會對外漢語教學研究會”的成立標志著對外漢語教學作為一門學科正式誕生。之后,隨著我國經濟的發展和綜合國力的提升,世界范圍內學習漢語的人數逐年增長,對外漢語教學的理論和方法也在不斷完善。2000年后,對外漢語教學事業飛速發展,學科內多個領域和方向的研究著作層出不窮,卷帙浩繁。為此,本研究選擇出版于2000年后能夠較為全面地涵蓋該學科理論與實踐研究成果并切實反映該學科發展水平的科學著作作為目標文本納入語料庫。

1.4 規模有限性

根據上文,所建的專用語料庫應覆蓋目標領域內所有術語,并且每個術語應出現一定次數以上,才可能獲得有關其使用信息的可靠統計結果。 因此,語料庫需要達到相應的文本量。 統計研究顯示,漢語每個詞平均有2個義項,要求每個義項出現5次,那么,為編制10 000詞的詞典而創建的語料庫應該包括10 000×2×5=100 000個句子。若句子的平均長度是40個字,那么語料庫要達到400萬字[2]6。

在術語詞典編纂中,影響其篇幅的主要因素是詞典的學科取向、用途和功能。術語詞典的基本功能之一是清點功能,即最大限度地反映某一學科領域的專業詞匯。根據國際標準化組織的建議,規范術語詞典的篇幅一般不宜超過1000個概念。而某一題材術語教學詞典的最佳篇幅也應該在1000個詞匯單位左右[1]148-149。因此,可以假設對外漢語教學領域的術語數量大約為1000個詞匯單位,根據以上公式,旨在提取1000個術語的語料庫規模應為40萬字。

根據上述標準,選擇了以下兩部學術著作,以掃描識別加人工校對的方式錄入文本,創建語料庫:

1)商務印書館于2014年出版的《對外漢語教學概論》,陳章太、于根元主編,全書共計304 756字[5];

2)商務印書館于2016年出版的《漢語可以這樣教——語言技能篇》,趙金銘主編,全書共計95 479字[6]。

以上兩部著作系統全面地闡述了對外漢語教學的基本理論、教學法、教材基本理論研究、漢語作為第二語言的習得與測試、漢語綜合技能訓練等各方面的內容,理論基礎扎實,實踐性強,作為對外漢語教師的培訓教材,具有較高的權威性和代表性。

2 語料庫加工

語料庫加工分為不同層次。本研究的建庫目的是提取對外漢語教學領域的術語,為此對語料庫進行下列多層次加工。

2.1 預處理

將目標領域文本數字化是為隨后的計算機自動處理文本所做的初步準備。為避免出現后續的標注和檢索錯誤,以獲得可靠統計結果,需要對文本進行預處理(語料清理),從而獲取一個整潔的文本。在堅持原創原則的基礎上,認真校對電子語料文本,刪除亂碼和嘈雜信息,檢查錯字漏字情況,然后借助軟件“文本整理器”整理文本中空格、段落及標點符號方面的格式問題。

2.2 切詞(segmentation)與詞性標注(POS tagging)

漢語的最小書寫單位是漢字,書面語句是連續字符串,除了標點符號之外,字與字之間沒有空白。切詞就是按照特定規范,對漢語按切詞單位進行切分。經過切分,詞與詞之間的界限才會顯現出來。詞性標注是對已經過切詞的語料中的每一個詞賦予一個詞性標記[2]8。按照國家標準《信息處理用現代漢語分詞規范》(GB/T 13719—1992)和《信息處理用現代漢語詞類標記規范》(GB/T 20532—2006),通過教育部語言文字應用研究所計算語言學研究室開發的“語料庫在線”[7]中的漢語分詞和詞性自動標注系統,對語料進行自動切詞與詞性標注,如圖 1所示。

2.3 詞頻分析

在目標領域文本中,術語與其他詞語相比,出現頻率較高。因此可以提出假設,一個詞語的出現次數越多,它作為術語的可能性也越大。在對語料庫文本進行切詞與詞性標注之后,使用“語料庫在線”的詞頻統計功能確定詞頻。該程序允許每次輸入和處理的最大文本量為10萬字,因此,所建規模為400 235字的語料庫按前后順序被分為4部分,最終得出4個詞頻表,其中不僅包括候選術語,還存在一些廣為使用的不具備區分性的高頻常用詞匯。為提高術語抽取的效率和準確率,去除詞頻表中的那些明確不是該領域內術語的詞語是非常有必要的。

2.4 停用詞處理

停用詞是那些執行句法功能但不具有領域區分度的詞。在文本處理過程中,停用詞具有很大的干擾性,因其嚴重影響文本處理效率和準確性而被視為噪聲。漢語常用停用詞主要包括:數詞、連詞、代詞、擬聲詞、感嘆詞、副詞、成語、語氣詞、介詞、處所詞、助動詞、時間詞和狀態詞。目前應用范圍較廣的停用詞表有百度停用詞表(baidu stopwords)、哈爾濱工業大學停用詞表(hit_stopwords)、四川大學人工智能實驗室編制的停用詞表(scu_stopwords)。百度停用詞表中,除包含英文停用詞外,兩字詞占比較大;四川大學停用詞表則側重三字詞、四字詞及常見俗語;哈爾濱工業大學停用詞表囊括了大量的標點符號和特殊字符。將這三個停用詞表合并,構成一個新的停用詞表,命名為《中文停用詞全表》。利用軟件AntConc的自動刪除停用詞功能,過濾掉四個詞頻表中的停用詞,然后將剩余部分詞表合并(如表 1 所示),獲取每個詞的詞頻總數,之后進行下一步計算,抽取出單詞候選術語。

3 術語抽取

不同語言中,術語的構詞方式有著本質的不同,特殊的語法結構在一定程度上也是術語特征。因此,漢語術語的構詞規則可以成為識別術語的語言學標準。馮志偉[8]、韓紅旗[9]、Sui Zhifang等[10]眾多學者對中文術語的長度、詞性、構詞規則等方面進行了研究。對以上學者的相關研究進行分析,可得出如下結論:

(1)包含在術語中的單詞數,被稱作術語的長度。術語通常由一個或多個單詞組成。由一個單詞構成的術語為單詞型術語(simple-word term),其長度為1;由多個單詞組成的術語稱作詞組型術語或多詞術語(multi-word term),其長度大于1。單詞型術語不僅能單獨用作術語,還可以用作詞組型術語的組成成分。

(2)術語的主要功能是稱名概念。在各個詞類中,名詞最常執行稱名功能。因此,名詞有很大的機會充當術語。與此同時,用于描述特定情況下的過程或現象的動詞也可以是獨立的術語。單詞型術語更多地是由單個名詞或動詞構成的。除此之外,名詞和動詞也可以作為詞組型術語的組成部分,而形容詞、副詞等其他詞類在大多數情況下作為一個組成部分出現在詞組型術語中,很少單獨用作術語。

(3)詞組型術語在數量上遠超單詞型術語。詞組型術語的主要特點是具有穩定性和再現性,比單詞型術語更能反映其命名概念的區分特征及種屬關系,可以使術語更好地滿足“系統性”“有序性”“準確性”等要求。詞組型術語的這些屬性在形式上具有語法標志,這就意味著,確定詞組型術語的基本構詞模式,并借此對它們進行自動識別的客觀前提是存在的[4]184。基于上述研究,確定了由2~3個單詞組成的詞組型術語的構詞規則,如表2所示。

(4)漢語詞組型術語通常由2~3個單詞組成,在某些領域存在少量由4~6個單詞組成的多詞術語,但由于其使用不便,它們往往被縮減成縮略語(單詞型術語)進行使用。隨著術語長度的增加,長術語的構詞模式也不斷增加,但其覆蓋率卻急劇下降,大部分長術語構詞模式的覆蓋率不足1%,可見長度超過3的術語已不適合采用構詞規則作為識別手段。因此,在上述研究的對比分析過程中,可以總結出識別由4~6個單詞構成的多詞術語的如下一般特征:

① 4~6詞候選術語中不包括:代詞,習用語,狀態詞,處所詞,擬聲詞,感嘆詞,標點符號和成語;

② 4~6詞候選術語不以連詞或助詞開頭;

③ 4~6詞候選術語不以連詞、方位詞作詞尾。

3.1 單詞型術語的抽取

單詞型術語更多地由單個名詞或動詞構成。因此,從經過停用詞處理后的詞頻匯總表中抽取所有名詞和動詞,并對它們進行術語度值(Termhood)的計算。術語度用來計算候選術語與特定領域的關聯程度,術語度值越高,候選術語成為術語的可能性就越大。

C-value作為自動術語提取研究中常見的術語度計算方法,在計算時不僅考慮了候選術語的長度及其在目標領域文本中出現的頻率,同時也考慮了它作為組成部分嵌套在其他詞組型術語中的頻率。一個詞若能被嵌套在更多詞組中,它成為術語的可能性就越大。一般情況下,C-value計算公式只能計算詞組型候選術語的術語度值,因其公式中的log2|t|恒為0,使得所有計算結果均為0,為此Barron-Cedeno等[11]提出了適用于計算單詞型術語的術語度值的C-value計算公式,將公式中的系數log2|t|改為C(t),并設置C(t)=1+log2|t|:

C-Value(t) =c(t)·TF(t)c(t)·(TF(t)-∑sTF(s)|{s∶ts}|)

其中: t 表示候選術語, TF表示嵌套術語的頻率, s表示包含t的候選術語的數量。

通過上述公式計算出所有單詞型候選術語的術語度值,并據此對它們進行排序。與此同時,將計算出的平均值作為閾值,之后提取出術語度值高于閾值的候選術語,構建最終的單詞型術語列表。

3.2 詞組型術語抽取

如上所述,詞組型術語結構穩定,并形成特有的固定搭配。從統計學角度看,詞組型術語各組成部分的共現頻率通常較高[3],由高頻詞匯組成且高頻率出現的字符串更有可能成為詞組型術語,由此提出假設,該領域詞組型術語嵌套已提取的單詞型術語。

通過日本早稻田大學Laurence Anthony設計的語料庫分析工具AntConc的索引(Concordance)功能對詞組型術語進行處理。索引又被稱為“語境中關鍵詞”(key word in context,KWIC),是指運用索引功能在語料庫中查詢某詞或短語的使用實例,然后將所有符合條件的語言使用實例及其語境以清單形式列出并可對其進行排序,使用者可以設定不同的排序方法對檢索詞的前后語境進行排序,以便從索引行中尋找規律。需要特別指出的是,中文語料只有經過分詞和標注后才能使用AntConc索引功能,西文語料可以直接使用該功能。

詞組型術語最常由2或3個單詞組成,而中文單詞多由1~3個漢字組成,因此可將三詞術語的最大長度設定為9,即最多包含9個漢字。以抽取出的單詞型術語為關鍵詞,為了避免漏提可能成為候選術語的字符串,需將關鍵詞的上下文視界寬度在其左側和右側均設定為9,即只呈現關鍵詞在上下文中直接相連的9個漢字。圖2所示為從語料庫中檢索“語音”一詞所得索引結果的一部分。在這些索引行中,每一行中檢索詞“語音”都位于中間,前后各有若干詞及其詞性標注。一共檢索到以“語音”為關鍵詞的322條字符串,并統計了其出現頻率。

將符合表2中2~3詞詞組型術語構詞規則的字符串抽取出來,分別構成兩個候選術語列表:由雙詞構成的候選術語列表和由三詞組成的候選術語列表。需要注意的是,這些列表中不僅包含了術語,還可能存在常用詞組及無意義字符串。確認最終的2~3詞詞組型術語,需要通過以下公式,計算抽取出的候選詞組型術語的術語度值。

C-Value(t) =log2|t|·f(t)""""""" t未被嵌套log2|t|·(f(t)-∑sf(t)|{s∶ts}|) 其他

其中:t表示候選術語,|t|是候選術語t的長度(以漢字字數為單位),f(t)是t在語料庫中出現的頻率,s是包含候選術語t的候選詞組型術語(即候選術語t嵌套在候選術語s中)。計算候選術語列表中的平均值作為閾值,提取高于閾值的候選術語組成該領域術語表。

使用Concordance索引功能的優勢在于可以直接觀察到核心詞匯的前后搭配規律,并對其上下文的自動分詞標注結果進行人工校對,避免因分詞或標注錯誤產生漏提或錯提。與此同時,可以在檢索到符合2~3詞詞組型術語構詞規則的字符串時,拓寬其上下文視界寬度,使其呈現出與關鍵詞相連的更多漢字,挑選出符合上文所提到的由4~6個單詞構成的詞組型術語一般特征的字符串,然后人工判斷這些術語的真假。

最后,將所有提取出的由2詞、3詞、4~6詞組成的詞組型術語進行列表歸納,組成對外漢語教學領域的詞組型術語表,如表3所示。

4 結語

為構建對外漢語教學術語集,本文以對外漢語教學領域的文本為目標文本,遵循主題取向性、語料科學性、樣本代表性、規模有限性原則,選擇出版

于2000年后且能夠較為全面地涵蓋該學科理論與實踐研究成果并切實反映該學科發展水平的科學著作作為語料納入語料庫,規模約為40萬字。

提取術語主要分為兩個階段:第一階段提取候選術語;第二階段利用C-value方法對候選術語進行術語度值的計算和評估。在此過程中,為提高效率,避免漏提或者錯提術語,引用了停用詞表,刪去了不可能成為術語的詞,并引用了語言學知識,用預設的漢語術語構詞規則對候選術語進行篩選。最終共提取對外漢語教學術語784個,其中包括單詞型術語238個,兩詞術語375個,三詞術語121個和長術語(由4~6個單詞組成)50個。

實驗研究發現,本文使用的基于語料庫的將統計學和語言學規則相結合的方法,在提高術語提取效率的同時,可有效避免漏提或錯提,特別是用于提取由2~3詞組成的高頻術語,效果十分明顯。與此同時,因為語言學規則的引用,自動分詞標注程序不完善,會出現標注錯誤的情況進而影響候選術語的產生,因此需要對語料庫文本進行詞類標注處理。為此,如何減少術語自動提取過程中的人工核校工作,減少噪聲,提高低頻術語的識別效率,仍是今后術語提取研究中需要進一步解決的重要問題。

參考文獻

[1] 劉青. 中國術語學概論[M]. 北京: 商務印書館, 2015.

[2] 郭曙綸. 漢語語料庫的建設及應用[M]. 上海: 上海外語教育出版社, 2011.

[3] 常寶寶. 科技術語自動提取技術:現狀與思考[J]. 中國科技術語, 2022, 24(1): 3-13.

[4] 吳麗坤. 俄羅斯術語學探究[M]. 北京: 商務印書館, 2009: 278.

[5] 陳章太, 于根元. 對外漢語教學概論[M]. 北京: 商務印書館, 2014: 516.

[6] 趙金銘. 漢語可以這樣教:語言技能篇[M]. 北京: 商務印書館, 2016: 191.

[7] 語料庫在線[CP/OL]. [2023-05-30]. http://corpus.zhonghuayuwen.org.

[8] 馮志偉. 現代術語學引論[M]. 增訂本. 北京: 商務印書館, 2011: 599.

[9] 韓紅旗, 安小米. C-value值和unithood指標結合的中文科技術語抽取[J]. 圖書情報工作, 2012: 85-89.

[10] SUI Z F, CHEN Y R, HU J F, et al. The research on the automatic term extraction in the domain of information science and technology[C]//Proceedings of the 5th East Asia Forum of the Terminology. Haikou. 2002: 444-451.

[11] BARRON-CEDENO А, SIERRA G, DROUIN P, et al. An improved automatic term recognition method for Spanish[M]//Computational Linguistics and Intelligent Text Processing. Springer. 2009: 125-136.

作者簡介:盧一鑫(1989—),女,博士,河南財經政法大學講師。主要研究領域為應用語言學,漢俄對比語言學。先后參與“外漢多語言詞典數據庫建設”“中國傳統哲學在俄羅斯的譯介與傳播歷史研究”等科研項目。在國內外學術會議及期刊發表論文近10篇。通信方式:yixinhn@mail.ru。

主站蜘蛛池模板: 四虎影视永久在线精品| 亚洲中文字幕无码mv| 国产99视频在线| 99热这里只有精品在线播放| 亚洲欧美人成人让影院| AV天堂资源福利在线观看| 亚洲成在人线av品善网好看| 国产一区成人| 国产浮力第一页永久地址| 欧美一区二区啪啪| 青青国产视频| 午夜视频免费试看| 成人福利视频网| 久久久精品无码一区二区三区| 国产人免费人成免费视频| 色哟哟国产成人精品| 国产一区二区免费播放| 亚洲第一精品福利| 91久久偷偷做嫩草影院| 国产不卡国语在线| 狠狠综合久久| 国产玖玖玖精品视频| 久久无码高潮喷水| 午夜成人在线视频| 57pao国产成视频免费播放| 欧洲亚洲一区| 中文字幕 欧美日韩| 一级毛片免费的| 综合天天色| 亚洲精品高清视频| 成人综合久久综合| 欧美日韩资源| 日韩国产综合精选| 国产精品尤物铁牛tv | 亚洲最大综合网| 国产成人精品18| 99国产精品国产| 欧美亚洲网| 亚洲高清资源| av大片在线无码免费| 国产十八禁在线观看免费| 亚洲人成日本在线观看| 国产亚洲精品自在线| 国产成人精品视频一区视频二区| 亚洲美女一区| 国产亚洲精品无码专| 波多野结衣二区| 国产自产视频一区二区三区| 伊人色在线视频| 蜜桃视频一区| 任我操在线视频| 四虎影视无码永久免费观看| 国产精品久久自在自线观看| 中文字幕在线播放不卡| 国产伦精品一区二区三区视频优播 | 色综合五月婷婷| 国产亚洲精久久久久久久91| 精品国产91爱| 日本尹人综合香蕉在线观看| 欧美人人干| 亚洲一区无码在线| 日韩午夜片| 思思热精品在线8| 九九热这里只有国产精品| 亚洲日韩久久综合中文字幕| 老司机aⅴ在线精品导航| 国产在线高清一级毛片| 精品视频免费在线| 午夜福利视频一区| 女人18毛片一级毛片在线 | 国产成人狂喷潮在线观看2345| 欧美午夜久久| 看国产毛片| 一级一级一片免费| 久久香蕉国产线| 色偷偷av男人的天堂不卡| 欧美 亚洲 日韩 国产| 欧美精品伊人久久| 九色视频一区| 青青青国产精品国产精品美女| 国产XXXX做受性欧美88| 国产日本一区二区三区|