全國科學(xué)技術(shù)名詞審定委員會(huì) 發(fā)布試用
計(jì)算語言學(xué) computational linguistics
一種涉及語言學(xué)、計(jì)算機(jī)科學(xué)和數(shù)學(xué)的邊緣學(xué)科。用數(shù)學(xué)、計(jì)算機(jī)科學(xué)和技術(shù)的方法研究語言,研制計(jì)算機(jī)處理語言的軟件。研究成果可用于自然語言理解與生成、語音識(shí)別與合成、機(jī)器翻譯、信息檢索、信息挖掘、文獻(xiàn)自動(dòng)分類、文獻(xiàn)自動(dòng)摘要、計(jì)算機(jī)輔助語言教學(xué)等領(lǐng)域。
計(jì)算詞匯學(xué) computational lexicology
計(jì)算語言學(xué)的一個(gè)分支。用計(jì)算機(jī)科學(xué)或數(shù)學(xué)的方法從意義、形態(tài)、結(jié)構(gòu)等方面研究自然語言的詞匯結(jié)構(gòu)和詞匯系統(tǒng),建立面向各種應(yīng)用目標(biāo)的機(jī)器詞典和語料庫。
計(jì)算語義學(xué) computational semantics
計(jì)算語言學(xué)的一個(gè)分支。運(yùn)用數(shù)學(xué)方法(主要是謂詞邏輯、內(nèi)涵邏輯等數(shù)理邏輯方法)構(gòu)建語義模型,把語義分析作為一個(gè)計(jì)算過程來研究。
數(shù)理語言學(xué) mathematical linguistics
用數(shù)學(xué)思想和數(shù)學(xué)方法研究語言現(xiàn)象的學(xué)科。通常采用集合論、數(shù)理邏輯、算法理論等代數(shù)方法,或采用概率論、數(shù)理統(tǒng)計(jì)、信息論等方法來建立語言的數(shù)學(xué)模型,分析描述語言成分出現(xiàn)和分布的統(tǒng)計(jì)規(guī)律。可分為代數(shù)語言學(xué)(algebraic linguistics)、統(tǒng)計(jì)語言學(xué)(statistical linguistics)等。
語料庫語言學(xué) corpus linguistics
語言學(xué)的一個(gè)分支。把大規(guī)模的真實(shí)的自然語言數(shù)據(jù)(書面文本或言語錄音的轉(zhuǎn)寫)作為語言學(xué)描寫、驗(yàn)證語言假說或建立語言學(xué)統(tǒng)計(jì)模型的依據(jù)。也是一種以語料庫為基礎(chǔ)的語言研究方法。包括:1.對自然語料進(jìn)行加工、標(biāo)注;2.應(yīng)用已經(jīng)標(biāo)注好的語料進(jìn)行語言研究和應(yīng)用開發(fā)。有時(shí)也可以使用未加工過的語料進(jìn)行語言研究或辭書編纂。
自然語言處理 natural language processing
研究使用計(jì)算機(jī)處理在人際交際或人機(jī)交際中的自然語言問題的學(xué)科。主要研究表示語言能力和語言應(yīng)用的模型,建立計(jì)算框架來實(shí)現(xiàn)并不斷完善這樣的語言模型,根據(jù)這樣的語言模型設(shè)計(jì)各種實(shí)用系統(tǒng),并探討這些實(shí)用系統(tǒng)的評(píng)測技術(shù)。計(jì)算機(jī)對自然語言的研究和處理,一般應(yīng)經(jīng)過以下過程:1.把需要研究的問題在語言學(xué)上加以形式化,使之能以一定的數(shù)學(xué)形式,嚴(yán)密而規(guī)整地表示出來;2.把這種嚴(yán)密而規(guī)整的數(shù)學(xué)形式表示為算法,使之在計(jì)算上形式化;3.根據(jù)算法編寫計(jì)算機(jī)程序,使之在計(jì)算機(jī)上加以實(shí)現(xiàn);4.對于所建立的自然語言處理系統(tǒng)進(jìn)行評(píng)測,使之不斷地改進(jìn)質(zhì)量和性能,以滿足應(yīng)用的要求。
自然語言理解 natural language understanding
在研究自然語言的機(jī)制和實(shí)現(xiàn)過程的基礎(chǔ)上,用計(jì)算機(jī)分析口語或書面語,理解它們所表達(dá)的意思,并用形式化的方式表示出來。自然語言理解的過程是從語音或文本映射到意義。
自然語言生成 natural language generation
在研究自然語言的機(jī)制和實(shí)現(xiàn)過程的基礎(chǔ)上,用計(jì)算機(jī)把要表達(dá)的意思從非語言形式的輸入構(gòu)造成自然語言輸出,并以口語或書面語的形式表達(dá)出來。自然語言生成的過程是從意義映射到語音或文本。
語言工程 language engineering
指開發(fā)和研制識(shí)別、理解、生成人類語言的計(jì)算機(jī)系統(tǒng)的技術(shù)和領(lǐng)域。包括機(jī)器翻譯、信息檢索、文本分類、自動(dòng)文摘等。
人工智能 artificial intelligence
一種交叉學(xué)科。利用計(jì)算機(jī)系統(tǒng)模擬人類的智能活動(dòng),完成人用智能才能完成的任務(wù)。包括專家系統(tǒng)、自然語言理解、機(jī)器學(xué)習(xí)、自動(dòng)定理證明、模式識(shí)別、知識(shí)工程、智能數(shù)據(jù)庫、自動(dòng)編程、智能控制等。
信息論 information theory
關(guān)于信息的本質(zhì)和傳輸規(guī)律的科學(xué)理論。研究信息的計(jì)量、發(fā)送、傳遞、交換、接收和儲(chǔ)存等。
本體知識(shí)體系 ontology
對概念體系的明確的、形式化的、可共享的規(guī)范。“概念體系”指所描述的客觀世界的現(xiàn)象中有關(guān)概念的抽象模型,“明確”指對于所使用的概念的類型以及概念用法的約束都明確地加以定義,“形式化”指本體知識(shí)體系應(yīng)該是機(jī)器可讀的,“共享”指本體知識(shí)體系中所描述的知識(shí)不是個(gè)人專有的而是集體共有的。本體知識(shí)體系是構(gòu)建自然語言詞匯系統(tǒng)的重要理論基礎(chǔ)。
漢字信息處理 Chinese character information processing
中文信息處理的一個(gè)重要組成部分。用計(jì)算機(jī)對漢字信息進(jìn)行操作和加工,包括漢字的輸入、存儲(chǔ)、識(shí)別、生成和輸出等。
漢字編碼 Chinese character encoding; Chinese character coding
按照一定的規(guī)則,對指定的漢字集內(nèi)的元素編制相應(yīng)的代碼。
漢字識(shí)別 Chinese character recognition
利用計(jì)算機(jī)抽取漢字字形特征,實(shí)現(xiàn)對漢字的自動(dòng)輸入。可分為聯(lián)機(jī)手寫體漢字識(shí)別、印刷體漢字識(shí)別和手寫體漢字識(shí)別。
漢語分詞 Chinese word segmentation; Chinese word tokenization
又稱“漢語自動(dòng)分詞”“漢語切詞”“漢語自動(dòng)切詞”。依據(jù)一定的原則和方法,按照分詞單位對漢語語句進(jìn)行切分的過程。
分詞標(biāo)記 mark of word segmentation
漢語句子中可以作為分詞依據(jù)的標(biāo)記。書面語的分詞標(biāo)記主要有:1.自然的分詞標(biāo)記,例如標(biāo)點(diǎn)符號(hào)等;2.非自然的分詞標(biāo)記,例如沒有構(gòu)詞能力的單音節(jié)單純詞。
分詞單位 unit of word segmentation
漢語信息處理使用的、具有確定的語義和(或)語法功能的基本單位。
交集型歧義切分字段 overlapping ambiguous segmentation
在漢字字符串ABC中,AB是詞,BC也是詞,稱ABC為交集型歧義切分字段。例如在“會(huì)診斷”中,“會(huì)診”是詞,“診斷”也是詞,“會(huì)診斷”就是一個(gè)交集型歧義切分字段。
組合型歧義切分字段 combination ambiguous segmentation
又稱“多義型歧義切分字段”。漢字字符串AB是詞,同時(shí)A和B也分別是詞,稱AB為組合型歧義切分字段。例如在“將來”中,“將來”是詞,同時(shí)“將”和“來”也分別是詞,“將來”就是一個(gè)組合型歧義切分字段。
詞頻 word frequency
在一定范圍的語料中統(tǒng)計(jì)詞語的實(shí)際使用情況而得到的絕對頻度和相對頻度。絕對頻度是詞語出現(xiàn)的次數(shù);相對頻度是該次數(shù)與整個(gè)語料所含的詞例總數(shù)之比。
詞例 word token
詞匯表中的詞在語料中的每一次出現(xiàn),稱為一個(gè)詞例。
詞型 word type
語料中出現(xiàn)的詞匯表里的各個(gè)不同的詞,稱為詞型。
詞匯差異度 vocabulary diversity
語料中平均每個(gè)詞型所對應(yīng)的詞例數(shù)。
詞匯集中度 vocabulary concentration
詞匯在語料中集中出現(xiàn)的頻度。
詞長分布 distribution of word length
單詞長度(即組成單詞的單字或字母個(gè)數(shù))的概率分布。
類屬詞 generic word
又稱“上下位詞”。表示概念體系中具有類屬關(guān)系的詞。這種類屬關(guān)系是相連的上下級(jí)層次,既不能位于相同層次,也不能跨越幾個(gè)層次。
句法樹 syntactic tree
表示句法分析結(jié)果的樹形圖。說明在一個(gè)句子中各個(gè)語言成分的結(jié)構(gòu)、層次和功能關(guān)系。可分為二叉樹和多叉樹。
剖析樹 parsing tree
從起始符號(hào)開始,運(yùn)用語言規(guī)則逐步識(shí)別出句子的句法結(jié)構(gòu),描述這個(gè)推導(dǎo)過程的樹形圖稱為剖析樹。
標(biāo)記樹 annotated tree; labeled tree
結(jié)點(diǎn)上帶有語法、語義等標(biāo)記的樹形圖。
分析器 analyzer
根據(jù)詞法、句法、語義等信息對語句進(jìn)行形態(tài)、語法或語義分析的計(jì)算機(jī)程序。
歧義消解 disambiguation
又稱“排歧”。利用各種分析方法將語言中歧義現(xiàn)象的不同理解區(qū)分開來的過程。
組塊分析 chunk parsing; chunking
又稱“基本短語分析”。一種識(shí)別和分析語句的局部結(jié)構(gòu)的方法。認(rèn)為一個(gè)句子中,從句法、韻律或意義的角度可以劃出各種互不交叉、沒有嵌套的句塊,例如名詞塊、動(dòng)詞塊、韻律塊等。組塊分析的目標(biāo)是識(shí)別這些句塊、分析句塊內(nèi)的結(jié)構(gòu)和句塊間的關(guān)系。與通常的句法分析方法相比,組塊分析方法能夠降低句子分析的難度,針對特定的應(yīng)用目標(biāo),提高整體分析的效率。參見“部分句法分析”和“淺層分析”。
部分句法分析 partial parsing
一種句法分析方法。與通常的句法分析不同,這種方法通過降低分析深度提高分析效率和準(zhǔn)確性,目標(biāo)是識(shí)別句子中的某些成分,例如基本名詞短語、非遞歸的動(dòng)詞短語等。參見“淺層分析”和“組塊分析”。
淺層分析 shallow parsing
一種通過降低分析深度提高分析效率和準(zhǔn)確性的語句分析策略。其目標(biāo)是識(shí)別和分析句子中某些局部成分的句法或語義結(jié)構(gòu)。參見“部分句法分析”和“組塊分析”。
標(biāo)準(zhǔn)通用置標(biāo)語言 standard generalized markup language;SGML
又稱“標(biāo)準(zhǔn)通用標(biāo)記語言”。置標(biāo)語言是描述書面自然語言的文檔結(jié)構(gòu)的語言,標(biāo)準(zhǔn)通用置標(biāo)語言(SGML)是由國際標(biāo)準(zhǔn)化組織制定的定義電子文件結(jié)構(gòu)和內(nèi)容描述的標(biāo)準(zhǔn)。目的是促進(jìn)語言信息格式的標(biāo)準(zhǔn)化,便于自然語言文本信息的交換。一個(gè)SGML語言程序由語法定義、文件類型定義和文件實(shí)例三部分組成。語法定義給出文件類型定義和文件實(shí)例的語法結(jié)構(gòu);文件類型定義給出文件實(shí)例的結(jié)構(gòu)和組成結(jié)構(gòu)的元素類型;文件實(shí)例是SGML語言程序的主體部分。在計(jì)算機(jī)處理過程中,置標(biāo)語言的標(biāo)記既可以作為數(shù)據(jù),也可以作為控制語句來使用。
超文本置標(biāo)語言 hypertext markup language; HTML
又稱“超文本標(biāo)記語言”。標(biāo)準(zhǔn)通用置標(biāo)語言(SGML)的一種文件類型。可用于文本信息的結(jié)構(gòu)化——例如標(biāo)題、段落和列表等等,也可用來在一定程度上描述文檔的外觀和語義。它對一類特定的文件定義描述信息的方法,用于因特網(wǎng)上電子文本的傳輸和共享。
可擴(kuò)展置標(biāo)語言 extensible markup language; XML
又稱“可擴(kuò)展標(biāo)記語言”。標(biāo)準(zhǔn)通用置標(biāo)語言(SGML)的子集。用來定義電子文件的類型,制作和管理用SGML定義的文件,以便在因特網(wǎng)上傳輸和共享。
產(chǎn)生式語言 production language
一種常用的知識(shí)表示語言。描述一個(gè)(或一些)事件的存在導(dǎo)致另一事件的產(chǎn)生。用符號(hào)方法表述如下:if A then B或A→B。其中A稱為前件,B稱為后件,→表示由A真導(dǎo)致B真。
有向圖 directed graph
由一組結(jié)點(diǎn)和一組有向邊所構(gòu)成的圖結(jié)構(gòu)。
二叉樹 binary tree
一種樹形數(shù)據(jù)結(jié)構(gòu)。其中每個(gè)結(jié)點(diǎn)至多有兩棵子樹,其中一棵稱為左子樹,另一棵稱為右子樹。
決策樹 decision tree
又稱“判定樹”。一種具有判別功能的樹形結(jié)構(gòu)。其中結(jié)點(diǎn)代表一些確定分類的具體條件。它實(shí)際上是一種分類規(guī)則,通過它對輸入的對象集合進(jìn)行分類。
故事樹 story tree
用來描述故事的篇章結(jié)構(gòu)的樹形圖。包括背景和各種情節(jié),主要用于研究記憶和語篇理解。
復(fù)雜特征 complex features
在基于合一的語法中,對語言單位具有的語音、語法、語義、語用等信息所進(jìn)行的多重性質(zhì)的描述。
概念描述concept description
又稱“概念描寫”。使用描述符對某類對象的內(nèi)涵進(jìn)行定義,并概括這類對象的有關(guān)特征。可分為特征性描述和區(qū)別性描述,前者描述某類對象的共同特征,后者描述不同類對象之間的區(qū)別。
語言羨余 language redundancy
在識(shí)別或理解一個(gè)語言單位時(shí),如果某個(gè)特征(語音的、語法的等)可不必出現(xiàn),它就是羨余的。非羨余的特征才構(gòu)成區(qū)別性特征。
語義基元 semantic primitive
從詞語中抽象出來的表示行為或狀態(tài)的基本概念。可以用它們和它們的組合來描述句子內(nèi)部的語義關(guān)系。
語義解釋 semantic interpretation
根據(jù)語義規(guī)則對句法分析生成的句法結(jié)構(gòu)賦予意義的過程。
語義模式 semantic pattern
用來表示語句中詞與詞之間語義關(guān)系的格式。在優(yōu)選語義理論中是“實(shí)體—?jiǎng)幼鳌獙?shí)體”的三元組合。
知識(shí)表示 knowledge representation; KR
用形式化的表達(dá)方式表示常識(shí)、知識(shí)和推理過程。目的是讓計(jì)算機(jī)能夠自動(dòng)分析自然語言中體現(xiàn)的常識(shí)知識(shí)以及特定的語言交際環(huán)境中出現(xiàn)的具體知識(shí)。
框架語義學(xué) frame semantics
一種語義學(xué)理論。認(rèn)為要理解語言中詞語的意義,需要先具備語義框架即概念結(jié)構(gòu)的知識(shí)。框架是人們在理解語言時(shí)激活的頭腦中已有的認(rèn)知結(jié)構(gòu),語義框架提供詞語的意義在語言中存在以及在話語中使用的背景和動(dòng)因。不同的框架由不同類型和數(shù)量的框架元素構(gòu)成,用來描寫詞語的意義和功能。
數(shù)理邏輯語義學(xué) logical and mathematical semantics
運(yùn)用數(shù)理邏輯方法來描述和分析語義現(xiàn)象的理論。
概念依存理論 conceptual dependency theory又稱“概念從屬理論”“CD理論”。一種語言自動(dòng)分析方法。它試圖用有限數(shù)量的基本概念(語義基元)組成各種集合,構(gòu)造概念依存表達(dá)式來表示語句的意義。
優(yōu)選語義學(xué) preference semantics
一種語言自動(dòng)分析方法。用語義公式表示詞義、用語義模式表示短語或句子、用語義優(yōu)先選擇的方式表示詞語之間的語義限制。
語言串理論 linguistic string theory
用結(jié)構(gòu)主義觀點(diǎn)描述語言的一種自動(dòng)句法分析方法。認(rèn)為每一個(gè)句子都可以看做由若干個(gè)基本串通過附加、連接和替換等方式組合而成。這些基本串中至少有一個(gè)是中心串,代表句子的基干。每一個(gè)句子都由一個(gè)中心串加上零個(gè)或多個(gè)基本附加成分組成。從中心串出發(fā)通過逐漸擴(kuò)展的方式,可以生成語言中無限多的、任意復(fù)雜的句子。
語言的隨機(jī)模型 stochastic model of language用概率統(tǒng)計(jì)的方法來表示語言單位內(nèi)在的統(tǒng)計(jì)規(guī)律的模型。常用的有n元語法以及隱馬爾可夫模型等。
元理論 meta theory
D.Hilbert采用分層理論的辦法。把理論分為兩層,一層是需要證明其相容性的系統(tǒng),稱為“對象理論”;另一層是作為證明工具的系統(tǒng),稱為“元理論”。元理論必須簡單清晰,正確可靠。
元語法 metagrammar
可以用來生成語法的元規(guī)則的集合。通過元規(guī)則來揭示語法中規(guī)則之間存在的規(guī)律。
語言知識(shí)庫 language knowledge base
收錄關(guān)于語言系統(tǒng)或語言使用的各種信息的語料庫或數(shù)據(jù)庫。一般按照某個(gè)范疇體系或概念層級(jí)系統(tǒng)進(jìn)行形式化的描述和組織,能夠?yàn)檎Z言信息處理的基礎(chǔ)研究和應(yīng)用開發(fā)提供支持。例如:帶標(biāo)注的或不帶標(biāo)注的、單語的或雙語平行的語料庫、語法信息詞典、語義信息詞典、專業(yè)術(shù)語詞典、句法樹庫、語義結(jié)構(gòu)標(biāo)注語料庫等。
語料庫 corpus
儲(chǔ)存在計(jì)算機(jī)中的大量自然語言素材的集合。這些素材是書面文本、言語錄音或其轉(zhuǎn)寫,可以應(yīng)用于語言學(xué)研究、語言教學(xué)、辭書編纂、自然語言處理等領(lǐng)域。
平衡語料庫 balanced corpus
在語料采集時(shí)按照平衡性原則進(jìn)行隨機(jī)抽樣,使語料的類別分布比例和時(shí)間分布比例相對均勻,能夠充分反映和記錄語言的實(shí)際使用情況的語料庫。書面語語料類別的平衡性要素通常包括文類、語體、語式、主題、媒體等。
雙語語料庫 bilingual corpus
收錄了兩種語言文本的語料庫。可分為平行語料庫(Parallel Corpus)和比較語料庫(Comparable Corpus)兩種類型。在平行語料庫中,兩種語言的文本互為譯文。比較語料庫是把表述同樣內(nèi)容的不同語言的文本收集在一起,這些不同語言的文本之間不存在翻譯關(guān)系。
術(shù)語庫 terminology bank
又稱“術(shù)語數(shù)據(jù)庫”。存儲(chǔ)專業(yè)術(shù)語的數(shù)據(jù)庫。數(shù)據(jù)庫中的每條記錄是一個(gè)專業(yè)術(shù)語和與該術(shù)語有關(guān)的各種信息,例如注釋、類別、出處、語言學(xué)特征、其他語種的譯名等。
機(jī)器詞典 machine dictionary
對詞語條目的語音、詞法、句法、語義、用法等信息進(jìn)行系統(tǒng)的形式化描述,存儲(chǔ)在計(jì)算機(jī)里的詞典,可以為各種自然語言處理系統(tǒng)提供語言知識(shí)資源。
語義詞典 semantic dictionary
收錄詞匯語義信息的語言知識(shí)庫。除了描述詞匯意義以外,通常還描述詞語之間的各種意義關(guān)系,包括聚合關(guān)系和組合關(guān)系,也常用網(wǎng)狀結(jié)構(gòu)或樹形結(jié)構(gòu)表示詞語的概念之間的各種關(guān)系,例如同義關(guān)系、反義關(guān)系、上下位關(guān)系、整體-部分關(guān)系等。
用戶詞典 user specific dictionary
應(yīng)用型自然語言信息處理系統(tǒng)中為特定用戶設(shè)計(jì)的、便于該用戶使用和維護(hù)的機(jī)器詞典。
詞典結(jié)構(gòu) dictionary configuration
機(jī)器詞典中詞項(xiàng)以及詞項(xiàng)具有的各種信息的組織形式。
詞典信息 dictionary information 機(jī)器詞典對每個(gè)詞項(xiàng)的語音、詞法、句法、語義特征或用法的形式化描述。
詞型和詞例關(guān)系 relation between type and token
又稱“類型和類例關(guān)系”。在一個(gè)文本中詞型的全部數(shù)目與詞例的全部數(shù)目之間的關(guān)系。
詞性標(biāo)注 part of speech tagging
在給定的語句中判定每個(gè)詞的詞性并加以標(biāo)注的過程。通常指采用規(guī)則或統(tǒng)計(jì)方法進(jìn)行的自動(dòng)標(biāo)注,是語料庫加工的基本任務(wù),其難點(diǎn)是兼類詞的歧義排除問題。
詞義自動(dòng)標(biāo)注 word sense tagging 又稱“語義自動(dòng)排歧”。用計(jì)算機(jī)分析和辨識(shí)語句中的詞語的意義,確定其義項(xiàng)并加以標(biāo)注的過程。
文本對齊 text alignment; bilingual alignment又稱“雙語對齊”。在平行語料庫中原文和譯文的相同語言單位之間建立對應(yīng)關(guān)系的過程。平行的語料文本之間存在著多層次的對應(yīng)關(guān)系,例如段落對齊、句子對齊、短語對齊和詞對齊。