999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

從術語知識發現視角看術語科學定名的重要性

2015-06-30 09:35:05張榕
中國科技術語 2015年3期
關鍵詞:語義定義概念

張榕+

摘要:科學的術語定名是術語工作的一項重要內容。一個科學的概念指稱的創立,是術語推廣、傳播與術語標準化工作的前提條件。文章從術語知識發現這一新的視角論述了術語科學定名對于術語知識發現工程的重要作用,從應用角度進一步論證了術語科學定名的重要性。

關鍵字:術語定名,術語知識發現,術語定義抽取,術語定義聚類,術語識別

中圖分類號:H083;N04文獻標識碼:A文章編號:1673-8578(2015)03-0014-04

Abstract:The scientific term designation is one of the most important aspects in term work. The creation of the designation of a concept is the prerequisite for the popularization, spread and standardization of terms. This paper analyzes the importance of scientific term designation from the perspective of term knowledge discovery.

Keywords: term designation,term knowledge discovery,term definition extraction, term definition clustering, term recognition

術語定名是給一個概念制定科學的術語的過程。術語定名應遵循準確性、單義性、系統性、語言的正確性、簡明性、理據性、穩定性、能產性原則[1]。上述原則對于術語所指稱概念的推廣與傳播、術語標準化工作都具有重要的理論與現實意義。

近年來,術語學研究與中文信息處理技術相結合成為術語學研究的新方向。術語知識發現的相關研究已有了不少的成果。本文將從基于大規模語料的術語定義抽取、術語定義聚類與術語識別三大主要術語知識發現的應用研究出發[2],探討術語科學定名對于術語知識工程的支撐作用,從語言工程的實現過程對術語科學定名的重要性進行論述。

一術語科學定名在術語定義抽取中的作用

術語定義抽取是了解術語概念最基本、最直接的方式。基于網絡海量信息的術語定義抽取通常是將一個術語查詢項提交給抽取系統,系統根據該查詢項關鍵詞進行文本檢索,再通過一系列規則與統計的計算方法,將得分最高的句子抽取出來作為術語定義的最優選項 [3-4]。

馮志偉認為名稱與概念之間具有單參照性,即一個名稱與一個且只與一個概念相對應。他還認為術語的同義現象會導致術語使用的混亂。在術語工作中,應該盡量減少術語的同義現象,這是術語標準化的任務之一[5] 。

當術語同義現象嚴重時,由于提交給查詢系統的關鍵詞每次只有一項,這就必然造成系統無法識別出包含其同義術語的文本集合,從而降低了抽取系統的準確率。例如,路甬祥談到術語濫用的問題時舉例,“ergonomics”一詞,分別有人機學、人機工效學、人類工程學、人體工程學、生物工藝學、人類環境改造學、勞動經濟學、工作環境改造學、工效學等22種叫法[6]。

我們將上述名稱分別作為查詢關鍵詞,提交給術語定義抽取系統,進行實驗。對抽取結果分析后發現,提交查詢項對抽取質量的影響較大。系統的準確率與查詢項術語的使用頻率正相關。在公眾中知曉度與使用度相對較高的術語如“人機學”“人際工效學”“人體工程學”作為查詢項時,系統返回的文本數量較大,文本中的信息與術語定義相關度高,抽取準確率高。反之,使用的查詢項權威度、知曉度、流通度與使用頻率均較低時,雖然多數搜索引擎在關鍵詞處理過程中會使用同義詞擴展功能,但抽取結果排序時通常給原始查詢項賦予一個較高的權重,這就造成質量較高的同義詞定義排在后面,從而降低了抽取結果的準確率。例如“人類環境改造學”“工作環境改造學”由于在公眾中的知曉度與使用度降低,搜索引擎返回的文本數量極其有限,抽取出的候選句子的數量會受到很大的制約。同時,由于知曉度低,這些文本并非包含權威機構發布的術語定義,通常是網絡上自媒體參與者發表的個人觀點,客觀性、規范性與科學性都無法得到保證,在這些文本集合中進行術語定義的自動發現,會大大降低術語知識提取的準確度。

從語義角度考察,在這22種叫法中,“生物工藝學”“勞動經濟學”與源語語義相似度較小,與科技文獻翻譯的相對等值性原則背離甚遠,以該類詞語作為查詢項得到的結果顯然不能對所指稱概念進行合理的描述。

作為查詢項的術語,其定名的合理度即與術語的定名原則契合度越高,對識別系統的貢獻度越大。如果將上述22個名稱通過擇優整合成一個術語,從術語標準化的角度來說,有利于普及術語概念。另一方面,網絡文本撰寫者逐漸統一使用固定下來的權威、規范的術語,也同樣可以加速術語指稱概念的傳播。用統一的術語作為查詢項,其識別效果顯然遠遠大于多名術語的抽取結果,術語定義的抽取系統又直接服務于術語概念的理解,從而實現了概念普及的良性循環。

在考察中我們還發現,首字母縮合詞術語同名異義的現象,在所有術語類型中最為普遍。無論從術語學本體或術語知識發現的角度,存在的問題都較大。

術語的單義性是指在某個特定領域內,術語具有形式與意義的一一對應關系,一個術語只表達一個學科概念,然而對于具有跨領域特性的多義術語,不具備形式與意義的一一對應性。換言之,在術語的命名過程中,術語的單義性原則只能落實到單一領域的范圍。以首字母縮合詞“CPI”為例,該術語共有17個不同義項,分別覆蓋經濟、政治、信息、管理、醫學等領域,其中消費者物價指數(consumer price index)在這17個義項中知曉度與使用頻次最高。其余義項知曉度與使用頻率較低,這類術語更多被所屬領域的專家或學習者使用,領域內部的流通率較高,但領域外流通率較低。在這些跨領域的多義術語中,即使同一領域內部依舊存在同形異義的現象,例如“費用績效指數”“關鍵績效指數”“成本績效指數”。由于上述術語的英語首字母相同,造成同一詞形表達完全不同的概念,這顯然違背了術語單義性的原則。在術語定義識別過程中,造成了大量的識別噪音。在首字母縮合詞術語的命名過程中,術語學家需在術語構成的經濟性原則[7]與單義性、準確性原則之間找到最佳平衡點。endprint

術語定名的單義性與準確性原則對于術語定義的識別系統的支撐作用是顯著的。如果查詢術語符合術語的定名原則,特別是符合在單一領域內單形單義的定名原則,將提高系統抽取的效率。

二術語科學定名在術語定義聚類中的作用

術語定義聚類是按照術語的領域歸屬類別將術語定義劃分到各自所屬的類別的過程,該系統的實現能解決大規模術語定義自動分類問題,對于領域術語數據庫的構建以及規模化地研究領域術語具有重要意義。

我們知道,一個新概念的產生必定要使用一個指稱去描述此概念。從認知科學的角度而言,任何一個新概念的產生都不是憑空而來的,絕大多數新概念都是在原有領域的相關概念的基礎上產生的。反映在語言學特征上,大多數新術語不是憑空而造的詞,而是與先前的相關術語在語義上構成一定的關系。因此描述新概念的術語,所采取的語言形式多為組合型術語。概念體系是由一組相關概念構成的集合,以屬種關系為框架,層級結構分明,并包含了各種縱向與橫向的聯系,每個概念在概念體系中占有明確的位置。依據術語命名的系統性,新術語的命名需納入原有系統之中,概念體系間結構層次分明便于規范指稱,使被定義概念在術語概念體系中準確地找到其相應的位置。

例如,“基金”是一個上位術語。隨著近年來基金業的迅猛發展,基金的種類不斷增加,這就需要越來越多的術語來指稱這些概念。其下位術語包括:投資基金、開放式基金、封閉式基金、公司型投資基金、契約型投資基金、成長型投資基金、收入型投資基金、平衡型投資基金、股票基金、債券基金、貨幣市場基金、期貨基金、期權基金、指數基金、認沽權證基金、區域基金等。

經過自動分詞系統的處理,這些詞組型術語的整體語義與詞組中每個詞的語義之和的關系示例如下:

成長型投資基金→成長+型+投資+基金

認沽權證基金→認沽+權證+基金

貨幣市場基金→貨幣+市場+基金

開放式基金→開放+式+基金

由于這些新術語尚未收錄在分詞詞表中,在分詞過程中被切碎成幾個詞組的組合序列,然而聚類系統的實驗統計卻表明,未收錄術語對最終聚類的準確率的影響可以忽略不計。聚類系統使用語義知識庫進行語義間的相似度計算。從上述切分結果可以看出,被切碎詞組的義項之和與該術語本身的義項基本相同,即被切分詞語的碎片與原術語之間保持著較大的語義相關度。

反之,某些外來意譯型未收錄術語,經過分詞系統切分后,每個碎片的語義之和與術語整體語義關聯度較小。例如“漂綠”(green wash)意為“公司、政府或是組織以某些行為或行動宣示自身對環境保護的付出但實際上卻是反其道而行的行為”。

分詞系統切分為:漂綠→漂+綠

切分后的義項累加與原術語之間沒有過多的語義關聯,兩者之間的語義相似度極低。由于領域聚類的過程是基于句子之間的語義相似度計算,顯然這種術語的定名方式對整個聚類系統的準確率造成了很大的影響。

從語言學特征來看,“漂綠”的表意特征較弱,理據性較差,使用者無法從指稱推斷其相關概念。我們進行了一項實驗,受試者為20—50歲年齡段,包含各個教育等級的人群,數量為20人。實驗結果表明,受試者均無法從該術語的字面意思推測出該術語的大致意義,甚至無法推測出其領域歸屬類別。確保意譯術語的簡明性,同時符合漢語的概念理解模式,在科學性、概念體系之間的關聯性,以及源語與譯語間形式與意義的忠實度之間找到一個最佳平衡點,是術語學家在術語定名過程中須著重考慮的問題。

遵循術語定名規范的詞組型術語的語義與構成該術語的每個詞語的語義之和相似度極高;反之造成被切分后的碎片部分語義之和與原術語語義的割裂,對聚類系統的準確率影響較大。該現象從術語工程學的角度也驗證了:科學規范的術語命名對高質量的術語定義聚類系統的實現起到一定的支撐作用。

三術語科學定名在術語識別中的作用

大多數的新術語都是在相關舊術語的基礎上建立或演化而來的,與該領域內部的其他術語保持某種意義上的關聯關系,如層級關系、部分—整體關系、聯想關系等。術語系統將新產生的概念囊括在原有相關概念體系之中,并與原有概念建立一定的結構、層級與語義關系。術語的語綴體現了術語命名的系統性與能產性的特征。在術語系統中,出現頻率較高的詞綴包括:

前綴:亞、超、有、無、非、不、泛、類、可、反、單、雙、多、自、總、半、云、次、大、小、被、逆、子、準、過等。

后綴:率、化、學、度、性、論、式、法、物、子、系、質、素、炎、儀、計、劑、體、器等。

很多包含高頻詞綴的術語是伴隨著新的學科領域而產生的,這些詞綴具有強大的構詞能力,可與其他已知概念組配在一起,產生一批與該概念相關的概念集合。雖然有的語綴出現時間較短,但影響力大,能產性高,數量增幅巨大,覆蓋領域廣泛。以術語前綴“云”為例,我們統計到的包含“云”的術語超過一百個。這些術語都是基于“云技術”而產生的,詞綴構詞的術語定名法便于術語所指稱的概念在概念網絡中找到相應的節點,分別與“云技術”建立關聯。包含“云”的術語幾乎涵蓋了與百姓日常生活密切相關的政治、經濟、文化、科技、娛樂、教育等各個領域,如:云政務、云支付、云社交、云指控、云音樂、云學習等。可以理性地推斷,在不久的將來,以“云”為前綴的新術語的數量將會繼續增長,覆蓋領域將更廣泛,社會影響力以及知曉度和使用頻率將越來越高。

術語的語綴從語義上準確表達了術語所表達概念的重要屬性之一,對于概念的識別作用明顯。例如詞串:云+N,V+率。若前綴“云”后緊跟一個名詞,或后綴“率”前出現一個動詞,那么這種詞匯共現關系與術語成詞概率是緊密相關的,即“云+N”與“V+率”的詞串作為術語的概率較高。實際上,即使出現在術語定義上下文窗口中,術語的位置也是不固定的,尤其從網絡獲取到的術語定義,語言結構靈活多樣,術語可能出現在句首、句尾或句中的任何一個位置。位置信息的缺失在一定程度上也造成了術語識別的難度。在術語粗抽取的基礎上,識別系統利用語綴信息,在發現術語語綴之后,通過抽取方向的選取以及相應的抽取算法,將術語識別出來[2] 。

語綴具有術語識別的指示功能,從術語建設與管理的角度而言,語綴構詞法便于術語在術語知識庫中找到其相應的節點,方便術語的整理、歸類,也能提高術語數據庫用戶的查詢、檢索的效率。從術語知識發現的角度而言,術語語綴尤其是能產性強的語綴,對于術語的自動識別、新術語的自動發現起到了強大的支持作用。利用語綴信息可輔助系統準確、快速地識別出一批包含特定概念的術語,有效地提高了識別的效率。

四結語

在信息技術高速發展的今天,術語學研究離不開中文信息處理技術的支持,該技術使得大規模的術語知識發現、領域術語的系統化研究以及術語數據庫的構建成為可能,對術語學本體研究具有重要的推動作用。從另一個角度而言,術語學本體研究影響著術語知識發現系統的實現。科學的術語定名不僅對術語概念傳播、術語標準化工作具有積極意義,同時也能有效提高術語知識發現系統的效率。

參考文獻

[1] 馮志偉.現代術語引論[M].北京:語文出版社,1997.

[2] 張榕.術語定義抽取、聚類與術語識別研究[D].北京語言大學信息科學學院,2006.

[3] 荀恩東,賈愛平,宋柔.基于互聯網的術語定義獲取系統[J].中文信息學報,2004(4):37-44.

[4] 荀恩東,李晟.采用術語定義模式和多特征的新術語及定義識別方法[J].計算機研究與發展,2009(1):62-69.

[5] 馮志偉.術語中的概念系統與知識本體[J].術語標準化與信息技術,2006(1):9-16.

[6] 路甬祥.我國科技名詞的規范和統一任重而道遠[J].編輯學報,2006(4):241-242.

[7] 馮志偉.術語形成的經濟率-FEL公式[J].中國科技術語,2010(2):9-16.endprint

猜你喜歡
語義定義概念
Birdie Cup Coffee豐盛里概念店
現代裝飾(2022年1期)2022-04-19 13:47:32
語言與語義
幾樣概念店
現代裝飾(2020年2期)2020-03-03 13:37:44
學習集合概念『四步走』
聚焦集合的概念及應用
“上”與“下”語義的不對稱性及其認知闡釋
現代語文(2016年21期)2016-05-25 13:13:44
成功的定義
山東青年(2016年1期)2016-02-28 14:25:25
認知范疇模糊與語義模糊
修辭學的重大定義
當代修辭學(2014年3期)2014-01-21 02:30:44
山的定義
公務員文萃(2013年5期)2013-03-11 16:08:37
主站蜘蛛池模板: 亚洲视频免| 夜精品a一区二区三区| 国产成人亚洲精品无码电影| 精品少妇三级亚洲| 国产永久在线观看| 一级片免费网站| 免费人成网站在线观看欧美| 亚洲成人在线网| 四虎成人精品在永久免费| 波多野结衣第一页| 日韩视频免费| 国产精彩视频在线观看| 亚洲无码37.| 国产精品尤物铁牛tv| 无码视频国产精品一区二区| 国产欧美高清| 久久人人妻人人爽人人卡片av| 五月婷婷伊人网| 福利一区在线| 国产成人无码久久久久毛片| 乱人伦中文视频在线观看免费| 伊人AV天堂| 欧美国产精品拍自| 国产区网址| 亚洲无码高清一区二区| 国产精品私拍在线爆乳| 激情無極限的亚洲一区免费| 精品丝袜美腿国产一区| 黄色免费在线网址| 凹凸国产分类在线观看| 区国产精品搜索视频| 一本大道视频精品人妻| 国产成人综合网| 免费国产无遮挡又黄又爽| 欧美日本二区| 男女性午夜福利网站| 国产9191精品免费观看| 久久精品娱乐亚洲领先| 国产xxxxx免费视频| 久久成人免费| 国产精品成人不卡在线观看| 干中文字幕| 在线免费看片a| 久久天天躁狠狠躁夜夜2020一| 亚洲av无码人妻| 噜噜噜综合亚洲| 自偷自拍三级全三级视频| 特级毛片免费视频| 国产成人免费| 久久精品免费国产大片| 亚洲日韩国产精品无码专区| 波多野结衣在线一区二区| 亚洲a级毛片| 欧美一区中文字幕| 另类综合视频| 亚洲a级在线观看| 亚洲中字无码AV电影在线观看| 亚洲高清在线播放| 国产精品3p视频| 亚洲精品国产首次亮相| 国产日韩久久久久无码精品 | 99国产精品国产高清一区二区| 性做久久久久久久免费看| 粗大猛烈进出高潮视频无码| 欧美日韩一区二区三区在线视频| 无码一区18禁| 第一区免费在线观看| 国产亚洲欧美日韩在线一区| 亚洲第一成人在线| 日本三级欧美三级| 亚洲欧美一区二区三区蜜芽| 欧美高清日韩| 亚洲视频一区在线| 一级毛片免费播放视频| 影音先锋丝袜制服| 日韩在线中文| 香蕉色综合| 亚洲一区毛片| 在线精品欧美日韩| 五月婷婷伊人网| 2022国产91精品久久久久久| 无码一区中文字幕|