999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

關于建立面向應用的規范詞異名庫的若干理論探討

2013-12-27 04:03:52
中國科技術語 2013年4期
關鍵詞:概念規范科技

張 暉

(全國科學技術名詞審定委員會,北京 100717)

一 收集整理規范詞異名的現實意義

根據筆者2012年對全國20多個省市自治區,100多家科研、教學、新聞出版、醫療等企事業單位的中、高級科技工作人員進行的相關調查發現,超過90%接受書面訪談的受訪者對國家開展科技名詞規范化工作表示認同,認為這項工作對科技發展與交流具有基礎性作用。全國科學技術名詞審定委員會(以下簡稱全國科技名詞委)于近年專門成立宣傳與推廣部門,負責協調規范科技術語的宣傳與推廣工作,目前已基本形成以科技術語出版物、科技術語網絡服務、科技術語教育培訓為主體,注重發揮媒體作用的宣傳與推廣格局。

現階段,科技工作者對人性化科技服務的需求日益增長,給規范科技術語的推廣工作提出了更高的需求。例如,新聞出版行業《圖書質量管理規定》已明確規定:“工具書的科技條目、科技類教材、學習輔導書和其他科技圖書,使用科技術語不符合全國科技名詞審定委員會公布的規范詞計1個差錯。”[1]但現實問題是,新聞出版行業從業人員在編校實踐中,往往需要關注的不是規范的科技術語,而是隱藏在各類出版物中需要及時加以糾正的不規范的科技術語。但由于不規范的科技術語與規范的科技術語在構詞規則和用字規則上并無本質區別,因而往往依賴編輯人員或審稿專家自身的科技知識積累加以判別,使得規范科技術語的推廣成本很高,效果不甚理想。

筆者認為,規范科技術語的宣傳與推廣工作,如果著力解決此類面向實際應用的現實課題,可以達到事半功倍的效果。從實際應用的角度研發可以識別非規范術語的糾錯工具,運用于新聞出版、廣播電影電視、科技教育等領域,具有非常重要的現實意義。從現有技術上來講,糾錯工具本身的技術并不復雜,糾錯工具所依賴的規范詞異名庫的規模和質量,才是決定糾錯工具好與壞的核心指標。

二 規范詞異名及其特征

異名,顧名思義,是指不同的名稱。從術語規范的角度出發,“異名”是與“正名”相對的概念。全國科技名詞委制定的《科技名詞審定原則與方法》(以下簡稱《原則》)中對什么是“正名”,什么是“異名”,有著相應的界定:“一個概念有多個名稱時,應確定一個名稱為正名,其他為異名(包括‘全稱’‘簡稱’‘又稱’‘俗稱’‘曾稱’等)。其中,‘正名’為公布的規范名,‘全稱’‘簡稱’為與正名等效使用的名詞,‘又稱’為非推薦名,只允許在特殊情況和一定范圍內使用,‘俗稱’為非學術用語,‘曾稱’為已淘汰的舊名稱。”①之所以如此界定,是因為“科學技術名詞的規范和統一是一個漸進的研究過程,對那些目前暫時無法做到一詞一義的名詞,應采取在確定規范名的基礎上對其同義詞加以說明的方式,引導使用者逐步接受和正確使用規范名詞”[2]。簡而言之,《原則》中異名的產生,是通過漸進途徑爭取術語統一的變通之舉,其數量有限。

本文所探討建立的面向應用的規范詞異名庫所指的“異名”,是指與國家審定公布的規范科技術語“正名”表達相同概念,但詞形不同的非推薦名。其基本特征應該包括以下3點:(1)與“正名”指代相同概念;(2)與“正名”詞形有別;(3)不推薦使用。為了客觀認識異名的產生過程并加以收集,還應該認識到以下兩點:(1)異名應被書面語言或口頭語言明確記錄;(2)異名的數量難以預估或窮盡。由此可見,規范詞庫收集的異名與《原則》標注的異名有別,前者的初衷是用于開發實用工具,其異名數量需要達到一定的規模,而后者的初衷旨在通過漸進途徑促進術語規范,異名數量必然有限。

用于開發術語自動糾錯工具的規范詞異名庫,首先可以收選《原則》中所列舉的絕大多數異名類型,并給出明確的使用建議。據不完全統計,全國科技名詞委所審定公布的30萬條規范科學技術術語中,標注有《原則》所稱“異名”(含“全稱”“簡稱”“又稱”“曾稱”“俗稱”)的術語近15000條,其中85%標注的是“又稱”。規范詞異名庫在收選時,應該注意以下兩點:(1)因為“全稱”和“簡稱”與“正名”等效使用,所以可不作為“異名”對待。(2)其他名稱(如“又稱”“俗稱”“曾稱”等)或多或少在使用上受到限制,可以收入規范詞異名庫,但有必要依據不同的類型標注不同的使用建議(如“不推薦使用”“僅在限定范圍內使用”“不再使用”等)。

由于全國科技名詞委一直執行比較嚴格的審定標準,為規范詞標注“異名”的情況屬于少數(約5%),如果僅僅依靠現有的“異名”資源來建立規范詞異名庫,其規模還不足以滿足糾錯工具的需要,因此還要重點收集整理通常意義上的“不規范詞”。這些詞應該已經在社會上使用,但未被全國科技名詞委選用為規范詞“正名”,也未按照《原則》的標準被標注為規范詞“異名”,依據規定不應該使用。當然,不規范詞作為規范詞的一種特殊“異名”類型,需要被標注比《原則》中異名更為苛刻的使用建議(如“建議更正”)。這類不規范詞的數量比《原則》所標注的異名數量要多,將在糾錯中扮演重要的角色。

三 收集整理規范詞異名的階段和原則

根據科技術語審定工作的規律性認識,一個術語命名的最終確定需要經過收詞和審詞兩個階段。在收詞階段,從基本手段來看,可以分為人工收詞和自動抽取兩種。其中,自動抽取一般基于語料庫,采用自然語言處理技術進行。而在審詞階段,主要依賴人工審查。就收集整理規范詞的異名而言,同屬于科技術語規范工作范疇,同樣應該遵循收詞和審詞這兩個階段。

建立規范詞庫與規范詞異名庫的基礎有較大區別。全國科技名詞委所審定公布的每一個科技概念的定名及其內涵的確定,都凝聚了科技工作者的大量心血,經歷了一個非常漫長的研究過程,因此規范詞庫的建立是一個從無到有的積累過程。對于規范詞的異名而言,因其與規范詞形成對應關系,所指代的科技概念的范圍比較明確,從而可以將已經建成的規范詞庫作為參考庫,工作基礎較好。

由于規范詞的異名不具備科學性、單義性、系統性等規范詞所具有的優良特性,所以規范詞異名的判定往往無法簡單運用與規范詞對立的特征來衡量,只應從語義、概念層面限定與規范詞形成等價關系。因此,在建立規范詞異名庫的最初設計中,要充分考慮規范詞異名庫建立的初衷是面向應用和作為參考資源的性質,不必強調其“權威性”或“完整性”,其準確性也不宜過分從嚴,應具有一定靈活度,而且允許在實踐中加以檢驗、修正和補充。

四 規范詞異名的語料來源

科技語料浩如煙海,根據需求選擇恰當和有效的語料是進行科技名詞語料分析的起點,也是很重要的基礎。用于規范詞異名研究的語料來源一般包括確定資源和非確定資源兩大類。確定語料主要是規范詞異名可能集中出現的語料,如各類公開出版的科技詞典(含同義詞詞典、近義詞詞典等)、科技文獻的術語表、期刊文獻的關鍵詞、主題詞庫等。非確定語料主要是指規范詞異名出現的概率未知的語料,包括科技文獻正文、百科網站、報紙等。

規范詞和規范詞異名并存的確定語料是最直觀和最易形成產出的語料。諸如同義詞詞典、近義詞詞典,或者主題詞表等。與此同時,可以利用內在而形成規范詞與規范詞異名相互對應關系的語料,是可能對收選規范詞異名有用的擴展語料。例如,很多中文非規范術語的產生是因為翻譯不準確,尤其是比較新的科技概念,其引進之初常常會伴生大量以訛傳訛的新定名形式,因而中文或英文的同義詞詞典也是可能用到的有利的擴展語料。總體而言,從確定語料(尤其是中英文完整的語料)中抽取規范詞異名,將是比較有效率的嘗試。

對非確定語料而言,百科類語料圍繞同一概念而展開,并借助相關概念進行擴展,同時經常包含“又稱”“也叫”“又叫作”“還稱”之類的標志性詞語,這些都可以作為抽取規范詞異名的重要來源。因而圍繞同一科技概念展開的語料,比其他粗淺涉及某一科技概念的語料更具價值,而且在后期審定中會減少對詞語所指代概念的誤判。相對于百科類語料而言,其他非確定語料的處理需要更多地分析每份語料的行文特征,其最終價值有賴于良好的規則和統計的設計,具有不確定性。

由此可見,確定語料比非確定語料對最終收詞的貢獻更加直觀,收詞的時間成本和后期的審定成本相對較低。而在非確定語料中,百科類語料比其他語料更具價值。因而,如果語料資源比較充足,可以以確定語料為主,非確定語料為輔;在非確定語料中,以百科類語料為主,其他語料為輔。

五 規范詞異名的自動抽取規則和實現路徑

如前文所述,收選規范詞異名的核心原則就是確保與規范詞概念等價的詞。對于人工收詞和自動抽取而言,最大的區別就在于人工收詞取決于取詞操作實施者自身的規則設定,以及其個人或者參考資料對概念的理解或詮釋;而自動抽取則取決于相關統計和篩選規則的設定,近年來從信息處理的角度研究漢語詞匯、語法和語義研究日漸增多[3],主要涉及運用語料庫對大規模的自然語言進行調查和統計,建立統計語言模型,研究和應用基于統計的語言處理技術,進行信息檢索、文本分類、文本過濾、信息抽取等工作。

規范詞異名的自動抽取主要基于自然語言處理的相關理論。目前比較主流的實現方式,包括基于規則的方法和基于統計的方法兩種。其中,基于規則的方法是一種唯理主義方法,本質上是一種確定性的演繹推理方法。其優點在于根據上下文對確定事件的定性描述,能充分利用現有的語言學成果。缺點是對于一些不確定的事件則顯得蒼白無力,同時規則之間的相容性和適用層次范圍都存在一些缺陷和限制。而基于統計的方法是一種經驗主義方法,其優勢在于它的全部知識是通過對大規模語料庫進行必要的加工、分析后自動抽取出來的,因此可以獲得很好的一致性和很高的覆蓋率,對語言處理提供了較客觀的數據依據和可靠的質量保證。基于統計的方法本質上是一種非確定性的定量推理方式,定量是基于概率的,因此其必然會掩蓋小概率事件的發生。有些統計方法無法解決的問題,利用規則卻很容易解決[4]。

筆者試圖從實際操作的層面,探討可能產生規范詞異名待審詞表的諸多路徑,所運用的技術基本都是規則和統計并舉的方法。當然,實現規范詞異名的自動抽取,其可能路徑遠不止以下三種。

路徑一:學科領域關聯

第1步:運用分詞、標注、文本分割、合并等語料自動加工技術,從語料庫中廣泛抽取候選詞條。

第2步:根據恰當的學科分類法,利用術語在語料中詞頻分布變化程度的統計信息來檢驗術語的學科相關性,將候選詞條歸類至所屬學科領域(如三級學科)。

第3步:依據相同的學科分類法和技術手段,在相同的語料庫中,為規范詞劃分所屬學科領域(如三級學科)。

第4步:通過設定規則,對屬于同一分支學科的詞條進行詞形或語義相似度比較(如詞形差異、包含關系等)。

第5步:整理形成規范詞異名待審表。

路徑二:英文術語一詞多譯關聯

第1步:應用權威英漢詞典,對規范詞對應的英文術語中一詞多譯的英文詞素進行中文回譯,并將每一組可能的、由回譯的中文詞素組成的中文組合詞(無需進行語法審查),收入候選詞表1。

第2步:將候選詞表1中的候選詞分別在語料庫中抽取與候選詞表1詞條詞素相近且空間位置關系相對集中的相似分詞語料,收入候選詞表2。

第3步:對候選詞表1、2進行構詞法、語法等規則篩選,將符合構詞法的詞條作為候選詞表3。

第4步:對候選詞表3中的詞條在語料中進行嚴格匹配檢索,通過概率統計手段,將重現率達到一定閾限的詞條,納入規范詞異名待審詞表。

第5步:整理形成規范詞異名待審表。

路徑三:語義網絡②關聯

第1步:運用分詞、標注、文本分割、合并等語料自動加工技術,從語料庫中廣泛抽取候選詞條。

第2步:分析候選詞條及與其對應的規范詞,分析詞匯在語料中的語義網絡,通過各結點的關聯度,結合上下位概念、上下文相似度等,匹配并篩選可能意義相近的詞條。

第3步:整理形成規范詞異名待審表。

其中,路徑一源于規范詞和規范詞異名具有相同學科屬性的基本事實,以概念層次結構為基礎,選擇對概念層級相近的術語進行歸類,該技術已經比較成熟,可操作性較強,這一點在筆者所開展的科技新詞自動抽取試點工作中,已經得到部分驗證。但難點在于如何從相同領域的術語中匹配規范詞和規范詞異名,顯然單從詞形角度的匹配是遠遠不夠的,這方面還需要結合實踐進行理論研究,逐步完善方案。路徑二源于相當數量的規范詞異名產生于科技翻譯實踐的事實,選擇以英文一詞多譯作為關聯方式對近似術語進行歸類,其有賴于權威的英漢雙語詞典提供詞素的語義連結,前期技術驗證的周期會相對較長;路徑三源于規范詞和規范詞異名語義等價的本質屬性,以語義相關度進行關聯,是比較高層次的語義網絡途徑,目前研究還不成熟,實施難度很大。

六 規范詞異名的人工收集和審查

規范詞異名的人工收集,主要是參與人員根據自身知識積累,通過廣泛查閱各類科技語料進行。這一方式的優點是收集和審查在很大程度上能同時進行,收詞準確率高,但可獲取的規范詞異名數量有限;缺點是取詞的過程受到的限制因素較多,比如參與人員的知識結構、精力集中程度,以及對語料涉獵廣度等。

規范詞異名的審查是在人工收集或自動抽取完成后必須經過的階段,也是確保詞條質量的重要保障。對于自動抽取而言,可以通過技術手段為規范詞異名待審詞表補充詞條相關信息(如上下文、參考文獻等)后,交由不同分支學科的專家進行審查,并允許審詞專家進行補充。

確保規范詞異名與規范詞在語義上等價,避免概念相互包含或交叉是人工收集和審查的重點。對于科技名詞規范化工作而言,人工收詞、審詞的經驗相對成熟,可借鑒的經驗比較多,比如學科名詞審定、新詞試點工作中所積累的經驗。

七 結語

總而言之,規范詞異名庫的建立意義深遠,是新階段拓展科技名詞推廣應用思路的重要途徑。盡管科技工作者對規范詞異名數量和質量的需求不及規范詞嚴格,但由于相關理論和技術不甚成熟,以及規范詞異名難以窮盡的特性,因而決定了規范詞異名庫的建立和完善需要一個比較長的過程,具有不小的難度。筆者只是提出了基本設想和部分不太完善的實現路徑,對其中涉及的相關技術和模型還需在實踐中不斷改進,現有技術能否實現相關目標,還有待進一步的研究和檢驗。

注釋

①全國科學技術名詞審定委員會.科學技術名詞審定原則及方法。

②語義網絡(Semantic Network)的概念最早由美國心理學家、語言學家奎廉(M.R.Quillian)于1968年的《語義記憶》中提出,它是一種采用網絡形式表示人類知識的方法。在這個語義網絡描述圖中,代替概念的單位是節點,代替概念之間關系的則是節點間的連接弧。

[1]中華人民共和國新聞出版總署.圖書質量管理規定[M].北京:新聞出版總署,2004.

[2]鄔江.科學技術名詞審定工作中的同義詞問題初探[J].中國科技術語,2011(06):31-33.

[3]彭剛,劉巖.語料庫研究與應用綜述[J].黑龍江科技信息,2010(26):215.

[4]郭艷華,周昌樂.自然語言理解研究綜述[J].杭州電子工業學院學報,2000(01):58-65.

猜你喜歡
概念規范科技
來稿規范
來稿規范
Birdie Cup Coffee豐盛里概念店
現代裝飾(2022年1期)2022-04-19 13:47:32
PDCA法在除顫儀規范操作中的應用
來稿規范
幾樣概念店
現代裝飾(2020年2期)2020-03-03 13:37:44
學習集合概念『四步走』
科技助我來看云
聚焦集合的概念及應用
科技在線
主站蜘蛛池模板: 四虎亚洲精品| 免费无码又爽又黄又刺激网站 | 国产福利不卡视频| 亚洲国产欧洲精品路线久久| 欧美日本在线播放| 免费高清毛片| 四虎精品免费久久| 久久国产V一级毛多内射| 亚洲成人黄色网址| 在线国产毛片手机小视频| 99尹人香蕉国产免费天天拍| 91po国产在线精品免费观看| 国产精品人人做人人爽人人添| 久久精品无码国产一区二区三区| 成人福利免费在线观看| 国产色伊人| 超碰色了色| 国产在线专区| 亚洲伦理一区二区| 午夜视频免费一区二区在线看| 久久综合色视频| 国产精女同一区二区三区久| 男人天堂亚洲天堂| 怡春院欧美一区二区三区免费| 综合色区亚洲熟妇在线| 日韩AV无码免费一二三区| 亚洲色偷偷偷鲁综合| 乱系列中文字幕在线视频| 国产精品流白浆在线观看| 亚洲成人高清无码| 亚洲成AV人手机在线观看网站| 亚洲欧美日韩中文字幕一区二区三区 | 欧美成人看片一区二区三区| 日韩成人在线网站| 中日韩一区二区三区中文免费视频 | 中文字幕久久波多野结衣| 亚洲精品国产首次亮相| 18禁不卡免费网站| 午夜精品久久久久久久无码软件 | 亚洲一区波多野结衣二区三区| 国产成人超碰无码| 亚洲国产亚洲综合在线尤物| 九九九精品成人免费视频7| 亚洲av无码人妻| 国产精品白浆无码流出在线看| 国产精品极品美女自在线看免费一区二区| 尤物成AV人片在线观看| 在线观看国产精美视频| 久视频免费精品6| 婷婷久久综合九色综合88| 国产成人精品18| 亚洲第一中文字幕| 男女精品视频| 在线a网站| 国产精品观看视频免费完整版| 中文纯内无码H| 久久91精品牛牛| 亚洲成人动漫在线观看| 性色一区| 欧美色99| 永久免费无码成人网站| 在线看片国产| 国产激爽爽爽大片在线观看| 国产乱子伦手机在线| 国产精品99久久久| 午夜视频免费一区二区在线看| 国模极品一区二区三区| 亚洲欧洲日韩久久狠狠爱| 国产真实乱子伦精品视手机观看 | www.av男人.com| 国产精品毛片一区| 久久黄色视频影| 在线不卡免费视频| 91亚洲国产视频| 国产福利在线观看精品| 国产精品美女自慰喷水| 99热最新在线| 99热亚洲精品6码| 91在线播放国产| 91美女视频在线| 好吊妞欧美视频免费| 1级黄色毛片|