999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

系統科學視域下日漢詞典數據庫編纂實踐研究
——以低頻詞條編纂為例

2023-12-14 09:02:50李飛菲
呂梁學院學報 2023年6期
關鍵詞:數據庫系統

李飛菲

(山西大學 外國語學院,山西 太原 030006)

雙語詞典是國家語言能力建設及公民語言能力養成過程中不可或缺的基石,是培養高質量外語人才的助力器。具體到日漢詞典方面,據不完全統計,新中國成立后我國先后出版的各類日漢詞典共有約215部[1]。除紙質詞典外,尹學義[2]、張靜[3]通過回顧我國日語類詞典的發展歷程,指出該類詞典呈現出“品種多樣化、編寫工作科學化、辭書內容中國化、辭書出版系列化”的特點,并強調大型辭書稀缺且辭書“電子化”將是大勢所趨。可見,辭書編纂亟需借助語料庫等手段提升科學性和實用性。

釋義是詞典編纂的中心工作[4]228,亦是詞典編纂和詞典學研究的核心任務。關于日漢詞典的討論,國內學界圍繞日漢詞典釋義準確性展開的討論最為集中。楊心知[5]、孟海霞[6]討論日漢詞典的釋義編纂原則時,強調了等值原則的重要性;王永全[7-8]、王銳[9]、羅益民[10]、白曉光[11]、張科蕾[1,12,13]等從詞條的收錄途徑、釋義表述、義項設置、例句表述等角度,指出現有詞典中詞條信息的不足之處并提出改善建議。還有學者從調查出發,分析了我國日漢詞典用戶人群的特征及需求。如張勇[14]調查了我國日語專業學生使用日語詞典的情況及需求,主張詞典編纂須增強詞典使用者意識;王星、曹大峰[15]對日語教師、國內學生和留日學生等用戶進行了大規模問卷調查,歸納了不同用戶在使用習慣、使用策略、使用需求等方面的特征,旨在打造基于外語教學理念和外語習得特點,編纂滿足不同用戶需求的日漢詞典。綜上可知,現有研究已指出我國目前日漢詞典的電子化程度仍需提升,詞典的詞條收錄范圍、詞條標簽規范性、詞條釋義準確性仍存在較大改善空間。但尚未有學者從系統科學的視角出發,討論如何推動日漢詞典編纂工作的有效開展。

系統“是由相互聯系、相互作用的許多要素組成的具有特定功能的復合體”[16]12。 系統科學的獨特之處在于用系統觀點考察世界,是把對象當做系統進行研究所建立的知識體系,是以客觀世界普遍存在的系統現象、系統問題為研究對象的學科[17]4。索緒爾觀察、分析了大量語言現象,得出“語言是個系統”這個高度概括的結論[18]。詞典要描寫的正是音、形、義三位一體的語言文字符號系統。換句話說,詞典是系統地描寫語言,包括語言的各種屬性[4]105。這一結論不僅對語言研究本身具有劃時代意義,而且對于詞典數據庫的編纂同樣具有指導意義。詞典數據庫是詞典修訂和生成的現代化工具。由此,詞典數據庫的建設可看作是系統科學思想的一個例證。詞典數據庫作為一個有機系統,符合系統的原理和基本特性。本文以外語教學與研究出版社多語種外漢詞典數據庫(日漢)建設項目為依托,借助DPS詞典編纂平臺,通過在Entry Editor詞典編輯器中對八萬余條低頻詞條的編纂實踐(1)DPS詞典編纂平臺由法國IDM軟件公司開發。該平臺主要由DPS網站和Entry Editor詞典編輯器組成。DPS網站主要服務于項目管理人員,完成項目協同管理工作。Entry Editor詞典編輯器主要協助詞典編纂人員實現編纂內容的協同。,嘗試討論系統科學的整體性原理、層次性原理、目的性原理及開放性原理如何指導日漢詞典數據庫建設,旨在推動我國日漢詞典編纂工作更為系統科學的開展。

一、日漢詞典數據庫項目建設與系統整體性原理

系統整體性原理指的是,系統是由若干要素組成的具有一定新功能的有機整體。各個作為系統子單元的要素一旦組成系統整體,就具有獨立要素所不具有的性質和功能,形成了新的系統的質的規定性,從而表現出整體的性質和功能不等于各個要素的性質和功能的簡單加和[19]205。整體性原理的定義同時也揭示了系統中整體與部分的三種關系,即整體大于部分和,整體等于部分和,以及整體小于部分和。當各部分之間存在協同作用時,將會發揮“部分和大于整體”的效應。日漢詞典數據庫建設過程中的系統整體性主要體現在以下方面:從外研社多語言外漢詞典數據庫一期項目的整體建設規劃來看,該數據庫由日漢、俄漢、德漢、法漢、西漢以及韓漢等子數據庫組成。日漢詞典數據庫作為外漢詞典數據庫建設整體的一個部分,具有其它語種外漢詞典數據庫不具有的性質和功能,是可以獨立存在的要素。它與其它各部分構成外漢詞典數據庫整體。數據庫的建成將解決目前國內多語種線上詞典總體數量少,缺乏兼具權威性、準確性、時代性的大型線上詞典資源的現實課題。從日漢詞典數據庫收錄詞條來看,本數據庫依托權威詞表及語料庫進行選詞,共計收錄10萬余詞條。按照詞條使用頻率,可將其分為低頻、中頻和高頻三大部分,其中低頻詞條約有8萬條。作為日漢數據庫建設的重要組成部分,低頻詞條多為以往詞典中稀缺的專有名詞及術語,覆蓋多門學科。該部分詞條的加入大大提升了詞典的實用性,覆蓋了更為廣泛的日語學習人群,特別是為從事垂直領域的專業人士及翻譯人員提供了極大的便利。日漢詞典數據庫的建成,將為我國不同水平的日語學習者提供使用方便快捷、釋義清晰準確、例證豐富充實,集語言翻譯、知識解說及讀音速查于一體的大型線上詞典資源。

二、日漢詞典數據庫結構設計與系統層次性原理

由于組成系統的諸要素的種種差異包括結合方式上的差異,從而使系統組織在地位與作用、結構與功能上表現出等級秩序性,形成了具有質的差異的系統等級。層級概念就反映這種有質的差異的不同的系統等級或系統中的等級差異性。這就是系統的層次性原理[19]217。詞典的結構就是按照一定的體例和形式把這些詞匯信息組織起來,形成詞匯范疇清楚、知識層次明確、編排有序、相互關聯、便于查驗和使用的有機整體[4]40。章宜華、雍和明將詞典編纂的結構分為宏觀、中觀及微觀三個層次。宏觀結構是詞典框架結構的主干部分,用來實現詞目編排的體系,由千千萬萬個微觀結構支撐;中觀結構是貫穿于中觀結構與微觀結構之中,用于構建詞匯信息和語言知識的各種關系網絡;微觀結構是指宏觀結構框架中各詞條內部的信息組織結構,這些詞條信息是分層次逐步展開的[4]59。以詞典的微觀層次為例,圖1較為全面地展示了一個詞條收錄信息時可能出現的不同層次標簽。方框內的數字表示每個詞條收錄信息的不同級別,英文為編輯器中的標簽名稱,中文為該標簽代表的含義。詞條編纂過程中,Entry Editor詞典編輯器能夠根據預先設置好的標簽級別自動識別標簽添加是否規范。詞條信息的組織結構主要由詞頭注釋層次(圖1中的“1 HEAD”標簽)和語義詮釋層次(“1 BODY”標簽)等部分構成,每個部分由不同層次的元素構成。根據不同詞條收錄的信息類型,對應添加不同層級的標簽,由此完成一個獨立且完整的詞條信息收錄。

圖1 詞條信息組織結構層次示意圖

(一)詞頭注釋層次

詞頭注釋層次是詞典數據庫微觀結構構建的出發點。該層次包括了詞目詞、聲調、該詞目對應的當用漢字、語種以及詞源等,反映了收錄詞目的拼寫、語音等范疇的基本信息。其中,詞源作為一種知識信息,反映了該詞條是如何形成并最終呈現目前這種形式和意義狀態,是雙語詞典中的重要內容之一。當代日語中,外來語是指從西方國家的語言向日語中借入的詞語,約占日語的10%,且大多在日常用語中。2005年第三版《三省堂簡潔片假名語詞典》收錄了45 000條外來語和7 500個首字母縮寫詞[20]。日語中外來語的重要性可見一斑。此前的日漢詞典中存在未給出外來語對應的原詞標注、缺少外來語詞源信息等不規范編纂方式,給用戶進一步查詢帶來困擾。本次編纂對象低頻詞條中有大量以外來語形式存在的專業術語,語種及詞源部分的添加有助于詞典用戶理解釋義及其使用場景。本數據庫詞條編纂過程中,重視“詞源”作為考察該詞條的歷史、來源的重要途徑作用,強調標注外來語詞源信息,參照《辭書編纂常用漢語縮略語(GB/T 15933-2005)》國家標準統一了外來語語種的縮略語用法。例如,英語簡稱為“英”,西班牙語簡稱為“西”等。同時,對“外來語詞源”和“非外來語詞源”的表現方式加以區分,便于詞典用戶理解及進一步查詢。

“外來語詞源”方面,以“ノイズリダクション”一詞為例。該詞為建筑學術語詞匯,中文釋義為“降噪量,噪聲抑制”。該詞詞頭部分除以片假名標注“詞目”外,還要在“聲調(tone)”標簽中添加“[5]”,在“語種(lang)”標簽中添加“英語”的縮略語“英”以及在“詞源(etymo)”標簽中添加“noise reduction”,以示這是一個源自英語單詞的日語外來語。同理,當外來語詞源為法語、德語等其它語種時,參照上述標準進行標注以輔助詞典用戶理解及使用。除以上述外來語形式存在的詞條外,還有部分以日語中的漢字形式存在,但需要標明來源的“非外來語詞源”詞條。如“能格”一詞,其中文釋義為“作格”,是一個語言學名詞,從語義的詞源追溯來看,源自于英語“ergative case”,但從日語語詞形式來看,并未使用片假名進行書寫。關于這類詞條詞源的標注,統一在“notes”模塊,以“源自英語詞匯ergative case”的形式進行說明,與“外來語詞源”區分標注。

(二)詞義詮釋層次

系統的結構和功能的層次性與系統的發展密切相關。系統的層次區分是相對的,相對區分的不同層次之間又是相互聯系的。系統的多個層次之間在相互制約的同時,也發揮著相互影響的協同作用[19]219。詞義詮釋層次中包含有詞類模塊、派生詞模塊以及固定搭配(或習語)模塊。各模塊下設不同層次,用來闡釋包括釋義、用法、參見等信息范疇的內容。以“詞類模塊”為例,下設詞類標簽和義項模塊。詞類標簽部分,考慮到日語中存在多種與中文無法一一對應的詞類,本標簽統一使用日語標注詞類,方便用戶查詢。在詞典信息的微觀結構中,語義是核心內容[4]59。如圖1所示,義項模塊中除了“釋義”標簽,還配有“學科”“修辭”“語法”“參見”“例證模塊”進行輔佐說明。既有研究中提到我國現有日漢詞典中存在的縮略語立目地位問題以及信息處理不規范等問題[13]。本數據庫通過添加“修辭”標簽中的“縮”表明該詞條的縮略語性質,同時,在給出中文釋義的基礎上提示未縮略原語,便于用戶查詢理解。

例如,“巧遅”一詞詞頭注釋層次中提示了該詞條假名拼讀,音調為[1]調以及對應的日漢字;詞義詮釋層次的“修辭(style)”標簽提示了該詞使用場景為“書”,即書面語,“參見(refer)”標簽提示與該詞條關聯度較高、與其互為反義詞的“拙速”一詞,同時,提供了基于該詞的慣用語 “巧遲不如拙速”中日文作為參考。“修辭”“參見”“固定搭配”等標簽及模塊,作為獨立存在的要素各自有其代表的含義和作用,分別提示該詞條包含的不同信息,同時又能發揮同等層次間以及多層次間的協同關系為整個義項模塊服務。詞典用戶在查找詞條釋義的同時,還可獲取修辭、慣用語、相關詞條等信息,最終達到準確理解釋義的目的。

三、日漢詞典數據庫詞條釋義原則與系統目的性原理

系統目的性原理是指“組織系統在與環境的相互作用中,在一定的范圍內其發展變化不受或少受條件變化或途徑經歷的影響,堅持表現出某種取向預先確定的狀態的特性”[19]238。由元素和結構組成的系統整體通常都是具有某種目的性的,是為了維持系統的某種功能或實現系統的某種作用而存在的。系統的目的對系統的元素和結構起著約束作用。正是在系統的引導下,系統的行為才有了方向,朝著有序的狀態發展[21]。詞典編纂的主要目的就是解釋詞義。雙語詞典與單語詞典在釋義本質方面存在差異。日漢詞典數據庫最終將生成以日語條目詞為主和漢語詞義在內的兩種語言。其釋義原則當參考雙語詞典的要求。陳偉梳理了多位學者關于雙語詞典釋義的觀點。例如,章宜華認為單語詞典的詞目詞編纂主要以“釋義”為主,而雙語詞典以“譯義”為主。“雙語詞典不涉及到釋義,不必用釋義的形式去分析詞目詞的語義成分,而是用目標語與翻譯原語詞(詞目詞),即譯義。”詞典學家茲古斯塔(Zgusta)亦指出,雙語詞典的基本目的是在一種語言的詞匯單位與另一種語言的詞匯單位之間找出意義相等的對等詞[22]7。由此可以說,日漢詞典數據庫的基本目的是通過翻譯這一方式,在中日兩種語言文化的符號系統空間尋找對譯詞,以實現兩種語言系統文化及思維對話的功能。為實現上述目的,雙語詞典編纂需遵循等值原則。章宜華等指出,需要按照不同的對等關系對雙語詞典中的有關語詞加以區分,一般可以分為完全對等、部分對等和零對等三類[4]236。

(一)完全對等

完全對等是指源語詞和目的語在語義、語用等方面完全吻合的情況。以“イエローケーキ”一詞為例,三省堂大辭林詞典中該詞條釋義的中文含義為“從鈾礦石中分離提取鈾時,通過粗精煉等方式提高鈾含量的一種中間產品。一種黃色物質,也叫鈾濃縮物。”(注:筆者譯)顯然,如果在日漢詞典編纂時直接采用上述日語釋義的中文含義,僅僅是完成了翻譯過程,是對日語條目詞詞條內容的“釋義”。從“譯義”角度講詞典用戶尚未獲得該詞條的中文對譯詞。這種黃色鈾濃縮物的中文名稱為“黃餅”。因此,詞條編纂時應采用“黃餅”作為釋義內容更能幫助詞典用戶獲取有效信息,同時,添加學科標簽“化·材”(化學及材料科學的縮略語)輔助用戶理解。

(二)部分對等

部分對等是指源語詞與目的語詞項之間在語義和功能范疇方面有限的對等關系。中日兩國分屬不同語言譜系。日語受到漢字文化圈的影響,存在大量從書寫上與中文相同或相似的詞匯,是為中日同形詞。對于詞典編纂人員來說,該類詞匯的釋義確認過程既有便利之處也存在“陷阱”。例如,“甲蟲”“耕地”等詞,遵循完全對等原則,直接給出“甲蟲”“耕地”的對譯詞即可。但當遇到同形類義或同形異義詞時需謹慎確認。例如,“美辭麗句”一詞,僅從漢字所傳達的信息來看,似乎意指“美麗的詞藻,華麗的句子”,但其日文釋義意為“只做表面修飾的華麗辭藻,毫無內容和誠意”(注:筆者譯)。因此,除了“美辭麗句”之外,補充“花言巧語”作為釋義更能傳達該詞條的語用信息。

(三)零對等

零對等是指由于社會、文化、政治和語言差異導致源語詞和目的語中無法配對或對應的現象。本次低頻詞條編纂實踐中收錄了日本傳統文化、民俗、建筑、政治等諸多學科的百科詞匯,對于源語詞中有漢字的詞條釋義,多采用保留原漢字并加以解釋的方法。例如,“一刀流”一詞保留原日語詞匯中的漢字,將其釋義標簽編輯為“(日本劍術流派之一)一刀流”。“松納め”一詞,源于日本新年時在門前裝飾門松的習俗,屬于日本特有的民俗類詞匯。該詞釋義之一是“取下門松,撤掉門松”。其二則是 “(日本新年慶祝活動的最后一天)納松”,即以撤掉門松裝飾這一日作為新年慶祝活動的結束。

四、日漢詞典數據庫詞條信息確認與系統開放性原理

系統的開放性原理指的是系統具有不斷地與外界環境進行物質、能量、信息交換的性質和功能。系統向環境開放是系統得以向上發展的前提,也是系統得以穩定存在的條件[19]228。大數據時代信息量呈幾何級數增長,借助互聯網平臺這一獲取外部信息的有效途徑,綜合運用搜索工具以及熟練掌握多種搜索資源、靈活使用搜索技巧,對提升詞條信息查證效率及準確性具有十分重要的作用。本次日漢詞典數據庫的詞條編纂實踐以業內稀缺的低頻詞條為主,涉及多個學科領域的各類專業詞匯和術語。保證該類專業詞匯和術語的詞條信息準確性既是詞典數據庫建設的核心任務,也是詞典編纂人員基本素養和關鍵能力面臨的新挑戰。

圖2介紹了詞條編纂過程中常用的外部資源,以“エンドルフィン”一詞為例說明借助外部資源查證釋義的過程。首先,通過安裝后即可脫離互聯網環境使用的EBWin詞典,查詢該詞條的聲調、詞源以及日文釋義等信息。EBWin是一種殼式軟件,借助聚合類詞典外殼,可以安裝包括講談社日中詞典、三省堂大辭林詞典、新明解國語詞典、廣辭苑詞典等多種符合格式的詞典。查詢詞條時可以選擇一個或多個詞典同時顯示查詢結果,便于釋義比較。除桌面詞典外,也可以使用Weblio等在線詞典進行搜索。搜索結果顯示,多部詞典給出的該詞條釋義基本相同。例如,廣辭苑詞典該詞條釋義的中文含義為“哺乳動物大腦和垂體中具有類似嗎啡作用的肽”(筆者譯)。三省堂大辭林詞典該詞條釋義的中文含義為“哺乳類動物大腦和垂體中的肽,表現出與嗎啡相同的鎮痛作用”(筆者譯)。上述中文釋義可以看作是對該詞條的概念解釋,還需要進一步確認該詞條的中文對譯詞。將該外來語的詞源“endorphin”在術語在線網站(2)術語在線(https:∥www.termonline.cn/index)是由全國科學技術名詞審定委員會主辦的術語知識服務平臺,聚合了全國科技名詞審定委員會歷年來發布的規范名詞、科技新詞等近百萬條術語,是進行術語查證的權威網站。搜索,顯示對應術語為“內啡肽”。該詞條作為術語已收錄在《生理學名詞》《心理學名詞》《生物化學與分子生物學名詞》中,中文定義為“具有阿片樣活性的多肽類物質,主要分布于腦和垂體等處”等。由此可見,“エンドルフィン”直接對應“內啡肽”這一術語,可將詞條編輯為“エンドルフィン[3]英endorphin名生化·生理·化·心 內啡肽”。除術語在線網站之外,中國知網的“知識元檢索”“文獻檢索”模塊都能夠發揮驗證專業名詞及學科術語的作用。

圖2 日漢詞典數據庫詞條編纂常用外部資源

除上述以外來語形式存在的專業名詞和學科術語外,低頻詞條中還存在尚未作為術語收錄的詞條。例如,“スタジアムジャンパー”一詞屬于和制英語,由英語中的“stadium”和“jumper”復合而來。三省堂大辭林詞典中該詞條的中文含義為“前后身與袖子顏色不同,胸前或后輩印有徽章或標志的運動夾克,棒球選手熱身時穿著的衣物,后在普通大眾中流行”(注:筆者譯)。將該詞在搜索引擎中進行圖片搜索,可知該詞條所指的服裝并非普通的“運動服”,應為“棒球服”。此外,還可以借助筑波大學語料庫、少納言、中納言以及北京語言大學語料庫中心等多種語料庫的搜索功能,確認詞條的詞類、釋義、搭配、例句等。

日漢詞典數據庫建設是一項系統工程,從數據庫整體規劃到結構設計,從收錄詞條的釋義原則到釋義確認路徑,既是局部要素不斷優化的過程,亦是詞典編纂逐漸走向綜合發展的過程。數據庫結構設計從詞典用戶視角出發,設計了“詞頭注釋”和“詞義詮釋”層次,囊括了聲調、當用漢字、語種、詞源、詞類標簽、義項模塊以及固定搭配等詞條信息,優化詞條結構,規范詞條信息標簽。詞條釋義以等值為原則,做到以對譯詞“譯義”開展編纂工作,積極調用詞典搜索、術語搜索、學術搜索、網絡搜索以及語料庫搜索等外部資源,提升詞條釋義準確性。本次日漢詞典數據庫建設通過整合現有資源,在語料庫及高效的編纂軟件技術支持下,旨在建成富有權威性、準確性、時代性的大型線上詞典。系統科學的整體性、層次性、目的性及開放性等原理還將繼續指導日漢詞典數據庫完善建設工作,為后續建成多模態大型線上融媒體詞典奠定扎實的基礎。

猜你喜歡
數據庫系統
Smartflower POP 一體式光伏系統
工業設計(2022年8期)2022-09-09 07:43:20
WJ-700無人機系統
ZC系列無人機遙感系統
北京測繪(2020年12期)2020-12-29 01:33:58
基于PowerPC+FPGA顯示系統
半沸制皂系統(下)
連通與提升系統的最后一塊拼圖 Audiolab 傲立 M-DAC mini
數據庫
財經(2017年15期)2017-07-03 22:40:49
數據庫
財經(2017年2期)2017-03-10 14:35:35
數據庫
財經(2016年15期)2016-06-03 07:38:02
數據庫
財經(2016年3期)2016-03-07 07:44:46
主站蜘蛛池模板: 在线免费a视频| a亚洲天堂| 亚洲中文字幕无码爆乳| 福利国产微拍广场一区视频在线| 国产成年无码AⅤ片在线| 亚洲欧美综合在线观看| 国产成人av一区二区三区| 91成人在线观看视频| 亚洲第一成人在线| 亚洲成a人片在线观看88| 亚洲一区二区约美女探花| 亚洲精品色AV无码看| 国产AV毛片| 超清无码一区二区三区| 欧美综合一区二区三区| 国产精品99在线观看| 亚洲精品片911| 久久免费视频播放| 国产欧美日韩综合在线第一| 国产精品lululu在线观看| 日韩国产高清无码| 色噜噜狠狠狠综合曰曰曰| 国产精品自拍露脸视频| 99国产精品免费观看视频| 日韩毛片基地| 综合网天天| www.国产福利| 99久久精品国产精品亚洲| 四虎国产精品永久一区| 欧美三级自拍| 国产麻豆精品手机在线观看| 久久特级毛片| 亚洲天堂视频网站| 朝桐光一区二区| 一本色道久久88综合日韩精品| 国产在线啪| 热99精品视频| 玖玖精品视频在线观看| 久久黄色一级视频| 91久久青青草原精品国产| 欧美福利在线| 色综合激情网| 2020亚洲精品无码| 乱人伦中文视频在线观看免费| 中国成人在线视频| 大陆精大陆国产国语精品1024 | 精品福利视频导航| 欧美精品1区| 精品国产成人高清在线| 日韩欧美国产区| www.亚洲一区| 亚洲福利片无码最新在线播放| 精品三级网站| 在线观看网站国产| 手机精品视频在线观看免费| 久久精品91麻豆| 57pao国产成视频免费播放| 亚洲资源在线视频| 久久鸭综合久久国产| 人人91人人澡人人妻人人爽| 激情综合激情| 97精品久久久大香线焦| 凹凸国产熟女精品视频| 久久www视频| 色婷婷在线播放| 国产精品亚洲一区二区在线观看| 国产中文一区二区苍井空| 国产人妖视频一区在线观看| 黄色国产在线| 动漫精品中文字幕无码| 不卡午夜视频| www成人国产在线观看网站| 孕妇高潮太爽了在线观看免费| 亚洲精品欧美日韩在线| 国产凹凸一区在线观看视频| 亚洲aⅴ天堂| 亚洲一区二区视频在线观看| 久久精品人妻中文视频| 日韩无码一二三区| 日本一区高清| 成人午夜视频免费看欧美| 日本一区高清|