崔維霞 王均松
(1.西安外國語大學,陜西西安 710061; 2. 西北工業大學,陜西西安 710129)
專業領域技術性英文詞匯識別的多方法對比
崔維霞1王均松2
(1.西安外國語大學,陜西西安 710061; 2. 西北工業大學,陜西西安 710129)
以航空英語為例,采用信息檢索領域常用的準確率、召回率等指標對四種常用的專業技術詞匯識別方法(使用專業詞典、借助語境線索、分類排除法和主題詞分析法)的識別有效性進行評估。結果顯示,上述幾種方法的平均識別率均不高,完全依靠某一種方法來識別專業技術詞匯不可避免地存在不足或缺陷,建議開展多方法相結合的綜合研究。
專業技術詞匯,專門用途英語,識別方法
專業技術詞匯(technical vocabulary),顧名思義,是指與特定學科或領域密切相關的專業用詞。這類詞匯具有顯著的學科特異性,頻繁出現在所屬專業領域內,意義相對固定。近年來,隨著科技的迅猛發展和全球科技信息交流需求的增長, 對科技領域內英語詞匯使用的研究也得到極大的發展。然而,在以往的研究中,專業技術詞匯的重要性往往被低估甚至是忽視。考克斯墨德(Coxhead)曾指出,專業技術詞匯通常只構成學術性文章中約5%的行文文字[1]。但在鐘和內申(Chung and Nation)的研究中卻發現無論是在解剖學 (31.2%) 還是應用語言學文本中(20.6%),專業技術詞匯所占的比例遠遠高于先前的估計[2]。此外,大多數詞匯方面的研究都集中于高頻詞匯和學術性詞匯,專業技術詞匯方面的文獻則乏陳可述,國內更是鮮有此類研究。由于缺乏統一的標準和科學有效的識別方法,人們對于該類詞匯知之甚少。事實上,專業技術詞匯無論是對于專門用途英語教學、專門用途英語教材設計還是專業外語詞典編纂都具有極為重要的意義,應當引起廣泛的關注。
從20世紀80年代開始,國外很多專家和學者就在專業技術詞匯識別方面展開了積極的探索。目前,學界主流的識別方法有以下幾種:使用專業詞典[3-4];依賴文本中提供的語境線索[5-7];詞匯分類法[1,8]和主題詞分析法[9-10]。
識別專業技術詞匯最常用的方法就是查閱專業詞典。由于專業詞典只收錄專科性語詞,包括專門術語和專有名詞,因此可以看作是特定學科或專業的技術性詞匯的集合。而判斷某個詞是否屬于專業技術詞匯,最直接的方法就是看該詞是否出現在專業詞典中,如果出現在該領域的專業詞典中就被認定為專業技術詞匯,否則為非專業技術詞匯。但需要注意的是,有的詞雖然出現在專業詞典的詞條位置,但卻是某個多詞短語不可分割的組成部分,因此不能被認定屬于專業技術詞匯。此外,各個專業領域都至少存在一本甚至是多本專業詞典,但并不是每一本詞典都能滿足和適合當前研究的需要。由于面向的讀者對象不同,收詞立目的原則也各不相同。比如,有的專業詞典的使用對象為本學科領域內能夠使用外語的內行讀者和專業翻譯人員,因此只收錄那些很專、很細的術語;而有的專業詞典讀者對象十分寬泛,從實用的角度出發,詞典編纂者在收錄專科詞匯的同時,通常會酌收部分普通詞匯。鐘和內申(Chung and Nation)[11]曾指出,“最大的詞典不一定是最好的選擇,因為大的詞典往往包括了很多非專業技術詞匯”。所以詞典的選擇對于專業技術詞匯識別準確率至關重要,在選擇時應充分考慮其能否覆蓋所研究領域的專業技術詞匯,收詞量大小是否合適,更新與否,以及是否存在英式英語或美式英語之偏好等等。
2.借助語境線索
在科技文本中,當專業技術詞匯首次出現時,作者通常會利用各種語境線索對其進行標識。借助這些語境線索可以快速、準確地識別文本中的專業技術詞匯。常見的語境線索可以分為以下幾種:第一種是采取隱含下定義的方式,通常借用一些詞或短語,如“referred to as”“known as”“namely”“be called”等引出專業技術詞匯。例如:The design process starts by considering the forces that act on the aircraft,namely, lift, drag, thrust, and weight。第二種是借助于印刷格式上的線索,例如粗體、斜體和括號等標記。 如Propulsion,Takeoff, angle of attack (AOA)等。第三種則是利用圖表或插圖中的標簽。在科技文本中,為了闡釋某個概念或原理,通常會使用大量的圖表或插圖,其中的專業技術詞匯或術語往往會有明確的標識。然而,在借助線索識別專業技術詞匯的具體操作中仍然存在不少困難。首先,下定義的形式多種多樣,某些形式上不很規范的定義很難識別。其次,印刷上的形式標記功能不僅僅局限于突顯專業技術詞匯,也就是說并非所有的粗體或斜體詞匯都是專業技術詞匯。此外,圖表和插圖中的標簽文字包括了很多的功能詞及其他,需要進行仔細的篩選和識別。
3.分類排除法
內申把英語詞匯分為四類:高頻詞匯(high frequency words)、專業技術詞匯(technical words)、學術性詞匯(academic words)和低頻詞匯(low frequency words)。高頻詞匯指的是在所有文體中都頻繁使用的基礎核心詞匯;專業技術詞匯是指在專業文本或特定學科領域內使用的術語;學術性詞匯介于高頻詞匯和專業技術性詞匯之間,也稱半技術性詞匯(sub-technical words),這類詞匯在文學性文體中出現的頻率很低,但卻頻繁出現在各個領域的學術性文本中;而低頻詞泛指上述三類詞匯以外的所有詞匯,包括其他學科領域的專業技術詞匯、專有名詞、次高頻詞匯以及語言中使用頻率很低的詞語。內申對英語詞匯的分類為利用詞頻分析軟件Range進行專業技術詞匯識別提供了理論基礎,通過排除其他三類詞匯就可以得到專業技術詞匯。Range 是可用于分析文本中詞匯深度和廣度的計算機軟件,該軟件包含三級詞匯底表,前兩個詞表包含2 000個詞族,源自韋斯特(West)所編的《通用英語詞表》[12](AGeneralServiceListofEnglishWords),即所謂的高頻詞。第三個詞表包含570個詞族,源自Coxhead的《學術英語詞表》[1](AcademicWordList),即所謂的學術詞匯。將以上三個詞表作為基礎詞表,使用Range軟件對專業文本進行詞匯自動評估便可以得到篩選后的專業技術詞匯。
4.主題詞分析法

在統計主題詞時采用卡方檢驗必須滿足兩個條件:首先,使用的觀察語料庫要足夠大,只有樣本空間足夠大才可以為主題詞提供充足的出現機會,從而最大程度減少低頻事件概率對統計結果的影響。其次,進行主題詞統計的前提是參照語料庫(文本)在總量上要大于觀察語料庫(文本)。許家金曾引用托尼·柏柏爾·薩丁拾(Tony Berber-Sardinha)的觀點認為參照語料庫比觀察語料庫大5倍就可以滿足需要,參照語料庫需要達到一定的規模,才可以得到足夠豐富的主題詞[14]。此外,參照語料庫的選擇取決于研究目的,研究目的不同,語料庫的選擇也不同,但要排除其中與觀察語料具有相同主題的文本。
黑米屬于糯米類,是我國古老的珍貴稻種,屬于藥食同源稻米。黑米富含特有的營養與功能因子,具有調節人體生理功能的作用,素有“黑珍珠”和“世界米中之王”的美譽,是一種有很大開發潛力的黑色食品資源。
1.研究問題
本研究試圖回答下列兩個問題:(1)使用專業詞典、借助語境線索、分類排除法以及主題詞分析法在專業技術詞匯識別方面各自有哪些優勢和不足。(2)以上四種方法中,哪一種是最理想的識別方法。
2.語料來源及預處理
研究中使用的文本材料取自美國航空航天研究所教育系列叢書《飛行器引擎設計》(AIAAEducationSeries)第二版,第2章“Constraint Analysis”,共3 053詞次。首先對所選語料進行預處理,清理其中不合規范的符號、格式以及拼寫錯誤。然后對文本進行詞形還原(lemmatization)處理,還原之后文本中所有的詞被其原形所替代。在本研究中,詞項①(lemma)被確定為詞頻統計單位。
3.研究方法
本研究采用定性與定量相結合的方法,以人工標注專業技術詞匯的結果為標準,對以上四種常見的識別方法進行比較,并對其準確率和效度做出評估。為評價不同方法的專業技術詞匯識別性能, 這里引入三個通用的測評指標,即準確率(Precision Rate)、召回率(Recall Rate)和F值(F-score)。準確率和召回率是廣泛用于信息檢索領域的兩個度量值,用來評價統計結果的質量。其中準確率衡量的是識別方法的查準率;召回率衡量的是識別方法的查全率。準確率和召回率是相互制約的,一般情況下,準確率高、召回率就低,召回率高、準確率就低。為了能夠綜合地衡量各種方法的識別性能,避免僅比較準確率和召回率的片面性,本研究引入了二者的均值F值作為性能評價的重要指標。具體定義下:



4.數據統計
首先,采取人工標注的方法識別觀察文本中的專業技術詞匯,并將統計結果作為評估的參照標準。本研究借鑒鐘和內申實驗中使用四級檢選量表(4-point scale)的做法[2],根據詞匯的語境意義與航空領域的語義相關度,將詞匯劃分為相關性由弱到強的四個等級。其中,一級和二級詞匯意義與該領域的相關性較弱,被認為是非專業技術詞匯;而三級和四級詞匯相關性較強被認為是專業技術詞匯。通過篩選和識別,共獲得專業技術詞匯73個,其中包括與航空領域密切相關的三級詞匯53個(aerodynam-ic,constraint,drag,etc.),和航空領域獨有的四級詞匯20個 (airfoil,afterburner,fuselage,etc.)。
至于使用專業詞典,實驗中采用了英國A&C Black 圖書公司出版的《航空英語詞典》(DictionaryofAviation)第二版,該詞典收錄了5 500多個詞條,涵蓋了航空領域各個學科門類中的通用技術詞匯,而且定期更新,是航空專業科技人員使用和學習的常備工具書。經過與專業詞典比對,共獲取候選詞匯359個,其中正確識別的專業技術詞匯有59個,準確率為16.43%,召回率為80.82%,F值為27.31%。借助語境線索共識別85個候選詞匯,包括26個帶有定義標記的詞匯,46個帶有印刷標記的詞匯以及13個出現在圖表和插圖中的標簽詞匯。其中正確識別的專業技術詞匯有41個,識別準確率為48.24%,召回率為56.16%,F值為51.90%。在分類排除法中,使用詞頻分析軟件Range對觀察文本進行統計分析,結果顯示,通過該方法共識別168個專業技術詞匯,其中正確識別的專業技術詞匯有46個,識別準確率為27.38%,召回率為63.01%,F值為38.17%。而主題詞分析法以英國學術英語語料庫(BAWE)[15]為參照語料庫,使用wordsmith3.0的詞表功能,分別創建航空英語詞表和英國學術英語語料庫詞表,然后對兩個詞表進行對比,通過卡方檢驗共篩選出候選詞匯178個。其中正確識別的專業的詞匯有57個,準確率為32.02%,召回率為78.08%,F值為45.45%(詳見表1)。

表1 識別方法評估
在以上幾種方法中,使用專業詞典識別專業技術詞匯的召回率在幾種方法中是最高的,達到了80.82%,也就是說通過這種方法可以最大限度地識別文本中的專業技術詞匯,遺漏的情況比較少。但是這種方法的準確率卻是幾種方法中最低的,僅有16.43%,這就極大地影響了該方法識別率的平均值(27.31%),這主要是因為很多詞典從使用者的角度出發將很多的跨領域技術詞匯和功能詞匯收錄其中。此外,使用專業詞典在實際操作中不可避免的一個問題就在于選用不同的專業詞典,識別結果往往差別很大。因此,詞典的選擇對于研究結果影響非常大。
借助語境線索在專業技術詞匯識別方面的準確率達到48.24%,遠遠高于其他幾種方式,但是其召回率卻比較低,僅有56.16%,盡管這種方法的平均準確率(51.90%)差強人意,但由于其遺漏的專業技術詞匯較多,不能看作是一種理想的識別方法。此外,在具體的操作過程中,一方面很多語境線索由于印刷格式或形式上的問題難以識別;另一方面,根據不同類別線索識別的詞匯往往出現重復,這就增加了篩選工作的難度,同時也在一定程度上影響了識別的效率。
相對于使用專業詞典和借助語境線索,分類排除法操作簡單,可行性強。研究人員只需在統計結果中排除高頻詞匯和學術性詞匯,即可獲得包含少量低頻詞匯的專業技術詞匯。而且,在詞匯分布軟件Range的輔助下,可以對文本進行批量處理,很大程度上減輕了逐個判別專業技術詞匯的負擔。但是這種方法存在很大的局限性,由于部分高頻詞匯和學術詞匯存在一詞多義和一詞多類的現象,在特定的專業領域里會具有特殊的含義,從而轉變為該領域的專業技術詞匯。例如load在一般的用法中意為“裝載”,但在航空領域有其特殊的意義“負荷”。在等級量表中該詞被評定為航空專業技術詞匯,但在篩選過程中它作為高頻詞匯被排除在航空專業技術詞匯之外,這就使得專業技術詞匯的召回率較低(63.01%)。此外,篩選后得到的專業詞表中還包括了低頻詞匯,盡管數量很少,但也在一定程度上降低了該方法的準確率(27.38%),因此該方法的平均識別率也偏低(38.17%)。
主題詞分析法在專業技術詞匯查全方面的性能僅次于使用專業詞典,召回率高達78.08%,而在查準率方面則稍稍遜色,準確率為32.02%,F值為45.45%。而且該方法易于操作,在計算機軟件wordsmith的輔助下可以同時處理上百個文本,處理速度遠遠超過了其他方法。目前,這種方法技術上還不夠完善,準確率還有待提高。首先,基于詞頻對比的方法無法區分專業技術詞匯與其搭配詞,如constraint analysis在文本中反復出現,其中constraint是專業技術詞匯,而analysis是非專業技術詞匯。但由于analysis作為專業技術詞匯的搭配詞在文本中的復現頻率超高,因此也被錯誤地歸為專業技術詞匯。其次,在科技文本中廣泛存在的某些語言形式,如含連字符的詞(Air-to-Air)、專有名詞(MIG-31)以及具有固定意義的特殊符號(/)在識別的過程中往往被忽略或遺漏。
綜合以上的討論可以發現,幾種方法的平均識別率都不高,而且各自存在明顯的優勢和不足,很難指出哪一種是最理想的識別方式。事實上,完全依靠某一種方法來識別專業技術詞匯不可避免地存在不足或缺陷。在本研究中,平均值較高的兩種方式分別是基于語言規則的借助語境線索和基于頻率統計的主題詞分析法。雖然借助語境線索平均識別率最高,但是該方法最大的缺陷在于其召回率非常低,而且采用人工識別的方式非常耗時,尤其是在文本量較大的情況下,效率低下。主題詞分析的方法通過比較不同語料庫間詞頻差異的方式識別專業技術詞匯,大部分的工作可以通過計算機輔助的方法短時間內完成。它能夠最大程度地減輕篩選負擔,降低識別難度,提高識別效率,這標志著基于計算機輔助的方法在專業技術詞匯識別及自動提取方面已經取得了重大突破和進步。但是,必須承認,純粹基于統計的方法在專業技術詞匯提取上效果并不理想,尤其是其準確率還不高,統計結果最終需要依賴專業人員根據學科知識和經驗做進一步的判斷。因此,在專業技術詞匯識別中,建議將基于語言規則的借助語境線索法和基于統計的主題詞分析法相結合,對語境線索中的語言規則進行抽象并應用于專業技術詞匯的初步篩選,然后再進行詞頻對比,從而提高專業技術詞匯識別的效率和準確率,這在很大程度上也為未來的研究提供了思路和可以借鑒的方法。
隨著社會經濟的快速發展和科學技術的不斷進步, 人類社會對反映科技現狀和發展動態的專業技術詞匯需求劇增, 專業技術詞匯識別有重要的理論價值和現實意義。本文首先對幾種常見專業技術詞匯識別方法的原理進行了介紹,然后分別使用這些方法對航空領域文本中的專業技術詞匯進行識別,并利用信息檢索領域常用的準確率、召回率等指標對其識別有效性進行評估。評估結果顯示,上述幾種方法的平均識別率均不高,完全依靠某一種方法來識別專業技術詞匯不可避免地存在不足或缺陷,建議采取借助語境線索和主題詞分析相結合的方式,在進行詞頻統計的基礎上引入語言規則,從而改善和提高專業技術詞匯識別的效率和準確率。此外,隨著科學技術的進步,專業技術詞匯的識別需要從原來主要以手工識別的方式轉變為計算機輔助的自動識別,識別的對象也需要從單詞擴展到多詞短語。到目前為止,國內在專業技術詞匯識別和提取方面的理論研究還不是很成熟,由于缺乏一個完整的評價系統,對實驗結果無法做統一的評測,造成了很多重復性的工作,這很不利于學科的發展。所以,建立一個開放、完整的評價體系是當前亟須解決的一個問題。
注釋
①詞項是由一個基礎詞(base word)與它的詞類相同的曲折形式 (inflected forms) 構成的一系列單詞,例如動詞access這個詞項就由基礎詞access和它的曲折形式accesses、accessed、accessing構成[8]。
[1] Coxhead A. A new academic word list [J]. TESOL Quarterly, 2000, 34(2):213-238.
[2] Chung T M, Nation P. Technical vocabulary in specialized texts [J]. Reading in a Foreign Language, 2003, 15(2):103-116.
[3] Nation I S P Learning Vocabulary in Another Language [M].Cambridge: Cambridge University Press,2001.
[4] Oh J,Lee J,Lee K,et al. Japanese term extraction using dictionary hierarchy and a machine translation system [J]. Terminology, 2000(6): 287-311.
[5] Bramki D, Williams R. Lexical familiarization in economics text, and its pedagogic implications in reading comprehension [J]. Reading in a Foreign Language,1984(2): 169-181.
[6] Flowerdew J. Definitions in science lectures [J]. Applied Linguistics, 1992(13):202-221.
[7] Williams R. Lexical familiarization in content area textbooks [C]// Chapman, L. The Reader and the Text. London: Heinemann Educational Books Ltd, 1981:49-59.
[8] Kwary D A. A hybrid method for determining technical vocabulary [J]. System, 2011(39):175-185.
[9] Scott M. PC analysis of keywords and key keywords [J]. System 25,1997(2):233-245.
[10] Anthony L. AntConc: A Learner and Classroom Frien- dly, Multi-Platform Corpus Analysis Toolkit[C]//In proceedings of IWLeL 2004: An Interactive Workshop on Language e-Learning.Tokyo:2004.
[11] Chung T M,Nation P. Identifying technical vocabulary[J].System,2004(32):251-263.
[12] West M.General Service List of English Words[M].London: Longman,Green & Co.,1953.
[13] 李紹山.語言研究中的統計學[M]. 西安: 西安交通大學出版社,2001.
[14] 梁茂成,李文中,許家金.語料庫應用教程[M].北京:外語教學與研究出版社,2010.
[15] Nesi H,Gardner S, Thompson P,et al. British Academic Written English Corpus (BAWE)[DB/OL],2010. http://wwwm.coventry.ac.uk/researchnet/BAWE/Pages/BAWE.aspx
動 態
第十二期“出版物規范應用科技名詞培訓研討會”在濟南舉辦
2014年6月15—20日,全國科學技術名詞審定委員會與新聞出版總署教育培訓中心在山東省濟南市聯合舉辦了第十二期“出版物規范應用科技名詞培訓研討會”。來自全國各地55家科技期刊、圖書出版單位的71名編輯參加了此次培訓。培訓研討會在很大范圍內宣傳了規范科學技術名詞在新聞出版行業中的意義,對科技名詞規范工作進行了比較全面的介紹。
全國科技名詞委發揮自身優勢,多位專家授課老師結合出版專業實際,以豐富的科技名詞審定工作經驗,運用大量實例和資料,深入細致地介紹了科技名詞規范工作及主要成果,使學員在提高編輯專業技能的同時,對科技名詞規范工作的重要性有了深刻認識,對科技名詞審定工作的方法與原則有了深入了解,對科技名詞的實際應用有了更加全面的體會,盡力使學員成為規范使用科技名詞的推廣者。研討會上還特意為學員們安排了科技名詞實際應用測試環節,鞏固學員們的學習成果。
為提高學員在日常工作查詢應用規范名詞的便利性,進一步增強學員自覺應用規范術語的可操作性與可能性,研討會還專門為學員演示如何利用規范術語在線查詢平臺查詢規范術語,指導學員如何利用軟件與網絡技術進行規范術語查詢,并將授課講師的課件上傳至網絡,以便學員進行下載,滿足長期學習的需求。
(郭劍)
Multiple Methods for Identifying Professional/Technical Vocabularies
CUI Weixia WANG Junsong
In this study, five different methods have been used to select the professional/technical words in aeronautical text. The five methods are using rating scale, using clues provided by writers, using technical dictionaries, vocabulary classification and keyword analysis. The author compared the five methods in terms of accuracy, efficiency and practicality, and the evaluation results showed that keyword analysis is based on corpus comparison and considered to be an ideal method but it still has problems, such as failing to separate technical words from their collocates. A hybrid method was proposed for identifying professional/technical vocabulary.
technical vocabulary, English for special purpose, keyword analysis
2014-03-31
本文為陜西省社科基金“基于專業雙語平行語料庫的詞典編纂研究”(13K111)、西安外國語大學科研基金項目“專門用途英語(ESP)主題詞表的創建及應用研究”(11XWB01),以及西北工業大學中央高校基本科研項目(3102014RW0017)的階段性研究成果
崔維霞 (1979—),女,西安外國語大學高職部講師,研究方向為語料庫語言學、專門用途英語教學。 通信方式:cuiweixia@xisu.edu.cn。
H083;N04
A
1673-8578(2014)04-0014-06
分析是語料庫技術中研究文本內容和文本語言特征差異的重要手段。它既是一種文本層面詞語運用的統計方法,也是一種通過詞語分布概率觀察文本的視角。主題詞是指“頻率顯著高于或顯著低于參照語料庫中對應詞頻率的那些詞匯”[9]。在科技英語中,技術性詞匯在專業文本中的比例要遠遠高于其在普通文本中的頻率。主題詞分析即是通過將詞匯在專業文本(語料庫)和參照文本(語料庫)中的頻率進行對比,從而將其中差異顯著的主題詞提取出來。常用的主題詞統計軟件為wordsmith和antconc,而進行頻數差異檢驗的最常用方法是卡方檢驗(chi-square或χ2)。卡方檢驗是“比較實際次數與期望次數之間是否有顯著差異”的檢驗[13],屬于非參數檢驗。在詞匯頻次差異研究方面,就是測定某詞匯的頻次觀測值O與理論期望值E之間的差異,為此而構造的統計量稱為χ2統計量,其計算公式如下: