術語抽取軟件測評框架研究

2022-01-12 02:35:01王華樹劉世界

中國科技術語 2022年1期

王華樹劉世界

摘? 要：自然語言處理技術的飛速發展，使得術語抽取軟件在翻譯、教育、語言學等領域成為不可或缺的資源，軟件的種類也越來越多，可為用戶提供不同的功能。然而，如何選擇合適的軟件成了亟待解決的問題。此研究參考ISO/IEC 25010： 2011和GB/T 2500.10—2016，從術語抽取軟件的特性出發，選取功能適用性、兼容性、性能效率、易用性、信息安全性五個方面，探討了術語抽取軟件的動態化測評框架，并提出針對性的框架應用建議與應用案例，以期為用戶選擇恰當的術語抽取軟件提供科學依據。

關鍵詞：術語抽取軟件;測評框架;術語管理;功能適用性;性能效率

中圖分類號：TP391;H083? 文獻標識碼：A? DOI：10.12339/j.issn.1673-8578.2022.01.005

Evaluation Framework of Terminology Extraction Software//WANG Huashu， LIU Shijie

Abstract： The rapid development of natural language processing technology has made terminology extraction software （TES） an indispensable resource in translation， education， and linguistics， and there are more and more types of software that can provide users with different functions. However， how to choose an appropriate software has become an urgent problem. Referring to ISO/IEC 25010： 2011 and GB/T 2500.10—2016 standards， this study selects five aspects related to the characteristics of TES， such as functional suitability， compatibility， performance efficiency， usability， and information security， analyzes the dynamic evaluation framework of TES， and proposes recommendations and application cases for the framework to provide a scientific basis for users to choose an appropriate TES.

Keywords： terminology extraction software （TES）; evaluation framework; terminology management;functional suitability; performance efficiency

引言

術語自動抽取（automatic term extraction， ATE）是一項從特定領域的語料庫（domain-specific corpus）中提取術語的自然語言處理任務，抽取的方法主要包括基于詞典、基于統計、基于語言規則、基于機器學習的方法及多種混合的方法[1]。近年來開發的自動術語抽取軟件在各種應用場景中發揮著作用，例如術語篩選、同義詞庫構建、文檔索引、技術監視及其本體開發[2]，其抽取效率對術語庫的構建、數據的挖掘、機器翻譯詞典的編撰、機器輔助翻譯軟件效率的提升等方面有著重要的意義，備受學界關注。

術語抽取軟件的出現不僅提升了術語抽取效率，也在一定程度上避免了主觀性和缺乏系統性的風險。然而，國內外術語抽取軟件紛繁復雜，按照系統結構來劃分，整體上可分為獨立式和集成式兩大類[3]，其中獨立式包含單機版與Web版，單機版如SDL MultiTerm Extract、SynchroTerm、TermSuite、Simple Extractor，Web版如Sketch Engine、Terminus、TermoStat、語帆術語寶（LingoSail TermBox）;集成式也可稱為非獨立模塊版，指依附于計算機輔助軟件本體、無法單獨使用的術語抽取模塊，如Déjà Vu中的Lexicon、Anchovy、 memoQ中的術語抽取模塊。面對如此繁雜的術語抽取軟件，用戶經常不知如何客觀有效地去評價它們并選擇滿足自己需求的一款。此外，囿于術語抽取軟件測評涉及自然語言處理、軟件工程和計算模型構建等領域的知識，測評難度較大。雖已有部分學者對術語抽取軟件測評框架進行過實驗性的研究，但仍不夠系統全面，得出的評測結果存在一定程度的主觀性和片面性。

1? ?研究基礎

在現有相關研究中， Sauron以及Perián-Pascual 和 Mairal-Usón的研究[4-5]被認為較具有代表性，其主要目的是超越指標性能測試的層面，為術語抽取軟件的比較和測評設計一個全面的框架。Sauron基于ISO/IEC 9126-1： 2001和Expert Advisory Group on Language Engineering Standards（EAGLES）評估工作組的測評方法提出了一種測評術語抽取軟件的標準化方法。Sauron從功能性（functionality）、可用性（usability）、可靠性（reliability）和效率（efficiency）4個特性（characteristic）著手，進一步將其分解為7個子特性（subcharacteristic），如準確性（accuracy）、互操作性（interoperability）、易學性（learnability）、可恢復性（recoverability）、適用性（suitability）、時間響應（time response）和可理解性（understandability）[4]。這種選擇軟件中可量化的質量屬性來構建測評模型的方法，在一定程度上為用戶提供了較為全面的參考。Perián-Pascual 和 Mairal-Usón同樣遵循ISO/IEC 9126-1： 2001，自行設計了一個術語抽取軟件的測評框架。兩位學者提出的測評框架側重于軟件外部質量（external quality）標準，所以選取了ISO/IEC 9126-1： 2001中的功能性、可用性和效率3個特性，進一步細分為4個子特性：適用性、精確率（precision）、可操作性（operability）和時間特性（time behavior）。并通過實證研究，使用該框架測評對比了其團隊自行研制的術語抽取軟件（DEXTER）與其他3款開源型自動術語抽取軟件[5]。兩位學者的研究實驗性地利用自行設計的框架測評了4種術語抽取工具的質量特性，打破了理論層面的探討，為解釋測評結果的方式提供了新見解。

然而，以上學者提出的測評框架并非系統全面的。Sauron在對屬性（attribute）設定評分規則時表述欠妥。例如，Sauron提出，如果軟件是“用戶友好型”（user-friendly），評分記為5;如果軟件“不是非常用戶友好型”（not very user friendly），則評分記為2.5[4]。這里的“very”一詞含有比較模糊的意味，對其解讀因人而異，也就很難客觀地衡量其“用戶友好”的屬性。此外，框架中設定的每個屬性都被設定為3個標準，即“good”“acceptable”“unacceptable”，每個標準對應不同的分值[4]，但是這種賦分和表態的方式得出的結果不能更好表達態度強弱，可靠性欠佳。以上兩處存在明顯缺陷，在Perián-Pascual 和Mairal-Usón的文獻回顧部分[5]也曾明確提及，再次證實了Sauron的研究存在一定的局限性。Perián-Pascual 和Mairal-Usón兩位學者在介紹選取特性時并沒有結合術語抽取軟件的特點進行深入的闡述，停留在ISO/IEC 9126-1： 2001中的宏觀概念層面。此外，他們僅基于ISO/IEC 9126-1： 2001中的軟件外部質量標準選取了3個特性進行測評，在選取特性的客觀性方面欠佳，未將內部質量（internal quality）和使用質量（quality in use）考慮在內，也未深入解釋3個特性之間的關系。因此，通過計算模型得出的結論的準確性有待驗證。

綜上所述，發現相關研究的不足在于：選取的研究特性不全面，特性間的關聯度不強，賦分規則設定不科學，概念的闡述脫離術語抽取軟件的特點。因此，本研究兼顧術語抽取軟件的功能性和非功能性特性，充分結合術語抽取軟件的特點對所選取特性的概念進行詳細闡述，采用動態化的科學評估方法，力求客觀地為用戶呈現一個全新的測評視角，提供一個兼具完善性和可操作性的動態測評框架。

2? 測評框架構建

基于此，文章遵循ISO/IEC 25010： 2011[6]，借鑒GB/T 2500. 10—2016[7]中的部分內容（如信息安全性），結合軟件質量評價的三個部分和術語抽取軟件的特性，設計了一個比較全面系統的動態測評框架（見圖1）。該框架選取了功能適用性、兼容性、性能效率、易用性、信息安全性5個特性，進一步分解為功能正確性、功能適合性、軟件兼容性、數據兼容性、時間特性、容量、易學性、用戶界面舒適性、保密性、完整性、信息安全性的依從性11個子特性，最后再細分為若干個屬性，以幫助用戶確定最適合他們需求的軟件。本框架中的子特性并非完全按照ISO/IEC 25010： 2011和GB/T 2500. 10—2016來選取，有一部分是根據術語抽取軟件自身的特性（如軟件兼容性、數據兼容性）來制定的。需要指出的是，術語抽取軟件的測評特性紛繁復雜，本文盡可能全面地列出測評術語抽取軟件的重要特性。下文將對這些測評指標逐一介紹和分析，并提出測評框架的應用建議和應用案例。

2.1 功能適用性

功能適用性（functional suitability）是在指定條件下使用時，產品或系統提供滿足明確和隱含要求的功能的程度[6]。結合術語抽取軟件的特殊性，本框架只考慮與此密切相關的兩個子特性：功能正確性（functional correctness）和功能適合性（functional appropriateness）。

2.1.1 功能正確性

功能正確性是產品或系統提供具有所需精度的正確的結果的程度[6]。精確率（precision）、召回率（recall）和F1值（F1 measure）是評價術語抽取結果中較常用且易操作的度量標準[8]，可用來測評術語抽取軟件的功能正確性。根據Vivaldi和Rodríguez構建的計算模型（見圖2），精確率是軟件抽取的可采納的術語（accepted terms）與軟件抽取的所有候選術語（term candidates）數量的比值，用來衡量抽取的候選術語的正確性;召回率是軟件抽出的可采納的術語與所測試語料文本中黃金標準（Gold Standard）術語表所包含的術語數量的比值，用來衡量抽取的候選術語的全面性[8]。一般情況下，二者結合使用，精確率和召回率均為高值時，則表示抽取效果理想。然而，抽取的閾值（threshold value）降低或過濾條件寬松（open filter）時，將有更多符合條件的術語，此時召回率提高而精確率降低;抽取的過濾條件嚴格（closed filter）時，則會導致精確率提高而召回率降低[8-9]，由此可以看出精確率和召回率是兩個相互制約的衡量標準。在這種情況下，Vivaldi 和Rodríguez引入了F1值的概念（見圖3），將其作為加權調和均值來綜合精確率和召回率的衡量值，削弱了二者間的明顯差異，可以客觀測評術語抽取軟件的功能正確性[8]。

2.1.2 功能適合性

功能適合性是功能促進指定的任務和目標實現的程度[6]，排除任何不必要的步驟，只為用戶提供必要的步驟就可以完成任務。各類術語抽取軟件提供的功能多種多樣，在測評其功能適用性時，需要考慮到系統是否支持多語言對、單/雙語提取、單/雙語標注、詞長/詞頻限制、（原/譯文）停用表功能、靜噪比設置、結果篩選、術語添加/編輯、術語管理、術語分享、標簽分類等。在滿足以上功能的同時也需評估在執行每一項必要功能或任務時是否存在不必要的操作。

2.2 兼容性

兼容性（compatibility）是在共享相同的硬件或軟件環境的條件下，產品、系統或組件能夠與其他產品、系統或組件交換信息、執行其所需功能的程度[6]。本框架主要考慮與兼容性最相關的兩個子特性：軟件兼容性和數據兼容性。

2.2.1 軟件兼容性

軟件兼容性包括操作系統兼容性、應用軟件兼容性、瀏覽器兼容性，是測評術語抽取軟件的一個重要因素。理想的術語抽取軟件應該具有平臺無關性，即不受操作系統類型的影響便可完美運行。市面上多種術語抽取軟件或抽取模塊，如SDL MultiTerm Extract、Déjà Vu中的Lexicon、memoQ中的術語提取模塊，僅支持在Windows環境下運行，比起某些能夠在Windows、macOS和Linux系統環境中運行的術語抽取軟件，操作系統兼容性便會成為一個典型的區分指標。應用軟件兼容性尤指組件在與其他平臺或軟件共享通用的環境和資源的條件下，能夠有效執行其所能提供的功能的程度，如Tmxmall在線對齊界面中接入語帆術語寶的術語抽取端口，實現對現有語料的雙語提取，在一定程度上反映了術語抽取軟件的軟件兼容性。瀏覽器兼容性主要針對Web端的術語抽取平臺，是測試其在不同瀏覽器或不同分辨率的瀏覽器中能否正常運行的重要指標。

2.2.2 數據兼容性

數據兼容性包括新舊數據轉換性、異種數據兼容性，是確保數據在不同版本和不同軟件間自由交換的重要子特性。新舊數據轉換性是指術語抽取軟件不同版本間的數據兼容，比如軟件或平臺升級或更新后可能定義了新的數據格式或文件格式，此時需要考慮到轉換過程中數據的完整性與正確性，確保對原來格式的支持及更新。異種數據兼容性是指術語抽取軟件支持數據格式的程度，即可否完全正確導入、導出常用格式的文件以及導出的數據格式被其他軟件讀取的程度。例如， SDL MultiTerm Extract 支持從大量的文件格式中抽取術語，具體文件格式取決于用戶當前所使用的項目類型，如單語術語抽取項目（Monolingual Term Extraction Project）、雙語術語抽取項目（Bilingual Term Extraction Project）、詞典編纂項目（Dictionary Compilation Project）、翻譯項目（Translation Project）和質檢項目（QA Project）。支持的文件格式合計達20余種，如TXT、DOC、HTML、HTM、XLS、PPT、XML、TMX、RTF、ISC、PPS等。抽取后的術語數據（XML、TXT）可以直接導出至術語庫，免去術語數據格式轉換的步驟。語帆術語寶支持TMX、TXT和DOC（X）格式的文件導入，導出格式為XLS（X）和TBX的文件，然而還需利用SDL MultiTerm Convert將XLS（X）或TBX文件轉換為XDT和MultiTerm XML文件，方可進一步導入術語管理軟件（如SDL MultiTerm Desktop）。

2.3 性能效率

性能效率（performance efficiency）與指定條件下所使用的資源量有關[6]，即在保證高效完成任務的前提下，所用時間越短，性能效率越高。本框架主要考慮性能效率中可量化衡量的兩個子特性：時間特性（time behavior）和容量（capacity）。

2.3.1 時間特性

時間特性是指產品或系統執行功能時，其響應時間、處理時間及吞吐率滿足需求的程度[6]。Perián-Pascual和Mairal-Usón曾使用一個大小為1.57MB的西班牙語料庫來根據詞權重（term weighting）的響應時間測評4款術語抽取軟件的時間特性，進而得出性能效率的測評結果。根據結果，他們認為主要存在兩個影響因素，即候選術語提取（candidate extraction）的方式和詞權重的復雜性[5]。至于Perián-Pascual 和 Mairal-Usón所提及的兩個因素，不易采用量化的方式去衡量，所以本研究考慮將術語抽取的時間成本作為衡量性能效率的一個重要因素，具體涉及源文檔的讀取時間、人工篩選時間和數據導出時間。

2.3.2 容量

容量指產品或系統參數的最大限量滿足需求的程度[6]，可以作為衡量性能效率的輔助子特性。不同術語抽取軟件的容量有所不同，譬如，在語帆術語寶中，普通用戶無論是單語提取還是雙語提取，單次上傳僅支持單個文件，且文件大小不超過5M，開通會員后則支持100M的大文件上傳;在SDL MultiTerm Extract中根據所選項目類型，支持單個或批量文件上傳，文件大小不受限制; memoQ中的術語抽取模塊可以即時對翻譯文件（translation documents）、翻譯記憶庫（translation memories）或對齊的語料庫文件（LiveDocs corpus documents）以單文件或批量文件的形式進行術語抽取，文件大小同樣不受限制。

2.4 易用性

易用性（usability）指在指定的使用環境中，產品或系統在有效性、效率和滿意度等方面為了指定的目標可為指定用戶使用的程度[6]，本框架主要考慮與易用性密切相關的兩個子特性：易學性（learnability）、用戶界面舒適性（user interface aesthetics）。

2.4.1 易學性

易學性旨在描述用戶首次完成界面操作的難度，以及達到熟練操作時所重復的操作次數，是測評術語抽取軟件易用性最重要的子特性。根據Joyce的分析，可從3個維度來分析易學性，即初次使用時的易學性（first-use learnability）、學習曲線的陡度（steepness of the learning curve）和效率飽和點（efficiency of the ultimate plateau），理想情況下三者表現優異方可證明軟件易學性良好[10]。然而，也常常會面臨一種窘境，即用戶在使用一款術語抽取軟件時，每一個操作步驟都有詳細說明和解釋，用戶感覺比較容易上手，但這種情況下學習曲線較為平緩。隨著重復操作的次數增加，用戶對操作界面比較熟悉后，便會達到效率飽和點，感覺詳細的操作步驟說明會導致使用效率低下。因此，一款易學性良好的術語抽取軟件應該考慮增加快捷鍵或跳過介紹等操作，旨在給用戶帶來快速的引導流程和較低的學習成本，讓用戶感到自信，從而提高用戶滿意度[10]。在語帆術語寶中，平臺會為每一步操作提供簡單的向導或文字說明，比如在上傳待提取的文件時，會告知用戶平臺所支持的格式和語言對及文件大小的限制，達到了一種用戶易學性友好的效果。此外，操作界面是否提供幫助文檔或視頻（含支持語種的數量）、是否提供技術支持（例如在線客服、及時通信或郵件聯系方式）等都應是測評術語抽取軟件易學性需要考慮的指標。

2.4.2 用戶界面舒適性

用戶界面舒適性是指用戶界面提供令人愉悅和滿意的交互的程度[6]，屬于視覺上的設計，但其重要性不亞于功能設計。舒適的用戶界面設計需要從用戶體驗的角度出發，充分考慮用戶體驗的要素，把握好操作界面的人機交互、操作邏輯和界面美觀的整體設計。Garett認為用戶體驗（user experience）是一個自下而上的層級機構，包含5個層級，分別是戰略層、范圍層、結構層、框架層和表現層[11]。其中，框架層（skeleton）可以進一步分解為界面設計、導航設計和信息設計[11]，目的是合理分割頁面空間，提高交互體驗，同時也方便用戶的使用和操作。因此，框架層的理念可用于測評用戶界面舒適性。具體而言，界面設計包括顏色的使用、圖形化的設計;導航設計用于呈現信息的表現形式;信息設計則用于提供有效的信息交流，如資訊更新、技術支持、咨詢方式。以SDL MultiTerm Extract為例，軟件整體界面顏色為灰白搭配，最上方采用圖標和文字（重要步驟處加粗處理）的形式進行信息指引，最下方為導航區域，簡單幾個按鈕便可以引導用戶完成操作，在框架層面考慮了用戶的交互體驗，達到一種用戶界面舒適性良好的效果。

2.5 信息安全性

信息安全性指產品或系統保護信息和數據的程度，以使用戶、其他產品或系統具有與其授權類型和授權級別一致的數據訪問度[7]，信息安全性高的術語抽取軟件可以保護軟/硬件、數據不因偶然或惡意原因而遭到未授權訪問、破壞、篡改和泄露。本框架主要考慮與信息安全性緊密相關的3個子特性：保密性、完整性、信息安全性的依從性。

2.5.1 保密性

保密性指產品或系統確保數據只有在被授權時才能被訪問的程度[7]，不僅防止未獲得授權的人或系統訪問相關的信息或數據，還要保證獲得授權的人或系統能正常訪問相關的信息或數據。以下情況均可作為測評術語抽取軟件保密性的指標，例如，登錄時是否需要每次都進行用戶身份鑒別，是否存在登錄驗證碼，是否有登錄失敗次數限制，用戶賬號密碼是否可見、可復制。

2.5.2 完整性

保密性與完整性定義相似，但二者側重點有所不同。完整性指系統、產品或組件防止未授權訪問、篡改計算機程序或數據的程度[7]。對于術語抽取軟件而言，尤指其數據的完整性，例如在進行術語管理時是否具備術語數據自動保存的功能、術語庫數據遭受破壞或篡改后是否具備恢復功能。在語帆術語寶中，如果用戶在上次操作時忘記保存或導出術語，再次進入操作界面時，會出現一條溫馨提示“系統檢測到你提取到的術語還未保存或導出編輯或丟棄”，在一定程度上可確保用戶術語數據的完整性，避免重復性操作。

2.5.3 信息安全性的依從性

信息安全性的依從性指產品或系統遵循與信息安全性相關的標準、約定或法規以及類似規定的程度[7]，目的是核實軟件、系統或組件是否遵循了涉及用戶認證安全、系統網絡安全、數據庫安全、數據采取行為等法律法規。隨著信息安全立法進程在全球持續推進，各國政府都對現行信息安全治理相關政策法規進行了改進和完善，如《中華人民共和國計算機信息系統安全保護條例》（1994）、《中華人民共和國網絡安全法》（2016）、《在線隱私法》（2019）、《國家安全和個人數據保護法》（2019）、《網絡信息內容生態治理規定》（2020）等。術語抽取軟件涉及數據的傳輸和儲存，小到個人隱私層面，大到國家信息安全層面，因此術語抽取軟件應遵循信息安全性的依從性，不僅對用戶的信息或數據資產安全負責，更要重視和貫徹國家信息安全戰略。術語抽取軟件是否符合或遵從相關標準、約定或法規，只需檢查幫助文檔或軟件用戶服務協議即可。

3? 測評框架應用

3.1 應用建議

因術語抽取軟件中不同特性所涉及的具體指標各異，故通過某個固定的方法去測評一款術語抽取軟件的全部特性是很難實現的，得出的結果也會欠缺說服力。因此，在實際測評時，除采用李克特量表這種評分加總式的量表，用戶還可以考慮選擇模糊綜合評價法（Fuzzy Comprehensive Evaluation，FCE）、層次分析法（Analytic Hierarchy Process，AHP）或混合使用的方法，將定性評價轉化為定量評價或定性和定量相結合，以科學化的方法處理模糊性強、難以量化測評的特性或子特性。在此方面，翻譯自動化用戶協會（TAUS）與都柏林城市大學 Sharon O’ Brien 教授團隊合作研發的新型翻譯質量評估系統（Dynamic Quality Framework，DQF）為本研究帶來一種新的評估思路，即考慮核心構成要素，動態靈活地選擇評估方法[12]，具體使用見下文應用案例。此外，在測評軟件的功能正確性時建議嚴格制定黃金標準術語表，其精確性將直接影響術語抽取的召回率。黃金標準術語表需要先人工進行術語標注，經領域專家（domain specialists）審核后方可制定使用，所以在此過程中用戶可通過關注詞頻（frequency）、短語類別（phrasal category）、詞目（lemma）和原材料的缺陷（source material flaws）來提升標注效率和黃金標準術語表的可靠性[13]，進而確保客觀測評術語抽取軟件的功能適用性。

3.2 應用案例

為綜合測評A和B兩款術語抽取軟件，本研究提供了一種動態、開放、可度量的模型示例，如表1所示。從特性出發，將其分解為多個子特性，子特性繼續分解為多個度量（metrics），這樣就可以將術語抽取軟件的特點以權重的形式全面反映到度量上，形成統一的、可操作性的標準，確保評估值在一個量綱層面。同時參考動態質量評估框架（DQF）的理念，根據不同的度量特點，采用不同的測評方法，比如數值標度、二值標度、李克特五分量表等。具體而言，數值標度是指得到的百分數值，主要針對精確率、召回率和F1值。其中，召回率和F1值均應在嚴格制定黃金標準術語表的前提下計算得出;二值標度是指得到的回應為“是”或“否”（“是”為1，“否”為0），如“是否支持靜噪比設置？”;李克特五分量表測出來的是5個回應類別，比如“非常滿意”“滿意”“不好說”“不滿意”“非常不滿意”，每一個回應類別對應不同的分值。

需要注意的是，隨著后期研究的不斷深入，特性、子特性和度量都會呈現出動態的變化，每個部分的權重也可以隨時進行調整，達到一種測評框架復用的效果。目前模型中的權重分配僅做實驗演示，真實場景中需要根據用戶的需求和其對于各特性、子特性和度量的看法做適當調整。假設用戶十分重視術語抽取軟件的功能適用性，對于其易用性并沒有那么重視，則可適當增加功能適用性的權重，降低易用性的權重。對于子特性和度量的調整也可遵照這種方法操作。此處以功能適用性為例，對A和B兩款術語抽取軟件的功能適用性進行測評，如表2所示。

在該實驗模型中，功能適用性的權重為30%，按照百分制折合為30分，計算起來方便易操作，如A的精確率綜合得分=30*50%*30%*40%=1.8。如表2所示，A和B兩款術語抽取軟件的功能適用性以此方式便算出得分分別為15.9和20.4，則可以說明B款在功能適用性方面優于A款。當其他特性也按照這種方式進行計算后，最后將各特性的分值累加之后便是該款術語抽取軟件的總得分。進而根據各款術語抽取軟件的總得分情況，便可以客觀地計算出用戶的最優選擇。

4 結語

本文通過遵循和借鑒ISO/IEC 25010： 2011、GB/T 2500. 10—2016標準，選取了功能適用性、兼容性、性能效率、易用性和信息安全性等5個特性，嘗試在前人[4-5]的基礎上為術語抽取軟件構建一個全面、動態、開放的測評框架。針對測評過程中需要注意的事項提出框架應用建議，并為用戶演示了如何使用這個動態化、可度量的測評框架模型，以引導用戶將術語抽取軟件與術語管理過程緊密結合在一起，客觀評價術語抽取軟件。限于實驗條件等方面的原因，本文提供的測評框架還需要進一步驗證。后續研究將從用戶體驗的角度出發，采用李克特五分量表、模糊綜合評價法和層次分析法相結合的方法，通過實證研究對該框架進行多輪驗證，不斷提升其科學性與可操作性。

參考文獻

[1] 王華樹，王少爽. 翻譯場景下的術語管理：流程、工具與趨勢[J]. 中國科技術語， 2019， 21（3）： 9-14.

[2] BERNIER-COLBORNE G. Defining a gold standard for the evaluation of term extractors[C]//Proceedings of the Eighth International Conference on Language Resources and Evaluation （LREC ’12）， 2012： 15-18.

[3] 王華樹. 淺議實踐中的術語管理[J]. 中國科技術語， 2013， 15（2）： 11-14.

[4] SAURON V. Tearing out the terms： Evaluating terms extractors[C]//Proceedings of the Aslib Conference Translating and the Computer 24， London： The Association for Information Management， 2002： 1-18.

[5] PERIN-PASCUAL C， MAIRAL-USN R. A framework of analysis for the evaluation of automatic term extractors[J]. Vigo International Journal of Applied Linguistics， 2018： 105-125.

[6] ISO. ISO/IEC 25010：2011 Systems and Software Engineering—Systems and Software Quality Requirements and Evaluation （SQuaRE）—System and Software Quality Models[S]. Geneva： International Organization for Standardization International Electrotechnical Commission， 2011.

[7] 中華人民共和國國家質量監督檢驗檢疫總局，中國國家標準化管理委員會. GB/T 25000.10—2016 系統與軟件工程：系統與軟件質量要求和評價（SQuaRE）? 第10部分：系統與軟件質量模型[S]. 北京：中國標準出版社， 2016.

[8] VIVALDI J， RODRGUEZ H. Evaluation of terms and term Extraction Systems： A practical approach[J]. Terminology. International Journal of Theoretical and Applied Issues in Specialized Communication， 2007， 13（2）： 225-248.

[9] FRANTZI K， ANANIADOU S， MIMA H. Automatic recognition of multi-word terms： The C-value/NC-value method[J]. International Journal on Digital Libraries， 2000， 3（2）： 115-130.

[10] JOYCE A. How to Measure Learnability of a User Interface[EB/OL].? （2019-10-20）[2021-05-04]. https：//www.nngroup.com/articles/measure-learnability.

[11] GARRETT J J. 用戶體驗要素：以用戶為中心的產品設計[M]. 范曉燕，譯. 北京：機械工業出版社， 2011.

[12] 王均松. 翻譯質量評估新方向： DQF動態質量評估框架[J]. 中國科技翻譯， 2019， 32（3）： 27-29.

[13] DERIEMAEKER J. Research into the performance of the terminology extraction software Termtreffer[D]. Belgium： Ghent University， 2012： 13-17.

作者簡介：王華樹（1980—），男，博士，北京外國語大學高級翻譯學院副教授，兼任世界翻譯教育聯盟翻譯技術研究會會長、中國翻譯協會本地化服務委員會副秘書長、中國英漢語比較研究會外語教育技術專業委員會副秘書長、《中國科技術語》編委等。多年來致力于推動翻譯技術產學研的生態融合，在《中國翻譯》《外國語》《外語電化教學》《上海翻譯》等期刊發表論文六十余篇，主持國家級、省部級及校級科研項目十多項，出版《人工智能時代翻譯技術研究》《計算機輔助翻譯概論》《應用程序本地化》《翻譯與本地化項目管理》等十多部著作。研究領域：翻譯與本地化技術、外語教育技術、術語管理。通信方式：wanghuashu@vip.qq.com。

劉世界（1994—），男，上海海事大學外國語學院2019級碩士研究生，專業為英語筆譯，曾在《外語教學》《中國ESP研究》等刊物上發表論文。研究方向：翻譯技術、術語管理、機器翻譯譯后編輯。通信方式：henryliushijie@163.com。

中國科技術語2022年1期

中國科技術語的其它文章: 基于CiteSpace的國內術語翻譯研究可視化分析（2001—2020）; 術語學視域下的術語標準化; 我國《民法典》術語英譯研究; 信息與文獻標準化術語管理研究; 形象性應成為術語定名原則之一; 英語網絡非正規語言表達的自動識別與術語庫構建