張廣慶,鄭 金,蘇 濤
(1.青島市標準化研究院,青島 266071;2.同方威視技術股份有限公司,北京 100084)
淺談術語數據庫建設的若干問題
張廣慶1,鄭 金2,蘇 濤1
(1.青島市標準化研究院,青島 266071;2.同方威視技術股份有限公司,北京 100084)
本文簡要探討術語數據的來源、術語數據庫設計和術語軟件檢索方式等問題,并結合實際的術語數據給出了一種術語數據庫設計方案,可以滿足常規的術語檢索要求。
術語;術語數據庫;數據來源;檢索
術語,是在特定專業領域中一般概念的詞語指稱,在我國常稱為名詞或科技名詞。人們通常使用術語出版物獲知各行業術語知識,詞典、辭書、術語標準是目前國內最常見的出版物。從發達國家術語的發展現狀來看,絕大部分術語已經是以數字化的形式來展現。通過數字化編輯、在線打印、全文檢索、專業數據庫等計算機技術的融合使用,國外科技工作者可以更加便利地查閱和使用術語。
術語數據庫也稱術語庫,是指專門存儲名詞術語信息、詞語信息以及術語工作和語言規范工作成果的一種源數據庫,屬于計算語言學領域,是現代語言學、現代術語學、現代計算機技術相結合的產物。術語的關系模型滿足二維表格屬性,適合使用關系型數據庫進行數字化管理。本文以常見的Microsoft Access單機版關系型數據庫為例,簡要探討術語數據庫建設中的若干問題。
全國科學技術名詞審定委員會(以下簡稱“全國科技名詞委”)代表國家進行術語審定工作[1],其預計2018年底編纂出版的《中華科學技術大詞典》,計劃收錄兩岸100個學科、約60萬組術語,實現大陸名與臺灣名、中文名和英文名的對照。在其官網(http://www.cnctst.cn)上,可以免費查詢到80多個學科、30余萬條規范術語。官網上顯示的術語信息參見圖1。

圖1 全國科技名詞委官網中的術語信息
中國國家標準化管理委員會(以下簡稱“國標委”)統一管理全國標準化工作,并代表國家參加國際標準化組織(ISO)等國際組織的技術活動,其負責制修訂了國家標準7萬多項、行業標準15萬多項。國標委管理的“國家標準全文公開系統”(http://www.gb688.cn/bzgk/gb/index),可以免費查閱5千多項國家標準全文內容。術語標準作為標準的一個重要分支,約有國家標準1590項、行業標準890項。術語標準中顯示的術語信息參見圖2。

圖2 GB/T 33528-2017標準中的術語信息
按照國家標準GB 1.1-2009規定,“術語和定義”部分是一份標準的可選要素,它僅給出為理解標準中某些術語所必需的定義,大多數國家標準和行業標準都編制有該內容。按照7萬項國家標準和15萬項行業標準預計,非術語標準編制的術語總量有幾十萬到幾百萬組。“術語和定義”部分顯示的術語信息參見圖3。

圖3 GB/T 1.1-2009標準中的術語信息
數據庫設計是指根據用戶的需求,在某一具體的數據庫管理系統上,設計數據庫的結構和建立數據庫的過程,一般分為系統需求分析、概念結構設計、邏輯結構設計、物理結構設計、數據庫實施、數據庫運行與維護等階段。
通過分析、對比術語數據的三種來源,可以看出,其信息組成滿足簡單的二元關系(即二維表格形式),應當使用關系型數據庫進行管理。術語數據包含的基本信息應有:術語中文名稱、英文名稱、相關名稱、定義、學科、數據種類(出版物、術語標準或標準定義)、出版物或標準名稱、標準號、標準術語分類、出版物版本、發布日期(出版年代或標準實施日期)、注釋等。這些術語信息主要應用于翻譯輔助、辭書編纂、信息檢索、術語標準化等領域。
E-R圖也稱實體-聯系圖,是描述現實世界概念結構模型的有效方法。實體用矩形表示,實體名在框內標注;實體的屬性用橢圓表示,與對應的實體用直線連接;實體間的聯系用菱形表示,聯系名在菱形框內標注,與對應的實體用直線連接,在直線上標注聯系的類型(一對一、一對多或多對多,通常用1:1、1:n或m:n表示)。術語信息的E-R圖參見圖4。

圖4 術語信息的E-R圖
本文采用Microsoft Access數據庫,將概念結構設計中的術語信息的E-R圖轉換成Access支持的關系數據模型。實際設計中,常常增加1個有意義的編號字段,作為一條記錄的唯一號或者主鍵。參見表1。

表1 術語信息數據模型
數據庫的物理結構是指數據庫在物理設備上的存儲結構與存取方法,不同的數據庫管理系統有不同的物理結構。數據庫的物理設計就是給一個邏輯數據模型選取一個適合應用要求的物理結構的過程。通常有以下內容:
(1)確定數據庫文件的存放位置和空間要求:
術語表的邏輯結構較單一,可選擇生成一個access數據庫文件。在術語的數據類型中,將日期按照文本(10)、備注按照文本(200)估算,1條術語信息約占用1130字節,100萬條術語信息約需空間1G字節(1024×1024×1130),因此,數據庫文件所在的邏輯盤不應低于1G字節的空間。
(2)確定索引存取方法:
按照“是否經常作為查詢條件使用” 的情況分析,應在術語中文名、英文名、相關名稱、定義等四項信息上建立索引,索引類型是有重復的索引。
根據邏輯結構設計和物理結構設計兩個階段的結果,在計算機上建立實際的數據庫結構、裝入術語數據、編制應用程序并測試、試運行、編制實施文檔的過程。
(1)建立實際的數據庫結構:
利用Microsoft Access數據庫創建一個新的術語數據庫文件termdb.mdb,并建立新表myterm,按照表1術語信息數據模型填寫并完善各字段內容,各字段內容見圖5和圖6。

圖5 表myterm各字段主要內容

圖6 表myterm中term_id字段常規內容
(2)裝入術語數據:
筆者收集整理了7個術語標準中的1818條術語,并加以完善各字段內容,以這些術語為例,裝入表myterm中。術語標準見表2。

表2 術語標準樣本
(3)編制應用程序并測試:
常用的關系型數據庫開發工具有Visio Foxpro、Delphi、Oracle SQL Developer、PowerBuilder等,使用這些圖形軟件開發工具,可以非常方便地開發出術語數據庫的查詢應用程序。應用程序編制好后,需要經過多次調試來滿足不同的查詢要求。
(4)術語數據庫及應用程序打包試運行:
以Powerbuilder9.0開發工具為例,為使術語數據庫和應用程序能安裝到其它計算機上使用,應至少將termdb.mdb、libjcc.dll、libjsybheap.dll、pbdwe90.dll、pbodb90.dll、pbvm90.dll和開發的查詢軟件一起安裝。查詢軟件使用ODBC方式連接術語數據庫時,也要使用以下參數連接:"ConnectStr ing='driver=Microsoft Access Driver (*.mdb);DBQ=c:myterm ermdb.mdb;UID=sa;PWD=",斜體部分應使用實際的文件夾。
(5)編制實施文檔:
實施文檔一般包括硬件環境、操作系統、支持軟件、空間要求、安裝說明、備份等內容。
該階段主要包括:維護數據庫的安全性與完整性,檢測并改善數據庫性能,重新組織和構造數據庫。
可以使用單字段法(也稱獨立字段)、全字段法、分類瀏覽法、組合字段法、記憶法等檢索方式,參見筆者所著《常用標準題錄信息查詢方法介紹》[2]一文,本文不再詳述。
[1] 郭劍.術語數據庫建設之我見[J].中國科技術語,2015,17(5):57-60.
[2] 張廣慶,劉曉寧.常用標準題錄信息查詢方法介紹[J].質量探索,2016,(8):80-85.
Discussion on the Construction and Application of Terminological Database
ZHANG Guang-qing1, ZHENG Jin2, SU Tao1
(1. Qingdao Institute of Standardization, Qingdao, Shandong 266071, China; 2. Nuctech Company Limited, Beijing 100084, China)
This paper briefly discusses the origin of terminological data, terminological database design, terminological software retrieval methods, etc. Then the author provides a terminological database design scheme in combination with practical data, which can meet the general requirements of search terms.
term; terminological database; data sources; retrieval
H083
A
1672-6286(2017)03-0077-06
張廣慶(1971-),男,山東巨野人。質量高級工程師,主要從事組織機構代碼、軟件、信息化、標準等領域研究。