●李 景,李國(guó)鵬,汪 濱,劉 華,程永紅
(1.中國(guó)標(biāo)準(zhǔn)化研究院;2.中國(guó)科學(xué)院 文獻(xiàn)情報(bào)中心;3.中國(guó)科學(xué)技術(shù)信息研究所,北京 10088)
語(yǔ)料庫(kù),指存放原始語(yǔ)言材料的數(shù)據(jù)倉(cāng)庫(kù)。一般的語(yǔ)料庫(kù)其語(yǔ)料加工來(lái)源非常廣泛,包括叢書(shū)、詞典、專(zhuān)著、辭源等。標(biāo)準(zhǔn)文獻(xiàn)語(yǔ)料庫(kù)的加工主要以標(biāo)準(zhǔn)文獻(xiàn)和技術(shù)法規(guī)為主。知識(shí)庫(kù),是用于知識(shí)管理的一種特殊的工具,以便于有關(guān)知識(shí)領(lǐng)域知識(shí)的采集、整理以及提取。知識(shí)庫(kù)中的知識(shí)對(duì)象,是求解問(wèn)題所需專(zhuān)業(yè)領(lǐng)域知識(shí)的集合,包括基本事實(shí)、規(guī)則和其他有關(guān)信息。
語(yǔ)料庫(kù)、知識(shí)庫(kù)和知識(shí)組織體系的構(gòu)建,是知識(shí)管理和知識(shí)服務(wù)的基礎(chǔ)、前沿和熱點(diǎn),語(yǔ)料庫(kù)的根本目的是為實(shí)現(xiàn)語(yǔ)義標(biāo)引、機(jī)器翻譯、知識(shí)關(guān)聯(lián)、數(shù)據(jù)挖掘、智能檢索等功能和模塊提供基礎(chǔ)和支撐。國(guó)家標(biāo)準(zhǔn)館作為國(guó)家重點(diǎn)支持、面向全國(guó)服務(wù)的國(guó)家級(jí)標(biāo)準(zhǔn)文獻(xiàn)服務(wù)機(jī)構(gòu),不但在迅速實(shí)現(xiàn)館藏資源數(shù)字化、服務(wù)模式網(wǎng)絡(luò)化的轉(zhuǎn)變方面負(fù)有責(zé)無(wú)旁貸的重任,而且面臨著以國(guó)家級(jí)館藏文獻(xiàn)資源提供知識(shí)服務(wù),滿(mǎn)足全國(guó)企業(yè)和用戶(hù)標(biāo)準(zhǔn)信息需求的使命。以國(guó)家標(biāo)準(zhǔn)館數(shù)字資源為用戶(hù)提供知識(shí)服務(wù),直接關(guān)系著國(guó)家的標(biāo)準(zhǔn)文獻(xiàn)資源建設(shè)能否持續(xù)穩(wěn)定發(fā)展,關(guān)系著全國(guó)用戶(hù)能否更加便捷、高效的利用標(biāo)準(zhǔn)文獻(xiàn)數(shù)字資源,也關(guān)系著國(guó)家標(biāo)準(zhǔn)館能否順應(yīng)知識(shí)經(jīng)濟(jì)時(shí)代要求,實(shí)現(xiàn)可持續(xù)發(fā)展。
現(xiàn)代網(wǎng)絡(luò)條件下,語(yǔ)料庫(kù)的構(gòu)建通常以基礎(chǔ)術(shù)語(yǔ)數(shù)據(jù)庫(kù)和相關(guān)領(lǐng)域文獻(xiàn)素材中的敘詞為素材,輔以專(zhuān)業(yè)詞典,提煉語(yǔ)料。對(duì)已提煉的語(yǔ)料進(jìn)行標(biāo)注和注釋?zhuān)ㄟ^(guò)審核后,錄入語(yǔ)料庫(kù),并逐步建立和完善語(yǔ)料素材間的關(guān)聯(lián)關(guān)系。標(biāo)準(zhǔn)文獻(xiàn)語(yǔ)料庫(kù)的構(gòu)建分為兩部分:一是語(yǔ)料數(shù)據(jù)庫(kù)(簡(jiǎn)稱(chēng)“語(yǔ)料庫(kù)”)的構(gòu)建;二是語(yǔ)料庫(kù)原型系統(tǒng)的開(kāi)發(fā)。
(1)文本抓取和準(zhǔn)備:標(biāo)準(zhǔn)文本和Web信息的獲取和數(shù)字化文本的準(zhǔn)備。(2)語(yǔ)料提取:從標(biāo)準(zhǔn)文獻(xiàn)中提取語(yǔ)料信息。(3) 標(biāo)注和注釋。① 標(biāo)注:將文本信息中的語(yǔ)料(概念,知識(shí)對(duì)象)進(jìn)行標(biāo)記和表示,分為詞法標(biāo)注,語(yǔ)義特征標(biāo)注,雙語(yǔ)(中英文)的對(duì)應(yīng)。② 注釋?zhuān)簽楦拍钐砑佣ㄐ悦枋觥#?)建立數(shù)據(jù)庫(kù):將語(yǔ)料素材錄入數(shù)據(jù)庫(kù),并建立雙語(yǔ)語(yǔ)料映射表。(5)更新、維護(hù)和修復(fù):不斷補(bǔ)充完善語(yǔ)料素材,填充數(shù)量,提高質(zhì)量,校正語(yǔ)料(知識(shí)對(duì)象)之間的關(guān)系,使之更加符合邏輯性。
原型系統(tǒng)總體設(shè)計(jì)采用通用的B/S(客戶(hù)端/瀏覽器)結(jié)構(gòu),系統(tǒng)支持通用格式數(shù)據(jù)庫(kù)的導(dǎo)入導(dǎo)出。(1) 客戶(hù)端(實(shí)現(xiàn)):語(yǔ)料的錄入、注釋?zhuān)Z(yǔ)料庫(kù)的編輯、校正,中英文文本的對(duì)照,實(shí)現(xiàn)對(duì)語(yǔ)料庫(kù)中語(yǔ)料素材(知識(shí)對(duì)象)的調(diào)用,對(duì)文檔的管理與標(biāo)引,對(duì)譯文模板進(jìn)行調(diào)用。(2)服務(wù)器端(實(shí)現(xiàn)):語(yǔ)料素材(知識(shí)對(duì)象)的集中存儲(chǔ)、語(yǔ)料庫(kù)版本的管理與配置。
在標(biāo)準(zhǔn)文獻(xiàn)資源方面,依托“標(biāo)準(zhǔn)文獻(xiàn)譯文數(shù)據(jù)庫(kù)建設(shè)”項(xiàng)目,國(guó)家標(biāo)準(zhǔn)館擁有經(jīng)過(guò)篩選鑒別的國(guó)家標(biāo)準(zhǔn)和等同采用 (IDT) 國(guó)際標(biāo)準(zhǔn)的數(shù)字化文本10956件的數(shù)據(jù)庫(kù),擁有譯文數(shù)字化資源文本36519件 (BS:2161件;DIN:3957件;GOST:4312件;IEC:3577件;ISO:10289件;ITU:5649件;JIS:674件,截至2011年1月27日),擁有中英文對(duì)照敘詞表等語(yǔ)料素材38663條。等同采用的標(biāo)準(zhǔn)文本經(jīng)過(guò)比對(duì)后,可以提煉出規(guī)范的譯文模版和準(zhǔn)確的雙語(yǔ)種術(shù)語(yǔ)對(duì)照,敘詞表則可以作為構(gòu)建語(yǔ)料庫(kù)的素材和基礎(chǔ)。
原型系統(tǒng)中實(shí)現(xiàn)了分專(zhuān)業(yè)領(lǐng)域?yàn)g覽語(yǔ)料資源,點(diǎn)擊圖1頁(yè)面左側(cè)菜單可以分專(zhuān)業(yè)領(lǐng)域?qū)Ш剑瑸g覽不同專(zhuān)業(yè)領(lǐng)域的語(yǔ)料(見(jiàn)圖2)。
原型系統(tǒng)中實(shí)現(xiàn)了對(duì)逐項(xiàng)語(yǔ)料進(jìn)行瀏覽,在圖1顯示的界面中點(diǎn)擊一條語(yǔ)料,如“中醫(yī)學(xué)”,能夠顯示該條語(yǔ)料的詳細(xì)信息。

圖1 分專(zhuān)業(yè)瀏覽語(yǔ)料的原型系統(tǒng)頁(yè)面

圖2 對(duì)逐項(xiàng)語(yǔ)料進(jìn)行瀏覽的原型系統(tǒng)頁(yè)面
(1)功能需求。① 模糊檢索功能:實(shí)現(xiàn)雙語(yǔ)輸入的模糊檢索功能。② 關(guān)鍵詞檢索功能:輸入中英文關(guān)鍵詞,查詢(xún)對(duì)應(yīng)的語(yǔ)料。③ 標(biāo)準(zhǔn)號(hào)檢索功能:輸入標(biāo)準(zhǔn)號(hào),查詢(xún)?cè)摌?biāo)準(zhǔn)中包含的語(yǔ)料素材。
(2) 功能實(shí)現(xiàn)。功能需求 ① 的實(shí)現(xiàn)見(jiàn)圖3,該功能通過(guò)原型系統(tǒng)主頁(yè)面檢索框?qū)崿F(xiàn)。功能需求 ②的實(shí)現(xiàn)見(jiàn)圖4。通過(guò)在查詢(xún)界面輸入關(guān)鍵詞,“啟用模糊匹配”功能,如輸入“中醫(yī)”,可以查詢(xún)到包含“中醫(yī)”的“中醫(yī)學(xué)”和“中醫(yī)基礎(chǔ)理論”兩條術(shù)語(yǔ)。需求功能 ③ 的實(shí)現(xiàn)見(jiàn)圖5。在查詢(xún)界面輸入標(biāo)準(zhǔn)號(hào),可以顯示該標(biāo)準(zhǔn)中包含的語(yǔ)料素材。

圖3 原型系統(tǒng)首頁(yè)(簡(jiǎn)單檢索界面)

圖4 關(guān)鍵詞檢索功能的原型系統(tǒng)頁(yè)面

圖5 利用標(biāo)準(zhǔn)號(hào)檢索的原型系統(tǒng)頁(yè)面
(1)語(yǔ)料錄入功能,能夠在原型系統(tǒng)中增加新的語(yǔ)料記錄。
(2)語(yǔ)料編輯功能,能夠?qū)ο到y(tǒng)里有的語(yǔ)料進(jìn)行修改、編輯、操作、保存等功能。

圖6 原型系統(tǒng)架構(gòu)圖
以語(yǔ)料數(shù)據(jù)庫(kù)為中心數(shù)據(jù)庫(kù),實(shí)現(xiàn)檢索、語(yǔ)料記錄概覽(列表展示)、詳情瀏覽、語(yǔ)料錄入和編輯、以及后臺(tái)管理(數(shù)據(jù)的批量導(dǎo)入和導(dǎo)出),見(jiàn)圖6。其中的檢索、語(yǔ)料記錄概覽(列表展示)、詳情瀏覽、語(yǔ)料錄入和語(yǔ)料編輯、以及后臺(tái)管理(部分)功能為已實(shí)現(xiàn)功能。后臺(tái)管理中的用戶(hù)管理、角色管理、授權(quán)管理、資源管理、統(tǒng)計(jì)分析等功能,以及館內(nèi)接口和對(duì)外接口,由于經(jīng)費(fèi)和時(shí)間所限,留待后續(xù)研究中實(shí)現(xiàn)。
本文的研究,促進(jìn)標(biāo)準(zhǔn)化術(shù)語(yǔ)信息資源的建設(shè)和標(biāo)準(zhǔn)化術(shù)語(yǔ)應(yīng)用系統(tǒng)的研發(fā),可以有效幫助標(biāo)準(zhǔn)制定人員的工作,促進(jìn)我國(guó)標(biāo)準(zhǔn)化工作整體水平的提升。同時(shí)為廣大用戶(hù)(包括政府部門(mén)、企業(yè)、個(gè)人)提供便捷、高效、準(zhǔn)確、全面的標(biāo)準(zhǔn)術(shù)語(yǔ)編寫(xiě)和信息服務(wù),以保證標(biāo)準(zhǔn)文本中術(shù)語(yǔ)的協(xié)調(diào)性和一致性,從而促進(jìn)標(biāo)準(zhǔn)質(zhì)量的提升。
通過(guò)實(shí)施本課題完善標(biāo)準(zhǔn)術(shù)語(yǔ)數(shù)據(jù)資源、標(biāo)準(zhǔn)文獻(xiàn)語(yǔ)料庫(kù)及其相關(guān)的資源建設(shè),為進(jìn)一步開(kāi)展標(biāo)準(zhǔn)中術(shù)語(yǔ)的推廣普及和相關(guān)研究構(gòu)建了一個(gè)技術(shù)支撐平臺(tái)。研究形成的提供支持翻譯功能的語(yǔ)料庫(kù),能夠在翻譯服務(wù)中,提高翻譯文本的質(zhì)量。同時(shí)還能夠提供翻譯文本與原標(biāo)準(zhǔn)文本的比對(duì)功能,達(dá)到校核質(zhì)保的目的,提高譯文質(zhì)量。
從國(guó)家層面來(lái)講,希望能推動(dòng)我國(guó)的國(guó)家標(biāo)準(zhǔn)走向國(guó)際,提供有力的工具。目前國(guó)標(biāo)英文版的轉(zhuǎn)化工作困難重重,沒(méi)有大規(guī)模開(kāi)展。雖然有多種原因,但缺乏多語(yǔ)種版本的語(yǔ)料和適當(dāng)工具,是一個(gè)重要因素。通過(guò)這個(gè)課題建立標(biāo)準(zhǔn)文獻(xiàn)語(yǔ)料庫(kù),希望對(duì)國(guó)標(biāo)走向國(guó)際化產(chǎn)生實(shí)際的推動(dòng)。同樣,語(yǔ)料庫(kù)的建立,對(duì)于國(guó)外標(biāo)準(zhǔn)翻譯成中文,或者是對(duì)我國(guó)的采標(biāo)工作也將有所裨益。
可以將已有的語(yǔ)料加工合并入標(biāo)準(zhǔn)文獻(xiàn)信息加工流程中,增加標(biāo)準(zhǔn)文獻(xiàn)標(biāo)引的深度和精度,改善數(shù)據(jù)加工質(zhì)量,提高標(biāo)準(zhǔn)文獻(xiàn)的檢全率和檢準(zhǔn)率。
如將完備的語(yǔ)料記錄輸入數(shù)據(jù)庫(kù)底層,可以完善檢索用詞庫(kù),增加用戶(hù)輸入檢索式時(shí)模糊匹配的精度,提高標(biāo)準(zhǔn)文獻(xiàn)的檢全率和檢準(zhǔn)率。完備的語(yǔ)料庫(kù),能夠反映詞匯的語(yǔ)義映射關(guān)系和語(yǔ)義限制。
如果僅僅按照用戶(hù)輸入的檢索詞進(jìn)行檢索,肯定會(huì)造成“漏檢”。用戶(hù)輸入的檢索詞和用戶(hù)自身的知識(shí)背景、檢索能力以及檢索經(jīng)驗(yàn)相關(guān),可能只是某一概念的若干同義詞、近義詞或是相關(guān)術(shù)語(yǔ)中的一個(gè)。研究者可以利用本體規(guī)范概念集自動(dòng)地將檢索詞映射到它的同義詞、近義詞和相關(guān)詞上,利用一組規(guī)范的概念進(jìn)行檢索。[1]
另一方面,一個(gè)詞可以有多個(gè)含義,用戶(hù)進(jìn)行檢索時(shí)往往只是針對(duì)它的一個(gè)含義。如果只進(jìn)行簡(jiǎn)單匹配,會(huì)造成“誤檢”。例如,用戶(hù)輸入“牡丹”,可能會(huì)查找到花卉牡丹,也可能會(huì)找出牡丹江市、牡丹牌電視機(jī)等信息。就算是查找“植物”&“牡丹”,這兩個(gè)名詞也是用于多種不同科、屬植物的別名,如野牡丹科植物、毛茛科-芍藥屬-牡丹組植物,或者是一種名為“緋牡丹”的仙人掌科多漿植物,還有菊花品種“綠牡丹”等。這時(shí),可以利用本體來(lái)分析用戶(hù)檢索詞匯和信息資源語(yǔ)義類(lèi)型以及二者的語(yǔ)義匹配程度。在分析用戶(hù)檢索詞的語(yǔ)義時(shí),可以直接向用戶(hù)提供輸入詞匯的語(yǔ)義類(lèi)型或語(yǔ)義關(guān)系,讓用戶(hù)通過(guò)選擇加以明確。也可以利用用戶(hù)模式、用戶(hù)檢索式和用戶(hù)所選擇的信息資源的詞匯構(gòu)成等,根據(jù)概念關(guān)系來(lái)判斷具體檢索詞的語(yǔ)義。[1,2]
基于本體的語(yǔ)料庫(kù)(或稱(chēng)知識(shí)庫(kù))能夠表示信息內(nèi)容與知識(shí)組織體系之間的鏈接。可以將本體知識(shí)庫(kù)與信息系統(tǒng)進(jìn)行鏈接,從而使用戶(hù)在使用信息的過(guò)程中,更加便捷地利用本體來(lái)理解具體的概念(知識(shí)對(duì)象)并鏈接相關(guān)概念(知識(shí)對(duì)象)和相關(guān)資源。鏈接方式可以是靜態(tài)的(即有關(guān)鏈接事先嵌入到信息單元中,不能進(jìn)行修改),也可以是動(dòng)態(tài)的(即在需要時(shí),由系統(tǒng)析取詞匯和鏈接相應(yīng)的本體)。這類(lèi)應(yīng)用一般多用于專(zhuān)業(yè)領(lǐng)域,所以進(jìn)行語(yǔ)義分析和選擇本體的工作都相對(duì)明確和簡(jiǎn)潔。
[1]張曉林.走向知識(shí)服務(wù)——21世紀(jì)中國(guó)學(xué)術(shù)信息服務(wù)的挑戰(zhàn)與發(fā)展[M].成都:四川大學(xué)出版社.2001:22-50.
[2]李景.本體理論在文獻(xiàn)檢索系統(tǒng)中的應(yīng)用研究[M].北京:北京圖書(shū)館出版社,2005:99-122.