999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

標(biāo)準(zhǔn)文獻(xiàn)語(yǔ)料庫(kù)構(gòu)建研究

2013-12-10 03:16:32李國(guó)鵬程永紅
圖書(shū)館理論與實(shí)踐 2013年12期
關(guān)鍵詞:語(yǔ)義文本標(biāo)準(zhǔn)

●李 景,李國(guó)鵬,汪 濱,劉 華,程永紅

(1.中國(guó)標(biāo)準(zhǔn)化研究院;2.中國(guó)科學(xué)院 文獻(xiàn)情報(bào)中心;3.中國(guó)科學(xué)技術(shù)信息研究所,北京 10088)

語(yǔ)料庫(kù),指存放原始語(yǔ)言材料的數(shù)據(jù)倉(cāng)庫(kù)。一般的語(yǔ)料庫(kù)其語(yǔ)料加工來(lái)源非常廣泛,包括叢書(shū)、詞典、專(zhuān)著、辭源等。標(biāo)準(zhǔn)文獻(xiàn)語(yǔ)料庫(kù)的加工主要以標(biāo)準(zhǔn)文獻(xiàn)和技術(shù)法規(guī)為主。知識(shí)庫(kù),是用于知識(shí)管理的一種特殊的工具,以便于有關(guān)知識(shí)領(lǐng)域知識(shí)的采集、整理以及提取。知識(shí)庫(kù)中的知識(shí)對(duì)象,是求解問(wèn)題所需專(zhuān)業(yè)領(lǐng)域知識(shí)的集合,包括基本事實(shí)、規(guī)則和其他有關(guān)信息。

語(yǔ)料庫(kù)、知識(shí)庫(kù)和知識(shí)組織體系的構(gòu)建,是知識(shí)管理和知識(shí)服務(wù)的基礎(chǔ)、前沿和熱點(diǎn),語(yǔ)料庫(kù)的根本目的是為實(shí)現(xiàn)語(yǔ)義標(biāo)引、機(jī)器翻譯、知識(shí)關(guān)聯(lián)、數(shù)據(jù)挖掘、智能檢索等功能和模塊提供基礎(chǔ)和支撐。國(guó)家標(biāo)準(zhǔn)館作為國(guó)家重點(diǎn)支持、面向全國(guó)服務(wù)的國(guó)家級(jí)標(biāo)準(zhǔn)文獻(xiàn)服務(wù)機(jī)構(gòu),不但在迅速實(shí)現(xiàn)館藏資源數(shù)字化、服務(wù)模式網(wǎng)絡(luò)化的轉(zhuǎn)變方面負(fù)有責(zé)無(wú)旁貸的重任,而且面臨著以國(guó)家級(jí)館藏文獻(xiàn)資源提供知識(shí)服務(wù),滿(mǎn)足全國(guó)企業(yè)和用戶(hù)標(biāo)準(zhǔn)信息需求的使命。以國(guó)家標(biāo)準(zhǔn)館數(shù)字資源為用戶(hù)提供知識(shí)服務(wù),直接關(guān)系著國(guó)家的標(biāo)準(zhǔn)文獻(xiàn)資源建設(shè)能否持續(xù)穩(wěn)定發(fā)展,關(guān)系著全國(guó)用戶(hù)能否更加便捷、高效的利用標(biāo)準(zhǔn)文獻(xiàn)數(shù)字資源,也關(guān)系著國(guó)家標(biāo)準(zhǔn)館能否順應(yīng)知識(shí)經(jīng)濟(jì)時(shí)代要求,實(shí)現(xiàn)可持續(xù)發(fā)展。

1 研究和構(gòu)建方法

現(xiàn)代網(wǎng)絡(luò)條件下,語(yǔ)料庫(kù)的構(gòu)建通常以基礎(chǔ)術(shù)語(yǔ)數(shù)據(jù)庫(kù)和相關(guān)領(lǐng)域文獻(xiàn)素材中的敘詞為素材,輔以專(zhuān)業(yè)詞典,提煉語(yǔ)料。對(duì)已提煉的語(yǔ)料進(jìn)行標(biāo)注和注釋?zhuān)ㄟ^(guò)審核后,錄入語(yǔ)料庫(kù),并逐步建立和完善語(yǔ)料素材間的關(guān)聯(lián)關(guān)系。標(biāo)準(zhǔn)文獻(xiàn)語(yǔ)料庫(kù)的構(gòu)建分為兩部分:一是語(yǔ)料數(shù)據(jù)庫(kù)(簡(jiǎn)稱(chēng)“語(yǔ)料庫(kù)”)的構(gòu)建;二是語(yǔ)料庫(kù)原型系統(tǒng)的開(kāi)發(fā)。

1.1 語(yǔ)料庫(kù)構(gòu)建方法

(1)文本抓取和準(zhǔn)備:標(biāo)準(zhǔn)文本和Web信息的獲取和數(shù)字化文本的準(zhǔn)備。(2)語(yǔ)料提取:從標(biāo)準(zhǔn)文獻(xiàn)中提取語(yǔ)料信息。(3) 標(biāo)注和注釋。① 標(biāo)注:將文本信息中的語(yǔ)料(概念,知識(shí)對(duì)象)進(jìn)行標(biāo)記和表示,分為詞法標(biāo)注,語(yǔ)義特征標(biāo)注,雙語(yǔ)(中英文)的對(duì)應(yīng)。② 注釋?zhuān)簽楦拍钐砑佣ㄐ悦枋觥#?)建立數(shù)據(jù)庫(kù):將語(yǔ)料素材錄入數(shù)據(jù)庫(kù),并建立雙語(yǔ)語(yǔ)料映射表。(5)更新、維護(hù)和修復(fù):不斷補(bǔ)充完善語(yǔ)料素材,填充數(shù)量,提高質(zhì)量,校正語(yǔ)料(知識(shí)對(duì)象)之間的關(guān)系,使之更加符合邏輯性。

1.2 語(yǔ)料庫(kù)原型系統(tǒng)的開(kāi)發(fā)

原型系統(tǒng)總體設(shè)計(jì)采用通用的B/S(客戶(hù)端/瀏覽器)結(jié)構(gòu),系統(tǒng)支持通用格式數(shù)據(jù)庫(kù)的導(dǎo)入導(dǎo)出。(1) 客戶(hù)端(實(shí)現(xiàn)):語(yǔ)料的錄入、注釋?zhuān)Z(yǔ)料庫(kù)的編輯、校正,中英文文本的對(duì)照,實(shí)現(xiàn)對(duì)語(yǔ)料庫(kù)中語(yǔ)料素材(知識(shí)對(duì)象)的調(diào)用,對(duì)文檔的管理與標(biāo)引,對(duì)譯文模板進(jìn)行調(diào)用。(2)服務(wù)器端(實(shí)現(xiàn)):語(yǔ)料素材(知識(shí)對(duì)象)的集中存儲(chǔ)、語(yǔ)料庫(kù)版本的管理與配置。

1.3 國(guó)家標(biāo)準(zhǔn)館進(jìn)行標(biāo)準(zhǔn)文獻(xiàn)語(yǔ)料庫(kù)的構(gòu)建基礎(chǔ)

在標(biāo)準(zhǔn)文獻(xiàn)資源方面,依托“標(biāo)準(zhǔn)文獻(xiàn)譯文數(shù)據(jù)庫(kù)建設(shè)”項(xiàng)目,國(guó)家標(biāo)準(zhǔn)館擁有經(jīng)過(guò)篩選鑒別的國(guó)家標(biāo)準(zhǔn)和等同采用 (IDT) 國(guó)際標(biāo)準(zhǔn)的數(shù)字化文本10956件的數(shù)據(jù)庫(kù),擁有譯文數(shù)字化資源文本36519件 (BS:2161件;DIN:3957件;GOST:4312件;IEC:3577件;ISO:10289件;ITU:5649件;JIS:674件,截至2011年1月27日),擁有中英文對(duì)照敘詞表等語(yǔ)料素材38663條。等同采用的標(biāo)準(zhǔn)文本經(jīng)過(guò)比對(duì)后,可以提煉出規(guī)范的譯文模版和準(zhǔn)確的雙語(yǔ)種術(shù)語(yǔ)對(duì)照,敘詞表則可以作為構(gòu)建語(yǔ)料庫(kù)的素材和基礎(chǔ)。

2 標(biāo)準(zhǔn)文獻(xiàn)語(yǔ)料庫(kù)構(gòu)建的功能需求分析和功能實(shí)現(xiàn)

2.1 瀏覽功能

原型系統(tǒng)中實(shí)現(xiàn)了分專(zhuān)業(yè)領(lǐng)域?yàn)g覽語(yǔ)料資源,點(diǎn)擊圖1頁(yè)面左側(cè)菜單可以分專(zhuān)業(yè)領(lǐng)域?qū)Ш剑瑸g覽不同專(zhuān)業(yè)領(lǐng)域的語(yǔ)料(見(jiàn)圖2)。

原型系統(tǒng)中實(shí)現(xiàn)了對(duì)逐項(xiàng)語(yǔ)料進(jìn)行瀏覽,在圖1顯示的界面中點(diǎn)擊一條語(yǔ)料,如“中醫(yī)學(xué)”,能夠顯示該條語(yǔ)料的詳細(xì)信息。

圖1 分專(zhuān)業(yè)瀏覽語(yǔ)料的原型系統(tǒng)頁(yè)面

圖2 對(duì)逐項(xiàng)語(yǔ)料進(jìn)行瀏覽的原型系統(tǒng)頁(yè)面

2.2 檢索功能

(1)功能需求。① 模糊檢索功能:實(shí)現(xiàn)雙語(yǔ)輸入的模糊檢索功能。② 關(guān)鍵詞檢索功能:輸入中英文關(guān)鍵詞,查詢(xún)對(duì)應(yīng)的語(yǔ)料。③ 標(biāo)準(zhǔn)號(hào)檢索功能:輸入標(biāo)準(zhǔn)號(hào),查詢(xún)?cè)摌?biāo)準(zhǔn)中包含的語(yǔ)料素材。

(2) 功能實(shí)現(xiàn)。功能需求 ① 的實(shí)現(xiàn)見(jiàn)圖3,該功能通過(guò)原型系統(tǒng)主頁(yè)面檢索框?qū)崿F(xiàn)。功能需求 ②的實(shí)現(xiàn)見(jiàn)圖4。通過(guò)在查詢(xún)界面輸入關(guān)鍵詞,“啟用模糊匹配”功能,如輸入“中醫(yī)”,可以查詢(xún)到包含“中醫(yī)”的“中醫(yī)學(xué)”和“中醫(yī)基礎(chǔ)理論”兩條術(shù)語(yǔ)。需求功能 ③ 的實(shí)現(xiàn)見(jiàn)圖5。在查詢(xún)界面輸入標(biāo)準(zhǔn)號(hào),可以顯示該標(biāo)準(zhǔn)中包含的語(yǔ)料素材。

圖3 原型系統(tǒng)首頁(yè)(簡(jiǎn)單檢索界面)

圖4 關(guān)鍵詞檢索功能的原型系統(tǒng)頁(yè)面

圖5 利用標(biāo)準(zhǔn)號(hào)檢索的原型系統(tǒng)頁(yè)面

2.3 語(yǔ)料錄入和編輯功能

(1)語(yǔ)料錄入功能,能夠在原型系統(tǒng)中增加新的語(yǔ)料記錄。

(2)語(yǔ)料編輯功能,能夠?qū)ο到y(tǒng)里有的語(yǔ)料進(jìn)行修改、編輯、操作、保存等功能。

3 系統(tǒng)架構(gòu)

圖6 原型系統(tǒng)架構(gòu)圖

以語(yǔ)料數(shù)據(jù)庫(kù)為中心數(shù)據(jù)庫(kù),實(shí)現(xiàn)檢索、語(yǔ)料記錄概覽(列表展示)、詳情瀏覽、語(yǔ)料錄入和編輯、以及后臺(tái)管理(數(shù)據(jù)的批量導(dǎo)入和導(dǎo)出),見(jiàn)圖6。其中的檢索、語(yǔ)料記錄概覽(列表展示)、詳情瀏覽、語(yǔ)料錄入和語(yǔ)料編輯、以及后臺(tái)管理(部分)功能為已實(shí)現(xiàn)功能。后臺(tái)管理中的用戶(hù)管理、角色管理、授權(quán)管理、資源管理、統(tǒng)計(jì)分析等功能,以及館內(nèi)接口和對(duì)外接口,由于經(jīng)費(fèi)和時(shí)間所限,留待后續(xù)研究中實(shí)現(xiàn)。

4 標(biāo)準(zhǔn)文獻(xiàn)語(yǔ)料庫(kù)的應(yīng)用前景

4.1 支持標(biāo)準(zhǔn)文獻(xiàn)翻譯

本文的研究,促進(jìn)標(biāo)準(zhǔn)化術(shù)語(yǔ)信息資源的建設(shè)和標(biāo)準(zhǔn)化術(shù)語(yǔ)應(yīng)用系統(tǒng)的研發(fā),可以有效幫助標(biāo)準(zhǔn)制定人員的工作,促進(jìn)我國(guó)標(biāo)準(zhǔn)化工作整體水平的提升。同時(shí)為廣大用戶(hù)(包括政府部門(mén)、企業(yè)、個(gè)人)提供便捷、高效、準(zhǔn)確、全面的標(biāo)準(zhǔn)術(shù)語(yǔ)編寫(xiě)和信息服務(wù),以保證標(biāo)準(zhǔn)文本中術(shù)語(yǔ)的協(xié)調(diào)性和一致性,從而促進(jìn)標(biāo)準(zhǔn)質(zhì)量的提升。

通過(guò)實(shí)施本課題完善標(biāo)準(zhǔn)術(shù)語(yǔ)數(shù)據(jù)資源、標(biāo)準(zhǔn)文獻(xiàn)語(yǔ)料庫(kù)及其相關(guān)的資源建設(shè),為進(jìn)一步開(kāi)展標(biāo)準(zhǔn)中術(shù)語(yǔ)的推廣普及和相關(guān)研究構(gòu)建了一個(gè)技術(shù)支撐平臺(tái)。研究形成的提供支持翻譯功能的語(yǔ)料庫(kù),能夠在翻譯服務(wù)中,提高翻譯文本的質(zhì)量。同時(shí)還能夠提供翻譯文本與原標(biāo)準(zhǔn)文本的比對(duì)功能,達(dá)到校核質(zhì)保的目的,提高譯文質(zhì)量。

從國(guó)家層面來(lái)講,希望能推動(dòng)我國(guó)的國(guó)家標(biāo)準(zhǔn)走向國(guó)際,提供有力的工具。目前國(guó)標(biāo)英文版的轉(zhuǎn)化工作困難重重,沒(méi)有大規(guī)模開(kāi)展。雖然有多種原因,但缺乏多語(yǔ)種版本的語(yǔ)料和適當(dāng)工具,是一個(gè)重要因素。通過(guò)這個(gè)課題建立標(biāo)準(zhǔn)文獻(xiàn)語(yǔ)料庫(kù),希望對(duì)國(guó)標(biāo)走向國(guó)際化產(chǎn)生實(shí)際的推動(dòng)。同樣,語(yǔ)料庫(kù)的建立,對(duì)于國(guó)外標(biāo)準(zhǔn)翻譯成中文,或者是對(duì)我國(guó)的采標(biāo)工作也將有所裨益。

4.2 支持標(biāo)準(zhǔn)文獻(xiàn)信息加工

可以將已有的語(yǔ)料加工合并入標(biāo)準(zhǔn)文獻(xiàn)信息加工流程中,增加標(biāo)準(zhǔn)文獻(xiàn)標(biāo)引的深度和精度,改善數(shù)據(jù)加工質(zhì)量,提高標(biāo)準(zhǔn)文獻(xiàn)的檢全率和檢準(zhǔn)率。

4.3 支持標(biāo)準(zhǔn)文獻(xiàn)檢索

如將完備的語(yǔ)料記錄輸入數(shù)據(jù)庫(kù)底層,可以完善檢索用詞庫(kù),增加用戶(hù)輸入檢索式時(shí)模糊匹配的精度,提高標(biāo)準(zhǔn)文獻(xiàn)的檢全率和檢準(zhǔn)率。完備的語(yǔ)料庫(kù),能夠反映詞匯的語(yǔ)義映射關(guān)系和語(yǔ)義限制。

如果僅僅按照用戶(hù)輸入的檢索詞進(jìn)行檢索,肯定會(huì)造成“漏檢”。用戶(hù)輸入的檢索詞和用戶(hù)自身的知識(shí)背景、檢索能力以及檢索經(jīng)驗(yàn)相關(guān),可能只是某一概念的若干同義詞、近義詞或是相關(guān)術(shù)語(yǔ)中的一個(gè)。研究者可以利用本體規(guī)范概念集自動(dòng)地將檢索詞映射到它的同義詞、近義詞和相關(guān)詞上,利用一組規(guī)范的概念進(jìn)行檢索。[1]

另一方面,一個(gè)詞可以有多個(gè)含義,用戶(hù)進(jìn)行檢索時(shí)往往只是針對(duì)它的一個(gè)含義。如果只進(jìn)行簡(jiǎn)單匹配,會(huì)造成“誤檢”。例如,用戶(hù)輸入“牡丹”,可能會(huì)查找到花卉牡丹,也可能會(huì)找出牡丹江市、牡丹牌電視機(jī)等信息。就算是查找“植物”&“牡丹”,這兩個(gè)名詞也是用于多種不同科、屬植物的別名,如野牡丹科植物、毛茛科-芍藥屬-牡丹組植物,或者是一種名為“緋牡丹”的仙人掌科多漿植物,還有菊花品種“綠牡丹”等。這時(shí),可以利用本體來(lái)分析用戶(hù)檢索詞匯和信息資源語(yǔ)義類(lèi)型以及二者的語(yǔ)義匹配程度。在分析用戶(hù)檢索詞的語(yǔ)義時(shí),可以直接向用戶(hù)提供輸入詞匯的語(yǔ)義類(lèi)型或語(yǔ)義關(guān)系,讓用戶(hù)通過(guò)選擇加以明確。也可以利用用戶(hù)模式、用戶(hù)檢索式和用戶(hù)所選擇的信息資源的詞匯構(gòu)成等,根據(jù)概念關(guān)系來(lái)判斷具體檢索詞的語(yǔ)義。[1,2]

4.4 支持標(biāo)準(zhǔn)文獻(xiàn)知識(shí)關(guān)聯(lián)

基于本體的語(yǔ)料庫(kù)(或稱(chēng)知識(shí)庫(kù))能夠表示信息內(nèi)容與知識(shí)組織體系之間的鏈接。可以將本體知識(shí)庫(kù)與信息系統(tǒng)進(jìn)行鏈接,從而使用戶(hù)在使用信息的過(guò)程中,更加便捷地利用本體來(lái)理解具體的概念(知識(shí)對(duì)象)并鏈接相關(guān)概念(知識(shí)對(duì)象)和相關(guān)資源。鏈接方式可以是靜態(tài)的(即有關(guān)鏈接事先嵌入到信息單元中,不能進(jìn)行修改),也可以是動(dòng)態(tài)的(即在需要時(shí),由系統(tǒng)析取詞匯和鏈接相應(yīng)的本體)。這類(lèi)應(yīng)用一般多用于專(zhuān)業(yè)領(lǐng)域,所以進(jìn)行語(yǔ)義分析和選擇本體的工作都相對(duì)明確和簡(jiǎn)潔。

[1]張曉林.走向知識(shí)服務(wù)——21世紀(jì)中國(guó)學(xué)術(shù)信息服務(wù)的挑戰(zhàn)與發(fā)展[M].成都:四川大學(xué)出版社.2001:22-50.

[2]李景.本體理論在文獻(xiàn)檢索系統(tǒng)中的應(yīng)用研究[M].北京:北京圖書(shū)館出版社,2005:99-122.

猜你喜歡
語(yǔ)義文本標(biāo)準(zhǔn)
2022 年3 月實(shí)施的工程建設(shè)標(biāo)準(zhǔn)
語(yǔ)言與語(yǔ)義
在808DA上文本顯示的改善
忠誠(chéng)的標(biāo)準(zhǔn)
美還是丑?
基于doc2vec和TF-IDF的相似文本識(shí)別
電子制作(2018年18期)2018-11-14 01:48:06
“上”與“下”語(yǔ)義的不對(duì)稱(chēng)性及其認(rèn)知闡釋
一家之言:新標(biāo)準(zhǔn)將解決快遞業(yè)“成長(zhǎng)中的煩惱”
文本之中·文本之外·文本之上——童話(huà)故事《坐井觀天》的教學(xué)隱喻
認(rèn)知范疇模糊與語(yǔ)義模糊
主站蜘蛛池模板: 亚洲国产天堂久久综合226114| 国产欧美在线观看精品一区污| 亚洲品质国产精品无码| 欧美不卡视频在线| 999国产精品永久免费视频精品久久| 亚洲精品桃花岛av在线| 成人日韩精品| 欧美精品另类| 国产手机在线ΑⅤ片无码观看| 亚洲男人的天堂网| 精品一区二区三区波多野结衣 | 欧美日韩免费| 亚洲午夜国产精品无卡| 国产九九精品视频| 男人天堂亚洲天堂| 91在线国内在线播放老师| 97色伦色在线综合视频| 久久这里只有精品8| 欧美日韩免费在线视频| 国产素人在线| 国产区在线观看视频| 欧美一级高清视频在线播放| 视频一区视频二区日韩专区| 亚洲乱码在线播放| 亚洲无码37.| 欧美日韩精品在线播放| 欧美日韩北条麻妃一区二区| 欧美日韩亚洲国产主播第一区| 99国产精品国产| 毛片网站在线播放| 国产精品福利社| 国产剧情无码视频在线观看| 亚洲视频在线观看免费视频| 国产午夜看片| 亚洲日韩AV无码精品| 中文字幕有乳无码| 成人久久精品一区二区三区| 国产男女免费视频| 欧美亚洲国产精品第一页| 中文字幕在线观| 国产精品3p视频| jizz在线免费播放| 国产高潮视频在线观看| 久久伊人色| 国产精品久久久久婷婷五月| 亚洲熟妇AV日韩熟妇在线| 亚洲人成影视在线观看| 特黄日韩免费一区二区三区| 99久久无色码中文字幕| 丁香五月激情图片| 亚洲欧美激情小说另类| 免费激情网址| 99热这里只有精品免费| 日韩精品一区二区深田咏美| 在线日韩日本国产亚洲| 日韩成人免费网站| 久久国产黑丝袜视频| 国产熟睡乱子伦视频网站| 丝袜高跟美脚国产1区| 不卡午夜视频| 日本不卡在线| 亚洲成人动漫在线| 狠狠色狠狠色综合久久第一次| 狠狠色丁香婷婷综合| 中文无码毛片又爽又刺激| 四虎永久在线精品国产免费| 无码中文字幕精品推荐| 国产在线自揄拍揄视频网站| 波多野结衣无码中文字幕在线观看一区二区 | 亚洲国产中文综合专区在| 国产精品999在线| 久久这里只有精品2| 亚洲浓毛av| 亚洲福利视频一区二区| 青青久久91| 成人在线视频一区| 91欧美亚洲国产五月天| 欧美一区二区福利视频| 毛片网站在线看| 亚洲日本中文综合在线| 欧美笫一页| 少妇人妻无码首页|