曲塔吉 安見才讓



摘? 要: 研究語義是當前人工智能、語義網、語義詞典等研究領域的熱點,它可以有效支持機器翻譯和自然語言處理等技術。文章根據藏文獨特的文法特性,運用藏文邏輯格和計算語言學知識,在保留藏文原有特點的基礎上,為藏文語義關系抽取方法建立較完整的語義場,以此為藏文語義詞典建設提供了基礎性構建方法。
關鍵詞: 語義; 藏文格助詞; 語義關系抽取; 自然語言處理
中圖分類號:TP391.1? ? ? ? ? 文獻標識碼:A? ? ?文章編號:1006-8228(2021)02-46-03
Abstract: Semantic research is a hot topic in artificial intelligence, semantic web, semantic dictionary and other research fields. It can effectively support machine translation and natural language processing. According to the unique grammatical characteristics of Tibetan, this paper utilizes the knowledge of Tibetan logic case and computational linguistics, and on the basis of retaining the original characteristics of Tibetan, establishes a relatively complete semantic field for Tibetan semantic relationship extraction method, so as to provide a basic construction method for the construction of Tibetan semantic dictionary.
Key words: semantics; Tibetan case particle; semantic relation extraction; natural language processing
0 引言
近年來,自然語言處理技術為具有傳承價值的民族文字提供了很多優質的推廣平臺。現有相關算法有效解決了藏民族在自然語言處理技術方面遇到的各種問題,尤其是在藏文字的輸入與處理、機器翻譯等領域有了不少研究性成果,并在民族地區有了廣泛的應用,很多網站都添加了藏文字顯示的功能。
但是,藏文語義詞典建設中語義關系的抽取方法還值得進一步研究。因此,本文在藏文語義關系抽取方法當中深入分析了藏文語義關系的各種性質和特征;還將藏文字文法知識當中的格助詞應用于其中,因為在藏文語義關系抽取過程當中[1],藏文句子單詞與單詞的結合、單詞與短語的結合要添加很多具有各種應用表達作用的格助詞,才能有效的把句子與句末的動詞相結合,然后根據句子結構當中語法的多變性,將句子結構的復雜性通過語法的方式表達出句子更多不同的含義。
1 相關工作
通過了解語義及語義關系相關的含義、特征以及關系分析,可以系統的分析一個詞或一個句子的意思,對藏文語義關系抽取提供有力的語料庫標注參考價值。
1.1 含義
語義[1]在藏語中稱為“????????”,即語言的意義。是詞生成句子后,通過不同的表達形式完善語言的意義。語義關系是指在句法結構、文法結構當中由某個詞語或句子的語義范疇所建立起來的關系,既能聯系整個句子的邏輯關系也能表達其中的語義關系。
1.2 特征
語義的特征[2]能將詞語中符合組合選擇的、有區別性特征的最小語義成分分析出來;能幫助整理詞類序列相同、內部構造層次相同的語義類;可以對產生歧義的詞語語義類進行再細分,凸顯同一語義類的不同詞語之間的差異等,如表1所示。
語義特征分析能有效的描述語言的結構規則,最大限度分析出句子當中語義結構間錯綜復雜的關系,從而讓句子的內容變得簡單易懂、更好的解釋語言現象。
1.3 藏文格助詞
藏文格助詞[1]能通過藏文句子自身的特點對藏文字獨有的結構規則和特征進行分析,按照給定的語法規則推導出藏文句子的結構規律;還能根據其結構規律將句子的句法單位與它們之間的關系聯系在一起,再把最小的語義成分組成更大的語義成分,更細致的分析有名詞、代詞的句子當中發生的各種結構關系,對藏文語義關系抽取方法的研究起到了語料庫標注的參考價值。
2 句法關系分析和語義關系分析
句法關系分析[3]是對某個句子當中的主謂賓、動賓等進行結構性的分析;語義關系分析[3]是對句子的意思進行意義和語法分析,將句子里包括的格助詞(施事、受事、時間、處所等)做進一步分析,以此達到句法關系與語義關系抽取的最佳效果。
藏文單詞在進入句子以后,詞語與詞語之間會形成一種詞匯意義之外的關系。這種關系是要通過一定的結構形式來表現的,是單詞在語句結構中體現出來的意義。它不同于詞匯意義,也不同于句法意義,但又屬于語法意義。因此,語義的相關知識細化句法知識,句法知識概括了語義知識,也加強了語義關系的解釋力。如表2所示。
3 基于藏文詞典建設的語義關系抽取方法
研究是藏文語義關系抽取[3]首先要建立藏語詞典和規則庫,字典中存放藏文詞性標注和藏文角色標注,在規則庫中存放藏文的相關語法規則,由于藏文、漢語、英語的句法規則有很大的區別,例如漢語一般是主謂賓結構,但藏文一般是主賓謂結構,所研究藏文語義關系抽取可采用以下三種方法。
⑴ 建立語義場
建立語義場[4],就是要對語義特征進行系統化表述。比如建立上下位關系、整體與部分關系、反義/同義關系等等。可以細分各種各樣的關系,可以將同一個環境當中的事物聯系在一起,也可以用意義同類的組織詞匯原則的方式進行同類歸類。如圖1所示。
⑵ 依賴語義知識進行詞義消歧
語義知識消歧,是為了在抽取語義關系時提高句子意義的準確率和識別率[5]。如表3所示。
⑶ 語言篩選
語言篩選是選用語義篩選和句法篩選兩種方法,以此來判斷一個詞或者整個句子的句法語義關系。
語義角色篩選[6] 語義篩選利用藏文文法當中的處所、動作、結果等語義角色篩選描述語言用處的成分,但不篩選句子當中存在的格助詞。如表4所示。
詞性篩選 詞性篩選利用藏文的詞性分析將整個句子的名詞、動詞、形容詞等放在語義關系識別的語言范疇內。如表5所示。
4 總結與展望
基于藏文語義詞典建設中的語義關系抽取是分析句法語義的一種手段。在參考英語、漢語的語義關系抽取知識后,可以采用學習英語、漢語對詞義進行義素分析或格分析的方法進行進一步研究,加強對藏文語義關系抽取方法的語義知識體系的把握。但是,在此基礎上分析的藏文語義關系抽取方法在進行篩選和排除時[3],存在著相當大的難處,尤其句子形式與意義的非一一對應性的句子(比如:一個形式多個意義的詞性多義詞、一個意義多個形式的句子同義結構的句子)需要花大量的人工進行再三分析標注,越復雜的隱含句子,越容易產生錯誤意義,會導致結果的抽取識別率下降。
下一步將分析研究計算機語義理論和方法研究的結合,來獲取藏文語義信息處理所需的技術和方法,以提高藏文字詞匯分析和句子結構分析的準確性,提高藏語言信息處理的理解性,為監控和檢索藏語信息處理水平提供理論支撐和實用參考。
參考文獻(References):
[1] 格桑居冕.實用藏文文法教程修訂版[M].四川民族出版社,2011.
[2] 安見才讓.藏文信息處理原理與技術實現[M].青海民族出版社,2017.
[3] 東主才讓.語言學概論[M].青海民族出版社,2013.
[4] 俞士汶.計算語言學[M].北京商務印書館,2003.
[5] 何晗.自然語言處理入門[M].人民郵電出版社,2019.
[6] 龍從軍.基于多策略的藏語語義角色標注研究[J].中文信息學報,2014.