摘要:語義分析是自然語言領域研究的重要課題,其目的是讓計算機能理解與處理句子中的語義信息。本文以認知概念為基礎指導,使用現實世界中的事物及其性質、狀態、行為等知識,對句子進行處理以得到包含語義信息的語義特征,用于指導對句子的后續語義分析工作。驗證和分析顯示,構造的語義特征提高了對漢語句子語義表達的完整和準確性,可以避免歧義,得出句子正確的語法結構,為更廣泛有效的語義分析奠定了基礎。
關鍵詞:認知概念;語法結構;語義分析;自然語言理解;語義特征
中圖分類號:TP18 文獻標識碼:A
文章編號:1009-3044(2024)22-0011-03
開放科學(資源服務)標識碼(OSID)
0 引言
近年來,以信息時代的發展浪潮為背景,網絡上文本信息量迅速膨脹。為了幫助人們應對海量信息,自然語言處理(NLP) 在信息技術領域的地位越來越重要,已經是人工智能最重要的研究方向之一。它運用計算機對自然語言進行正確的語義分析,以實現人與計算機之間的無障礙溝通為最終目的。而對句子進行正確的語義分析,就是根據句子的句法結構和句中每個實詞的詞義,推導出能夠反映這個句子意義的某種形式化表示[1]。
在2016年中文信息學會正式發布的中文信息處理發展報告中,關于語義分析的部分[2],將其進一步劃分為三個層次:詞匯級,句子級和篇章級。其中,句子級的語義分析是指某種可以反映句子含義的形式化表示方法,通常可以根據句法結構或者句中詞義信息推導而來,一般分為深層語義分析和淺層語義分析。深層語義分析需要深入理解句子中所包含的多層次的語義信息,過于復雜,經過幾十年的發展,取得的效果并不理想。淺層語義分析是對深層語義分析的一種簡化,不對整個句子進行詳細的語義分析,而是通過提取特征,即計算機能夠處理的邏輯形式,以特征進行語義分析。在語義分析中,Luke最早采取使用數據庫中預定義的謂詞論元和附屬論元,通過人工標記數據的方法進行特征訓練[3]。現有的這些數據庫如GeoQuery[4]、Wikipedia[5]、Yago[6]、WebQestion[7]等。由于這些數據庫中預先定義的謂詞數量有限,而且此類方法側重的特征表示方法是從語句到謂詞論元結構上的轉換,沒有深入到語義層面真正地理解句子的語義,所以后續對句子語義的分析并不理想。Xue等人[8-9]在其研究工作中使用句法樹信息進行特征表示,例如句子中附屬論元相對于謂詞論元的位置前后等,有效地構成了包含更多信息的特征,擴大了特征空間。然而,一些語法結構復雜的句子使用句子結構信息的特征不能準確完整地表達句子語義,使得其應用領域受限,只能應用于簡單結構的語句中。
漢語自然語言復雜靈活,語言知識難以規則化。但語義是現實世界中的物質在人頭腦中的影射,人不僅通過句子的字詞、語法結構,還會結合人腦中的認知與知識來完成對句子語義的理解。這類技術的實現非常困難,對其的研究目前還處在實驗階段,但這也是未來語義分析方法的一個重要發展方向。本文將沿著這個方向,依據人的認知與知識概念,針對語義分析中,句子語義的特征構建與表示進行改進與擴展,以指導語義分析,使計算機更好地理解自然語言。
1 相關研究
1.1 認知概念
認知概念是現實世界中的物質在人頭腦中的影射,是人的常識與知識復合形成。認知概念對應現實世界各種事物,包括主觀和客觀的事物,這些事物分別有其不同屬性,如性質、狀態、動作、類屬、組成等。語言學家研究認為:在認知發育的過程中,人類在大腦中建立對世界的基本看法,即概念樹結構,并通過語言來表達這種概念樹結構[10]。因此,構建語義特征需要抓住語言表達的語義本質,才能同樣準確地反映在現實世界對應的認知概念。
1.2 知識庫
知識庫是進行語義分析的重要工具,主要分為基于詞典的知識庫和基于百科的知識庫。
基于詞典的知識庫有 WordNet、FrameNet、知網(HowNet) 等。WordNet是一種大規模的英語詞典,具有復雜的網絡狀結構,并不像傳統詞典那樣僅提供單詞定義和同義詞,而是將英語詞匯組織成一個“同義詞集”的網絡,其中的詞匯不僅以同義詞集的形式組織,還通過不同類型的語義關系連接,如反義詞、上位詞(hypernyms) /下位詞(hyponyms) 、整體詞(holonyms) /部分詞(meronyms) 等。FrameNet是一個基于框架語義學的在線詞典和相關的語料庫,其核心理念是語言中的詞匯和語法現象是通過關聯到特定的“框架”(frames) ,這些框架代表了一系列相關事件、情境、對象或動作的概念化,每一個概念化都與一系列詞條關聯,這些詞條是詞匯條目和它們各自的意義的組合。知網(HowNet) 是最為著名的中文語義知識庫,以漢語和英語的詞語所代表的概念作為對象,用以描述概念與概念之間、概念與其自身所具有的屬性之間的關系。在知網中,各種或簡單或復雜的概念用義原組合起來表示,每個詞的詞義都用義原的組合來解釋。
基于百科的知識庫往往是在線的,以獲得更快的知識更新速度。Freebase集成了多源信息以構建一個全球范圍的語義網絡,其中的數據圍繞“實體”(如人物、地點、事物)和它們之間的“關系”組織。每個實體有唯一標識符,并分類到一種或多種類型中。這些類型定義了實體的屬性和與其他實體的潛在關系,使得數據不僅是文本,還具有明確的語義。YAGO(Yet Another Great Ontology) 從Wikipedia等數據源抽取和整合知識,并利用精細算法最小化錯誤,形成一個精確、多語言且廣泛的本體庫。它還能提供跨語言的知識表示,支持多語言查詢和應用。利用知識庫構建語義特征,需將事物相關內容組織在一起,并體現事物間關聯,才能進行全面的語義分析。
2 漢語句子語義分析
漢語自然語言的最小單位是詞,由詞按照一定的語法規則排列成句。詞、句所表達的實際意義就是自然語言的語義,表達了人對現實世界的認知。
2.1 詞的語義
在漢語的語義學領域,詞被視為最微觀的語義承載體。實體及其固有的特征、狀態和行為這些現實世界的基本要素,在人類認知結構中形成的核心思維概念,都有其符號化的詞匯。每一實體以及其眾多屬性的認知表示,在自然語言的體系中均能找到相應的詞匯符號,且這些概念根據其性質被不同的詞類所劃分和表示。
2.2 句子的語義
句子由詞或短語按一定的語法和規則構建而成,表達一個完整的意思。句子表達其描述的主語所具有的性質、狀態等屬性,并表達其主語與其他事物之間的聯系、變化、相互作用和因果發展等。句子表達的內容和語義是認知概念中的事實、判斷和過程等。
2.3 語義分析的難點
自然語言是現實世界的映照。但漢語是語義型語言,重意合而輕形式,其語法靈活,句子結構與次序存在省略但仍不影響含義等現象。并且由于存在多義詞、同義詞,同一個詞語在不同句子中可成為不同的語法成分,從而產生歧義。例如,“吃飯”和“吃驚”,同一個詞語在不同的搭配中,表達不同的語義。歧義會影響自然語言處理的語義分析效果。人們能夠正確理解自然語言所包含的語義是因為除了理解組成句子的字詞和語法結構以外,還可以使用自己的知識與認知加以分析,從而排除不符合語境的那個語義。因此,我們基于認知概念,利用事物與其行為、性狀、屬性以及其他事物間的固有聯系,構建語義特征,來指導解決語義分析問題。
3 語義特征分析法
3.1 語義特征
語義特征來源于語義學中的語義成分分析法。語義特征數量眾多,性質復雜,理論上講也許可以窮盡,但實踐中無法做到。對于語義特征,從不同的角度有不同的分類方法[11]。
1) 自然性語義特征是從基本的意義、概念和邏輯中分解出來的語義特征,是語義特征的主體部分,數量最多、最豐富、最復雜。盡管詞語的固有語義特性源自其相對穩定的詞匯含義,這一點歸屬于語法分析的領域。它依賴于句法結構,并具有語法上的價值。因此,從性質和數量的角度考慮,這不與詞語的理論意義相等同。
2) 聚合性語義特征是從聚合的角度劃分出來的語義特征。聚合性語義特征脫離于句子,是從詞語與詞語之間的關聯性中分離而出的一類。
3) 附屬性語義特征指語義中那些非自然性的、主觀的部分。包括語義的感情色彩、詞語的語體色彩和形象色彩。
4) 組合性語義特征根據詞匯與其他句中詞匯的搭配關系而界定的一種語義特征,它對詞匯與其他相聯系詞匯之間的語義匹配產生影響。雖然自然性語義特征可以獨立于句子存在,組合性語義特征卻是在與其他詞匯結合時才顯現其特點。這種語義特征建立在詞匯的自然含義之上,卻必須與其他詞匯發生聯系后才展現,故此得名“組合性語義屬性”。
3.2 語義分析過程
語義特征是詞的一種屬性,不論實詞與虛詞。它的獨特作用在于解釋詞在同一句法格式的不同句子中,各自具有的某種特點,這種特點能夠將其與同形的句法格式區分開來。例如:“綠”“綠油油的”,兩者表達同樣的基本詞匯意象,但在語義特征中有所區別。我們基于認知概念建立語義特征模型(S,P,M) ,S表示事物主體,P表示事物的屬性狀態,M表示事物屬性狀態的聯系發展。對于“綠”和“綠油油的”,構建語義特征模型 <s1,p,m1>、<s2,p,m2>。可以發現兩者的區別不在于表達的屬性p:“綠色”上,而是在于m1:“性質”與m2:“性質的狀況或情態”,這種與其他客體聯系狀態的區別可以完整地反映在兩個主題的語法功能上。
傳統語義特征在處理句子“李華借小明一支筆”時,借這個詞具有歧義,影響后續語義分析效果。我們基于認知概念,為“借”字的語義特征增加維度M,即m1:“給予”,m2:“獲取”,從而解決歧義問題。通過分析詞匯的語義屬性,我們可以準確地辨識出如何圍繞一個主義素的相關義素構建起的語義領域,無論大小,并且觀察到在這些領域內詞匯系統如何持續地發生動態變化:主義素定位于中心,而其他義素在其周圍形成有序的修飾層級,扮演輔助性角色;然而,在特定的語義領域中,這些非主義素便轉化為區分不同詞語的關鍵性質。
4 特征表示實驗與評價
本文使用字典、詞典和常識百科知識為基礎,針對相關小型、限定領域的多種語法結構進行分析,以驗證基于認知常識的語義特征分析表示能力。使用構造率來評價特征分析結果,構造率=正確有效的特征數量/句子中的語法成分數量。例如:句子“他吃飯”的語法成分數量為兩個,分別是主語和謂語,構造語義特征為S(p) ,詞語和語法成分信息沒有損失,語義表達完整,即構造率為100%。而句子“他在食堂吃飯”,對于傳統表達S(p) 無法表達出狀語信息,構造率為2/3=67%。而利用語義特征分析構造特征可以得到m(s) S(p) ,充分表達了三個語法成分,完整保留了原句子的語義信息。通過實驗驗證,直接通過語法結構來分析表示漢語句子的語義特征時,構造率為75%左右。而與語義知識結合,句子的語義特征構造率可以達到95%以上。實例分析結果表明,基于認知概念進行語義分析,可以比較有效地獲得有歧義句子的語法結構和語法成分、理解句子語義,從而指導后續語義分析工作。
5 結束語
基于認知概念對句子進行分析得到的語義特征,能更規范、結構化地表示現實世界的事物及其屬性、行為、相互聯系和影響。由于包含更多的語義信息,這種方法有助于解決語義分析中的歧義問題,因此成為自然語言理解和語義分析的未來研究方向之一。
然而,漢語語言具有超出其他語言的靈活性,因此在保證語義特征的準確性和充足性方面面臨挑戰。為了進行跨領域的句子語義分析,需要整合不同領域的知識。如何有效地管理、查詢相應的知識,并運用于特征表示,是下一步需要繼續研究的重要方向。
參考文獻:
[1] 劉懷軍, 車萬翔, 劉挺. 中文語義角色標注的特征工程[C]//中國中文信息學會. 第三屆學生計算語言學研討會論文集. 哈爾濱: 哈爾濱工業大學計算機學院, 2006: 79-84.
[2] 中國中文信息學會. 中文信息處理發展報告[EB/OL]. (2016-12-10)[2022-02-20].https://max.book118.com/html/2018/0304/ 155824031.shtm.
[3] ZETTLEMOYER L S, COLLINS M. Learning to map sentences to logical form: Structured classification with probabilistic categorial grammars[C]//Proceedings of the Twenty-First Conference on Uncertainty in Artificial Intelligence. Edinburgh, Scotland: UAI, 2005: 658-666.
[4] SAPAROV A,SARASWAT V,MITCHELL T.A probabilistic generative grammar for semantic parsing[C]//Proceedings of the 21st Conference on Computational Natural Language Learning (CoNLL 2017).Vancouver,Canada.Stroudsburg,PA,USA:Association for Computational Linguistics,2017:248 - 259.
[5] DU X Y,CARDIE C.Harvesting paragraph-level question-answer pairs from wikipedia[C]//Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics (Volume 1:Long Papers).Melbourne,Australia.Stroudsburg,PA,USA:Association for Computational Linguistics,2018:1907-1917.
[6] REBELE T,SUCHANEK F,HOFFART J,et al.YAGO:A multilingual knowledge base from wikipedia,wordnet,and geonames[C]//International Semantic Web Conference.Cham:Springer,2016:177-185.
[7] ZHANG Y C,PASUPAT P,LIANG P.Macro grammars and holistic triggering for efficient semantic parsing[C]//Proceedings of the 2017 Conference on Empirical Methods in Natural Language Processing.Copenhagen,Denmark.Stroudsburg,PA,USA:Association for Computational Linguistics,2017:1214-1223.
[8] XUE N, PALMER M. Calibrating features for semantic role labeling[C]//Proceedings of the 2004 Conference on Empirical Methods in Natural Language Processing. Barcelona, Spain: EMNLP, 2004.
[9] XUE N, PALMER M. Automatic semantic role labeling for Chinese verbs[C]//Proceedings of the 19th International Joint Conference on Artificial Intelligence. Edinburgh, Scotland: IJCAI, 2005.
[10] 程工.讀喬姆斯基《語言與思維研究中的進展》[J].外語教學與研究,2001,33(3):233-236.
[11] 邵敬敏,周芍.語義特征的界定與提取方法[J].外語教學與研究,2005,37(1):21-28.
【通聯編輯:唐一東】