趙林暢,馬惠鈴,張 牧,顧大剛,李良炎
(1.貴陽學院 數學與信息科學學院, 貴州 貴陽 550005;2.貴陽市觀山湖區大數據發展管理局, 貴州 貴陽 550081;3.重慶大學 外國語學院,重慶 400030)
人類創造和使用語言是為了表達意義,如果將語言和意義剝離開來,語言仍然是一種意義,它通常由人的意識產生和激活。例如:我們用語言“蘋果”表達頭腦中的意義“蘋果”,這是在意識中完成的,因為“蘋果”和“蘋果”都屬于意義。
正是從這個角度出發,對意義的研究是基礎,即對語言文字和語音形式的研究也屬于對意義的研究。因此,句法形式化和語義形式化從根本上都屬于意義形式化。
意義形式化的目標是探索意義的基本結構,并表示為數學模型,這是一項極富挑戰性的工作。該研究以二元組為數學工具,綜合多門學科概念和原理進行分析,探究意義基本結構的形式化描述——信息依存模型(Information Dependency Model,IDM )。該模型最初由李良炎于2009年給出定義,并在《信息依存句法標注模型》中進行了論述[1]。本文在其研究基礎上,進一步探究信息依存模型結構并論述其應用。
意義是什么,是自古以來人類一直在苦苦探索的奧秘,不過意義總是與人有關,從不同觀點出發對意義有不同的認識。李良炎教授在初期探索中給出:“意義是人對主客觀世界中特定現象的意識”,從心理學角度給出了“意義”定義,并指出:人總是處于一定的物質世界中,并以大腦為物質依托,具有意識和復雜的內心世界。物質世界總是在不斷運動變化,產生紛繁復雜的物質現象,人的內心世界也隨著人的意識而不斷發展變化,產生紛繁復雜的心理現象。
因此,意義不屬于物質,它是人對主客觀世界中特定現象的意識,而人的意識就是意義發生器。它只存在于人的內心世界中,人的大腦就是意義的物質載體。
圖式是人對預設與突顯的整體意識,屬于意義,具有預設的意義稱為突顯。圖式強調具有條件關系的不同意義在意識上構成一個整體,它屬于意義。而主客觀世界中的特定現象并不是孤立存在的,總是以其他特定現象為條件時才能被人所意識[2]。人對主客觀世界中特定現象條件的意識又被稱為預設,有了預設和突顯,進而得出圖式定義。
圖式中突顯屬于前景,預設屬于背景,客觀上前景不可能脫離背景而存在。即使是主觀世界也存在預設,在主觀世界上以人為預設的成分。而人從根本上以客觀世界為預設成分,即:“人的預設是一切社會關系的總和”,若沒有這一預設,“人”就不能成其為“人”,要認識一個“人”,就要充分地認識其預設的成分“社會關系”。
由于任何意義都存在預設,因此在形式上,任何意義既可以記為突顯,也可以記為圖式。突顯是意義的待證明形式,即假設;圖式為意義的已證明形式,即結論。假設用來表示預設未知的意義,結論用來表示預設已知的意義[3]。假設與結論具有相對性。假設等價于預設為空的結論;相對于結論的預設,結論也只能是假設。這里的假設與結論是僅僅從表達式的形式特征而言的。
綜上,從意義的定義出發,本文分析了由預設、突顯及其條件關系構成的圖式結構,并得出圖式結構本質上是一種條件關系的信息結構,接下來就信息結構進行分析。
事物是人對主客觀世界中特定現象的整體意識,屬于意義。如:物質現象之間存在物質作用現象;心理現象之間存在心理作用現象。在人的意識中,作用現象本身與發出或接受作用的特定現象之間存在區別[4]。通常情況下,如果將發出或接受作用的特定現象視為事物,事物之間的相互作用現象就是事物之間的關系。由于在人的意識中,關系之間還可能具有關系,因此關系還可以視為事物。
此外,一個尚未與其他事物建立關系的孤立事物也是事物,因為事物是意義在人意識中的一種整體呈現,其本質與作用無關,而與整體有關。這里的整體就是心理學中的格式塔。由此,基于整體給出事物的定義,基于作用給出關系的定義。因此,由心理學的圖形背景理論和格式塔原理給出了整體事物定義[5]。即從事物在意識上的整體來看,一方面明確了該事物與其他事物的邊界;另一方面暫時忽略了該事物各部分之間的邊界。從圖形背景理論來看,邊界以內為前景(事物)、以外為背景(其他事物)。
由于邊界具有主觀性,在同一事物的邊界內再分出邊界則可以分解事物,融合不同事物的邊界則可以組合成一個整體的事物。因此,人對多個事物的整體意識稱為復雜事物,在人的意識中不是復雜事物的事物稱為簡單事物。復雜事物與簡單事物是相對的,復雜事物中包含的多個事物相對來說就是簡單事物。
關系是人對主客觀世界中特定現象之間作用現象的整體意識,屬于事物,具有方向性和層次性。由于關系之間還可能具有關系,因此根據事物的定義,關系也可以視為事物,多種關系可以形成關系層次結構。
從客觀角度分析,特定現象之間的作用具有方向性,因此關系也具有方向性。例如,蘋果在桌子上面的同時就不可能桌子也在蘋果上面。而有些關系似乎沒有方向性,或者說是雙向的,則必然是一種復合關系,屬于關系的集合[6]。例如,朋友關系就是兩個人分別把對方當作自己的朋友。從主觀角度特定現象之間的相互作用具有層次性,一方面與關系有關的兩個事物不可能具有相同的地位;另一方面關系具有統領兩個事物的核心地位。這在語義分析中表現得十分明顯。
一個意義的預設就是由該意義與所有其他事物的預設關系構成,任何意義必然存在預設,因此事物不可能脫離關系而存在。當然,由于認識不足的原因,主觀上預設可能為空,因此,事物相對關系來說又具有一定的獨立性。但關系則很難獨立于一定的事物。例如,沒有具體事物的上下關系只是一種抽象的意義,人除了借助“上”或“下”這些符號以外幾乎無法把握[7]。
綜上,由事物及其關系構成了信息結構。信息結構雖能描述信息的方向性和層次性,但不夠準確,為更加準確地描述信息的方向性和層次性,接下來進一步分析信息、信息依存以及信息依存模型。
從意義的語言表達來看,語言要表達的意義是事物及其關系,若孤立地表達事物或關系是不夠的,只有將事物及其關系作為整體表達出來才有具體的意義。用語言以外的其他表達方式表達意義也同樣如此,因此,有必要將事物及其關系視為一個整體。一般情況,若一個事物及其關系被視為一個整體的意義,則稱為信息,屬于復雜事物,可以用二元組
由于關系屬于事物,信息也屬于事物,如果在事物層面上對二元組進行嵌套操作,即可表示完全具體的意義以及由信息及其關系構成的復雜意義[8]。因此,對于兩個事物及其關系可以視為一個整體的意義,稱為完整信息,屬于信息,其實質是二元組的嵌套。
信息及其關系可以視為一個整體的意義,稱為組合信息,屬于信息。其實質是用一個信息置換另一個信息中的事物得到的嵌套二元組。完整信息是用新信息對信息中關系進行擴展,組合信息是用新信息對信息中事物進行擴展,兩者的基礎結構均為前向信息或后向信息。
根據關系的層次性,在信息
信息中關系對事物的依賴稱為信息依存。信息依存是融合關系的方向性和層次性得到的一種新型關系,便于準確而簡潔地形式化描述信息。從數學的函數表達式來看,關系是函數,事物是參數,函數規定了對特定類型和參數進行計算的過程,但計算結果卻依賴于具體的參數輸入[9]。參數是相對獨立的,同一個具體參數可以輸入不同的函數得到不同結果。函數是相對依賴的,特定函數只依賴于特定類型和數量的參數,否則無法計算。
二元組屬于序列結構,因此只能表示關系的方向性,無法同時表示關系的層次性。例如,在二元組<蘋果,在上面>中,誰是關系誰是事物從結構上無法判定。組合信息與完整信息之間也無法從結構上進行區別。但是信息依存本身就是一種關系,因此可以考慮嵌入二元組,構成嵌套二元組后再予以簡化,從而準確地表示關系的方向性和層次性,實現對信息的準確形式化描述。
在信息
在信息<%, r>中,%作為關系仍然信息依存于r,還可以表示為<<%, %>,r>,信息依存模型為%>r,簡化并默認為r;在信息
根據信息的定義,e
IDM用一種特殊的層次圖進行表示,稱為信息依存圖。信息依存圖作為IDM的等價表示,能夠準確無誤地表示關系的方向性和層次性。用結點橫向的前后關系表示關系的方向性,用結點縱向的上下關系表示關系的層次性,并將信息前項或信息后項與信息接口聯通,則前向信息e>r和后向信息r>e的信息依存如圖1所示。
圖1 前向與后向信息依存
復雜信息由簡單信息嵌套而成,其本質是用子信息對父信息的e或r進行置換擴展。組合信息是用子信息對父信息的e進行置換擴展。以[e 圖2 組合信息依存圖構造 語言常用于表達意義,各種各樣的符號也能表達意義。相對語言而言,符號更一般。符號學是專門研究符號的學科,被公認的現代符號學之父是瑞士語言學家索緒爾和美國哲學家皮爾斯。索緒爾在由其學生整理出版的《普通語言學教程》中預言了符號學的建立,并將語言學歸屬于符號學。皮爾斯從哲學角度對符號進行了邏輯分析,認為符號具有三元性,即由代表者、對象和解釋項構成。本文從信息依存角度對符號進行了認知分析,提出了異議表達的四元觀,即符義、信號、信映、符號。符義表達意義,信號表達符義的物質載體,信映是人感知信號的直觀映像,符號是人泛化信映獲得的相似結構。在具體的符義記錄和交流過程中,接收者通過被信號激活的符號來理解要表達的符義,擁有情境解釋性。 信映中記映和信映的組合方式稱為信映結構,信號中記號和信號的組合方式稱為信號結構,符義中符號的組合方式稱為符義結構。但記映是記號的直觀映像,因此信映結構也是信號結構的直觀映像,兩者具有結構同一性。而符義是人主觀賦予信號的,符義結構決定于意義自身的結構[10]。信號是物質,符義是意義,因此符義結構與信號結構具有質的區別。符號結構既是信映結構的泛化,同時又能夠激活符義結構,因此符號結構必然是在信映結構和符義結構雙重制約下形成的一種復合結構。 記映屬于事物,人由記號感知到記映就是將記號與其他記號區別開來作為一個整體,因此只有先認識這個記號,才能認識下一個記號。人獲得不同記映的時間先后關系稱為順序關系,如果記號之間存在動態空間關系,則這種順序關系被其客觀性決定。反之,如果記號之間存在靜態空間關系,則這種順序關系由人的意識主觀性決定。 順序關系是時間上的先后關系,因此是不可逆的。客觀上,一個運動狀態發生在另一個運動狀態之后就不可能是發生在之前。主觀上,人先獲得一個記映再獲得另一個記映就不可能是相反的順序。信映結構是兩個記映及其順序關系,可以用前向完整信息表示,即IDM為b0<[》b1],簡化為b0b1。其中B0為t0時刻出現的記映,B1為t1時刻出現的記映,為順序關系,即t0< t1。這種表示兩個記符及其順序關系的序列結構稱為符號序列模型(Sign Sequence Model,SSM ),而基于IDM的嵌套序列結構是可以擴展的,如3個記符的序列結構為b0b1b2,其IDM為b0<[ 符義屬于意義,符義結構屬于意義組合。根據IDM,意義只能通過關系組合在一起,也就是必須以信息為單位,信息可以用IDM表示,因此符義結構可以用IDM表示。表示符義結構的IDM稱為符義依存模型(Signified Dependency Model, S' DM )。由于子符號都有對應的符義,如果用子符號取代S' DM中的對應符義則得到一個與S' DM有相同結構的符號IDM。這種表示符義結構的符號IDM稱為符號依存模型(Sign Dependency Model,SDM ) 。SDM與SSM的區別在于前者的單位是子符號,后者的單位是記符;SDM是一種嵌套結構,SSM是一種線性結構;SSM只與信映結構和信號結構有關,SDM只與符義結構有關。由于存在這些根本差異,一個SSM可能對應于多個SDM,但一個SDM只能對應于一個SSM。SDM基于子符號S' DM構造,SSM基于記符及其順序關系IDM構造,本質上都屬于IDM,它們都以IDM為基礎,因此SSM和SDM統稱為信息依存符號模型(Informat-ion Dependency Sign Model,IDSM )。 個人賴以社會化的文本符號和語音符號統稱為語言符號,簡稱語言,文本符號簡稱文本,語音符號簡稱語音,文本和語音是語言的基本構成。文本和語音作為符號,必然由對應的記符構成,文本記符稱為字符,語音記符稱為音節,字符和音節統稱為語符。文本由字符序列構成,語音由音節序列構成。語言構成的符號稱為語言系統,文本構成的符號稱為文本系統,語音構成的符號稱為語音系統。人類有很多符號系統,但語言符號系統對人的重要性更大,已經成為人類最基本的思維工具。在一種成熟的語言中,文本與語音通常具有對應關系,即在表達確定語義前提下,文本總是有對應的語音可讀,語音總是有對應的文本可記錄。語言對應的符號序列模型稱為語言序列模型(Lansign Sequence Model,LSM),語言對應的符號依存模型稱為語言依存模型(Lansign Dependency Model,LDM),語言對應的信息依存符號模型稱為信息依存語言模型(Information Dependency Lansign Model, IDLM)。 語言屬于符號,語符屬于記符,元語言屬于元符號,因此語符組合成元語言、元語言組合成更大的符號以表達語義。元語言是具有語義的最小語言單位,它可以按語言序列模型LSM組合成語言。元語言按語言序列模型組合而成的稱為語素,單個元語言也是語素。判斷語素的依據是能夠分析其LDM,也就是說,語素的意義可以理解為LDM構成成分。語素按語言依存模型組合而成為語塊,判斷語塊的依據是能夠分析其LDM成分。完整的語塊應當表達完整信息,這樣才能滿足人們語義記錄和交流信息需要[11]。LDM是從符號依存關系出發,LSM是從符號序列關系出發,均是在符號系統進行研究。以信息依存符號IDSM為基礎,對自然語言的基本性質、單位、句法結構、優化與不確定性進行研究,將信息依存符號模型擴展到信息依存語言模型IDLM,簡稱語言模型(Lansign Model, LM)。 信息依存語言模型IDLM以一種面向語料庫建設的句法標注為理論,該理論是以認知語法基本原理為指導,在融合短語結構語法和依存語法基本結構的基礎上創建的一種面向語料庫建設的形式化句法理論。它在整合短語結構語法和依存語法基礎上,注重語言描寫和解釋,具有句法、語義一體化的特點。相對信息依存符號IDSM來說,信息依存語言模型IDLM增加了語素前綴、編碼前綴和寄存器結構,從而提高了對語言的描寫能力。 本文從意義的定義出發,分析了由預設、突顯及其條件關系構成的圖式結構,由事物及其關系構成的信息結構,分析了信息、信息依存以及信息依存模型。并在剖析信息依存模型IDM基礎上,將其應用于符號學和語言學,并提出了面向語料庫建設的句法標注模型信息依存符號模型IDSM和信息依存語言模型IDLM,這類模型融合了認知語法、短語結構語法和依存語法等知識,為語料庫句法標注提供了一套解決方案,為語言學研究提供了新視角。也是對語料庫句法標注的規范和知識的完善與補充,為人工標注提供了一套相對合理的規范與參考。意義的形式化描述作為語料庫建設的核心知識,是計算機自動標注程序實現的基礎,是自動化語料庫建設的基礎研究。因此,對意義基本結構的探索,不僅有助于意義的形式化描述,還能更好地促進語料庫的建設與發展。4 實際應用
4.1 應用于符號學
4.2 應用于語言學
5 結語