在人類生境約束下思考語言的設計原理和運作機制*

2022-11-15 02:00:16袁毓林

語言戰略研究 2022年6期

袁毓林

（澳門大學人文學院中國語言文學系澳門 999078；北京大學中文系/中國語言學研究中心/計算語言學教育部重點實驗室北京 100871）

提要文章述評了霍凱特提出的人類語言的13種設計特征，并重點討論其中的語言符號離散性和二元構型特征。從自然語言處理的角度看，離散性使語言符號的形式與意義之間存在著語義鴻溝，需要把自然語言的詞向量化為連續性數值才可以進行計算，這種運算的結果可以從語言學上進行解釋。由于語言系統和生物系統在二元構型上存在相似性，可以將自然語言處理的一些模型運用于生物分子研究領域。根據托馬塞洛關于人類溝通的起源和合作性心理平臺的學說，任何訴諸語言本身有某種繁復而自足的深層結構的幻想都是不切實際的，語言學家應該把語言置于人類生境（即人類進化與生存的現實境況）下，來思考語言的設計原理和運作機制，從而對語言的結構方式和功能效用有更加切實的了解，進而開辟一種更具人文主義情懷的語言學研究進路。

一、引言：語言研究受人類生境的約束

語言研究面臨的第一道門檻是問題的提出和方法的抉擇，而問題和方法的確定又往往取決于研究者對于語言的結構與功能、來源與演化等根本問題的認識。為了檢討我們秉持的基于人文主義的語法研究道路的合理性，本文首先介紹和簡評霍凱特（Hockett 1960）提出的人類語言的13種設計特征，然后討論對于語言符號離散性的3種理解及其各自的側重點，再介紹在自然語言處理領域中，怎樣用“詞嵌入”模型，把離散性的語言符號向量化為連續性數值，以及這種詞向量在有關計算任務中的應用與效果；接著介紹和討論語言系統和生物系統在二元構型（雙重分節性）上的相似性，特別是由這種二元雙層編碼的相似性而引發的、自然語言處理的有關算法和模型在生物分子領域中的運用及其效果；最后介紹和評論托馬塞洛（Tomasello 2010）關于人類溝通的社會起源和語言奠基于其上的合作性心理平臺的學說，主張語言學家應該把語言置于人類進化與生存的現實境況（簡稱“生境”）下，來思考語言的設計原理和運作機制，從而對語言的結構方式和功能效用有更加切實的了解，進而開辟一種更具人文主義情懷的語言學研究進路（approach）。也就是說，語言研究受人類生境的約束，語言理論只能戴著現實語言生境的鐐銬跳舞，要丟掉任何不切實際的企圖為語言建造一座宮殿的幻想（袁毓林2019）。

二、人類語言系統的設計特征

霍凱特（Hockett 1960：90～92）首次提出人類語言有13種設計特征，包括：①對這些設計特征的名稱的翻譯，參考了王士元（2017：9），但不完全相同。對于這些特征的解釋、舉例和說明，我們加入了自己的認識。如果要引用，務請核對原文。

（1）口耳通道（vocal-auditory channel）②vocal-auditory channel可以有“發聲-聽覺通道、口叫-耳聽通道”等多種翻譯。。它區別于手語的姿勢、蜜蜂的跳舞、刺魚的求愛儀式；它的好處是可以解放手腳等身體部位，便于人類在交談的同時從事其他活動。

（2）四散傳播與定向接收（broadcast transmission and directional reception）。一個語言信號可以被一定范圍內的任何聽覺系統聽到，并且聲音來源可以用雙耳鎖定。

（3）迅速消失（rapid fading）。這意味著語言信號不會為了聽者的方便而多停留一會兒，不同于動物的足跡和臭跡會保持一段時間。所以人類發明了書寫記錄，這是人類非常晚近的文化進化的成果。

顯然，（2）（3）兩點是由聲音的物理性質決定的，也是（1）的不可避免的結果。

（4）互換性（interchangeability）。說話人可以產出任何他可以理解的語言消息。但是，雄性刺魚和雌性刺魚各自特有的求愛示意動作卻是互不相同的，雙方都不能使用對方的合適動作。另外，人類母嬰之間進行交際時，雙方都不適合發出對方特有的信號，或者做出對方典型的回應表達。

（5）完全反饋（total feedback）。當人類說話時，他會注意聽跟他說話相關的一切事物；而雄性刺魚并不會看它自己的眼睛和腹部的色彩，盡管它主要以此來刺激雌性刺魚。反饋是十分重要的，因為它使得所謂的交際行為的內化成為可能；而這種內化的交際行為至少構成了思維的主要部分。

顯然，這（4）（5）兩點是通過跟其他交際系統進行比較才得以明確的。

（6）專門化（specialization）。它說的是：身體努力和發出言語聲波只是讓它成為一種信號。一只狗喘著氣吐出舌頭，給自己降溫和保持合適的體溫，但這只是一種生理動作。在吐舌喘氣的同時，它可能偶爾附帶著發出一些聲音，從而會讓其他狗（或人）知道它在哪兒和感覺如何；但是，這種傳遞信息的方式并不是專門化的。

（7）語義性（semanticity）。指在語言中，一段消息觸發了特定的結果，因為消息中的構成成分（比如詞）跟我們周圍世界中反復出現的特征或情境有一種相對固定的聯系。例如，英語單詞salt指鹽，而不是糖或胡椒粉。據此，上面（6）中狗的吐舌行為不具備語義性，它不是一個意指狗很熱的信號，而只是狗很熱的一個部分（一種表現）。長臂猿的呼叫則具有語義性。長臂猿有一種表示危險的叫聲，其意義并不比我們叫喊“火！”更寬泛和模糊。

（8）任意性（arbitrariness）。在一個語義交際系統中，有意義的消息成分跟其意義之間的聯結可以是任意的或非任意的；但是，在語言中這種聯結是任意的。比如，英語單詞salt并不是鹽，dog并不是狗；whale（鯨）形體短小卻表示一種很大的物體，而microorganism（微生物）形體較大卻表示一種很小的物體。相反，圖畫看上去就像其所畫的事物。如果一只蜜蜂要報告它發現的蜜源地很近，它會跳舞跳得很快；如果很遠，就跳得很慢?！叭我庑浴边@種設計特征有任意武斷這種不利之處，但是也有其巨大的優勢：對于要交際的內容沒有什么限制。

（9）離散性（discreteness）。盡管人類的發音器官可以發出許多不同的聲音，但是任何一種語言卻只使用其中很少的一部分聲音；并且，這些不同的一部分聲音之間的差別在功能上是絕對的（不受限制的）。比如，英語單詞pin和bin對于耳朵來說只在清濁這一點上有差別。如果說話人在說pin時跑了音，朝著bin的發音方向去了，帶著噪聲說了pin（或bin），但聽話人很可能基于語境仍能明白說話人說的是什么單詞。這種語言的基本的、構成信號的單元中的離散性特征，不同于通過嗓音示意的方式來進行的對聲音效果的使用。后者存在一種實際上是連續的程度等級，比如，人們在表示憤怒的時候會提高聲音，而在表示信任時會降低聲音。

（10）超越時空（displacement）。顯然人類在這一點上幾乎是唯一的：可以談論在空間或時間（或兩者）上距離交談當下及地點遙遠的事物。這種超越時空特征在人類近親的發聲打信號行為中無疑是缺乏的，盡管它倒是出現在蜜蜂的跳舞打信號行為中。

（11）能產性（productivity）。指語言有這樣一種性能：說出以前從來沒有說過或聽過的話語，并且能夠被操這種語言的其他人理解。如果一只長臂猿發出任何叫聲，那只是一個小型的由數量有限的熟悉的叫聲組成的庫藏中的這一種或那一種。長臂猿的呼叫系統是封閉的。而語言是開放的，或者說是能產的，人們可以創造新的話語，把在舊的話語中熟悉的片段放在一起，按照在舊的話語中熟悉的配列模型來組裝。

（12）傳統傳授（traditional transmission）。人類基因中帶有獲得語言的性能，也許還有一種很強的獲得語言的內驅力；但是，任何一種語言的許多具體而微的慣例卻是通過教和學來代際傳授的。這種“傳統傳授”在長臂猿的呼叫系統或其他哺乳動物的發聲信號中到底起什么或多大作用，還不得而知；盡管在一些實例中，同一種系的動物（不管它們在世界的哪個地方）的發聲的一致性，在很大程度上要歸因于其基因。

（13）二元構型（duality of patterning）①王士元（2017：9）譯作“二重層級性”，其實也可以譯作“雙層構型”，或者“構型的兩重性”。。任何語言中有意義的成分，日常語言所謂的“詞”，或者語言學家所謂的“語素”，其數量都是十分龐大的。然而它們卻是由一組數量較少的具有區別性的語音經過數量不多的配列方式來表示的，并且這些語音本身是不具有意義的。這種二元構型可以用英語單詞tack、cat和act來說明：雖然它們在整體意義上各不相同，但是它們都是由3個相同的基礎的不表示意義的語音經過不同的排列組成的。其實，這種二元構型就是通常所說的“雙重分節”。

霍凱特（Hockett 1960：92）指出：這13個設計特征并不都是各不相關的，其中有一些是互相依存的。特別是，一個系統不可能是任意的或非任意的，除非它是語義的（即只有語義性交際系統，才談得上其形式與意義之間的關系是任意的還是非任意的——袁按）；同樣，一個系統不可能具有二元構型特點，除非它是語義的（即只有語義性交際系統，才談得上其形式表示意義的方式是否是二元構型的——袁按）。并且，這個列舉也不企圖囊括不同種系的交際行為的所有已經發現的特征，而只包含對于語言來說顯然重要的特征。

根據霍凱特（Hockett 1960：93）的圖示，陸地哺乳動物以下的爬行動物、兩棲動物、脊椎動物、脊索動物不采用口叫-耳聽式交際，其交際系統也不具備上述13個設計特征。大象之類的陸地熱血哺乳動物，具有社會行為，會玩耍，其交際系統具有（1）～（5）特征，即發聲-耳聽通道、迅速消失、完全反饋、互換性、四散傳播與定向接收；猴子等靈長類動物，具有雜食性，有可動的面部肌肉，擁有雙眼視覺和雙手，還能夠手-眼協調，其交際系統除了（1）～（5）之外，還具有（6）～（8）特征，即專門化、語義性、任意性；古猿雖然可以雙足行走，但不能直立，偶爾使用工具，其交際系統除了（1）～（8）之外，還具有2種特征，即（9）離散性和（12）傳統傳授；而人類會制造和攜帶工具，有喉嚨和軟腭，具有幽默感、元音色彩和音樂，其交際系統除了（1）～（9）和（12）之外，還具有3種特征，即（10）超越時空、（11）能產性、（13）二元構型。

霍凱特（Hockett 1960：92）指出，這13個特征中的9種已經出現在原始古猿的口叫-耳聽式交際中；并且，這9種特征在今天的長臂猿和人類交際系統中可以得到證實。比如，長臂猿有一打左右不同的呼叫，每一種合適的發聲反應都針對一種反復出現的、生物學上重要的情境類型：發現了食物，察覺到捕食動物，性興趣，需要母親照顧，等等。這樣，探索人類語言的起源問題，就是要確定：這種交際系統是怎樣發展出另外的4種特征（超越時空、能產性、充分發展的傳統傳授、最后發展出來的二元構型）的？從而回應作者在該文章標題之下的題記中所指出的：人類是唯一能夠使用抽象符號來進行交際的動物。但是，這種能力跟其他動物的交際系統共享許多特征，并且正是從這些比較原始的系統中產生出來的。

霍凱特（Hockett 1960）隨后對于人類語言形成這4個特征的條件、生存價值等進行了假設和說明。特別是從可區分的聲音刺激的數量的有限性的角度，解釋了對于人類語言這種復雜的交際系統來說，二元構型是必要的。這里不再贅述。下面兩節，我們將重點討論語言符號的離散性與二元構型特征。

三、語言符號的離散性特征和向量化表示

從文獻上看，關于語言符號的離散性特點，有3種不同的理解。第一種是上文提到的霍凱特（Hockett 1960）所謂的：構成信號的單元（即語音）在區別性功能上的絕對性（不受限制性）。比如，英語等語言，輔音的清濁具有對立功能（能夠區別詞的語音形式，從而區別詞的意義），但是清輔音的送氣與否則不具有對立功能；而漢語普通話，輔音的清濁不具有對立功能，但是清輔音的送氣與否則具有對立功能。換句話說，我們只能把語流中聽到的某個音素，歸類到該語言中具有區別性價值的、數量有限的一套音位的某一個音位之中，不同的音位之間不具有連續性，是非此即彼的。所以，當你聽到一個介于pin和bin之間的英語單詞的含混發音時，你必須斷定它是pin還是bin。顯然，霍凱特（Hockett 1960）所謂的語言系統的離散性設計特征，主要著眼于語言的聲音形式及其類別的非連續性方面。具體指語言的基本的信號單元（音素或音位）之間的區別是絕對的、類別性的，而不是連續的。比如，現代實驗語音學證明：不同元音之間的差別，主要體現在第二共振峰的不同上；并且，對于第二共振峰的一定范圍內的實際音素，母語聽話人要么聽成[o]，要么聽成[u]，要么聽成……，等等；而不會聽成介于[o]和[u]……之間的某種在類別上兩可的元音，如此等等。推而廣之，對于一個語音片段，本地聽話人要么聽成甲詞（如pin）、要么聽成乙詞（如bin）、要么聽成……，而不會聽成是介于甲詞與乙詞……之間的某種兩可的東西。

第二種理解是指連續的語流可以切分成大小不同的分析單位。比如，哈里斯（Harris 1954：158）在討論分布分析可以發現語言成分時指出：“首要的分布事實是：可以把任何語流劃分（切割）成一個個部分，循此我們就可以在特定的語流中，找到某一個部分相對于其他部分的若干出現規律。這些部分是離散性成分，它們在特定的語流中有一定的分布（一組相對的位置）；并且，每一段言語都是一些成分的特定的組合。”他所謂的“語言成分”包括音位、語素、詞、短語以至于句子。與此相似，中國語言學界一般從語言結構可以逐層切分為大小不同的語言單元的角度，來定義語言符號系統的離散性特點。比如，馮志偉（2007：41）對離散性的描述，大意為：連續不斷的語流卻是由許多離散的單元所組成的，包括組合軸上的“段落—句子—短語—詞—語素—音節—音素”及其各聚合類中的離散單元。

第三種理解是自然語言處理文獻上的未加明確定義的用法，大意是指語言符號在形式線索上的疏離性，即語素、詞等語言單位，其在意義上的相關關系通常得不到形式上的表征。比如，即使是“移動電話”和“手機”這樣的同義詞語，除非你已經知道它們所指相同，否則從這兩個詞語的形式本身，你是無從了解它們的意義關系的。結果，語素和詞等語言單元成了一個個疏離（各自獨立、沒有連續性）的單位。這是用“離散性”來反映語言符號的這種象征性的符號學特點。顯然，語言符號的這種離散性特點，是可以從語言符號的任意性上推導出來的。前者強調了單個符號的音義結合的武斷性（arbitrariness，也譯作“任意性”），后者強調符號之間語義關系在形式表征上的不透明性。這就解釋了為什么索緒爾的《普通語言學教程》沒有專門討論語言符號的離散性特點。因為語言符號的音義結合的任意性，規定了語言符號之間的語義關系在形式表征上的不透明性。從數據科學的角度看，文本等自然語言是一種象征性的符號數據，①關于信號數據和符號數據的區別，參考趙軍等（2018：58）。只在某種語言共同體的人們的大腦中具有心理上的實在性。因為，正如索緒爾（1981：4）所指出的，語言符號的音義結合，在邏輯上是任意性的；什么樣的意義用什么樣的聲音來表達，并沒有必然的理由。于是，兩個語言符號（比如，語素或者詞）即使在意義上有關系（比如，同義、反義、類義、上下義、蘊含等），但是在形式上也未必表現出來。這就是自然語言處理文獻上所謂的自然語言符號的離散性特點，及其在數值表示上的不連續性。②語素、詞等語言符號不容易用連續的數值來表示，即使用詞表中的ID號碼（編號）、甚至用獨熱向量（one-hot vector）來表示，也不能反映語義相關的詞語之間的意義聯系。

其實，作為對數據的數學屬性的刻畫，離散是跟連續相對的。比如，一個120名學生的班級考試，如果按百分制計分，那么，學生的成績可以從低到高畫出一條曲線，③這條曲線一般是中間高、兩頭低，能夠反映分數的正態分布：高分段和低分段的人數少，中間分段的人數多。這種連續的分數是一種數值型的連續屬性。如果改成5分制，或者“優秀、良好、及格、不及格”之類的等級制，就是一種有序的離散屬性。據此，上述3種對語言符號的離散性的認識都有一定的道理，都揭示了語言符號非連續性的一個側面，只是側重點有所不同罷了。

從自然語言處理的角度看，語言符號離散性特點的結果是，語言符號的形式與意義之間存在著巨大的空檔。這就是所謂的語義鴻溝現象，①關于語義鴻溝，參考趙軍等（2018：58）。意思是從符號的形式（聲音或者文字）上提取到的信息到符號所表示的意義之間有很大的距離。這種語義鴻溝，給自然語言處理的文本表示和計算處理帶來了巨大的挑戰。為了機器處理的方便，通常需要把自然語言文本的符號數據轉化為數值數據。由于文本的基本單元是詞，因而面向數值計算的詞的表示問題，成為近年來自然語言處理領域的一個熱點問題；并且，形成了一種用數值表示文本實值向量形式的“詞嵌入”（word embedding）技術。這種技術根據哈里斯（Harris 1954）關于“意義相似的詞有相似的分布（即出現在相似的上下文）”的思想，用神經網絡來從文本語料上學習和發現兩個或更多單詞一起出現的概率，從而將意義相似的單詞聚合在一起，在向量空間中形成一個聚類；并且，賦予它們各自獨立但相似的向量。2013年，Google團隊發布了可用以提取詞向量的word2vec工具包，其目標是理解兩個或更多單詞一起出現的概率，從而將具有相似意義的單詞匯聚在一起，在向量空間中形成一個聚類。word2vec本質上是一種只有兩層的淺層神經網絡，其中主要包含兩種語言模型：連續詞袋（continuous bag of words，CBOW）模型和跳字（skipgram）模型。前者基于上下文預測當前單詞，將當前單詞的周圍單詞作為輸入來產生單詞作為輸出；后者將單詞作為輸入，理解單詞的意思，并將其分配給上下文來預測單詞周圍的單詞。打一個比方，前者是玩選詞填空游戲，后者是玩詞語接龍游戲。但是，兩者的共同點是根據本地（附近）單詞的上下文來預測單詞。跟其他深度學習模型一樣，word2vec可以從過去的數據和過去出現的單詞中學習；進而根據過去的事件和上下文，準確地猜測一個單詞的意思，就像我們理解語言的方式一樣。比如，我們聽到或看到“男孩”和“男人”以及“女孩”和“女人”這幾個單詞，如果能夠理解它們的意義，就能夠在它們之間建立聯系。同樣，word2vec也可以形成這種連接，并且為這些單詞生成向量。這些單詞被緊密地放在同一個簇中，以確保機器知道這些單詞意味著類似的事情。一旦給了word2vec一個語料庫，它就會產生一個詞匯表；其中，每一個單詞都有一個自己的向量。這就是所謂的神經詞嵌入。簡單地說，這個神經詞嵌入是一個用數字寫的單詞。②以上參考Bokka et al.（2019）§1.5，中譯本第13～16頁。當然，中間加入了我們的理解和發揮。

由于這種詞向量是連續的數值，因而可以進行加減運算。并且，這種運算的結果可以從語言學上進行解釋，從而具有語言學的意義。比如，Man（男人）和Woman（女人）之間的詞向量距離跟King（國王）和Queen（王后）之間的距離大致相同，方向也一樣。結果，用king這個詞的向量（記作：Wking）減去man的詞向量（記作：Wman），再加上woman的詞向量（記作：Wwoman），得到的與結果最近的詞是queen。也就是說，在詞向量空間里，諸如Wking- Wman+ Wwoman≈ Wqueen、Wking- Wman≈ Wqueen-Wwoman這樣的等式關系基本成立。同樣的等式關系還適用于形容詞的原形和最高級，比如：Wbiggest-Wbig+Wsmall≈ Wsmallest、Wbiggest- Wbig≈ Wsmallest- Wsmall，等等。③參考Goldberg（2017），中譯本第122頁；詳見Mikolov et al.（2013）。如果說在等式 Wbiggest- Wbig≈ Wsmallest-Wsmall中，等號前后的向量值大概地表示了“英語形容詞最高級”之類的概念或意義，那么在下列等式WParis- WFrance≈ WRome- WItaly中，等號前后的向量值大概地表示了“首都”之類的概念或意義。這種結果是語言學家所始料未及的。

四、語言與生物類似的二元構型和編碼模型

關于語言在構型上的雙層性特點，袁毓林（1998）在前賢研究及其相關文獻的基礎上，進行了總結?，F在擇要簡述如下。

語言是一個層級系統，它通過屬于純形式的音位層次的分級組合和屬于音義結合體的符號層次的分級組合，產生無窮多的形式，來表示人類交際所需的無窮多的意義。這就是人類語言信息編碼的雙重分節原理。雙重指語言由音位和符號兩個大的層級構成，分節指在音位和符號層上分別都可以由較小的單位組成較大的單位?？梢员硎救缦拢?/p>

音位→音節→音節群?語素→詞→詞組→句子

雙重分節的編碼原理使語言成為一種極為經濟而有效的信息系統，通過大約50個最基本的語音元素的多層次組合來表示無窮的意義。

袁毓林（1998）還在相關生物學文獻的基礎上，綜述和構想了生物遺傳信息編碼與人類語言信息編碼在雙重分節方面的類同性。

生物體也是一個層級系統，可以表示為：

細胞→組織→器官→系統

比層級性更有意思的是，如果把生物體的性狀看作一種信息或意義，把生物性狀賴以實現或表達出來的生化物質基礎看作一種信號或符號，那么可以發現：生物信息的編碼（即生物性狀跟其生化物質基礎之間的表達或實現關系）明顯地遵循了雙重分節的原理。比如，人體的10萬種生物性狀是由10萬種蛋白質決定的。奇妙的是，決定人體性狀的10萬種蛋白質是僅由20種氨基酸通過不同的排列來造成的。幾個、幾十個到幾百個氨基酸以一定的順序連接起來，組成一條條長長短短的多肽鏈。多肽鏈又可以盤旋折疊，形成蛋白質的高級結構。

概略地說，氨基酸是一種分子中同時含有氨基和羧基的有機化合物，是組成蛋白質的基本單位。氨是氮和氫的化合物，化學分子式為NH3；氨基是氨分子中失去1個氫原子而形成的一價原子團（-NH2）。羧基是由羰基和羥基組成的一價原子團（-COOH），羰基是由碳和氧兩種原子組成的二價原子團（=C=O），羥基是由氫和氧兩種原子組成的一價原子團（-OH）。也就是說，通過氫、氧、碳、氮4種元素在不同層次上的分級組合形成數以萬計的蛋白質，從而為實現或表示數以萬計的生物性狀提供了足夠的生化物質。這種生物信息的編碼方式，可以圖示于下：

如果把生化物質跟語言形式做一個類比，那么這里的原子相當于音素或音位，原子團相當于音節，分子相當于音節群；它們都是用有限的基本形式，通過分級組合的方式來形成無窮多的復雜形式，用以實現或表達無窮多的信息。

現在，生物學家已經知道，組成DNA大分子的核苷酸都是由糖、磷酸和堿基組成的，它們的成分基本相同；其中的糖分子是脫氧核糖，所含的堿基有4種：腺嘌呤（A）、胞嘧啶（C）、鳥嘌呤（G）和胸腺嘧啶（T）。因此，不同的核苷酸鏈（即DNA）的差異就在于堿基排列次序的不同。正是DNA分子中的這種堿基的順序決定了組成蛋白質分子的氨基酸的順序。也就是說，遺傳信息是由4種堿基通過一定的排列次序來編碼的。這種為氨基酸在蛋白質中的排列順序編碼的DNA上面的堿基順序，就是著名的遺傳密碼。

自然界的生物千變萬化，為什么僅靠這4個堿基就能蘊藏和表示這么多信息，創造出如此眾多的生物呢？其中很重要的一點是采用了雙重分節的結構原則：不是用一個堿基直接來表示一種氨基酸，而是用三個堿基組成的三聯體來表示一種氨基酸；①因此，這種三聯體被稱為“密碼子”（codon）。不是用一個氨基酸分子來實現一種生物性狀，而是用多個氨基酸組成的蛋白質大分子來實現一種生物性狀。有了這樣一種翻番增量的結構原則，再加上一個DNA上可以有上億個堿基對給這樣的物質材料做基礎，生物的多樣性問題也就不難理解了。

既然生物分子在功能性構造方面跟自然語言有以下的平行性：

最小的信號單位：A、G、C、T4個堿基～30來個音位/字母

最小的信息單位：20種氨基酸/核苷酸鏈～幾千個語素/幾萬個單詞

復合的信息單位：蛋白質/基因片段～句子

全局的信息單位：蛋白質復合體/基因～段落

那么，自然會讓人想到：處理自然語言卓有成效的有關算法，能不能運用到生物分子領域呢？畢竟，DNA中有31.6個堿基對，三聯碼的起止有時不好判斷。也就是說，DNA鏈中處處有歧義。比如：……。這看起來是個終止符，而那跟它部分交接的看起來是個天冬氨酸。于是，只能把所有可能的排列全都統計一遍。其中，所統計的DNA（或RNA）中長度為K的子序列稱為K-mer。這種子序列的頻率信息，可以應用到跟基因相關的諸多任務中。比如，基因組錯配檢測、致病基因檢測、重復序列檢測、重組點位檢測、蛋白質生產速率控制、基因突變或多態性鑒定、人類線粒體單倍群分類、物種分類、物種豐富度估算，等等。盡管由于每3個核苷酸編碼一個氨基酸，即3個核苷酸構成一個傳遞生物信息的密碼子，因而，K = 3是一個具有生物學意義的取值；但是，它也會導致特殊信息的丟失。比如，……ATGTGTGTGTGTGTGTGTG……，其實只是在復讀。而且，1個密碼子最多對應1個氨基酸，那只是蛋白質的“字母”。如果要理解一段基因序列的功能，顯然K需要取更大的值。也就是說，不同的K值有不同的作用。

Asgari & Mofrad（2015）首次將Word2Vec的思想運用到蛋白質分類領域，提出了Protein Vector（ProtVec）和Gene Vector（GeneVec）的概念。這種做法基于蛋白質“結構決定功能”的假說：蛋白質是由氨基酸排列而成后，憑借分子內和分子間作用力形成特定的空間結構，然后發揮功能的。具體地說，氨基酸序列形成蛋白質的一級結構，由氫鍵導致的折疊形成蛋白質的二級結構，由多個二級結構在空間中排列后的三維結構形成蛋白質的三級結構（單條肽鏈），一條以上的肽鏈相互作用形成的蛋白質分子形成蛋白質的四級結構。這樣，當氨基酸的排列相似時，蛋白質的空間結構也會相似，最終功能就會相似。如果這個理論成立，那么蛋白質分類就能參考自然語言處理上比較文本相似度的辦法來尋找模型。Asgari & Mofrad（2015）據此將氨基酸片段轉換為向量，即ProtVec。為了驗證ProtVec有意義，他們用氨基酸向量之和來表示蛋白質，并利用二分類模型“支持向量機”（SVM）對長度相近的蛋白質進行分類。結果，在7020個蛋白質族中，平均達到了93%以上的準確率。這顯示出，Prot-Vec確實能夠較好地區分不同類型的蛋白質。特別是對于“氨基酸排列不變，但沒有穩定的三維結構”的無序蛋白質，ProtVec的分類效果很好。這可能是因為ProtVec關注的是蛋白質的第一、二級結構所包含的信息?；蛳蛄縂eneVec跟蛋白質向量ProtVec的使用假設基本類似，目前它們主要用于：蛋白質分類、蛋白質結構可視化、蛋白質空間結構預測、蛋白質反應機理分析、蛋白質功能預測、基序提取、基因段功能檢測、功能性基因檢測，等等。

值得一提的是，自然語言處理模型正在不斷演進，處理效果也在不斷提升。2018年，Google團隊在Transformer架構的基礎上，開發了預訓練語言模型BERT（Bidirectional Encoder Representation from Transformers，基于轉換器的雙向編碼表示模型），在多項自然語言處理任務上取得了當時的最好成績。BERT在各種自然語言處理任務上的運用越來越廣泛，以至于有人喊出“萬物皆可BERT”的口號。于是，也有人嘗試把BERT模型引入生物分子領域，進行分子功能預測。但是，至今在效果和合理性方面都沒有出彩的表現。

總之，基于自然語言和生物分子在信息編碼方面的某種相似性，自然語言處理中的一些思想和模型是可以運用到生物分子研究領域的。但是，許多神經網絡模型是針對自然語言數據的結構特點而設計的，它們在生物分子等研究領域的適用性問題，尚需做進一步的研究。當然，我們樂意看到將來有朝一日，有人發現（或發明）能夠同時適用于人類語言和生物編碼的通用模型。①以上關于將自然語言處理中的“詞向量”等運用于生物分子的介紹，根據白鹡鸰（2020）。

五、人類語言交際的起源和所依托的心理平臺

至少從表面上看，使用有聲語言進行交往溝通是人類跟動物的顯著差別。因此，反過來說，觀察和研究語言可以讓人類更好地認識自己的本性。平克（Pinker 2007）指出：

語言與人類生活有密切不可分的關系。我們不僅用語言傳遞信息、游說他人，我們也用它來威脅、引誘他人，當然，語言還可以用來發誓賭咒。語言反映了我們對現實的領悟，不僅如此，它還是我們留在他人心目中的活生生的印象，是把人們緊密聯系在一起的紐帶。我希望你也能相信這個事實：語言是通向人性的窗口。（前言，第II頁）

仔細觀察我們的語言——人們的交談、玩笑、詛咒、法律糾紛、為嬰兒取的名字，能讓我們對“我們到底是誰”這個問題有更加深刻的感悟。（前言，第I頁）

那么，自然語言這種人類溝通方式是怎樣產生的？或者說，它是建立在什么樣的心智或心理基礎上的呢？對此，托馬塞洛（Tomasello 2010）提出了下列富有啟發意義的語言演化假設：

人類最初的溝通模式，就是比手劃腳（即自然的手勢——引按），以手指物是人類獨有的原始溝通形式。手勢這種由社會認知及社會動機的基礎結構所促成的新的溝通模式，便形成了一種心理平臺。不同系統、各種規約的（conventional）語言溝通模式（總共6000種），就奠基在這層平臺之上。比手劃腳是人類溝通的演化史上最關鍵的過渡點，體現了人類獨有的社會認知與社會動機形式，這些都是后來發展規約的語言所必備的。（中譯本第2頁。引文中有少量自己的改譯，與中譯本文字不盡相同，如果要引用，務請核對原文。下同。——引按）

為什么這種貌似簡陋不過的以手比物、指指點點，居然能夠成為人類溝通的肇始和標志，并且成為約定俗成的有聲語言得以奠基于其上的心理平臺呢？托馬塞洛（Tomasello 2010）別具洞察力地揭開了一個人們通常熟視無睹的秘密，即人類手勢直指具有一種利他性的社會化功用：

人類以手指物這個平凡的動作，從演化論的角度來看，還有個不平凡的方面，就是它的利社會動機（prosocial motivation）。我用手指一指圖書館邊上那輛好像是你前男友的自行車，從而提醒你：他可能在里面，你還要不要進去；這是因為，我認為這可能是你想知道的事情。在人以外的動物界里，這種有效傳遞信息的溝通相當罕見，即使是我們的近親靈長類也不會如此……。因此，當小黑猩猩嗚咽地尋找媽媽時，鄰近的其他黑猩猩也都會知道。但是，即使它們知道它的媽媽在哪兒，也不會特地伸出前臂指點或比劃一下。（中譯本第4頁）

你看，人獸之間，就差這么一點點：能不能伸出友愛的小手指點一下下。顯然，利他性的社會動機有助于滋養人類的團結與合作精神，培養更加社會化的主體（subject）與主體交互（intersubject）意識。托馬塞洛（Tomasello 2010）特別強調人類溝通的合作性質：

人類的溝通動機基本上是合作性的，我們不僅會告知對別人有幫助的事，而且當我們對別人有所求時所用的主要方法之一，就是讓別人知道我渴望什么，并期待他們會主動協助。所以我若想喝杯水，可以明說我要水（告訴你我想要的），我也知道多半情況下，你主動協助的傾向（我們彼此都知道的），會把我這個告知的舉動，有效地轉變成充分發展的請求。

人類的溝通行為本質上是一種合作的事業，在（1）彼此假定的共同概念基礎下，（2）彼此假定的合作溝通動機下，以最自然且平順的方式進行。（中譯本第4頁）

其實，也正是這種根深蒂固的合作精神及其在交際雙方之間的不言自明性，培育了一種人類的主體間性（intersubjectivity）：我們對特定情境中事物的感覺、經驗、認知、理解等，并不是專屬于我們個人的，而是為我們的社團群體所共享的。這構成了我們可以互相交際、互相理解的基礎。正是在這種心心相印的共享空間中，我們實現了人際交往和語言溝通。①詳見 Fultner（2012 ：216）。

托馬塞洛（Tomasello 2010）還嘗試揭示人類溝通在精神和心理方面的條件：

共同概念基礎（common conceptual ground）包括共同的注意力、共有的經驗、相同的文化知識。這是人類溝通必備的重要條件。（中譯本第3～4頁）

人類合作行為以共享意圖（shared intentionality）為前提條件，這種活動的主體一定是復數的“我們”：大家有共同的目標、共同的意念、共有的知識、共享的信仰——而且都是在具有合作動機的情境下進行。（中譯本第5頁）

人類的合作式溝通（不管用自然的手勢，還是武斷的語言規約）是人類獨有的合作活動之一例。它同樣以共享意圖為基礎。共享意圖的［社會認知］技巧與［利社會的］動機（與常規），構成了人類溝通的合作性的基礎結構。

對于人類溝通如何從自然的手勢發展到規約的語言，托馬塞洛（Tomasello 2010）勾畫了如下這幅宏偉的草圖：

以手指物（pointing）奠基于人類自然而然地會循著別人的目光凝視物品，比劃示意（pantomiming）則基于人類會自發地解讀別人的動作。這種自然的反應，讓手勢成為由人猿的溝通進步到武斷的語言溝通之間的過渡點。

在互助活動的情境下，參與者間有共同的意圖與關注，并借由自然的手勢溝通來協調，演化史上武斷的語言規約才會隨之誕生。約定俗成的語言（先是手語式的，再來才是口說的）于是依附在已知的手勢上，以共享的（而且眾人彼此知道是共享的）社會學習經驗，取代了自然的比手劃腳。這個過程當然是由人類獨特的文化學習和模仿技能所促成，讓他們得以用獨特的有利方式，從他人也從自己的意念狀態學習。同樣也是在演化過程中，人類開始創造并傳遞文化中由不同的語法規約組成的復雜語言結構，并將繁復的信息以不同的語言結構編碼為不同的類別（types），以便運用在反復出現的溝通環境中。

對人類溝通及語言所持的這種觀點，可以說推翻了喬姆斯基的言論，因為人類溝通中最基礎的方面，是因應一般的合作與社會互動所產生的生理調適，而純語言的溝通，包括語法方面，則是由文化建構，并經由個別的語言社群代代相傳。（中譯本第7～8頁）

人類溝通的基本的社會意圖/動機：分享、告知、請求。（中譯本第91頁）

托馬塞洛（Tomasello 2010）還構擬了下面這個基于合作的語言交際的圖示（中譯本第72頁）：

圖1 合作式人類溝通簡圖（C =溝通者；R =接收者）

這就是人類語言交際的現實生態，任何訴諸語言本身有某種繁復而自足的深層結構的幻想，都是不切實際的。要知道，目前我們對人腦的工作機理所知甚少。我們只知道不同物種的神經元數量有巨大的差別。據報道：蛔蟲有302個神經元，果蠅有10萬個神經元，老鼠有7500萬個神經元，貓有10億個神經元，黑猩猩有67億個神經元。而人類有860億個神經元，大腦神經元之間的連接約150萬億個。但是，人類對于自己大腦的工作機制充滿困惑。神經科學家還沒有辦法詳細解釋：大腦神經元之間的電化活動交互作用，是如何變成我們腦海中的想法、情緒、記憶和推理活動的？也就是說，支撐語言生成和理解的人類神經系統是非常唯物和機械的；雖然神經元的數量極其龐大，但是神經元之間的作用方式只有簡單的連接和斷開兩種狀態。這是腦科學對語言學理論的一種剛性的約束。

六、結語：在人類社會互動和文化實踐的視域下研究語言

我們相信，語言是現代人類最近20萬年以來通過改造手勢、叫聲等溝通手段逐步演化出來的；雖然有聲語言提高了人類交際的效率，但是在面對面交流時仍有高達2/3的語義依靠肢體動作、眼神表情乃至心理默契等非語言信號。①出處失記，特此說明和致歉。因此，語言是一種不完善的“編碼-解碼”型信息系統，必然依賴于“示意-推理”等關聯性合作機制。雖然我們贊成喬姆斯基的觀點——兒童生下來頭腦中并非白板一塊，而是有各種先驗的認知結構和語言能力，但是我們相信，在語言運用中，交際雙方共享的基于經驗的概念結構是認知結構和語言能力發揮作用的基礎性認知資源，對于語句構成及其意義識解起著重要的作用；并且，各種認知模塊之間有著廣泛的交流和互動，語言官能并不是一種獨立的認知系統。

正是在上述思想的啟迪下，我們進行了幾個基于社會互動和文化實踐的語句意義識解的個案研究，來解釋漢語、英語、日語和韓語中的相關現象。下面舉3個案例。

案例一：基于接近心理和樂觀原則的接近性副詞及相關句式的句法語義研究。詳見袁毓林（2013）和袁毓林、鄭仁貞（2015）。

案例二：基于勞酬均衡原理的“白”類副詞及其相關句子的語義識解研究。詳見袁毓林（2014a）和樸珉娥、袁毓林（2015）。

案例三：基于疑善信惡心理的“懷疑”類動詞識解的跨語言比較研究。詳見袁毓林（2014b）和樸敏浚、袁毓林（2016）。

通過這幾個語義識解案例的研究，我們發現，人們對于特定詞語和構式的語義理解是一個句法、詞匯、語義、語用等多平面知識互動的過程；并且，期間還要援引“反通常性”的“疑善信惡”之類社會心理學原則。顯然，這種語義識解是基于社會互動文化和實踐經驗的。

在人類生境約束下思考語言的設計原理和運作機制*

一、引言：語言研究受人類生境的約束

二、人類語言系統的設計特征

三、語言符號的離散性特征和向量化表示

四、語言與生物類似的二元構型和編碼模型

五、人類語言交際的起源和所依托的心理平臺

六、結語：在人類社會互動和文化實踐的視域下研究語言

二、人類語言系統的設計特征

三、語言符號的離散性特征和向量化表示

五、人類語言交際的起源和所依托的心理平臺

六、結語：在人類社會互動和文化實踐的視域下研究語言