999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于語義向量的漢語動詞“看”用法研究*

2023-03-07 07:57:04王義娜
湖州師范學院學報 2023年1期
關鍵詞:語義結構研究

楊 藝,王義娜

(北京航空航天大學,北京 100191)

人類通過視覺、聽覺、觸覺、嗅覺、味覺等感知方式與客觀世界進行互動。在多種語言中,感知動詞是人類表達對世界認知的語言載體。Viberg發現,視覺感知在五類感知情態中最為突顯,數量也最多,且語義具有多樣性和統治性[1]113-162。因此,視覺動詞在整個感知動詞范疇中具有重要且特別的地位。

視覺動詞“看”是現代漢語中最高頻使用的感知動詞。首先,通過檢索大型語料庫,發現北京大學中國語言研究中心的CCL語料庫中共有541 666個“看”的例句,北京語言大學開發的BCC漢語語料庫中共有3 723 796個“看”的例句。“看”在《現代漢語頻率詞典》中使用度和頻率排名第31位,在動詞中的頻率僅次于“來、去、到”,在感知動詞中頻率最高[2]492。此外,以往研究均表明了“看”具有多義性。《現代漢語詞典(第7版)》中“看”有9個釋義、44個詞條。中文詞匯網絡(https://lope.linguistics.ntu.edu.tw/cwn2/query/)中“看”有12個詞義。以上詞頻統計均可證明“看”是漢語母語者最常用的動詞之一。

以往研究主要運用定性或語料庫定量方法考察少數“看”類詞或短語,本研究以分布語義理論(distributional semantics)為基礎,結合計算語言學的語義向量(semantic vectors)方法和語言學統計研究方法,對感知動詞“看”所組成的二字、三字、四字詞匯或短語進行定量研究。

一、現代漢語動詞“看”的多義性與多功能性

(一)動詞“看”的多義性

與其他感知動詞相比,視覺動詞更具多義性。《現代漢語詞典(第7版)》[3]729-730中的“看”共有9個釋義:(1)使視線接觸人或物;(2)觀察并加以判斷;(3)取決于;決定于;(4)訪問;探望;(5)對待;(6)診治;(7)照料;(8)用在表示動作或變化的詞或詞組前面,表示預見到某種變化趨勢,或者提醒對方注意可能發生或將要發生的某種不好的事情或情況;(9)用在動詞或動詞結構后面,表示試一試。

中文詞匯網絡是由臺灣地區學者開發的中文詞匯釋義平臺(https://lope.linguistics.ntu.edu.tw//cwn2/),在對外漢語中運用廣泛,具有一定的國際影響力[4]14-23。其認為漢語動詞“看”包括以下語義:(1)用眼睛觀察;(2)仔細查看特定對象;(3)仔細觀察,作為判斷或決定的標準;(4)透過視覺來理解或欣賞;(5)以特定態度對待;(6)決定于后述條件;(7)拜訪、探望后述對象;(8)醫生診治病人;(9)病人接受診治;(10)對事件做判斷;(11)提醒,注意;(12)時態標記,表事件或動作的嘗試。

雖然上述兩種文獻對“看”的詞義界定存在分歧,但是可以發現“看”具有多義性。“看”的語義涵蓋了視覺感知、觀察、判斷/推斷、認知、就醫、人際交往、嘗試態標記等多個維度。

與此同時,“看”類結構非常豐富,既有被詞典收錄的動詞,又有成為短語或話語標記的二、三、四字結構,它們彼此之間的聯系也較為復雜。以往研究往往關注幾個“看”類結構之間的比較[5]9,“你看”或“我看”的比較[6]8,或者是“看”與其他動詞“想、說”等的橫向對比[7]5,鮮有文獻對“看”的所有用法進行整體研究。

(二)動詞“看”的多功能性

以往研究對于“看”的多功能研究,主要從四個方面展開:(1)感知動詞;(2)情態;(3)言據/傳信;(4)話語標記。由于絕大多數研究“看”的文章均提到了其作為感知動詞本身的用法,本文主要關注“看”作為情態、言據、話語標記時的用法。

以往研究表明,“看”類結構可以充當表達言者對命題確信程度的情態標記。趙彧認為,“看起來、看上去、看情況、看樣子”的虛化過程經歷了從“行域到知域、句法主語到言者主語、命題成分到情態成分、自由度低到高”四個階段[8]50-59。范偉將部分“看”類結構劃分成情態成分,認為“看起來、看來、看樣子、看上去、看似”表達確信程度較低的揣測型認識情態[9]76-82。

“看”類表達不僅可以表達感知,還可以表達基于感知或推斷的言據(信息來源)[10]11[11]65-78。朱永生認為,“看、看到、聽到、聽說”等動詞可以表達言據,其中“看到、聽到”的言據性強,“看”的言據性中等,“聽說”的言據性最弱[12]7。

“看”的短語也可以充當話語標記。曹秀玲等認為“我看、你看”可以形成征詢意見的一對表達,其中“你看”要求聽者發表意見和看法,“我看”用于表達言者的意見或推斷[13]13。“你看”更可以表示“尋求對方認同、勸慰和說服對方、責備抱怨”等用法。曹秀玲等對漢語中的“看來、看起來、看上去、看樣子、看這意思、如此看來、由此看來、這么看來、這樣看來”等結構進行研究后發現,“看”類結構從感知動詞逐漸演變成了元話語標記,是表達推斷的主要形式[14]13-20。

綜上所述,現代漢語動詞“看”相關的用法具有多義性與多功能性。基于此,我們提出以下研究問題:基于語料訓練而成的語義向量能否反映前人研究中所發現的特征?語義向量能否幫助我們發現其他特征?

二、研究方法與研究對象

(一)研究方法

分布語義學起源于Harris提出的分布假設,其核心觀點是“The distribution of an element will be understood as the sum of all its environments”,即一個元素的分布是它所有環境的總和[15]146-162。Firth認為“word is characterized by the company it keeps.”(一個詞的特點是由它周圍共現的詞來體現的)[16]1-32。換言之,兩個詞的分布環境越相似,其語義和功能就越相似。說明兩者的分布具有相似性,也就是功能較為相似。而且,利用分布語義學理論發現的相似詞不一定是近義詞,也可以是反義詞、上義詞、下義詞等[17]149-188。反義詞往往會和相似的詞共現,說明二者在功能上具有相似性,其差異僅僅體現在語義對立的程度上。這一理論是語料庫語言學和計算語言學研究語義的重要基礎。

此后,由認知語言學家Gries和Divjak提出的行為特征分析法也將這一思想沿用到了多義詞與近義詞的分析對比研究中[18]75[19]153-164。他們對句中的主語、謂語、賓語、狀語、補語等進行細粒度標記,再運用聚類分析等統計工具對近義詞或多義詞進行分類,以找出相似的語義或相似的詞。這一方法曾用于研究俄語“嘗試”類動詞[20]23-60和英語“主要”義副詞[21]198-288,為詞義消歧和近義詞區分提供了很好的方法。但是這一方法需要人工標注,工作量較大,可以研究的范圍也很有限。

同樣基于分布語義學的語義向量,是一種基于機器學習與自然語言處理的新技術,早期只要運用于機器學習和心理語言學等領域,近年來逐漸運用至具體語言現象的研究。Baayen等結合計算語言學與定量語言學的研究方法,提出語義的相似性可以由分布的相似性來體現,而分布的相似性可以由向量的相似性來體現[22]1-39。Hilpert明確指出,基于類符(token-based)的語義向量空間(semantic vector spaces)不僅能夠運用至語料庫研究中,還可以運用在理論驅動的研究中[23]393-424。這一思想是運用語義向量對比語義相似性的理論基礎。其優勢在于:語義向量由計算語言學家利用真實語料庫訓練而成,是一串可以用于計算的數值型向量,比行為特征分析法中的細粒度標注更加高效,可以研究的范圍更廣,不再局限于少數幾個詞或構式的對比研究。

本研究擬基于上述語義向量的研究方法,利用騰訊人工智能實驗室開發的向量數據庫(https://ai.tencent.com/ailab/nlp/en/embedding.html),對比漢語中“看”類結構的內部區別與聯系。騰訊的向量數據庫基于最新的漢語使用實例訓練而成,既包含詞匯,又包含短語,每一個表達有一個200維度的向量,保留至小數點后第6位。本文以“看到”和“看起來”為例,在騰訊的向量數據庫中會提取到以下信息(1)為節省空間,文中僅列出每個詞向量的前10個維度。:

看到 -0.227 376 0.265 075 -0.010 188 0.057 698 0.057 491 -0.105 616 -0.021 323 -0.195 779

-0.301 350 -0.101 818……

看起來 -0.191 275 0.169 436 0.315 327 0.046 116 -0.087 502 0.188 463 -0.048 364 -0.153 132

-0.120 526 0.335 885……

但是,數值型向量本身不具有可解釋性。因此,在獲取向量后,還需要運用降維技術對數值進行計算處理。本文運用多維尺度分析(multidimensional scaling,MDS)和t-SNE(t-distributed stochastic neighbour embedding)兩種降維算法將200維的數據投射至兩維的平面上,將數值型向量轉換成距離進行語義對比分析。MDS算法需要先將語義向量轉換成相異性矩陣(dissimilarity matrix),再將相異性矩陣可視化。這一算法的優點是可以較為準確地獲取詞與詞之間的距離,以此來判斷它們在語義上的相似性。t-SNE算法擅長抓取數據中的類別,能將數據聚類到二維平面上,但是點與點之間的相對距離不具有可分析性。兩種降維方法各有利弊,后文將結合使用,以便綜合分析。

(二)研究對象

本研究中對于“看”類結構的范圍是基于騰訊的語義向量來決定的,主要考慮以下因素:(1)從結構形式上,只考慮一至四字結構;(2)從頻率上,只考慮在CCL語料庫中頻率較高的用法,排除少數不常用的結構,如“看懵”;(3)從語義上,排除自身語義不能自足的結構,如“我看他”,但是保留了表責備的“你看你”;(4)排除“看”在名詞中的用法,如“看法、看客”。基于以上標準,在騰訊數據庫中檢索包含動詞“看”的所有向量,排除以上情況后,共得到169個由“看”和其他成分組成的結構。這些表達主要包括單音節動詞“看”、雙音節動詞“看到、看見、看來”、雙音節結構“我看”、三音節結構“我看到、看上去、看起來”、四音節結構“由此看來、我們看到、可以看到”。在得到所有包含“看”的詞匯和短語后,在R語言中對上述169個表達進行數據分析,并運用ggplot()函數對語義向量進行可視化。

三、研究發現

通過對上述“看”類詞匯短語進行降維處理,我們發現運用MDS和t-SNE的組合可以發現一些和以往研究相關的規律,且兩者規律存在差別。

如圖1所示,運用MDS對騰訊數據庫中“看”類結構進行可視化后,發現橫軸尺度較大,縱軸尺度較小。dim1主要體現了“看”是否帶有修飾語,體現了“看”類結構的固化程度。整體而言,沒有過多修飾語的“看”類結構位于左側,有時間、方式、結果等修飾語的“看”類結構位于右側。在圖1的最左側,較多的是字典收錄的詞條,如“看、觀看、看見、查看、看到、看待”。即使是未被收錄的四字短語,如“在我看來、可以看到、能夠看到、不難看出”,也都是較為常用且固化的話語標記。隨著橫軸向右,修飾成分與“看”的關系越來越松散。一是出現了“看+補語”的結構,如“看漲、看跌”,表示言者預見到了某種變化趨勢。二是更容易出現主謂結構,如“我看見、記者看到、小編看到、外人看來、人們看到”,這些是常見的“主語+感知動詞”表言據的結構。三是有時間、方式、程度修飾語“看”類結構,如“目前看來、如今看來、表面看來、總的看來、很難看到、回頭看看、短期來看”,越往右結構越松散,在語料庫中對應的頻率也就越低。最靠右的是“笑看、看夠、速看、看膩”等用法,這些結構在漢語中不是一個獨立的詞或短語,與“看”共現部分的語義較為凸顯,在合成新表達時影響了整個詞的語義。

圖1 “看”類結構的語義向量MDS圖

因此,“看”類結構修飾語和固化程度會影響其語義。無修飾語的詞,或是常見動補結構的詞,固化程度更高,語義更加相似。有修飾語且固化程度低的詞,其語義容易受到修飾語的影響,語義差別更大。

dim2非常明顯地反映了漢語中“看”類結構的字數/音節數影響其語義。單音節“看”位于左上方,雙音節結構大部分位于上半部分,三音節結構位于橫軸附近,四音節結構基本上位于圖1下半部分。結合曹秀玲等的研究可以發現,單音節或雙音節結構多為動詞,絕大多數情況下位于句中充當述謂。隨著結構變長,其用法也隨之改變,從句內走到句外,成為小句標記或話語標記。“看”和“觀看”位于圖1左上角,如例1、例2均符合字典釋義中的“用眼睛觀察”,為典型的視覺感知義。

例1:有時有200多人聚在一起觀看這臺9英寸的黑白電視。(2)本文所有例句均來自CCL語料庫。

例2:他最喜歡看日出,每天早上天一亮就爬起來,叫我陪他看太陽。

相比之下,四字短語多為話語標記,其語義更加抽象,主要集中在圖1的下半部分。例3中的“具體來看”是一個話語標記,在上下文中具有承接作用。“具體來看”之前的部分是對于整體的概括,之后的部分則添加了更多細節,如“18枚金牌,亞洲占了11枚”“其中中國5枚、日本3枚、韓國2枚、烏茲別克斯坦1枚”。這些數據為言者表達自身觀點提供了很可靠的論據。

例3:帶領中國隊參加了慕尼黑世錦賽的宋兆年告訴記者,本屆大運會柔道比賽稱得上世界水平,有10個在慕尼黑世錦賽獲得獎牌的運動員前來參賽,其中包括4名世界冠軍。“具體來看,亞洲柔道還是占有一定的優勢。”宋兆年扳指數來:包括團體賽在內,本屆大運會柔道比賽共產生了18枚金牌,亞洲占了11枚;其中中國5枚、日本3枚、韓國2枚、烏茲別克斯坦1枚,優勢明顯。

根據它們的相對位置,也可以找到一些特例。它們沒有與同長度的其他表達聚在一類,這說明其用法出現了變化。其中,“看到”的位置偏下,說明“看到”不僅可以表達視覺感知,還可表達視覺言據或認知、心理活動,其用法出現了從物理層面到認知層面的引申。具體用法如例4、例5:

例4:我常看到他一榻橫陳,噴云吐霧。

例5:從這里邊,我們可以看到在布達佩斯學派中,為什么對上層精英給予非常的重視,并使用自上而下的視角。

例4中“看到”用于表示言者在視覺上觀察到的內容,但是例5中“看到”的語義已經由視覺感知變成了更為抽象的觀察,這種觀察更多的是經過思考、推斷、邏輯推理而得出的。

“看來”和“看樣”的位置位于橫軸之下。《現代漢語詞典(第7版)》中收錄了“看來”詞條,其釋義為“到根據經驗或已知情況做出大概的推斷”。從例6的具體舉例“不圖賺錢,治病救人”可以分析出胡慶余的做法“堅持了胡雪巖先生的傳統”。這說明“看來”的語義相比其他雙音節詞更為抽象,不再像“看見”和“看看”等詞一樣表達視覺感知。

例6:這位一代巨商,給這家藥店定的調子是“不圖賺錢,治病救人”。看來今天的胡慶余還是堅持了胡雪巖先生的傳統的。

騰訊的語義向量與t-SNE算法結合后,較為清晰地展示了漢語中三字、四字結構的演變詞源,具有相同詞源或類似語義的詞語聚在了一起。雖然這些表達在圖2中會有重疊,影響讀圖但是重疊越明顯,就說明他們的語義相似度越高。

圖2對于現代漢語“看”的分類較為清晰,合理恰當地反映了在使用這一結構時的幾種不同場景,說明“看”的短語用法受到了其詞干的影響,其中“看到、看出、看來、一看、來看”的聚類較為明顯,說明這些詞的能產性很高。橫軸左側有一個與“看到”有關的聚類,左上象限有一個與“看完、看過”相關的聚類,右上象限有一個與“一看”相關的小類,體現了漢語中的“看”與完成體相結合的表達。(-20,-20)位置有一個“看+補語”的組合,如“看清、看破、看透、看穿、看準、看中”。右下象限有一個可以表達認識情態和言據的聚類,包括“看起來、看上去、看起來像、看著像”。右下象限有一個以“看來”為核心的聚類。

圖2 “看”類結構的語義向量t-SNE圖

以“看出”為例,圖2左下角形成了一個與“看出”相關的聚類,其成員包括“看出、看出來、看不出、看不出來、看得出、能看出、能夠看出、不難看出、足以看出”。其中“看出”和“看出來”高度重疊,“看不出”和“看不出來”高度重疊,“能夠看出”和“不難看出”中的“能夠”和“不難”均可表示言者對命題的確信程度,可以判斷它們為語義功能基本相似的不同變體。

此外,還能看到一些單獨成對的“看”類近義詞或反義詞:“看漲”和“看跌”,“好看”和“耐看”,“看夠”和“看膩”,“看破、看穿、看透”和“看不透”,“看懂、看明白”和“看不懂”,“收看”和“觀看”,“看清”和“看清楚”,“看作、看做”和“看成”,“看起來”和“看上去”等。不管它們是近義詞還是反義詞,他們的語義向量相似度高,都能說明他們的使用語境基本一致,在很多語境中可以用于替換或否定,卻不影響整句的通順和接受度。例如,“看起來”和“看上去”的用法在絕大多數情況下均可互換:

例7:我看起來/看上去很外向,事實不然,我害羞而且不喜歡客套,……

例8:閨女呀,看起來/看上去人家早就下手了。

例9:看起來/看上去,事體永遠弄不清楚了。

例7和例8中的“看起來”和“看上去”可以互換,說明其功能高度相似。例7位于句中,表達基于視覺感知的評價;例8位于句首,表達基于言者整體觀察的推理;例9的“看起來/看上去”與主句用逗號隔開,表達言者基于自身思考對抽象事物的推理。由此可見,“看起來”和“看上去”在語義和句法位置上呈現出高相似度,這是他們在圖2中呈現聚類的原因。

圖1、圖2的結果在一定程度上印證了前人的研究發現。同時,語義向量的定量研究可以發現一些前人研究尚未關注的整體規律。多維尺度分析發現,“看”類結構在有無修飾語時差別明顯,固化短語和非固化短語之間有明顯差異,四字結構與其他結構具有明顯的差別。經過t-SNE聚類,“看”的結構出現了以詞干為核心的聚類,說明四字結構的語義容易受同源二字詞的影響。因此,“看”類的內部語義差異主要由上述因素造成。

綜上所述,語義向量能夠在一定程度上反映“看”類結構的用法。“看”是漢語中最高頻的動詞之一,具有多義性和多功能性,本身是一個較為復雜的語言現象。運用騰訊人工智能實驗室的語義向量和MDS、t-SNE等降維方法,對不同“看”類結構的異同進行了可視化和定性分析,發現“看”類結構的內部語義差異主要體現在固化程度、結構長度、詞干類型三個方面。同時,這一方法結合自然語言處理和統計可視化的成果,為漢語詞匯短語研究帶來了新思路。

猜你喜歡
語義結構研究
FMS與YBT相關性的實證研究
《形而上學》△卷的結構和位置
哲學評論(2021年2期)2021-08-22 01:53:34
遼代千人邑研究述論
語言與語義
視錯覺在平面設計中的應用與研究
科技傳播(2019年22期)2020-01-14 03:06:54
論結構
中華詩詞(2019年7期)2019-11-25 01:43:04
EMA伺服控制系統研究
論《日出》的結構
“上”與“下”語義的不對稱性及其認知闡釋
現代語文(2016年21期)2016-05-25 13:13:44
創新治理結構促進中小企業持續成長
現代企業(2015年9期)2015-02-28 18:56:50
主站蜘蛛池模板: 美女潮喷出白浆在线观看视频| 91年精品国产福利线观看久久 | 91在线播放免费不卡无毒| 欧美精品aⅴ在线视频| 天天色综网| 亚洲免费播放| 青青草91视频| 亚国产欧美在线人成| 国产极品美女在线观看| 亚洲中文字幕23页在线| 精品视频一区在线观看| 日韩欧美中文在线| 亚洲国产午夜精华无码福利| 亚洲精品国偷自产在线91正片| 无码AV高清毛片中国一级毛片| 国产成人精品视频一区视频二区| 欧美精品伊人久久| 日韩第一页在线| 国产91视频观看| 婷婷中文在线| 影音先锋亚洲无码| 妇女自拍偷自拍亚洲精品| 免费一极毛片| 亚洲成a人片7777| 一本久道久久综合多人| 免费精品一区二区h| 久久综合九九亚洲一区| 国产swag在线观看| 色色中文字幕| 国产真实乱子伦精品视手机观看 | 青青草a国产免费观看| 69av在线| 国产美女丝袜高潮| 91欧美亚洲国产五月天| 精品一区二区久久久久网站| 欧美人与牲动交a欧美精品| 日韩成人免费网站| 欧美中文字幕无线码视频| 欧美自慰一级看片免费| 亚洲成人播放| 亚洲国产成人超福利久久精品| 国产一级精品毛片基地| 91精品国产91久久久久久三级| 青青草原国产av福利网站| 中文字幕丝袜一区二区| 91免费国产高清观看| 国产精品毛片一区视频播| 久久国产精品夜色| 成人蜜桃网| 国产第一页第二页| 国产啪在线91| 亚洲一级毛片在线观播放| 欧洲在线免费视频| 永久免费av网站可以直接看的| 91国内视频在线观看| 亚洲国产中文精品va在线播放| 亚洲欧美激情另类| 中文字幕首页系列人妻| 亚洲国产精品不卡在线| 韩国自拍偷自拍亚洲精品| 尤物亚洲最大AV无码网站| 无码国内精品人妻少妇蜜桃视频| 99在线国产| 激情六月丁香婷婷| 婷婷六月激情综合一区| 朝桐光一区二区| 国产精品久久久久久久伊一| 日本道综合一本久久久88| 日本人妻丰满熟妇区| a毛片在线免费观看| 毛片网站观看| 亚洲av无码专区久久蜜芽| 亚洲视频欧美不卡| 国产精品人成在线播放| 免费国产不卡午夜福在线观看| www中文字幕在线观看| 又污又黄又无遮挡网站| 毛片卡一卡二| 免费看一级毛片波多结衣| 又污又黄又无遮挡网站| 欧洲高清无码在线| 亚洲精品国产综合99|