999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

現(xiàn)代漢語通感的自動抽取及映射方向性*

2015-03-19 00:37:34劉洪超FrancescaStriklievers黃居仁
計算機工程與科學 2015年12期
關鍵詞:方法

劉洪超,F(xiàn)rancesca Striklievers,黃居仁

(香港理工大學中文及雙語學系,香港)

1 引言

通感(Synaesthesia),又稱連覺,是一種生理現(xiàn)象,主要是指“一種非自覺的跨感覺領域的聯(lián)系體驗”[1]。同時,在語言學上,它又是一種特殊的隱喻,是指用一種感覺詞去描述另外一種感覺,如“噪音污濁的空氣”(本文所使用的語料庫為臺灣中央研究院現(xiàn)代漢語語料庫,以下簡稱sinica,因此所抽取的句子為繁體中文,為了保持句子的真實可靠,未進行繁簡轉換),“噪音”是屬于聽覺的感覺詞,但是“污濁”一般只用來形容視覺現(xiàn)象,該句用視覺詞“污濁”來描述聽覺“噪音”就是一種通感,從隱喻上來說,這里的視覺是源域(Source Domain),聽覺是目標域(Target Domain)。之所以稱之為特殊的隱喻,是因為其源域和目標域都屬于同一個范疇,因此也有人稱之為準隱喻[2]。本文主要關注的是語言中的通感句子,而不是認知上的通感疾病或通感體驗。

國外對通感的研究一直是一個比較熱門的話題,通感所體現(xiàn)出來的映射方向性被當做一個通用的假設而在各個語言中進行檢驗,研究領域跨越了神經(jīng)科學、認知科學和語言學等學科;研究方法也包括了神經(jīng)科學實驗、認知實驗和語言學觀察及統(tǒng)計等,如文獻[1,3,4]。但是,國內(nèi)對于通感的研究大部分仍然僅限于文學賞析上。

另一方面,對于漢語通感的研究不論是國內(nèi)還是國際都比較缺乏,只有文獻[5,6]等有限的幾篇。漢語通感映射方向性研究的一個前提就是要有大量的實際數(shù)據(jù)作為統(tǒng)計上的支撐,但是文獻[5,6]等文章中分析的漢語例子都非常有限。由于通感句子在語料庫中的分布比較稀疏,因此采用人工尋找的方法不可取。最好是采用自動抽取的方法。關于通感自動抽取,本文只找到了文獻[7],而關于漢語通感自動抽取的研究,目前還未發(fā)現(xiàn)。因而,本文力圖基于文獻[7]的方法實現(xiàn)語料庫中漢語通感句子的自動抽取。同時分別構建觸覺(Touch)、味覺(Taste)、嗅覺(Smell)、聽覺(Hearing)和視覺(Vision)的詞庫,幫助進行通感句子的抽取和語言學研究。

本文第1節(jié)是引言,介紹本文的研究背景和意義;第2節(jié)是相關研究的簡介,對相關文獻進行簡單的綜述;第3~4節(jié)介紹本文的研究方法和結果,其中第3節(jié)介紹感覺詞的選擇標準和感覺詞表的呈現(xiàn),第4節(jié)介紹抽取方法和抽取結果,對抽取句子進行統(tǒng)計,尋找映射規(guī)律;最后對全文進行總結,指出本文的思路、不足和未來的研究工作重點。

2 相關研究

2.1 感覺域

由于通感是將一個感覺域的詞映射到另外一個感覺域,因而就涉及到對感覺域的定義。根據(jù)是否將“情感(Emotion)”考慮為一個感覺域,基本上可以分為兩派。

大部分的研究,包括文獻[2],未將“情感”考慮為一個感覺域,只考慮同時分別構建觸覺(Touch)、味覺(Taste)、嗅覺(Smell)、聽覺(Hearing)和視覺(Vision)這五種感覺,認為“這是通用的英美文化標準”[8]。有的研究,進一步將這五類進行了細化,如文獻[4]把視覺細化為“顏色(Color)”和“維度(Dimension)”。

另外一派,包括文獻[6],將“情感”考慮進了研究對象。

本文在構建感覺詞表時并未設立“情感”類,主要是由于對于“情感”的定義比較抽象,難以劃定一個非常明確的標準。但是,在抽取的例子中,本文發(fā)現(xiàn)了大量的其他五類感覺詞和情感域之間的映射例子,如:

還是這個心情[target]感受是讓我很低沉[source]的……

“低沉”中“低”屬于視覺,“沉”屬于觸覺,而“心情”則是典型的情感,因此這里是用視覺和觸覺來描述心情。這樣的例子很多,情感這個抽象類在借助相比之下較為具體的其他五類感覺詞來表達具有很強的傾向性,因此本文也將之列入考察范圍。

2.2 方向性

文獻[2]通過對英語、法語和匈牙利語通感句子的考察發(fā)現(xiàn),這些句子的通感映射通常遵循下面的幾條規(guī)律:

(1)感覺詞從源域到目標域的映射一般都按照下面的方向進行:

觸覺→味覺→嗅覺→聽覺→視覺

(2)處于映射等級最低端的觸覺詞被用來表示其他感覺的頻次最高;

(3)處于映射等級第二高位的聽覺是借助其他感覺詞來表達的最高頻次的感覺域。

后來的研究,如文獻[3,7]等又相繼考察了希伯來語、漢語等語言中的情況,用不同的方法力圖證明在這些語言中也存在同樣的規(guī)律。

對該規(guī)律做了更好證明的是文獻[4],通過考察英語中65 個感覺形容詞的185 例詞義演變情況,發(fā)現(xiàn)83%以上的詞都按照上面的規(guī)律進行映射,而其他例外也都做了合理的解釋。其繪制的感覺域之間的映射次序如圖1所示。

Figure 1 Mapping drectionality of sense-related words in reference[4]圖1 文獻[4]感覺詞映射路線

由于沒有大量的數(shù)據(jù)進行支撐,因此得出的結論都不是很可靠。如文獻[7],其對漢語的考察只通過15個句子就得出漢語通感也是按照圖1的路線進行映射轉換就不是很有說服力。

本文構建了總量為1 759個的感覺詞的詞表,抽取了1 452個句子,去除重復后為940個例句,力圖找出漢語映射的規(guī)律。

3 感覺詞表的構建

本文關于通感的抽取主要就是基于感覺詞,因此本文的中心就是要為觸覺、味覺等五個感覺域創(chuàng)建盡量完整的詞表或詞典。在確定收詞標準時,本文兼顧了語言學定義和語言工程應用兩方面。而本文在收詞時主要借助了《現(xiàn)代漢語語義信息詞典》和從sinica語料庫抽取的詞表,兩者合計共約20余萬詞條,通過半自動的方式,按照我們制定的收詞標準從中收集了1 700余個感覺詞,分別歸入了五個感覺詞表。

首先是需要對感覺域進行定義,本文參照了文獻[8]對幾個感覺域的定義標準,即:

(1)觸覺|聽覺:通過物理性途徑刺激形成的感覺,一般說來,觸覺的生成都是對皮膚感受器的物理刺激引起的,如“冰涼”是對皮膚溫度感受的刺激;而聽覺一般是聲波對耳膜的震動形成的,這也是一種物理刺激。

(2)味覺|嗅覺:通過化學途徑刺激形成的感覺,一般說來,味覺和嗅覺都是鼻腔粘膜或口腔粘膜的感覺細胞對相應的化學分子的刺激反應所產(chǎn)生的感覺。

(3)視覺:通過光線刺激形成的感覺。一般說來,視覺的形成都是光線從物體反射進入眼睛后刺激視神經(jīng)所產(chǎn)生的感覺。

按照以上的標準,本文利用《現(xiàn)代漢語語義信息詞典》中的語義類信息對詞典中的詞進行了篩選,初步將相關的感覺詞篩選出來,本文按照表1中的映射關系進行篩選。

Table 1 Mapping between sense domain and the SKCC’s semantic domain表1 感覺域與抽取的《現(xiàn)代漢語語義信息詞典》語義類的對應關系

然后根據(jù)表1所抽出的候選感覺詞制作關鍵詞(及語素)表,通過關鍵詞和關鍵語素在sinica語料庫中抽取出的詞表中進行查找,最終兩者取合集,去除重復詞項之后進行人工校對。

由于《現(xiàn)代漢語語義信息詞典》與感覺域不是一一對應的關系,因此,也需要對各個領域的候選感覺詞通過手工方法一一歸類。

在針對具體的詞進行人工校對時,我們也采取了以下的語言學標準:

(1)按照詞義進行類別劃分,如“滾燙”,其中“滾”是屬于視覺的語素,“燙”是屬于觸覺的語素,但是整個詞義是表示“非常熱”,跟視覺并沒有關系。由于該詞本身是通感詞,即在構詞層面上看,其詞義形成過程中有通感參與,這種通感詞進行了特別標注,抽取時含有該詞的句子應該直接抽出,因為含有通感詞的句子都是通感句。

(2)單純詞的詞義主要參照本義,本義無法確定時參照常用義,如“聞”,本義屬于聽覺,在現(xiàn)代漢語中發(fā)展出嗅覺的意義,但是本文將之歸入聽覺。

(3)復合詞詞義也主要是參照本義,如果詞義跨多個感覺域,如“平滑”,表示“既平又滑”,前者屬于視覺,后者屬于觸覺,則主要參照其搭配對象,一般“平滑”是用于修飾視覺現(xiàn)象,因此,將之歸入視覺。

其中數(shù)量最多、最難處理的就是第(3)種情況,但是由于本文采取的方法主要是根據(jù)句子中是否同時含有多個不同感覺域的感覺詞,所以事實上無論將“平滑”這樣的詞放入哪一類,最終都不會影響抽取的句子總數(shù),只是抽取的具體例句屬于哪一類映射上會存在差錯。

總體原則就是除了本身就是通感詞,如“粗話”“冷笑”“滾燙”等,需要打上標記(事實上就是兼類標記)之外,其它所有的詞都要保持排他性,不處理為兼類,否則就會大大影響句子抽取的準確率。表2是對建立的感覺詞庫的示例(由于采用的語料庫為繁體中文,因此本文構建的詞庫也都是繁體中文版)。

Table 2 A sample of sense-related word database表2 感覺詞庫示例

表3是本文對感覺詞庫中各感覺域感覺詞分布的統(tǒng)計結果。

Table 3 Distribution of sense-related words表3 感覺詞分布情況

從表3可以看出,視覺詞占了絕大多數(shù),聽覺詞次之,最少的是嗅覺詞。本文在收集的過程中發(fā)現(xiàn)與嗅覺相關的大部分都是形容詞,名詞和動詞都比較少,而且收集難度比較高。嗅覺和味覺有很多詞都是詞義共通的,即可以同時用于兩個領域,只是本文按照本義劃定了歸屬,比如“味道”既可以用于嗅覺,又可以用于味覺,但是其本義是味覺。而且,《現(xiàn)代漢語語法信息詞典》中的形容詞語義類對嗅覺和味覺根本就沒有做區(qū)分,兩者合在“味道”這個語義類下,可見兩者關系比較緊密。

4 抽取實驗及結果

在構建了感覺詞庫的基礎上進行通感句子的抽取,本文采用了兩種方法,兩種方法的基本思路都是基于一個通感句子至少應當含有兩個以上感覺域的感覺詞這個基本原則進行的。

4.1 方法一

第一種方法的基本步驟如下:

(1)首先對語料庫中所有句子進行一遍掃描,將至少含有一種感覺域的感覺詞的句子抽取;

(2)然后對這個句子列表進行第二次掃描,如果含有另外一種或多種感覺域的感覺詞就將整個句子作為候選句子輸出。

表4是第一種方法的抽取結果。

Table 4 Result of method 1表4 第一種方法實驗結果

這種方法的準確率比較低,本文對抽出的句子進行分析,發(fā)現(xiàn)以下一些原因導致準確率比較低:

(1)未檢查詞性問題。有的詞有不同的詞性,不同詞性的詞有不同的分布規(guī)律,但是單純的關鍵詞匹配不會考慮這一點,如:

例1 北風正凜冽。

“正”在詞表中屬于視覺,但是詞表中的“正”是分布在謂語位置上的形容詞,表示“純、不雜”,如“模樣很正”等。而例1中的“正”是處于狀語位置上的副詞“正”,表示正在進行。對于這一類問題的解決辦法就是考察每一個詞的詞性分布情況,在抽取時進行檢查,如果符合其分布規(guī)律就將句子抽出,如果不符合就淘汰。

(2)聯(lián)合結構問題。有的句子中確實含有兩種以上的感覺域的感覺詞,但是分別處在聯(lián)合結構的前項和后項上,兩者之間不形成通感,只是單純的并列,如:

例2 這種又甜又冷的冰淇淋作風全行不通

“甜”和“冷”分別屬于味覺和觸覺,但是兩者并列,并沒有形成通感映射關系。對于這一類問題的解決方法是加入聯(lián)合結構標志詞,如“又…又…”“和”“并且”等詞的檢查,但是這樣一來又可能去掉一些通感的句子,如:

例3 周治平依然以清亮[source]而感性的[source]溫柔[source]歌聲[target]……。

“清亮”和“感性”是并列關系,但是兩者都與“歌聲”構成了通感關系。

同時,很多沒有明顯的標志詞的并列結構無法用這種方式排除,如:

例4 炒出來的青菜會軟爛而不好吃。

這里的“軟爛”是并列結構,兩者之間并不形成通感,應該被排除,但是僅僅加顯性并列結構標志詞判斷并不能解決這個問題,本文未來將要引入其他句法分析或語義特征的方法將之排除。

4.2 方法二

在對抽出例子分析的基礎上,本文著重解決了第一個問題,逐個考察了每個感覺詞的詞類分布情況,將明顯不可能出現(xiàn)在通感句子中的詞性從感覺詞庫中剔除。表5是觸覺類感覺詞的詞性分布情況。

Table 5 Touch-related words’distribution in different POS categories表5 觸覺類感覺詞詞性分布情況

限于篇幅問題,本文不再列出其他感覺域的詞性分布情況,可以看出,大部分的觸覺詞是VH(狀態(tài)不及物動詞)(每個符號具體的意義可以訪問sinica語料庫,網(wǎng)址:http://app.sinica.edu.tw/cgi-bin/kiwi/mkiwi/kiwi.sh),加入了詞性檢查之后,本文將兩次結果一并展示如表6所示。

Table 6 Results comparison of method 1and method 2表6 兩種方法實驗結果對比

由于本文無法得知sinica語料庫中通感句子總數(shù)的多少,因而無法直接計算召回率等值,但是從表6中的具體抽取結果對比可以看出,方法二的效果獲得了明顯的提升:抽取的句子數(shù)在Type值上幾乎是原來的兩倍,準確率是方法一的兩倍多。即便是TTR(Type/Token)值也獲得了提升(0.53 vs 0.65),說明提取出的句子的類型豐富度,方法二也大大地高于方法一。

4.3 漢語通感映射情況及映射路線

在抽取的大規(guī)模通感例句的基礎上,本文可以對第二部分提出的映射等級進行檢驗,檢查漢語通感句子是否也遵循了文獻[2]提出的映射規(guī)律,表7是本文對940個通感句子的映射情況的統(tǒng)計。

Table 7 Mappings distribution between different sense domains表7 各感覺域映射分布

需要注意的是,很多句子含有多種通感,因而在計算的時候這些句子都是要分別計算的,如:

例 5 似 有 似 無 的 (幽[vision/source]香[smell/target])[smell/target](飄曳如絲)[vision/source]。

例6 兩 種 (口 味)[taste/source](間 雜 交錯)[vision/source]、(甜[taste/target]香[smell/source])[taste/target]有味。

在例5中,“幽香”在詞匯層面形成通感,通感的方向是用屬于視覺的“幽”修飾“香”這種嗅覺,源域是視覺,目標域是嗅覺;同時整個“幽香”屬于嗅覺,再用屬于視覺的“飄曳如絲”描述“幽香”,這又構成了另外一種通感,源域是視覺,目標域是嗅覺。例6情況也類似。

因此,最終的通感總數(shù)與抽取的句子總數(shù)并不是一一對應的。

從表7可以觀察到以下幾個映射的傾向性:

(1)映射幾乎可以在任意兩個感覺域之間進行,即通感幾乎可以在任意兩個感覺域之間產(chǎn)生。

(2)聽覺域感覺詞只能向嗅覺和情感感覺詞進行映射。

(3)聽覺域接受的通感映射最多,視覺域提供的通感映射最多。換句話說,用其他感覺詞來表示聽覺的頻次最高;視覺詞表示其他感覺的頻次最高。

這個結論除了第二點與文獻[2]得出的結論3有相似之處外,其他都不相同。

5 結束語

從語言學上說,本文要研究的問題是漢語通感句子是否存在一定的映射方向性?映射規(guī)律是什么?對于這個問題,目前的漢語研究很少,即便有,結論也是建立在少量的例句之上,因此要回答這個問題就要獲得大量的通感句子,手工辦法不可取,本文采取自動抽取的方法。

為了解決句子的抽取問題,本文采用了兩種方法,兩種方法都是基于感覺詞匹配,因此本文首先構建了感覺詞庫,這個工作產(chǎn)生兩個結果:一方面明確了六種感覺(包括“情感”)的定義,另一方面構建了一個較為全面的感覺詞庫,方便語言學研究。

從抽取實驗結果來看,引入了詞性檢查的抽取效果明顯好于沒有詞性檢查的效果,但是準確率仍然不高,還可以通過引入句法語義分析的方式進一步提高,這是本文下一步要進行的工作。

通過對抽取的大量句子的統(tǒng)計結果來看,漢語通感的映射方向性并不是很明顯,但是映射也存在一定的規(guī)律,在這里不再重復,下一步本研究要進行的工作是解釋這些規(guī)律和找到這些規(guī)律形成的原因。

[1] Cytowic R E.Synesthesia:A union of the senses[M].New York:Springer Verlag,2002.

[2] Ullmann S.The principles of semantics[M].Oxford:Basil Blcakwell,1957.

[3] Shen Y,Eisenamn R.“Heard melodies are sweet,but those unheard are sweeter”:Synaesthesia and cognition[J].Language and Literature,2008,17(2):101-121.

[4] William J.Synaesthetic adjectives:A possible law of semantic change[J].Language,1976,52(2):461-478.

[5] Sean D.Synaesthesia and synaesthetic metaphors[J].PSYCHE,1996,32(2):1-16.

[6] Yen-Han Lin,Shelley Ching-Yu Hsieh.Synaesthetic metaphors of television food commercial ads in mandarin Chinese[J].TMUE Journal of Language and Literature,2011(1.6):1-16.

[7] Strik Lievers F.Synaesthesia:A corpus-based study of crossmodal directionality[J].Functions of Language,2015,22(27):69-95.

[8] Yu Ning.Synaesthetic metaphor:A cognitive perspective[J].Journal of Literary Semantics,2003,32(1):19-34.

猜你喜歡
方法
中醫(yī)特有的急救方法
中老年保健(2021年9期)2021-08-24 03:52:04
高中數(shù)學教學改革的方法
河北畫報(2021年2期)2021-05-25 02:07:46
化學反應多變幻 “虛擬”方法幫大忙
變快的方法
兒童繪本(2020年5期)2020-04-07 17:46:30
學習方法
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
最有效的簡單方法
山東青年(2016年1期)2016-02-28 14:25:23
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
賺錢方法
捕魚
主站蜘蛛池模板: 67194亚洲无码| 在线观看免费AV网| 在线视频亚洲色图| 欧美一区福利| 中文字幕色在线| 欧美精品亚洲二区| 亚洲人成电影在线播放| 国产无码制服丝袜| 亚洲AV无码乱码在线观看代蜜桃| 亚洲午夜福利在线| 国产精品成人啪精品视频| 国产女同自拍视频| 亚洲国产精品成人久久综合影院| 亚洲成人www| 国产一区二区三区免费观看| 最新国产高清在线| 亚洲国产成人麻豆精品| 国产精品页| 精久久久久无码区中文字幕| 香蕉eeww99国产在线观看| 国产主播一区二区三区| 亚洲第一成年网| 亚洲首页在线观看| 试看120秒男女啪啪免费| 素人激情视频福利| 婷婷色一二三区波多野衣| 毛片网站在线看| 日韩免费毛片视频| 国产欧美日韩在线在线不卡视频| 亚洲欧美日韩中文字幕在线一区| 欧美激情福利| 国产尤物jk自慰制服喷水| 18禁影院亚洲专区| 日本欧美一二三区色视频| 亚洲美女视频一区| 99精品视频在线观看免费播放| 国产女人水多毛片18| 中文成人在线视频| 天堂久久久久久中文字幕| 91探花在线观看国产最新| 日韩人妻精品一区| 亚洲综合天堂网| 欧美激情网址| 99这里只有精品在线| 51国产偷自视频区视频手机观看 | 99久久精彩视频| 五月丁香伊人啪啪手机免费观看| 97国产精品视频人人做人人爱| 亚瑟天堂久久一区二区影院| 欧美综合区自拍亚洲综合绿色| 亚洲国产高清精品线久久| 成人韩免费网站| 免费观看精品视频999| 日韩福利在线视频| 亚洲无码精彩视频在线观看| 亚洲愉拍一区二区精品| 自偷自拍三级全三级视频| 免费一级无码在线网站 | 欧美视频在线播放观看免费福利资源 | 亚洲伊人天堂| 99精品一区二区免费视频| 高h视频在线| 国产一区二区三区视频| 亚洲a级在线观看| 中国一级特黄大片在线观看| 四虎免费视频网站| 久久精品国产一区二区小说| 国产成人乱码一区二区三区在线| 久久精品人人做人人综合试看| 99人妻碰碰碰久久久久禁片| 经典三级久久| 国产一二三区视频| 伊人久久婷婷五月综合97色| 国产综合色在线视频播放线视| 亚洲色婷婷一区二区| 亚洲人成网7777777国产| 亚洲无码四虎黄色网站| 中文字幕1区2区| 国产精品毛片在线直播完整版| 丰满少妇αⅴ无码区| 国产经典免费播放视频| 亚洲成人在线网|