999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

什么是世界上最怪異的語言?

2013-04-29 00:44:03江烈農(nóng)
求知導(dǎo)刊 2013年9期
關(guān)鍵詞:特征語言英語

江烈農(nóng)

我們主要是搞自然語言處理,涉及相關(guān)語言繁多。過去6個(gè)月,我們研究的語言有(深呼吸):英語、葡萄牙語(巴西葡萄牙語及葡萄牙本地語)、西班牙語、意大利語、法語、俄語、德語、土耳其語、阿拉伯語、日語、希臘語、漢語普通話、波斯語、波蘭語、荷蘭語、瑞典語、塞爾維亞語、羅馬尼亞語、韓語、匈牙利語、保加利亞語、印地語、克羅地亞語、捷克語、烏克蘭語、芬蘭語、希伯來語、烏爾都語、加泰羅尼亞語、斯洛伐克語、印尼語、馬來語、越南語、孟加拉語、泰語,以及一點(diǎn)拉脫維亞語、愛沙尼亞語、立陶宛語、庫爾德語、約魯巴語、阿姆哈拉語、祖魯語、豪薩語、哈薩克語、信德語、旁遮普語、他加祿語、宿霧語、丹麥語和納瓦霍語。

自然語言處理(Natural Lan-

guage Processing,下稱 NLP)就是要找到語言的模式。例如:錄入大量非結(jié)構(gòu)化的文本,自動(dòng)從中抽離結(jié)構(gòu)。NLP 有一個(gè)公開的秘密:它極以英語為中心。英語無疑是語言學(xué)家研究最多的一門語言,于計(jì)算機(jī)科學(xué)項(xiàng)目而言,也是具有最多可用資源的一門語言(就計(jì)算機(jī)科學(xué)而言,數(shù)據(jù)總是越多越好)。因此,測(cè)試一個(gè) NLP 系統(tǒng)的最佳方式之一,就是換用不是英語的語言來測(cè)試。一個(gè)系統(tǒng)處理多樣化數(shù)據(jù)的能力越強(qiáng),那么其應(yīng)付未預(yù)見數(shù)據(jù)的能力,也就更令人有信心。

為此,我們也許可以選擇去根據(jù)英語的特性來定義“怪異度”。但是,這樣的定義可是相當(dāng)令人惱火。所以咱們來試試換一種方法吧。

縱觀全球,糾出“語言異類”

語言結(jié)構(gòu)世界地圖(World

Atlas of Language Structures,

下稱 WALS)根據(jù)一大堆各種語言特征,評(píng)估 2676 種不同的語言。這些語言特征包括詞序、聲音種類、否定方式,以及許多其他方面—共計(jì) 192 種不同的語言特征。

因此,與其采用一個(gè)以英語為中心的世界觀,WALS 毋寧允許我們換用一個(gè)世界性的世界觀。也就是說,我們?cè)u(píng)估每一門語言,根據(jù)的都是其每種語言特征的不尋常度。例如,英語的詞序是“主語—?jiǎng)釉~—賓語”, WALS 對(duì) 1377 種語言的詞序進(jìn)行編碼,其中 35.5% 具有“主動(dòng)賓”詞序。同時(shí),只有 8.7% 的語言以動(dòng)詞作為起始,比如威爾士語、夏威夷語和馬揚(yáng)語(Majang)。因此,從跨語言學(xué)角度講,以動(dòng)詞作為起始,就是不尋常。另外順帶一提,實(shí)際上全世界語言有 41.0% 是“主賓動(dòng)”順序。(題外話:從事了一些夏威夷語和馬揚(yáng)語的相關(guān)工作后,動(dòng)詞對(duì)我而言,簡(jiǎn)直就變成如結(jié)婚般重大的承諾:每每開口,我卻總是還沒有做好準(zhǔn)備。)

WALS 的數(shù)據(jù)相當(dāng)稀疏,所以我們把研究限定于 165 種語言特征,這些特征至少要包含 100 種不同語言的數(shù)據(jù)。(現(xiàn)階段,就這 165 種語言特征而言,數(shù)據(jù)不足其中 10 種的語言,我們也剔除掉了。因此共計(jì)還剩 1693 種語言。)

現(xiàn)在,有個(gè)問題就是,如果我們的篩選到此為止,那么數(shù)據(jù)共線性太高。之所以如此,部分是因 WALS 中列舉的語言特征本質(zhì)而決定—有整體考量“主語/動(dòng)詞/賓語”順序的特征項(xiàng),另又有分別考量“賓語/動(dòng)詞”和“主語/動(dòng)詞”的項(xiàng)。理想情況下,我們希望基于不相關(guān)的特征評(píng)斷怪異度。我們可以集中關(guān)注互相之間沒有很強(qiáng)相關(guān)度的語言特征(在兩種互相關(guān)聯(lián)的特征中,我們選擇有更多語言編碼的特征)。最終我們篩得總計(jì) 21 種語言特征。

至于某種語言的每項(xiàng)數(shù)據(jù)值,我們考量其他所有具備該項(xiàng)編碼的語言,計(jì)算該項(xiàng)值的相對(duì)頻度。因此,如果我們把“主語—賓語—?jiǎng)釉~”詞序也算進(jìn)來的話,那么英語得到的怪異度值就會(huì)是 0.355(實(shí)際上,我們根據(jù)每項(xiàng)語言特征的整體熵值對(duì)所有數(shù)據(jù)值統(tǒng)一化處理,所以這個(gè)值本身并不正好就是 0.355,但你懂這意思就行了)。因此,得到的“怪異度指數(shù)”(Weirdness Index),就是一項(xiàng)交叉考量 21 種獨(dú)特結(jié)構(gòu)特征的平均值。但是,因?yàn)椴煌奶卣鞑杉瘮?shù)值的數(shù)量不同,我們?yōu)榱藴p少統(tǒng)計(jì)偏斜,實(shí)際上取了調(diào)和平均值(又因?yàn)槲覀兿M皵?shù)字越大=越怪異”,所以終值是用 1 減去這個(gè)平均值)。本篇博文我匯報(bào)所涉及的語言,就這 21 項(xiàng)語言特征而言,至少三分之二(即 14 項(xiàng))具有數(shù)據(jù)值(即 239 種語言)。

答案揭曉:全世界最怪異的語言是——

與全世界大多數(shù)語言最不同的語言,是一種以動(dòng)詞起句的聲調(diào)語言,在墨西哥的瓦哈卡(Oaxaca)有 6000 人使用,名叫“恰卡通戈米斯特克語”(Chalcatongo Mixtec),又名“大圣米格爾米斯特克語”(San Miguel el Grande Mixtec)。第二名在西伯利亞有 2.2 萬人使用:涅涅茨語(Nenets)—英文里“派克大衣”或稱毛皮風(fēng)雪大衣(parka)一詞就來源于這種語言。第三名是喬克托語(Choctaw),約有 1 萬人使用,大多在美國(guó)俄克拉荷馬州。

但是,難就難在這兒了—有些實(shí)際上最怪異的語言,是你聽說過的:德語、荷蘭語、挪威語、捷克語、西班牙語,以及漢語普通話。而且,實(shí)際上英語在“語言怪異度指數(shù)”(Language Weirdness Index)表中也位列第 33 名。

世界上最怪異的 25 種語言:北美洲的,恰卡通戈米斯特克語、喬克托語、大梅薩迪埃格諾語(Mesa Grande Diegue?o)、庫特奈語(Kutenai)、索克語(Zoque);南美洲的,帕烏瑪利語(Paumarí)、特魯邁語(Trumai);澳洲暨大洋洲的,皮詹加加拉語(Pitjantjatjara)、拉伍卡萊維語(Lavukaleve);非洲的,哈勒爾奧羅莫語(Harar Oromo)、伊拉庫語(Iraqw)、剛果語、穆穆耶語(Mumuye)、祖候語(Ju|'hoan)、科伊科伊語(Khoekhoe);亞洲的,涅涅茨語、東亞美尼亞語、阿布哈茲語、拉達(dá)克語、普通話;以及歐洲的:德語、荷蘭語、挪威語、捷克語和西班牙語。

順帶一提,皮詹加加拉語(Pitjantjatjara),這名字還能更牛嗎?(另外,你能猜出這個(gè)拉丁化拼寫中哪個(gè)音節(jié)不發(fā)音嗎?*)

以兩項(xiàng)特征為例:?jiǎn)柧渑c代詞

“這很怪。這很怪嗎?”

(This is odd. Is this odd?)區(qū)分各種語言的特征之一,是“是非問句”的提問方式。絕大多數(shù)語言都有特別的疑問語助詞,添加在句中某處(例如日語問句句末的“か”[ka])。在 WALS 中,有 954 種語言具有這項(xiàng)值的編碼,其中 584 種有疑問語助詞。(譯注:又如本段段首的普通話提問方式,添加語助詞“嗎”實(shí)現(xiàn)簡(jiǎn)單疑問句提問。)但像英語那樣的提問方式,即調(diào)換詞序,其比例在所有語言中僅為 1.4%。也就是說,一共只有 13 種語言采用這樣的方式,而它們大部分都是歐洲語言:德語、捷克語、荷蘭語、瑞典語、挪威語、弗里西亞語、英語、丹麥語和西班牙語。

但還有一種語言,其是非問句的提問方式更加不走尋常路,那就是恰卡通戈米斯特克語:提問時(shí),什么都不變。我們調(diào)查所涉及語言中,唯有這種語言提問時(shí)沒有疑問語助詞,沒有詞序調(diào)換,沒有語調(diào)變換……這種語言就“是否”提問時(shí),以及作簡(jiǎn)單陳述時(shí),講話真的是毫無任何區(qū)別。我花了好些時(shí)間,想象用這種語言做電視游戲節(jié)目會(huì)是什么樣。

語言還需應(yīng)付的另一個(gè)問題,是如何處理簡(jiǎn)單主語代詞,比如“我”(I)、“他們/她們/

它們”(they)、“它”(it)。這些詞稱為“代詞主語”(而像“有關(guān)部門負(fù)責(zé)人含糊其辭”這樣的說法則是使用了名詞主語)。最通常的做法,是將代詞信息附加到動(dòng)詞上—所調(diào)查的 711 中語言中有 437 中語言采用這樣的做法,如西班牙語、意大利語和葡萄牙語。但是,荷蘭語、德語和挪威語,與英語一樣,寧可使用特別的主語代詞,而這些代詞通常—或必須—在句中出現(xiàn)。不過,在 WALS 有編碼的 711 種語言里,也只有 82 種語言采用這樣的處理方法。庫特奈語(加拿大不列顛哥倫比亞省有 100 人使用)和穆穆耶語(尼日利亞有 40 萬使用者)的處理方法更不尋常:它們有類似主語代詞的東西,但其在句法中的位置,則與完整名詞性短語的位置不同。而比這還更不尋常的,又是恰卡通戈米斯特克語:這種語言混合多種不同策略,所以既有附著在動(dòng)詞上的主語標(biāo)記,又有代詞,而且這些代詞在句中出現(xiàn)的位置,還與完整名詞短語不同。

世界上最“不怪異”的語言

如果我現(xiàn)在請(qǐng)你考慮一下以下這幾種語言,你覺得它們有多怪呢?立陶宛語、印尼語、土耳其語、巴斯克語,以及粵語。嚇一跳吧!它們的怪異指數(shù)排名相當(dāng)?shù)湍亍?duì)于語言學(xué)家和語言學(xué)習(xí)者而言,這幾種語言可能并不顯得典型;但就我們研究的 21 種語言特征而言,它們相當(dāng)隨大流。請(qǐng)注意,在怪異度各級(jí)分布中,我們有一些孤立語言(比如巴斯克語)。巴斯克語很“典型”;但是另一種孤立語言,庫特奈語,則相當(dāng)怪異。更令人驚訝的是,漢語普通話名列 25 大最怪異語言,但粵語卻棲身倒數(shù)十大。這與二者發(fā)音系統(tǒng)不同有關(guān):與粵語不同的是,普通話有小舌延續(xù)音(uvular continuants),而且在軟腭鼻音方面有一些局限(普通話同英語類似,可以發(fā)出英語“song”詞尾的那個(gè)音,比如漢語“頌”[sòng];但無法將這個(gè)尾音置于單詞的詞首發(fā)音—世界性地來看,這個(gè)特定限制實(shí)屬罕見。)

而在怪異指數(shù)列表最末尾的幾種語言里,有兩種你聽過,有 3 種你可能沒聽過:匈牙利語,

通常享有“語言學(xué)異類”的美譽(yù),但在我們考量的這些維度里,卻是徹頭徹尾的典型語言。(我去年夏天在布達(dá)佩斯住過,我發(fā)誓匈牙利語絕對(duì)有其怪異之處,只是隱藏在其他地方了而已。)查莫羅語(關(guān)島有 9.5 萬使用者)、阿伊努語(僅在日本有少量使用者的瀕危語言),以及布雷佩查語(Purépecha,5.5 萬使用者,多在墨西哥),這三種語言都很正常。但是,所有語言中最最正常、超級(jí)典型、最不詭異的一種語言,怪異指數(shù)僅 0.087 的語言,是印地語—只有一項(xiàng)怪異特征。

這一點(diǎn),一部分說明,有些你想當(dāng)然以為正常的語言(如英語、西班牙語或德語),其實(shí)一貫與世界上其他語言格格不入。這令我想起心理學(xué)的一個(gè)基本問題:如果我們調(diào)查研究主要基于大學(xué)生——即如約瑟夫·亨利希(Joseph Henrich)及其同事所認(rèn)為的,西方的、受過教育的、工業(yè)化的、富裕的、民主的大學(xué)生—那么這樣的研究,其概括程度到底能有多高?換句話說,有時(shí)輸入的信息本身就“不正常”,或曰怪異,那你就要問問自己,這是否會(huì)導(dǎo)致研究的變化。

你講英語,你很怪

盡管這里采用的方法沒有以英語界定,但仍然夾帶了一些文化特異性的私貨。即是說,開發(fā)這個(gè)系統(tǒng)以及注釋這些語言特征的語言學(xué)家,大部分都是歐洲語言使用者。如果換為巴布亞新幾內(nèi)亞、埃塞俄比亞或亞馬遜的某個(gè)人來做研究,最終確定的語言特征又是哪些呢?而且,當(dāng)然,WALS 并不具備全球約 4000 種語言的所有數(shù)據(jù);其所擁有數(shù)據(jù)資料的語言,也并不真正足夠隨機(jī)。

話雖如此,英語排名仍然很高,是挺不尋常的一種語言(排名 33 位,指數(shù)值 0.756)。如果你能帶著一個(gè)英語思維的大腦,去讀這篇文章英語原文,那你可真是怪怪噠。(譯注:你操漢語,能讀這篇譯文,那你的腦子更怪。)

*內(nèi)容注釋:

譯注:原文表述略有不當(dāng);皮詹加加拉語(Pitjantjatjara)在當(dāng)?shù)卦∶裾Z言中或可簡(jiǎn)稱為“皮詹加拉語”(Pitjantjara ['b???an?a?a]),所以這個(gè)完整的拉丁化拼寫并非“有一個(gè)音節(jié)不發(fā)音”,而只是有一個(gè)音節(jié)“可以”省略且不發(fā)音。

猜你喜歡
特征語言英語
語言是刀
文苑(2020年4期)2020-05-30 12:35:30
如何表達(dá)“特征”
不忠誠(chéng)的四個(gè)特征
讓語言描寫搖曳多姿
抓住特征巧觀察
累積動(dòng)態(tài)分析下的同聲傳譯語言壓縮
讀英語
我有我語言
酷酷英語林
線性代數(shù)的應(yīng)用特征
河南科技(2014年23期)2014-02-27 14:19:15
主站蜘蛛池模板: 国产日韩欧美成人| 色婷婷在线播放| 久久国产精品嫖妓| 国产人碰人摸人爱免费视频| 欧美国产在线精品17p| 精品国产成人高清在线| 国产精品免费入口视频| 国产黑丝一区| 亚洲精品va| 国内精自线i品一区202| 亚洲乱码精品久久久久..| 婷婷午夜影院| 国产亚洲欧美在线人成aaaa| 欧美第二区| 日本欧美中文字幕精品亚洲| 国产精品三级av及在线观看| 日本欧美视频在线观看| 亚洲嫩模喷白浆| 久久精品91麻豆| 日韩AV无码免费一二三区| 嫩草国产在线| 区国产精品搜索视频| 国产精品无码AⅤ在线观看播放| 国产人前露出系列视频| 好紧好深好大乳无码中文字幕| 亚洲天堂首页| 日韩一二三区视频精品| 国产精品无码AV片在线观看播放| 亚洲成a人片77777在线播放| 免费全部高H视频无码无遮掩| www.youjizz.com久久| 毛片在线看网站| 毛片免费在线视频| 一级黄色网站在线免费看| 国产美女无遮挡免费视频网站| 欧美啪啪精品| 国产欧美日韩18| 99视频在线免费| 国产第一色| 久久96热在精品国产高清| 国产在线麻豆波多野结衣| 欧美日韩国产在线人| 亚洲午夜天堂| 欧日韩在线不卡视频| 一级毛片免费不卡在线| 婷婷成人综合| 亚洲精品午夜天堂网页| 国产精品欧美激情| 中国美女**毛片录像在线| h视频在线播放| 精品国产www| 亚洲码在线中文在线观看| 久久精品国产亚洲AV忘忧草18| 99热国产在线精品99| 粉嫩国产白浆在线观看| 国内精品视频| 午夜毛片免费观看视频 | 国产va免费精品观看| 国产美女一级毛片| 亚洲黄色成人| 91视频免费观看网站| www.av男人.com| 日韩午夜片| 手机在线国产精品| 国产精品久久久久鬼色| 亚洲人成高清| 国产福利微拍精品一区二区| 91久久国产成人免费观看| 欧洲亚洲欧美国产日本高清| 国产99视频在线| 精品久久久无码专区中文字幕| 欧美日本视频在线观看| 国产欧美专区在线观看| 久久青草热| 久久婷婷五月综合色一区二区| 欧美黄色网站在线看| AV网站中文| 99久久国产综合精品2023| 亚洲AV成人一区二区三区AV| 在线播放真实国产乱子伦| 这里只有精品在线播放| 一级毛片不卡片免费观看|