999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

聚類分析在外國語言學(xué)研究中的應(yīng)用

2016-06-21 09:41:19孫仕光
懷化學(xué)院學(xué)報 2016年3期

孫仕光, 張 萍

(1.同濟(jì)大學(xué) 外國語學(xué)院, 上海 200092; 2.井岡山大學(xué), 江西 吉安 343009)

?

聚類分析在外國語言學(xué)研究中的應(yīng)用

孫仕光1,2,張萍2

(1.同濟(jì)大學(xué) 外國語學(xué)院, 上海 200092;2.井岡山大學(xué), 江西 吉安 343009)

摘要:調(diào)查顯示,我國大部分外國語言學(xué)研究者對聚類分析既缺乏了解也不會應(yīng)用。本文展示了聚類分析和語料庫結(jié)合可以應(yīng)用于外國語言學(xué)的很多研究領(lǐng)域:詞匯語義、句法型式,以及語言的地理變異、文體變異、社會變異和功能變異。聚類分析不僅是一種統(tǒng)計分析技術(shù),而且具有研究方法論意義,即可以以數(shù)據(jù)驅(qū)動的方式系統(tǒng)性的發(fā)現(xiàn)研究變量和生成高質(zhì)量的假設(shè)。還特別指出聚類分析可以作為系統(tǒng)功能語言學(xué)的定量化研究的一種重要工具。

關(guān)鍵詞:聚類分析;語料庫;外國語言研究

一、引言

聚類分析,又稱數(shù)值分類學(xué),是一種多元統(tǒng)計分類技術(shù)。聚類分析在商業(yè)、生物、工程、人類學(xué)和社會學(xué)等很多領(lǐng)域內(nèi)都得到了廣泛的研究和成功的應(yīng)用。語言學(xué)研究中的分類問題隨處可見,但是學(xué)者們用定性方法分類的比較多,運(yùn)用計量手段分類的比較少見。高一虹等人的研究表明,我國語言研究統(tǒng)計方法的運(yùn)用比較薄弱,定量方法有待提高[1,2]。王立非的調(diào)查結(jié)果顯示,某些難度較大和技術(shù)性強(qiáng)的統(tǒng)計方法未得到充分運(yùn)用[3]。趙蔚彬的調(diào)查顯示,十種外語類核心期刊1995年至2000年之間只有一篇應(yīng)用聚類分析的文章,聚類分析是應(yīng)用最少的統(tǒng)計方法之一[4]。鮑貴調(diào)查了10中外語期刊中10年期間統(tǒng)計方法使用情況,發(fā)現(xiàn)如下:多元統(tǒng)計使用率雖然有微弱增長的跡象,但是其使用比率遠(yuǎn)低于簡單推理統(tǒng)計和純描述性統(tǒng)計[5]。鮑貴報告了多種多元統(tǒng)計方法的使用情況,但是他的調(diào)查報告中沒有出現(xiàn)聚類分析的使用情況,這似乎顯示聚類分析是我國外語研究者使用最少的統(tǒng)計方法之一[5]。以上研究調(diào)查的對象的范圍、時間段都有限,不是很全面、系統(tǒng)。聚類分析在我國外國語言學(xué)研究中應(yīng)用的總體的情況如何呢?數(shù)學(xué)基礎(chǔ)相對薄弱的外國語言學(xué)方向的高校教師是否理解并掌握這一數(shù)學(xué)工具?她(他)們能否把這一方法運(yùn)用到語言研究中去?在本文中,我們針對這兩個問題進(jìn)行了調(diào)查研究,并對聚類分析在外國語言學(xué)研究中的應(yīng)用做了一些介紹和總結(jié)。

二、聚類分析簡介

一般來說,語言學(xué)學(xué)者是根據(jù)一個指標(biāo)對一些對象定性地分類的。但是當(dāng)面對多個指標(biāo),特別是包括定距、定比數(shù)量指標(biāo)時,這種分類方式就無能為力。這時,聚類分析就可以派上用場。我們可以用一個特征向量來代表每個對象,然后對之聚類。聚類分析可以用來探索、揭示數(shù)據(jù)內(nèi)部的結(jié)構(gòu)、模式以及各個變量(特征)之間的聯(lián)系。聚類分析的方法(算法)豐富多樣,并且一直處在蓬勃發(fā)展中,各種新的聚類方法被不斷提出和改進(jìn)。根據(jù)我們的觀察,聚合型層次聚類法是語言學(xué)研究中應(yīng)用最廣泛的一種方法。

三、聚類分析在我國外國語言學(xué)學(xué)界的應(yīng)用現(xiàn)狀

本文研究的問題是:1.聚類分析在我國外國語言學(xué)研究中應(yīng)用的總體情況如何?2.我國外國語言學(xué)方向的高校外語教師是否理解并掌握這一數(shù)學(xué)工具?3.她/他們能否把這一方法運(yùn)用到語言研究中去?

為回答問題1,我們以知網(wǎng)中全部的哲學(xué)人文社科文獻(xiàn)(包括了外國語言學(xué)研究文獻(xiàn))為對象做了調(diào)查。這些文獻(xiàn)是全國1950年至今的哲學(xué)人文社科類全國期刊、碩博士論文、重要會議論文全文數(shù)據(jù)。我們在其內(nèi)部各個學(xué)科文獻(xiàn)分類中,以“聚類”一詞作為在論文全文、摘要中出現(xiàn)的詞分別進(jìn)行搜索,我們可以看到各個學(xué)科中有多少篇論文含有“聚類”這個詞。這些數(shù)字反映了聚類分析在各學(xué)科中被使用的頻繁程度。具體數(shù)字如表1(只列出數(shù)量最多的前10名學(xué)科)。

表1 哲學(xué)與人文社科內(nèi)部各學(xué)科含有“聚類”一詞的論文篇數(shù)

從表1中數(shù)字反映的情況來看,哲學(xué)與人文社科各學(xué)科中應(yīng)用聚類分析最多的是心理學(xué),其次是中國語言文字,外國語言文字占第三位。外國語言文字使用聚類分析的頻率大約為中國語言文字學(xué)科的一半左右。這兩個學(xué)科性質(zhì)近似,但頻數(shù)相差較大,說明聚類分析在外國語言文字中還有較大的應(yīng)用空間。含有“聚類”一詞(在全文中出現(xiàn))的論文數(shù)量在心理學(xué)、中國語言文字和外國語言文字三個學(xué)科中的時間分布情況如圖1。

圖1 三個學(xué)科中含有“聚類”一詞的論文數(shù)量的時間分布

由于1990年以前含有“聚類”這個詞的論文數(shù)量極少,我們舍棄了1990年以前的部分。從圖中可以看出,在2003年之前極少有使用聚類分析方法的外國語言文字方面的論文,每年不超過5篇。2003年之后,聚類分析的使用穩(wěn)步增長,頻數(shù)最高的一年,即2014年,有73篇文章中出現(xiàn)了“聚類”一詞。這些僅是外國語言文字學(xué)科中全文中出現(xiàn)“聚類”一詞的論文篇數(shù),實(shí)際應(yīng)用聚類分析的外國語言文字方面的論文的篇數(shù)可能會更少。

可以看出,外國語言文字學(xué)科中聚類分析的使用是很少的。這與這個學(xué)科量化研究的需求、與我國龐大的從事外語研究的高校外語教師和研究生的人數(shù)是不相稱的,是偏少的。我們認(rèn)為產(chǎn)生這種狀況產(chǎn)生的原因可能是因為我國外語研究者對聚類分析研究方法不了解、不熟悉或者沒有意識到聚類分析在外語研究中的價值。

為了了解我國高校外語教師對聚類分析的了解、掌握情況,也就是上文中第2、3個問題,我們給iResearch學(xué)術(shù)交流QQ群的566名成員以電子的形式發(fā)去了調(diào)查問卷。iResearch群是一個外語語言學(xué)學(xué)術(shù)交流群,群成員是來自于全國各地、各種層次的高校的外語教師。可以近似地認(rèn)為這個群中所有從事外語語言學(xué)研究的成員是全國從事外語語言學(xué)研究的高校外語教師的一個隨機(jī)樣本。我們回收得到有效答卷408份,有效回收率為72%。然后我們按照分層隨機(jī)抽樣的原則隨機(jī)選擇這些有效答卷中的一部分答卷,使得這些答卷盡量平衡覆蓋全國各省(直轄市、自治區(qū))、各省內(nèi)各地區(qū)、各高校。這樣就使得選擇后的樣本答卷具有更好的代表性。最后357份答卷進(jìn)入數(shù)據(jù)分析。調(diào)查得到的結(jié)果如表2、3。

表2 高校外語教師對聚類分析方法的了解程度

表3 高校外語教師的聚類分析應(yīng)用能力

由表2可知,高校外語教師絕大部分對聚類分析完全不了解,這部分人占了86.3%。有7.8%的高校外語教師對聚類分析稍微了解;僅有3.1%、2.2%、0.6%的高校外語教師分別對聚類分析有一般程度的了解、比較熟悉和非常熟悉。在聚類分析的應(yīng)用能力方面,表3顯示:只有5%的高校外語教師具有應(yīng)用聚類分析解決問題的能力,絕大部分不具備這種能力(95%)。

表2和表3顯示的結(jié)果是較為一致的,即絕大部分高校外語教師不了解、不會應(yīng)用聚類分析方法。這也揭示了高校外語教師至少對多元統(tǒng)計分析方法的掌握是不夠全面的。如果高校外語教師對多元統(tǒng)計手段缺乏全面、深入的理解和掌握,他們的科研能力必定會受到很大的限制,因為外國語言學(xué)研究中很多問題是靠單因素研究手段不能解決的。面對我國高校外語教師對聚類分析及其在外語研究中的應(yīng)用缺乏了解的現(xiàn)狀,我們認(rèn)為有必要介紹和總結(jié)聚類分析在語言學(xué)研究中的應(yīng)用情況,以資了解和啟發(fā)。

四、聚類分析在語言研究中的應(yīng)用領(lǐng)域

聚類分析被應(yīng)用于語義、句法型式、認(rèn)知語言學(xué)、心理語言學(xué)、計算語言學(xué)和社會語言學(xué)等研究領(lǐng)域中。聚類分析的應(yīng)用一般是與語料庫數(shù)據(jù)結(jié)合。具體應(yīng)用領(lǐng)域如下:

(一)詞匯語義學(xué)

語言學(xué)中存在這一假設(shè):語言項目的語境分布信息揭示了這個語言項目的語義、功能特點(diǎn)。語言成分的意義就是這些語言成分的分布條件或限制。比如,F(xiàn)irth提出了名句:“觀一詞之同伴可知一詞”(You shall know a word by the company it keeps)[6];Hanks指出:“動詞的語義由它的補(bǔ)足語模式?jīng)Q定。”[7]語料庫提供了詞的分布環(huán)境信息,比如共現(xiàn)詞及其頻率,共現(xiàn)的語法型式或構(gòu)式及其頻率信息。根據(jù)語料庫提供的這些共現(xiàn)特征的頻率信息,聚類分析可以用來較客觀、系統(tǒng)地辨析近義詞、反義詞的意義和用法。Gries提出的詞匯行為輪廓(Behavioral Profiles)研究方法就是這種利用聚類分析的方法,感興趣的讀者可以參閱Gries(2012)[8]。有趣的是,Divjak & Gries用實(shí)驗證明了同(近)義詞的類或簇具有心理現(xiàn)實(shí)性[9]。聚類分析在詞匯語義學(xué)中的應(yīng)用對詞典編纂、外語教學(xué)有很實(shí)用的價值。

(二)句法型式研究

聚類分析可以幫助我們對語料庫中的句法結(jié)構(gòu)進(jìn)行聚類,幫助我們進(jìn)行經(jīng)驗數(shù)據(jù)性的句法研究。比如我們可以對語料庫中某單詞的全部索引行進(jìn)行聚類,識別、提取該詞匯(比如動詞)的全部句法型式(pattern),從而取得對特定單詞的句法行為的全局性的、系統(tǒng)性的認(rèn)識[10]。這對數(shù)據(jù)驅(qū)動的句法研究、詞典編撰、外語教學(xué)有很大的價值。

型式就是由動詞、名詞和形容詞與其補(bǔ)足語成分組合而成的短語單位[11],如V from n into n,其中V表示核心詞,from和into指具體詞項,n表示名詞短語。型式語法研究的目的則在于抽象歸納出不同詞類的所有型式。

聚類分析抽取、概括句法型式的做法如下:先建構(gòu)句法型式的一系列特征集合;繼而將每個索引行中的具體語言信息轉(zhuǎn)換為對應(yīng)的型式特征信息;然后采用相似度算法對同一檢索詞析出的索引行進(jìn)行聚類分析;進(jìn)而提取每組索引行中的公共特征項;最終實(shí)現(xiàn)相關(guān)單詞的句法型式的自動識別與提取,如圖2。

圖2 通過聚類分析從索引行抽象、概括句法型式[10]

(三)語言的文體(風(fēng)格)變異研究

一個語篇會呈現(xiàn)出各種語言結(jié)構(gòu)單位的使用統(tǒng)計特征。這些統(tǒng)計特征包括:詞長、句長、型符類符比、單現(xiàn)詞比例、詞性比例、句型比例等。很多研究證實(shí)各種語言結(jié)構(gòu)特征在不同體裁的文本中客觀地存在著變異[12,13]。語言風(fēng)格、文體、體裁是由于各種語言結(jié)構(gòu)單位的特征的頻率分布差異而產(chǎn)生的。這些頻率分布的差異構(gòu)成了分析語篇風(fēng)格、文體的物質(zhì)基礎(chǔ)[14]。通過各種特征對文本進(jìn)行統(tǒng)計分析的思想最早見于數(shù)學(xué)家Morgan在1851年的猜想和建議。研究者可以根據(jù)這些語言結(jié)構(gòu)單位統(tǒng)計特征實(shí)現(xiàn)對不同風(fēng)格、文體的文本或語篇的聚類[14-16]。

另外,一個作者也會在語言產(chǎn)出中表現(xiàn)出各種語言結(jié)構(gòu)單位的個性化使用統(tǒng)計特征,好比這個作者的“語言指紋”。我們可以對一個作者的很多作品的語言使用情況進(jìn)行統(tǒng)計,得出這個作者對各種語言結(jié)構(gòu)單位使用的統(tǒng)計特征,這些統(tǒng)計特征就是他/她的“語言指紋”。從相反的角度來講,我們可以根據(jù)一些已知的作者的“語言指紋”,把作者身份已知的文本與作者身份未知的文本進(jìn)行文本聚類分析或相關(guān)分析,然后根據(jù)分析結(jié)果來識別這些匿名作品的作者,或?qū)ψR別作者身份提供參考[15,16]。比如,李賢平對《紅樓夢》的120回進(jìn)行聚類,發(fā)現(xiàn)前80回和后40回分別被聚為兩大類,詞匯使用統(tǒng)計特征截然不同。李賢平據(jù)此提出自己的看法:《紅樓夢》前80回是曹雪芹所作,后40回是高鶚等人增補(bǔ)而成[15]。

(四)語言的地理變異:方言聚類

方言分類研究是語言學(xué)中應(yīng)用聚類分析最早的一個領(lǐng)域。Goebl在1982年首先把聚類分析應(yīng)用于方言分類的研究之中并取得成功[17]。自此以后,聚類分析在以Goebl和Nerbonne為代表的歐洲方言計量學(xué)研究中繼續(xù)得到廣泛而成功的應(yīng)用。

在漢語方言研究領(lǐng)域,鄭錦全和陸致極是應(yīng)用聚類分析應(yīng)用研究方言分類問題的開拓者[18,19]。運(yùn)用聚類分析對漢語方言進(jìn)行分類的其它研究還有:馬希文[20],鄧曉華和王仕元[21],王士元和沈鐘偉[22]等。聚類分析已經(jīng)成為了我國方言研究領(lǐng)域中一種重要的研究方法。

(五)語言的社會變異、功能變異研

語言變異與社會結(jié)構(gòu)的關(guān)系很復(fù)雜,用傳統(tǒng)的一般研究手段無法處理。傳統(tǒng)的研究方法中,研究變量的選擇、假設(shè)的建立都是研究者根據(jù)某種理論框架、既有的一些研究個案、個人在一個研究領(lǐng)域的經(jīng)驗或者靈感進(jìn)行的。這是至今仍然通行的研究方法。雖然我們不否認(rèn)這種研究方法的意義,但是我們必須承認(rèn)的是:這種傳統(tǒng)的研究方式是瞎子摸象式的,具有一定盲目性,而且有時候是東一榔頭西一棒子,缺乏系統(tǒng)性。根據(jù)個人的經(jīng)驗或靈感提出的語言研究假設(shè)帶有一定的盲目性,因為與大規(guī)模的語言數(shù)據(jù)相比,個人的經(jīng)驗、靈感總是有限的。聚類分析可以克服這些局限。聚類分析幫助研究者從大規(guī)模語言數(shù)據(jù)中發(fā)現(xiàn)數(shù)據(jù)的結(jié)構(gòu),根據(jù)數(shù)據(jù)結(jié)構(gòu)系統(tǒng)性地發(fā)現(xiàn)、提取與研究現(xiàn)象顯著(這里不是指狹義上的顯著:統(tǒng)計顯著)相關(guān)的研究變量,系統(tǒng)性的發(fā)現(xiàn)變量之間的相關(guān)性,據(jù)此提出假設(shè),作為建構(gòu)理論模型的基礎(chǔ)。這種大規(guī)模數(shù)據(jù)驅(qū)動的變量和假設(shè)發(fā)現(xiàn)方法更有系統(tǒng)性、全局性,并且減少了盲目性。

比如,Jones-Sargent利用聚類分析方法分析了地方方言的語音數(shù)據(jù),探索了語音變異與社會因素各水平的變異之間的聯(lián)系,得出了一些有趣的社會語言學(xué)假設(shè)[23]。Moisl等人對英國Tynside地區(qū)英語方言語料庫中的語音數(shù)據(jù)進(jìn)行聚類分析后發(fā)現(xiàn),該地區(qū)的語音的系統(tǒng)性變異與社會因素(如性別、職業(yè)、教育水平)相關(guān)[24,25]。

從Moisl等提出的語音變異與社會因素之間關(guān)系假設(shè)可以看出,聚類分析對研究人員具有重要的方法論意義,而不只是一種具體的統(tǒng)計分析技術(shù):聚類分析可以幫助研究者鳥瞰、總覽大規(guī)模語言數(shù)據(jù),從中發(fā)現(xiàn)全局性的數(shù)據(jù)結(jié)構(gòu);聚類分析可以幫助研究者以數(shù)據(jù)驅(qū)動的方式全面、系統(tǒng)地找出明顯與研究問題相關(guān)的研究變量、變量之間的關(guān)系,有針對性地提出假設(shè)。這種方法不僅適用于社會語言學(xué)研究,也適用于其它一些語言學(xué)研究領(lǐng)域、語言學(xué)理論框架內(nèi)的研究,比如下文中要討論的把聚類分析應(yīng)用于系統(tǒng)功能語言學(xué)中語域研究的案例。

聚類分析可以發(fā)揮用武之地的另一個領(lǐng)域是對語言的功能變異的研究,比如對語言功能變體—語域的研究。語域是指各種各樣的受情景因素支配的語言變體[26]。語域的例子有:新聞廣播、演說語言、廣告語言、課堂用語、家常談話、與幼童談話等。基于大型語料庫,Douglas Biber運(yùn)用因子分析、層次聚類分析等統(tǒng)計技術(shù)開創(chuàng)了語言語域變體的多維研究[27-30]。自建立以鏈,這種多維度分析方法以其宏觀的研究視角和對統(tǒng)計技術(shù)的精巧運(yùn)用得到研究者的青睞,在語料庫語言學(xué)中占有獨(dú)特的地位。其它的研究還有Gries,Newman & Shaoul[31]。他們利用了BNC幼兒語料庫和ICE-GB語料庫中不同長度的N元組作為層次聚類的基礎(chǔ),識別了不同語域之間的親疏關(guān)系。

研究者可以按照詞頻、詞長、句長、句子結(jié)構(gòu)復(fù)雜度、各種詞類的比例等指標(biāo)對大量的、類型多樣的語篇聚類,并按照圖9所示的方式,探索、發(fā)現(xiàn)聚類結(jié)果與語場、語旨和語式各變量或子變量的關(guān)系(比如語旨變量內(nèi)有權(quán)利關(guān)系、接觸頻率、感情投入等子變量),然后根據(jù)觀察到的變量之間的關(guān)系提出研究假設(shè),作為進(jìn)一步研究的基礎(chǔ),或者是作為認(rèn)識聚類指標(biāo)變量與語境變量關(guān)系的參考。根據(jù)這個案例我們可以看到,聚類分析可以成為系統(tǒng)功能語言學(xué)的定量研究的一個重要工具。當(dāng)前我國的系統(tǒng)功能語言學(xué)定量化研究還很不足。從研究方法上看,系統(tǒng)功能語言學(xué)的研究,比如語域、體裁的研究,和語料庫結(jié)合的還比較少。系統(tǒng)功能語言學(xué)領(lǐng)域內(nèi)的學(xué)者可以學(xué)習(xí)Biber和Moisl等人的研究,利用聚類分析等多元分析工具,和語料庫數(shù)據(jù)結(jié)合,更廣泛地探索、開展系統(tǒng)功能語言學(xué)的定量化研究。

五、聚類分析的優(yōu)勢、不足和在語言學(xué)研究中的應(yīng)用前景

聚類分析這種分(聚)類方法的優(yōu)勢之一是比定性的分類方法更具有客觀性和可重復(fù)性。聚類分析是基于事實(shí)、數(shù)據(jù)的,所以說它具有客觀性。當(dāng)然,這并不是說,聚類分析完全排除了主觀因素。聚類數(shù)值特征、算法的選擇、距離計算方式等方面的選擇仍然帶有一定的主觀性。但是,聚類分析中指標(biāo)(特征)、類的定義、距離計算方式、算法等參數(shù)一旦被人們設(shè)定,這種分(聚)類就具有可重復(fù)性、可檢驗性,也提供了不同分(聚)類方法優(yōu)劣比較的基準(zhǔn)。依靠主觀定性分類的方法重復(fù)性較低,因為專家和新手各自的理論素養(yǎng)、經(jīng)驗和直覺差別很大,也很難復(fù)制,他們各自的分類結(jié)果也會相異。我們知道客觀性和可重復(fù)性是科學(xué)研究的要求和基本特點(diǎn),所以,可以說聚類分析比定性分類更具有科學(xué)性。

聚類分析的另一個優(yōu)勢是它可以處理大規(guī)模的數(shù)據(jù)。人類面對小數(shù)據(jù),可以發(fā)現(xiàn)其中的結(jié)構(gòu),提出猜想和假設(shè)。但是當(dāng)人類面對復(fù)雜的大數(shù)據(jù)時,人的認(rèn)知能力局限使得他們難以穿透其中并發(fā)現(xiàn)數(shù)據(jù)中的結(jié)構(gòu)和規(guī)律,也難以提出合理的猜想或假設(shè)。聚類分析可以對復(fù)雜的大數(shù)據(jù)進(jìn)行高速、準(zhǔn)確的處理,發(fā)現(xiàn)大數(shù)據(jù)中的結(jié)構(gòu)、規(guī)律,幫助人們提出更合理的假設(shè),例如我們在上文中提出的聚類分析用于產(chǎn)生假設(shè)的案例。

聚類分析的不足是輸出結(jié)果存在穩(wěn)定性和效度問題。項夢冰所做的方言聚類分析實(shí)驗表明,聚類分析是一種倚重數(shù)量關(guān)系的分析,采用的方法不同,結(jié)果也往往有差異。她指出聚類分析可以給分類工作提供重要的參考,但倘若奉之為圭臬則未免失于偏頗[32]。這一看法與學(xué)術(shù)界對聚類分析的看法一致,即:聚類分析本質(zhì)上是探索性數(shù)據(jù)分析,用來探索、發(fā)現(xiàn)數(shù)據(jù)的內(nèi)在結(jié)構(gòu),聚類結(jié)果只能用作參考。

多種因素會影響導(dǎo)致聚類結(jié)果的穩(wěn)定性或效度:特征(指標(biāo)、變量)的選取、特征權(quán)重的分配、類的定義、距離的計算方法等。對聚類結(jié)果的質(zhì)量或效度的評估和優(yōu)化、提高也是聚類分析工作的一個環(huán)節(jié),也是一個被廣泛探討的研究領(lǐng)域。效度高的聚類分析結(jié)果不是一蹴而就的,聚類分析是一個精心準(zhǔn)備、反復(fù)比較、調(diào)試、優(yōu)化提高輸出結(jié)果的過程。

大數(shù)據(jù)時代,語料庫數(shù)據(jù)越來越豐富,聚類算法等數(shù)據(jù)挖掘技術(shù)也越來越精進(jìn)、成熟。當(dāng)前,越來越多的學(xué)者對內(nèi)省式的語言數(shù)據(jù)提出批評和質(zhì)疑,轉(zhuǎn)為傾向于使用語言用法數(shù)據(jù)[33-35]。Bresan等人指出基于語言直覺的語言數(shù)據(jù)不可靠,而基于語言用法數(shù)據(jù)的語言研究更加堅實(shí)、更具有生態(tài)效度[33]。馮志偉也指出小數(shù)據(jù)得到的語言知識是有限的、不可靠的,語言學(xué)者應(yīng)該從語料庫中挖掘語言知識[35]。可以想見,未來越來越要依靠對較大規(guī)模的語言數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘得到語言知識。大規(guī)模的語言數(shù)據(jù)靠人工、肉眼是無法處理的。此時,聚類分析等數(shù)據(jù)挖掘方法就是我們的工具。外語研究者應(yīng)該掌握包括聚類分析在內(nèi)的數(shù)據(jù)挖掘技術(shù),以使自己的研究跟得上時代潮流。

六、結(jié)語

聚類分析是基于語料庫語言用法數(shù)據(jù)的語言研究的一個有力的探索性工具。本研究的調(diào)查顯示,我國大部分外國語言學(xué)研究者對聚類分析既缺乏了解也不會應(yīng)用。本文指出聚類分析和語料庫結(jié)合可以應(yīng)用于外國語言學(xué)的很多研究領(lǐng)域:詞匯語義、句法型式,以及語言的地理變異、文體變異、社會變異、功能變異和歷時變異等。并且,聚類分析不僅是一種統(tǒng)計分析技術(shù),而且具有研究方法論意義,即可以以數(shù)據(jù)驅(qū)動的方式系統(tǒng)性的發(fā)現(xiàn)研究變量和生成假設(shè)。本文特別指出聚類分析可以作為系統(tǒng)功能語言學(xué)的定量化研究的一種重要工具。

參考文獻(xiàn):

[1]高一虹,等.中、西應(yīng)用語言學(xué)研究方法發(fā)展趨勢[J].外語教學(xué)與研究,1999(2).

[2]高一虹,等.關(guān)于外語教學(xué)研究方法的調(diào)查[J].外國語,2000(1).

[3]王立非.應(yīng)用語言學(xué)統(tǒng)計研究方法的實(shí)證調(diào)查——態(tài)度與實(shí)踐[J].外語研究,2002(1):66-70.

[4]趙蔚彬.十種外語類核心期刊(1995-2000)統(tǒng)計手段使用調(diào)查[J].解放軍外國語學(xué)院學(xué)報,2002(9):65.

[5]鮑貴.我國外語教學(xué)研究中的統(tǒng)計分析方法使用調(diào)查[J].外語界,2012(1):44-51.

[6]Firth,J.R.Papers in linguistics[C].Oxford:Oxford University Press,1957.

[7]Hanks,P.Contextual Dependency and Lexical Sets[J].International Journal of Corpus Linguistics,1996,1(1):75-98.

[8]Gries,S.Behavioral Profiles:A Fine-grained and Quantitative Approach in Corpus-based Lexical Semantics[C]//Gonia Jarema,Gary Libben,& Chris Westbury.Methodological and Analytic Frontiers in Lexical Research.Amsterdam & Philadelphia:John Benjamins.2012:57-80.

[9]Divjak,D.S.& S.Gries.Clusters in the Mind? Converging Evidence from Near Synonymy in Russian[J].The Mental Lexicon,2008,3(2):188-213.

[10]于濤.基于索引行聚類的英語動詞型式自動識別與提取研究[D].北京:北京外國語大學(xué),2015.

[11]Hunston,S.& G.Francis.Pattern Grammar:A Corpus-Driven Approach to the Lexical Grammar of English[M].John Benjamins,2000.

[12]Biber,D.Variation across speech and writing[M].Cambridge University Press,1988.

[13]Swales,J.M.Genre analysis,English in academic and research settings[M].Shanghai:Shanghai Foreign Language Education Press,2001.

[14]陳芯瑩,李雯雯,王燕.計量特征在語言風(fēng)格比較及作家判定中的應(yīng)用——以韓寒《三重門》與郭敬明《夢里花落知多少》為例[J].計算機(jī)工程與應(yīng)用,2012,48(3):137-139.

[15]李賢平.《紅樓夢》成書新說[J].復(fù)旦學(xué)報(社會科學(xué)版),1987(5):3-16.

[16]肖天久,劉穎.基于聚類和分類的金庸與古龍小說風(fēng)格分析[J].中文信息學(xué)報,2015(9).

[17]Goebl,H.Dialektometrie:Prinzipien und Methoden des Einsatzes der numerischen Taxonomie im Bereich der Dialektgeographie[M].Vienna:Verlag der sterreichischen Akademie der Wissenschaften,1982.

[18]陸致極.閩方言內(nèi)部差異程度及分區(qū)的計算機(jī)聚類分析[J].語言研究,1986(2):9-16.

[19]鄭錦全.漢語方言親疏關(guān)系的計量研究[J].中國語文,1988(2):234-249.

[20]馬希文.比較方言學(xué)的計量方法[J].中國語文,1989(5).

[21]鄧曉華,王仕元.中國的語言及方言的分類[M].中華書局,2009.

[22]王士元,沈鐘偉.方言關(guān)系的計量表述[J].中國語文,1992(2).

[23]Jones-Sargent,V.Tyne Bytes:A computerised sociolinguistic study of Tyneside[M].New York:Peter Lang International Academic Publishers,1983.

[24]Moisl,H.,W.Maguire,& W.Allen.Phonetic Variation in Tyneside:exploratory multivariate analysis of the Newcastle Electronic Corpus of Tyneside English[C]//F.Hinskens.Language Variation—European Perspectives.Amsterdam:John Benjamins,2006:127-142.

[25]Moisl,H.& W.Maguire.Identifying the Main Determinants of Phonetic Variation in the Newcastle Electronic Corpus of Tyneside English[J].Journal of Quantitative Linguistics,2008(15):46-69.

[26]張德祿.語域變異理論與教學(xué)[J].山東外語教學(xué),1990(1):45.

[27]Biber,D.The multi-dimensional approach to linguistic analyses of genre variation:An overview of methodology and findings[J].Language Resources and Evaluation,1992(26):331-345.

[28]Biber,D.University Language:A Corpus-based Study of Spoken and Written Registers[M].Amsterdam:John Benjamins,2006.

[29]Biber,D.Multi-dimensional Approaches[C]//A.Lüdeling & M.Kyt?.Corpus Linguistics:An International Handbook,Vol 2.Berlin:Walter de Gruyter,2009:822-855.

[30]榮紅.基于多維度分析模式的語言變異研究綜述[J].河北大學(xué)學(xué)報(哲學(xué)社會科學(xué)版),2008(1):107.

[31]Gries,S.,J.Newman,and C.Shaoul.N-grams and the clustering of registers[J].Empirical Language Research,2011,5(1).

[32]項夢冰.聚類分析在漢語方言研究中的運(yùn)用[J].語文研究,2015(4).

[33]Bresnan,J.,Cueni,A.,Nikitina,T.,& Baayen,R.H.Predicting the dative alternation[C]//G.Bouma,I.Kraemer,& J.Zwarts.Cognitive Foundations of Interpretation.Amsterdam:Royal Netherlands Academy of Arts and Sciences,2007:69-94.

[34]Manning,C.Probabilistic Syntax[C]//R.Bod,J.Hay,& S.Jannedy.Probabilistic Linguistics.Cambridge,Massachusetts:The MIT Press,2003:289-341.

[35]馮志偉.論語言學(xué)研究中的戰(zhàn)略轉(zhuǎn)移[J].現(xiàn)代外語,2011(1):1-11.

Cluster Analysis and its Applications in Foreign Language Studies

SUN Shi-guang1,2,ZHANG Ping2

(1.SchoolofForeignLanguages,TongjiUniversity,Shanghai200092;2.JinggangshanUniversity,Ji’an,Jiangxi343009)

Abstract:A survey indicates that most foreign language researchers across China lack an understanding of cluster analysis and cannot apply it in linguistic studies.Based on the analysis of corpus data,the authors of this paper hold that cluster analysis can be used in the following areas:lexical semantics,syntactic pattern studies,dialectology,stylistic,social and functional variation of language.Besides being a statistical technique,cluster analysis also has methodological implications:it can help researchers systematically discover variables relevant for subject matter;and it is a tool of generating high quality hypotheses in a data-driven way.It is also pointed out that cluster analysis can serve as an important quantitative research tool for systemic functional linguistics.

Key words:cluster analysis;corpus;foreign language studies

收稿日期:2016-02-17

作者簡介:孫仕光,1975年生,男,山東臨沂人,講師,博士研究生,研究方向:功能語言學(xué),語料庫語言學(xué)。

中圖分類號:H087

文獻(xiàn)標(biāo)識碼:A

文章編號:1671-9743(2016)03-0108-06

主站蜘蛛池模板: 91无码人妻精品一区| 男女男精品视频| 国产91在线免费视频| 亚洲人成网站日本片| 一本视频精品中文字幕| 欧美日韩国产系列在线观看| 欧美日韩另类国产| 亚洲黄色成人| 亚洲精品成人片在线观看| 理论片一区| 久久久久夜色精品波多野结衣| 亚洲自拍另类| 国产精欧美一区二区三区| 国产精品一区二区久久精品无码| 国产在线日本| 白浆视频在线观看| 青青操国产视频| 午夜精品久久久久久久99热下载| 久久综合五月| 制服丝袜国产精品| 精品视频在线观看你懂的一区| 亚洲欧美另类色图| 久久久久久久97| 极品国产一区二区三区| 2021国产v亚洲v天堂无码| AⅤ色综合久久天堂AV色综合| 亚洲男人天堂2020| 国产免费人成视频网| 久久精品91麻豆| 国产超碰在线观看| 精品国产aⅴ一区二区三区| 国产精品永久不卡免费视频 | 国产91在线|日本| 麻豆精品在线| 亚洲天堂免费在线视频| 亚洲无码37.| 国内熟女少妇一线天| 免费视频在线2021入口| 亚洲国产成人自拍| 成人永久免费A∨一级在线播放| 精品无码国产一区二区三区AV| 91福利一区二区三区| 真实国产精品vr专区| 福利在线免费视频| 国产91全国探花系列在线播放 | 亚洲精品国产综合99| 亚洲欧美色中文字幕| 国产美女视频黄a视频全免费网站| 精品色综合| 亚洲中文字幕av无码区| 久久精品无码中文字幕| 日本手机在线视频| 国产成本人片免费a∨短片| 91成人在线观看| 最近最新中文字幕在线第一页 | 久久久久青草大香线综合精品| 女同久久精品国产99国| 一区二区午夜| 三上悠亚在线精品二区| 国产呦精品一区二区三区下载| 毛片大全免费观看| 国产丝袜91| 亚洲乱码在线视频| 麻豆精选在线| 99青青青精品视频在线| 亚洲高清无在码在线无弹窗| 国产va在线| 日韩专区第一页| 91区国产福利在线观看午夜| 国产精品毛片在线直播完整版| 国产一级裸网站| 国产视频入口| 91年精品国产福利线观看久久 | 日本人妻丰满熟妇区| 日韩中文精品亚洲第三区| 亚洲成人黄色在线| 国产天天色| 亚欧美国产综合| 日韩a级毛片| 久久精品免费国产大片| 亚洲熟女中文字幕男人总站| 女人毛片a级大学毛片免费|