999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

淺議統計語言學在作家語言風格研究中的實際應用

2018-05-08 09:28:32萬曉雯
現代語文 2018年2期
關鍵詞:實際應用

摘要:統計語言學是應用統計數學的方法來研究語言現象的語言學科,研究領域廣泛,學界常常運用統計語言學,通過分析語言單位的出現頻率及作家的用詞頻率、詞長分布和句長分布,確定作家的寫作風格。通過“判定《靜靜的頓河》作者”“證明《紅樓夢》是否出自一人之手”兩個案例可以看出,統計語言學的研究方法在進入文學研究領域后,取得了非常好的實用效果。但是,在實際應用中,除了各類詞匯等可控變量,還有其他潛在因素導致統計語言學的結論有時并非絕對精準。通過進行多方面、深層次地原因分析和推斷,我們發現,要得到準確的研究結果,必須做好研究的前期準備,要選擇具有相似語言環境的語料,要注意避開文學語言的形象思維影響,不能濫用統計語言學研究方法,并在操作過程中嚴格控制各種變量,以科學的思想指導研究。

關鍵詞:統計語言學 語言風格研究 實際應用

作為大數據時代語言學研究的一個熱點領域,統計語言學(statistical linguistics)屬于數理語言學的一個分支,涉及語言學、計算機科學和數學等多個學科門類,是應用數理統計、概率論和信息論等統計數學的方法來研究語言現象的語言學科。

一、統計語言學的研究領域

相較于自然科學,人文科學的研究多涉及人(包括研究者本人)的大腦,因此很容易導致“自我中心性錯誤”和“內省性錯誤”。無論是過多地依賴本人的經驗,還是過多地依賴自己的內省來做出判斷,都會導致研究缺乏客觀性與科學性,其價值是有限的。統計語言學則是倡導用科學的方法進行實驗,進而得出結論,“特別注重語言本身的系統性和動態性特點,強調語言描寫的真實性和精確性”。

從其研究內容看,統計語言學大致可分為語音統計學、詞匯統計學、語法統計學和語義統計學,分別研究語言的語音、詞匯、語法和語義的統計特征。從其功能看,統計語言學可分為描述統計與推斷統計:描述統計的作用是對數據進行整理、歸納和總結,壓縮數據,把握其一般性的特征和全貌;推斷統計則是根據描述統計提供的結果,進一步對有關聯系加以推斷。

“統計語言學可用來發現語言學內在規律(詞頻與詞排序之間的關系)、常用詞和非常用詞、詞語搭配、短語獲取、語言習得、語域變異以及作品風格分析等領域。”可以看到,統計語言學的研究領域廣泛,但其中最主要、最熟稔的實際應用,當屬通過語言單位的出現頻率及作家的用詞頻率、詞長分布和句長分布,確定作家的寫作風格。統計語言學進入文學研究領域后,還催生出了另一個學科,即文藝風格學,一種應用現代語言學成果和技術來分析研究文學作品的邊緣學科。如蘇聯學者用該方法研究赫爾岑、屠格涅夫的語言風格,國內也有人用這種方法研究巴金、曹禺、老舍等人的語言風格。

二、統計語言學與語言風格研究

黎運漢在《漢語風格學》中指出:“語言表現風格是綜合運用風格手段的結果,從調音、遣詞、擇句到設格、謀篇等的風格手段,綜合地反映在一篇文章、一部作品,或一種語體,或一個作家的作品,或一個時代的作家的作品,或一個民族的作家的作品里,這就從成了他們各自的表現風格。”換言之,語言風格的差異,正是由于作者使用特定語言單位的頻率不同而造成的。于是,通過對語言結構特征的分析,我們可以比較直觀地感受到不同文體與不同作者的風格,得出不同作者語言風格的同一性或區別性特征,而不僅僅是通過一系列描述型的論述,闡述文體或者語言風格問的差異。統計語言學的誕生,使語言單位的出現頻率和分布數據變得重要,成為一種彰顯作家語言風格的數學特征。

運用統計語言學判定作家風格的數學特征,其具體過程是:選取兩位作家的公認代表作品作為語料樣本,首先對樣本進行分詞處理,以文本為基本單位計算各類語言要素在文本中所占的頻率和百分比,根據兩個樣本的平均值,比較語言要素分布是否具有差異。一般而言,為了測試數學統計特征是否能夠有效辨別不同作家語言風格,還可以選用一個作家的其他作品為語料樣本,計算該樣本與統計所用語料樣本的相關性。

鑒于其在判定作家風格方面的顯著功效,統計語言學也被成功地運用到“作者考證”這個充滿爭議的研究領域中。在通過分析匿名文章的寫作風格進而判定其真正作者方面,統計語言學也展現出了非常好的應用效果。以往,當某本名著的作者產生爭議時,我們只能夠憑借經驗、歷史文獻和作家生平記錄來進行考證。如今有了統計語言學,我們可以通過嚴謹的數據分析,提出更有說服力的證據。

三、實際應用案例

(一)《靜靜的頓河》的作者糾紛案

統計語言學最著名的實際應用,就是成功破解了文學史上關于《靜靜的頓河》的作者糾紛案。

《靜靜的頓河》在蘇聯文學史上占有較高的地位。此書全景式地描寫了俄國內戰時期頓河流域的社會景觀,甚至有人將其與《戰爭與和平》等名著相提并論。然而自從《靜靜的頓河》第一冊出版,就飽受剽竊的質疑。原因是作者肖洛霍夫少年參軍,僅僅接受了幾年正規教育,青年時期就能寫出如此高水準的長篇小說,實在讓文學界人士難以信服。更令人疑惑的是,肖洛霍夫本人生前對于自己剽竊的指控一直未曾公開表態。直到1999年,《靜靜的頓河》手稿被找到,經鑒定,有605頁手稿是肖霍洛夫的筆跡,還有285頁是肖洛霍夫的家人代為謄寫的。但隨即有人提出反對意見,聲稱該手稿其實是對克留柯夫原稿的抄寫,并不能消除肖霍洛夫剽竊的嫌疑。于是,《靜靜的頓河》一書真正作者的爭議,伴隨著各種各樣的謠言和似真似假的匿名誹謗,眾說紛紜,真相始終撲朔迷離。學者們做出的各種學術考證,也始終難以讓讀者們普遍接受,更不用說使學界信服。

挪威奧斯陸大學的前蘇聯文學教授蓋爾克其薩對肖洛霍夫、克留柯夫其他代表作品和《靜靜的頓河》分別采樣,對三部作品的平均句長、句長分檔、不同詞類及其在句中的順序、某些詞匯特點、詞頻等進行了統計和分析,整理、歸納總結這些數據后,得出了令人信服的結論。為了更好地對比,蓋爾克其薩把《靜靜的頓河》、肖洛霍夫的其他代表作品及克留柯夫的代表作品分成了三組,逐一研究統計:

首先研究的是一部作品中不同的詞匯量與總詞匯量的百分比,三組的數據分別為64.6%、65.5%和58.9%。其中克留科夫的作品的百分比明顯低于肖霍洛夫的作品和《靜靜的頓河》。因此可以推斷,克留柯夫的作品具有重復使用相同詞匯的特點。

其次研究的是詞匯分布頻率,選取20個俄文中常見的詞匯,比較這些詞匯占作品中的全部詞匯的百分比,三組的數據分別為23.3%、22.8%、26.2%,明顯可以看出肖霍洛夫的作品與《靜靜的頓河》更為接近。

最后研究的是作品中出現過一次的詞匯所占的百分比,三組的數據分別為81.9%、80.9%和76.9%。克留柯夫的作品仍然與另外兩部表現出較大的差異

研究表明,所有參數都存在一致的趨勢,但克留柯夫作品的與《靜靜的頓河》之間,存在著顯著的統計差異。《靜靜的頓河》的語言風格與肖洛霍夫作品的語言風格幾乎完全一致,與克留柯夫的作品語言風格卻存在較大差異,這就令人信服地證明了《靜靜的頓河》的真正作者。由此可見,統計語言學的介入,使蘇聯文學界的這宗多年懸而未決的疑案真相得以明晰。

(二)《紅樓夢》后四十回作者歸屬案

在中國,作為四大名著之一的《紅樓夢》自問世以來就有很多懸而未決的問題,尤其是關于《紅樓夢》是否出于一人之手的爭論。從前,普遍的說法是:《紅樓夢》的前八十回是曹雪芹所作,后四十回系時代稍后的高鶚所作;或者認為前八十回與后四十回不是同一人所作;再者便是堅持認為前八十回、后四十回均為曹雪芹一人所作。可以看到,問題的焦點聚集在后四十回的作者歸屬問題上。自清代以來,做“紅學”研究的學者們對這一問題雖歷經多方考證,仍然是莫衷一是、眾說紛紜。

然而,在統計學進入文學研究領域,統計語言學的研究成果被引入紅學研究之后,這一結論又面臨著新的挑戰。1981年,美國威斯康星大學的講師陳炳藻發表的論文《從詞匯上的統計論<紅樓夢>的作者問題》中,通過對重要關鍵詞的詞頻統計與分析得出后四十回仍為曹雪芹所寫的結論。陳炳藻同時還另選了《兒女英雄傳》作為對照組進行比較研究,具體方法是從每組里任選八萬字作為樣本,從各樣本中挑出名詞、動詞、形容詞、副詞、虛詞共五類,運用統計學方法算出各組之間用詞的相關程度。陳炳藻的分析結果是:《紅樓夢》前八十回與后四十回所用詞匯的相關程度遠遠超過《紅樓夢》與《兒女英雄傳》所用詞匯的相關程度,根據上述描寫統計結果,推斷出前八十回與后四十回均為曹雪芹一人所作這一結論。

與陳炳藻的分析不同,1987年陳大康在《從數理語言學看后四十回的作者》一文中,同樣運用統計學相關原理,將《紅樓夢》一百二十回分成三組,每組四十回,并統計了其中所含字、詞、句等88個項目,“用斯米爾諾夫總體分布檢驗法得到前八十回與后四十回作者不同的結論”。陳大康發現前兩組在字詞選用、字詞特征及句式規律上都表現出了驚人的相似性,而后四十回則迥異,由此得出后四十回非曹雪芹所作的結論。

張衛東、劉麗川通過統計《紅樓夢》中230個非常用字尤其是4個粗話臟詞和3個異體字的使用情況,以及每回結尾的差異,發現前八十回與后四十回有極大的差異,由此認為該小說并非由一人完成。

以上都是運用統計語言學的方法來解決語言學問題的實例。在語言陳述也無能為力的情況下,通過描述統計數據對數據進行歸納總結,有力地證明假設,或根據統計提供的結果推斷出科學的結論,這正是統計語言學的魅力所在。

四、實際應用中出現的差異及原因分析

在運用統計語言學解決問題時,要求必須針對實驗的性質特征選擇合適的檢驗方法,同時在檢驗開始前要盡量找出所有的變量,盡量控制除自變量外的其他影響因素,合理操作實驗,以避免檢驗結果不準確的情況發生。在這過程中,如果忽略了其中的任何一條,都可能引起操作結果的差異。

除了上述注意事項,一些其他的潛在因素也會影響推斷統計的精確度,甚至有時會得出迥異的結論。例如上述關于《紅樓夢》是否出于一人之手的爭論,歷次分析同樣是采用了統計學的方法,卻得出了截然相反的結論。結合兩書及作者情況的不同,筆者認為得出截然相反結論的原因如下:

1.文學作品中的語言雖然經過作者的刻意經營,是對自然語言的變形,但并不是無限度地扭曲,其用詞脫離不了作品內容。《兒女英雄傳》作為《紅樓夢》文本的參照對象,其對比結果是否先天存在偏差,仍然有待商榷。《兒女英雄傳》主要表達女主人公的豪俠仗義并輔以愛情描述,《紅樓夢》以賈寶玉、林黛玉的愛情悲劇為主線并輔以封建社會的衰敗闡述。單純從故事內容來講,兩書表達的主題不同,在敘述描寫時選詞自然也應有所不同,其用詞造句的差異是不言而喻的。《兒女英雄傳》中的人物以市井民間人士為主,相應的市井俚語也會多一些。言談用語詼諧活潑、俏皮有趣。《紅樓夢》中的人物以貴族門第人士為主,言談用語規矩略刻板一些,對文言虛詞的使用也會相應多一些。可以推斷,兩書所用詞匯的相關程度存在較大差異,與其內容的不同有一定的關系。

2.《兒女英雄傳》全書采用評話形式,《紅樓夢》是白話文著作。龔千炎在《<兒女英雄傳>是<紅樓夢>通向現代北京話的中途站》中指出:“《兒女英雄傳》反映的基本是19世紀中葉的北京話,《紅樓夢》反映的基本是18世紀中葉的北京話,從北京話的近期歷史看,《兒女英雄傳》是《紅樓夢》通向現代北京話的中途站。”漢語發展到近代,特別是白話文的進一步普及,對兩書的選詞用句有著必然的影響。正是因為《兒女英雄傳》的語法上承《紅樓夢》,下探現代北京話,具有許多過渡期的特點,從而導致了兩書的所用詞匯相關程度呈現較大差異。

3.《兒女英雄傳》的作者文康,與《紅樓夢》的作者曹雪芹并非同一人,語言風格自然不會相近。文康與曹雪芹同為“八旗子弟”,兩篇作品都不自覺流露出他們的滿族意識,比如尊崇女性、注重禮節以及對滿族興衰和滿族命運的關注等等。但是,他們的人生境況雖然相似,文康卻不具備曹雪芹那種人文關懷、審美情思和“舉世皆濁我獨清”的高潔性情,而更近似于一個屈服于封建“禮”的束縛之下的世俗之人,兩人的語言風格也必然存在較大不同。

綜上,由于《兒女英雄傳》與《紅樓夢》除了名詞、動詞、形容詞、副詞、虛詞等可控變量以外,還存在其他各種潛在的影響因素,導致在進行對比研究時得出了具有差異的結果。“從目前來看,學界的研究多是從某些方面對《紅樓夢》尤其是后四十回的作者歸屬進行判定。”筆者認為,若要解決這一懸案,唯有系統深入地對《紅樓夢》整體的語言風格進行研究,再對前八十回與后四十回的進行比較,得出來的結果方能令人信服。

五、在實際應用中應注意的問題

統計語言學進入文學研究領域后如魚得水,特別是在作家語言風格的研究中大顯身手。但是基于科學研究的嚴謹性,我們也必須看到在統計語言學應用過程中必須注意的問題。

(一)選擇具有相似語言環境的語料

統計語言學的結論之所以被認為是科學的,正是由于其依賴于數據的橫向分析和縱向分析。但是,分析研究文學作品語言風格,不能只是單方面地從字、詞、詞類等層面進行,還應考慮句法、語義、語篇等層面的問題。特別是考慮到時代不同、地域不同等外部因素對語言的影響,極易導致語言學上的定性定量分析結果出現偏差,因此,必須注意的一點是,在選取語料時應注意選擇具有相似語言環境的語料。

(二)注意避開文學語言的形象思維影響

“語言具有奇妙的結構,數學具有邏輯之美。”相較于人文科學容易導致的“自我中心性錯誤”和“內省性錯誤”,自然科學尤其是數理研究具有明顯的準確性、客觀性優勢。統計語言學如同拆分機器一般,將文學作品中的語句逐一拆分為最小單位的零件,然后進行分類歸納整理,分析每個語言單位所發揮的作用,最終使整體研究結果無限接近于準確。

但是,數學統計方法還不能從根本上代替語言學原有的研究手段,畢竟文學作品有其不能忽視的特點。文學是用形象思維的方法創造的,而統計語言學講求的是邏輯思維,使兩者有著不可分割的聯系,卻也有著截然不同的性質。文學語言往往停留在理解的層次,其風格是看不見摸不著的,所以訴諸于語言。在統計語言學中,不管是詞類劃分、語音分類,還是語法公式的總結等等,都是在邏輯思維下的結果,最后得出的結論都是有形的、具體的語言材料。文學語言雖然能夠適用從自然語言角度來的分析方法,但這個過程也是容易因形象思維和邏輯思維的不同引起差異,這是我們必須要注意的。要得到準確的研究結果,必須做好研究的前期準備,并在操作過程中嚴格控制各種變量,以科學的思想指導研究。

(三)統計語言學的應用不能無的放矢

統計語言學的出現,使我們文學研究的方法從定性走向定量,得以具體地描述作家語言風格。值得注意的是,統計語言學法在應用時一定要有個明確的目的,至少應該有一個基于理論的推斷或猜想,比如判定不同作者之間風格的不同,或者對未知作者的假設與猜想。有了假設和猜想,然后再用各式各樣的語言結構統計分析去證明。切忌為了統計而統計,導致統計語言學的濫用或者做了無用功。

六、結語

統計語言學在比較不同作者文學作品的風格特征,識別同一作者的不同寫作風格,推測文學作品的來源,判定匿名文學作品的作者,辨別文學作品真偽等多個方面都得到了廣泛而深入的運用。通過以上案例可以看到,基于語料庫和數理統計方法,通過分析作家的用詞頻率、詞長分布和句長分布等數據,確定作家的語言結構分布特征(即統計語言學視角下的語言風格),已經成為對語言風格進行描寫的重要方法。多年來,統計語言學用于作者判定的一系列實驗,破解了許多未知作者的疑案,充分證明了這種方法是可行可信的。更重要的是,基于統計語言學研究成果得出的對比分析結果,都可以從語言學的角度進行分析和解釋,而不是紙上談兵。

統計語言學的實際應用不止于此,有待于繼續深入研究。“標注體系和工具對統計結果的影響,語言風格在字、詞、句等語言結構和語法、語義、語用層面的全面計量描寫等,都是今后值得繼續和深入研究的課題。”本文僅作管中窺豹之用,以期能夠讓統計語言學在文學領域的研究引起更多重視,并能引入更多的科學統計方法做這方面的研究,從而使未來統計語言學的方法與成果更加精準,甚至用途也能夠進一步拓展。

作者簡介:萬曉雯,女,濟南市歷下區燕山學校教師。

猜你喜歡
實際應用
航空氣象服務中多普勒雷達的應用
科技傳播(2016年19期)2016-12-27 15:16:56
探索式教學法在《聚合物加工原理》課程中的應用分析
亞太教育(2016年34期)2016-12-26 18:32:16
運用現代教育技術煥發數學課堂的活力
油田電力系統技術改造與應用
知識管理在工會管理應用中的創新探析
利用教材,培養學生的實際應用能力
略談小學生數學應用能力培養的基本途徑
低溫甲醇洗技術及其在煤化工中的應用
高中歷史教學中對歷史圖片的開發及實際應用
考試周刊(2016年85期)2016-11-11 01:57:37
高速公路計重檢測設備的實際應用探討
主站蜘蛛池模板: 在线看片免费人成视久网下载| 色偷偷男人的天堂亚洲av| 亚洲一区二区视频在线观看| 国产精品偷伦在线观看| 青青极品在线| 国产成年女人特黄特色大片免费| 91精品国产91久无码网站| 日本道综合一本久久久88| 亚洲视频一区在线| 无码丝袜人妻| 国产成人1024精品下载| 久久一本日韩精品中文字幕屁孩| 亚洲一道AV无码午夜福利| 国产又粗又爽视频| 美女免费精品高清毛片在线视| 香蕉视频在线观看www| 制服无码网站| 成人在线观看不卡| 国产成人凹凸视频在线| 久久久久亚洲Av片无码观看| 亚洲中文字幕无码爆乳| a亚洲视频| 国产又黄又硬又粗| 亚洲国产第一区二区香蕉| 国产欧美日韩精品综合在线| 精品无码专区亚洲| 国产日产欧美精品| 精品视频在线观看你懂的一区 | 国产黄色片在线看| 97影院午夜在线观看视频| 亚洲色婷婷一区二区| 国产91在线|日本| 亚洲精品综合一二三区在线| 国产成人精品免费av| 国产精品伦视频观看免费| 免费又黄又爽又猛大片午夜| 欧美影院久久| 亚洲色图欧美激情| 久久国产亚洲欧美日韩精品| 欧美日韩国产在线播放| 精品偷拍一区二区| 亚洲精品片911| 亚洲精品成人片在线播放| 欧美精品在线视频观看| 一区二区在线视频免费观看| 亚洲av色吊丝无码| 无码内射在线| 亚洲精品手机在线| 日韩小视频网站hq| 青青草国产免费国产| 精品少妇人妻一区二区| 激情影院内射美女| 无码久看视频| 色综合天天综合| 国产成人精品亚洲77美色| 一级一级特黄女人精品毛片| 国产浮力第一页永久地址| 久久久久亚洲Av片无码观看| 国产乱子精品一区二区在线观看| 97国产在线观看| 色综合久久久久8天国| 91成人试看福利体验区| 九月婷婷亚洲综合在线| 无码在线激情片| 亚洲人免费视频| 香蕉99国内自产自拍视频| 亚洲有无码中文网| 免费人成网站在线观看欧美| 亚洲欧美一区在线| 91精品啪在线观看国产91九色| 激情亚洲天堂| 国产精品男人的天堂| 国产一区二区网站| 中文字幕乱妇无码AV在线| 国产精品美女自慰喷水| 真实国产精品vr专区| 亚洲毛片网站| 老司机aⅴ在线精品导航| 特级欧美视频aaaaaa| 欧美精品H在线播放| 国产成人三级在线观看视频| 自偷自拍三级全三级视频 |