中美理工科學者學術論文摘要言語特征量化比較

2021-03-11 08:42:22潘筱，樊淵

海南熱帶海洋學院學報 2021年1期

潘筱，樊淵

(安徽大學 a.外語學院；b.計算智能與信號處理教育部重點實驗室，合肥 230601)

當前英文期刊已成為國際學者傳播和了解科學知識的主要渠道，越來越多的非英語本族語者需要在國際期刊上發表英文學術論文，包括中國學者在內。因此，國內學者有必要了解英語母語使用者在發表學術論文時所遵守的語言習慣。Graesser[1]指出同一學科領域的專家學者通常會明示或暗示其專業領域內的學術文章寫作需要遵循一定的言語或話語規則。因此，某一特定學科領域內的非英語本族語者如果在撰寫英文學術論文時誤用或誤解了這些規則，顯然不利于其文章被領域內學者認可和接收。

關于英語學術論文寫作與發表方面的研究國內研究起步較晚，研究內容主要包括以下幾個方面：一是介紹國外的相關學術英語研究成果，如齊曦[2]回顧過去30年以來國際學術英語寫作評估研究，穆從軍[3]從理論框架、研究方法和研究內容等方面整理歸納20世紀80年代以來的科研發表英語相關研究；二是關于學術英語的語篇體裁研究，其中鞠玉梅[4]用體裁分析理論比較英漢學術論文摘要的宏觀語篇結構，韓萍、賀宏[5]運用批評性體裁分析方法研究了二語習得方面學術論文摘要和引言的體裁關系；三是心理認知角度的學術英語寫作研究，如丁展平[6]指出遁言是用語言形式體現作者心理取向的產物且成功的學術英語寫作需要借助遁言以達到交際目的，徐昉[7]分析學術寫作身份語塊的使用和變化特點；四是基于計算機和語料庫的學術英語寫作研究，如康勤、孫萍[8]比較不同學科論文摘要部分的宏觀結構及其對情態動詞和語態的影響，婁寶翠[9]基于研究生學術英語語料庫考察研究生學術英語語篇中外殼名詞的使用特點。由此可見，國內學者在考察學術文本特征時多側重詞匯和句子層面，如連接詞、外殼名詞、立場標記、學術詞塊等，比較少見的是對學術文本語篇連貫的分析，尤其是英漢學術文本的對比研究。考慮到摘要是學術論文的第一項重要組成部分，它傳遞出論文最濃縮和最有價值的信息，是讀者了解一篇論文是否值得關注或研究的基礎。因此，對中美學者所撰寫的論文摘要部分言語特征進行量化比較研究，對理解英語母語作者的語篇連貫性具有代表性意義。本研究通過Coh-Metrix在線工具測量中外學術論文摘要部分的文本特征并運用計算機分析，從詞匯難度、句法復雜度和語篇連貫性三個層面量化比較中國學者和美國母語使用者在話語特征上的差異性，以期利用得出的客觀結果對中國學者的學術英語寫作提供理論指導。

一、 Coh-Metrix工具

美國孟菲斯大學Graesser等[10]設計并開發的自然語言處理軟件Coh-Metrix是一項可以測量文本銜接性和文章難度的自動分析工具，可以在線同時測量文本特征、銜接手段、詞匯多樣性、句法復雜度和文本可讀性等106個文本特征。Coh-Metrix的運行主要基于句法分析器、潛伏語義分析和其他計算語言模塊，其中潛伏語義分析技術挖掘深層次文本變量的方式是通過輸入大量的文本，構建詞項和文本之間龐大的term-by-article矩陣，再通過奇異值分解實現減維降噪，最后獲得包含有詞項向量和文本向量的向量空間，并根據向量間的廣義距離如余弦值等求取向量之間的相關性。潛伏語義分析的結果不再是簡單的詞條出現頻率和分布關系，而是文本中各部分之間的語義相關性，因而改善了以往傳統技術僅限于對文章表層形式特征統計的局限性。

Coh-Metrix自從2002年問世以來被廣泛應用，國外學者利用Coh-Metrix進行的研究主要包括兩個方面：一是發現不同英語變體之間的具體差異，并通過對這些差異的量化統計分析較為準確地進行文本分類，如口語和筆語[11]、不同作者的作品[12]、原著和簡寫本[13]、美式和英式英語文本[14]等；另一類是考察連貫性和語篇質量之間的關系，如文本連貫性與英語母語寫作者作文成績的相關性[15]、連貫性與二語寫作文本質量之間的相關性[16]。國內利用Coh-Metrix對英語寫作文本的語言特征進行分析的研究相對較少，如梁茂成[17]分析了語篇連貫能力和作文成績之間的關系，桂林[18]比較了L1和L2作文中蘊涵的語義關系等。本文試圖利用Coh-Metrix提供的文本數據比較中國學者和母語使用者在話語特征上的差異性，試圖讓更多的中國學者了解如何調整自己的語言使用來與該行業領域內母語使用者的習慣保持一致。

二、研究設計

(一)研究問題

本研究主要回答以下問題：

1.中國理工科類學者發表在中國學術期刊上論文的英文摘要部分與美國學者發表在國際知名期刊上的論文摘要部分從詞匯、句法和語篇角度分析是否存在語言上的顯著差異？

2.中國理工科類學者發表在國際學術期刊上論文的英文摘要部分與美國學者發表在國際知名期刊上的論文摘要部分從詞匯、句法和語篇角度分析是否存在語言上的顯著差異？

3.美國學者發表在國際知名期刊上的論文語言具有哪些特征可以供中國理工科類學者借鑒和模仿？

(二)語料來源

本研究采用對比分析的方法對自建的小型語料庫進行分析。選取中美學者近五年來發表在地理信息科學領域學術論文摘要150篇，其中包括中國學者發表的中文核心期刊論文摘要50篇(以下簡稱CC)，中國學者發表在該學科領域的頂級SCI期刊論文摘要50篇(以下簡稱CE)，以及美國學者發表的頂級SCI期刊論文摘要50篇(以下簡稱AE)。選取的標準參考：

1.第一作者和導師來自同一所大學或研究機構；

2.第一作者和導師的姓名均為美國國家姓名典型格式。

本研究選取的論文主要來源期刊有《地理與地理信息科學》、《地球信息科學》、InternationalJournalofGeographicalInformationScience、AppliedGeography等。

(三)數據分析

對150篇中美學者的學術論文英文摘要部分從詞匯難度、句法復雜度和語篇連貫性三個層面進行判別功能分析。具體操作方法是先將150篇論文摘要分為兩個部分，即90篇訓練集和60篇測試集。首先使用訓練集中的數據找到在Coh-Metrix給出的多項指標中最能區分中美兩國學者在學術英語中使用的語言差異所在，再利用這些差異度最大的變量創建模型，生成判別函數，最后再由測試集中的數據去檢驗模型的有效性。

根據選擇的數據庫樣本大小，為了避免過度擬合，對訓練集中三組數據的比較分析僅限于五個變量。由于從Coh-Metrix網站上獲得的指標遠超過本研究需要的五個變量，因此我們決定先從總計108項指標中挑選出理論上更相關以及更能引起學者關注的指標。Haberlandt & Graesser[19]指出絕大部分讀者閱讀文章時會從以下三個不同的層面分析文章：詞匯、句子和語篇。其中詞匯層面主要包括將單詞的視覺特征編碼成抽象的字素或音素單位以及從長期記憶中檢索單詞含義；句子層面包括從語義上翻譯從句并將一句話中的所有信息整合為一體；而語篇層面會利用文本提示及讀者對世界的認識將從不同語句中獲得的信息相互關聯起來。參照這個標準版本研究將Coh-Metrix在線網站上提供的指標分為三大類別：詞匯指標、句法指標和語篇連貫指標。

為了從這三大類別中找出最具代表性的五個變量，我們首先從這三類指標中各選取一個區分度最大的變量。對三個類別的變量分別進行ANOVA分析，不同語言類型作為組間變量，Coh-Metrix指標作為因變量，所產生的F-值按照效應值大小排列。選擇每一組中擁有最高F-值得變量代表其組別。為了得到剩下的兩個變量，將所有剩余的變量按照F-值大小排列。為了避免共線性問題，不能簡單的選取F-值最高的兩個變量。參照Duran[20]的做法，首先確保所有變量之間相關性r<.70，若任意兩個變量間的相關性r≥.70，則先刪除那個單變量關系值較小的變量，按F-值從大到小的順序依次取得剩余的兩個變量，結果如表1所示。

表1 按F值大小排列的五個區分度最大的變量

四、結果與討論

(一)中美學者言語特征對比

我們首先對三組數據的五個變量分別進行獨立樣本t檢驗，結果如表2所示。

表2 獨立樣本t檢驗結果

從表2可以看出，第一組AE和第二組CC五個變量的t檢驗結果顯著性均為.000，因為.000的p值小于0.05，所以可判定中國理工科類學者發表在中國學術期刊上論文的英文摘要部分與母語使用者發表在國際知名期刊上的論文摘要部分在這五個指標上均存在語言上的顯著差異。而第一組AE和第三組CE在五個變量的t檢驗結果顯著性p值均大于0.05，所以可判定中國理工科類學者發表在國際學術期刊上論文的英文摘要部分與英語本族語使用者發表在國際知名期刊上的論文摘要部分在這五個指標上不存在語言上的顯著差異。詳細的比較結果如下。

1.所有單詞類符/形符比(Type-token ratio for all words,LDTTRa)

類符/形符比(TTR)是衡量文本中詞匯密度的常用方法，可以輔助說明文本的詞匯難度。TTR比值越高，該文本用詞越豐富，反之則越貧乏。實驗結果顯示，美國學者論文摘要部分TTR稍高于中國學者發表在國際期刊上的論文摘要部分TTR，且明顯高于中國學者發表在中文核心期刊上的論文英文摘要部分TTR。TTR數據高可能有兩個原因：其一，美國學者詞匯使用較豐富，在國際頂級期刊上發表論文的中國學者英文詞匯豐富性略低于母語使用者，而大部分在中文期刊上發表中文學術論文的中國學者的詞匯使用多樣性較低；其二，中國學者寫作的英文摘要部分可能有大量功能詞出現，文本每增加一個詞，形符就會增加一個，但類符卻未必隨之增加。這樣文本越長，功能詞重復次數越多，TTR會越低。

2.動詞銜接度(Text Easability PC Verb cohesion,z score，PCVERBz)

動詞在構成英語的銜接機制中主要表現為“復現”和“同現”，且較多地體現在近義詞的復現、同現。動詞銜接度越高，說明文本中動詞本身或其近義詞的重復率越高，語篇連貫性也就越高，文本越容易被理解。實驗結果顯示，美國學者論文摘要部分動詞銜接度稍低于中國學者發表在國際期刊上的論文摘要部分動詞銜接度，但明顯低于中國學者發表在中文核心期刊上的論文英文摘要部分動詞銜接度。這一結果說明美國學者使用動詞或其近義詞的機率相對較低，文本難度較高，而在中文期刊上發表中文學術論文的中國學者使用動詞或其近義詞的幾率最高，文本難度最低。

3.動名詞發生率(Gerund density,DRGERUND)

Halliday[21]發現科學語篇最顯著的特征之一是大量使用以名詞化形式出現的語法隱喻，因為名詞化結構能夠代替小句使表達更加簡潔、專業和客觀。名詞化是語篇正式程度的一個標志，語篇的程度越高，名詞化越多，信息含量也越高。實驗結果顯示，美國學者論文摘要部分動名詞發生率稍高于中國學者發表在國際期刊上的論文摘要部分動名詞發生率，且明顯高于中國學者發表在中文核心期刊上的論文英文摘要部分動名詞發生率。這一結果說明美國學者論文中語篇名詞化最多，正式程度最高，信息含量也越高，而中國學者發表在中文核心期刊上的論文英文摘要部分名詞化結構最少，信息含量也最少。

4.因果類動詞重疊率(LSA verb overlap,SMCAUSlsa)

因果類動詞在科技英語中使用較為普遍，這類動詞可以表示主語“會發生什么”或“期待可能發生什么”，他們的作用除了連接其他成分構成完整的句子以外，還可以表示句子間的因果關系，這種關系對于幫助我們閱讀理解整句話甚至是整篇文章大有裨益。實驗結果顯示，美國學者論文摘要部分因果動詞重疊率稍低于中國學者發表在國際期刊上的論文摘要部分動名詞發生率，且明顯低于中國學者發表在中文核心期刊上的論文英文摘要部分動名詞發生率。這一結果說明中國學者在學術論文中傾向于使用更多的因果類動詞，這些動詞的使用可以幫助讀者理解上下文間的邏輯關系，也從某種程度上降低了文本難度。

5.實義詞重疊率(Content word overlap,all sentences,CRFCWOa)

實義詞重疊是詞匯共指關系中的一個主要衡量指標，這里我們參考的指標是文中所有句子間的實義詞重疊。Kintsch&Van Dijk[22]指出詞匯共指可以幫助讀者理解文章并提高閱讀速度。Crossley[23]研究發現越簡單的文章使用的共指關系更多，因為詞匯的重復可以幫助讀者建立語篇不同部分之間的關系。實驗結果顯示，美國學者論文摘要部分實義詞重疊率低于中國學者發表在國際期刊上的論文摘要部分實義詞重疊率，且明顯低于中國學者發表在中文核心期刊上的論文英文摘要部分實義詞重疊率。這一結果表明中國學者的學術論文中實義詞重疊出現的機會更大，也從某種程度上說明中國學者的學術論文難度更低。

(二)判別分析

首先，基于訓練集中的數據，取按F值大小排列的五個指標作為自變量，不同語言水平(AE，CC和CE)作為因變量，得出的分類函數系數如表3所示。

表3 Fisher線性判別式函數

為了檢驗模型的準確性，我們利用測試集中的數據進行判別功能分析。利用已知測試集中的60篇文章，可以依據判別分析的預測結果判斷其準確性。參考的度量值有三項：召回率、準確率和F值。其中：

召回率=提取出的正確信息條數/樣本中的信息條數，

正確率=提取出的正確信息條數/提取的信息條數，

F值=正確率*召回率*2/(正確率+召回率)。

正確率和召回率兩者取值在0和1之間，數值越接近1，查準率或查全率就越高(見表4)。

表4 原組別和預測組別

對于測試集中的60篇論文摘要，判別分析成功預測了其中46篇的組別，總體準確率達到76.667%。每一組別的準確性判斷如表5所示。

表5 三個組別判別分析準確率、召回率和F值

結語

本文研究結果表明，AE和CC差異顯著，而AE與CE差異較小。這個結果說明在國際知名期刊上發表論文的中國理工科學者更好地學習和應用學術英語的使用規則，他們的語言更符合英語母語使用者在發表學術論文時所遵守的語言習慣。相較之下，在國內期刊上發表論文的中國理工科學者在撰寫英文學術論文時需要更深層次地理解英語母語使用者的習慣和規則。具體來說，在國際知名期刊上發表的英文學術論文具有以下特點值得中國學者學習：(1)類符/形符比較高，(2)動詞銜接度較低，(3)動名詞發生率較高，(4)因果類動詞重疊率較低，(5)實義詞重疊率較低。

考慮到中國理工科類學者發表在國內學術期刊上論文的英文摘要部分與母語使用者發表在國際知名期刊上的論文摘要部分從詞匯、句法和語篇連貫分析三個層面均存在語言上的顯著差異，英語母語使用者在評審、編輯或閱讀中國理工科類學者發表在中國學術期刊上論文的英文摘要部分時可能會認為這些學者并不了解其專業領域內的學術文章寫作需要遵循的語言或話語規則，這顯然不利于中國理工科類學者在國際知名期刊上發表英文論文。因而中國理工科類學者若希望在國際知名期刊上發表高水平英文論文，必須進一步學習和掌握英語母語使用者在發表學術論文時所遵守的語言習慣，進一步縮小本研究中反映出的中美學者在語篇連貫性上的差異。