張賽
摘 要:以語料庫和統計方法進行語言結構特征計量研究是漢語語言風格描寫研究及作家判定研究的重要方法。本文以語言結構的計量特征表示文本的方法加強了語言風格對比及作者判定研究的可解釋性,具有較高的理論和應用價值。
關鍵詞:語言風格;語言結構;計量特征
本文基于語料庫和統計方法,獲取現代漢語語言結構的計量特征,而后考察這些語言結構計量特征在作家語言風格描寫、對比研究及作家判定方面的實際應用。具體過程是:首先,分別選取兩個作家的三個語料樣本,對其進行分詞并以文本為單位計算特定語言結構在文本中的頻率和百分比;然后,基于樣本的均值比較這些語言結構在分別屬于兩個作家的兩個樣本中的分布是否具有差異;最后,還對同一個作家的兩個不同的樣本中比較這些語言結構是否具有差異。
一、語料與方法
研究選取了3個文本,分別為韓寒早期作品《三重門》,韓寒近期作品《1988:我想和這個世界談談》和韓寒父親韓仁均作品《兒子韓寒》。《三重門》于2000年由作家出版社出版,總字數155820,總詞數116461;《1988:我想和這個世界談談》第一版于2010年7月6日《獨唱團》刊發,總字數92384,總詞數70185。兩者均為韓寒所著的長篇小說。而《兒子韓寒》為韓寒的父親韓仁均所寫,向讀者介紹了韓寒的成長經歷,具有傳記性質,總字數52854,總詞數37654。
首先,筆者將這三個文本進行了漢語分詞處理,漢語分詞標注所用的軟件為LJParser。LJParser文本搜索與挖掘開發平臺包括全文精準搜索、新詞發現、漢語分詞標注、詞語統計與術語翻譯、自動聚類與熱點發現、分類過濾、自動摘要、關鍵詞提取、文檔去重、正文提取等十余項功能。對于分詞標注后的三個文本,我們利用AntConc軟件進行了語料庫分析(詞頻統計等)。由于韓寒早期作品《三重門》的作者存在爭議,有人質疑《三重門》為韓寒父親代筆,所以我們試圖通過比較文本中陳述句、疑問句、感嘆句比例,近似平均句長,以及23個常見虛字在文本中的使用情況,來觀察《三重門》的語體風格和用詞習慣是更接近于韓寒近期作品《1988:我想和這個世界談談》還是其父作品《兒子韓寒》。如果《三重門》的語體風格和用詞習慣是更接近于《1988:我想和這個世界談談》,而與《兒子韓寒》有顯著性差異,那么我們就為《三重門》為韓寒自己所寫提供了證據。反之,如果《三重門》與《兒子韓寒》更為接近,而與《1988:我想和這個世界談談》存在顯著性差異的話,那么就為《三重門》由韓父代筆而作的質疑提供了證據。
二、數據與分析
本文主要研究了三個文本以下兩個方面的差異:一是陳述句、疑問句和感嘆句比例及近似平均句長,二是常見虛字(包括句尾虛字,白話虛字和表轉折程度比較的虛字)的比例。對于這兩個方面,AntConc的數據統計結果如表1所示:
表1 三個文本相應變量出現的頻度
■
由于三個文本的總字數和總詞數各不相同,為了更好地進行比較,我們將頻度轉換為頻率,從目標標點和虛字出現的頻率來進行對比,頻率數據如表2所示:
表2 三個文本相應變量出現的頻率
■
從表中可以看到《三重門》《1988:我想和這個世界談談》與《兒子韓寒》所用的逗號、句號、嘆號和問號比例分別有所差別,而其中《三重門》中嘆號出現的比例(0.35%)要顯著高于《1988:我想和這個世界談談》(0.00%)與《兒子韓寒》(0.06%)。從平均句長上來看,《三重門》為26.53,《1988:我想和這個世界談談》為27.20,而《兒子韓寒》則為31.94,高于前兩篇。可見韓寒早期作品《三重門》與近期作品《1988:我想和這個世界談談》平均句長接近,而其父作品《兒子韓寒》的平均句長則要長于韓寒。聯系到逗號的數據(《三重門》6.34%;《1988:我想和這個世界談談》8.22%;《兒子韓寒》4.95%),可以發現,韓仁均作品《兒子韓寒》不僅整句平均句長更長,其長句中每一個短句的句長也要長于其他兩部作品。而《1988:我想和這個世界談談》則呈明顯的短句更多更短的特點,其逗號比例顯著高于另外兩部作品。
虛字方面的分析,我們選取了23個虛字,分別為5個句尾虛字:呀、嗎、咧、么、呢;9個白話虛字:了、的、著、一、不、把、讓、是、好;9個表轉折程度比較的虛字:可、就、但、越、再、便、更、此、很。
從表2中可以看到,有四個虛字:“么”“了”“著”“是”在《1988:我想和這個世界談談》中的出現頻率要明顯高于《三重門》和《兒子韓寒》。由于單個字的對比說服力有限,因此我們運用SPSS進行了三個文本同樣23個虛字的相關性檢驗。
相關性檢驗表明,《三重門》(0.5179%±0.83918%)與《1988:我想和這個世界談談》(0.6438%±1.05711%)呈顯著相關,p=0;《三重門》與《兒子韓寒》(0.5209%±1.01391&)(p=0)和《1988:我想和這個世界談談》與《兒子韓寒》(p=0)也分別呈顯著相關。三個研究文本的相關系數如表3所示。
表3 三對文本對的成對樣本相關系數
■
結果表明,相關性檢驗并不能為研究提供有意義的證據。因此,針對這23個虛字,我們利用SPSS軟件進一步做了配對樣本T檢驗。
對于這23個虛字,我們分別以《三重門》和《1988:我想和這個世界談談》成對,以及《三重門》和《兒子韓寒》成對,進行了兩對成對樣本檢驗。表4為成對樣本檢驗結果,如下所示。
表4 兩對文本對的成對樣本檢驗結果
■
從表4中可以看到,《三重門》與《1988:我想和這個世界談談》存在顯著性差異,0
0.1。這樣的數據說明韓寒早期作品《三重門》與近期作品《1988我想和這個世界談談》的虛詞使用存在顯著差異,然而其早期作品《三重門》與其父親作品《兒子韓寒》的虛字用法卻非常相似。從某種意義上說,我們有理由認為《三重門》可能由韓仁均代筆而作。如果真是這樣,那么拿《1988:我想和這個世界談談》與《兒子韓寒》來比較,結果會是什么樣的呢?我們做了《1988:我想和這個世界談談》與《兒子韓寒》的成對樣本檢驗,結果如表5所示。
表5 《1988:我想和這個世界談談》與《兒子韓寒》的成對樣本檢驗結果
■
《1988:我想和這個世界談談》與《兒子韓寒》的成對樣本檢驗結果顯示,《1988:我想和這個世界談談》與《兒子韓寒》的23個虛字用法存在差異邊緣性顯著,0.05
三、結論
本研究通過對三個52,000字以上的語料樣本進行統計分析,有以下推測:《三重門》可能是由韓寒之父韓仁均代筆而作,或者《三重門》是韓寒父子二者合著。然而,我們的研究也存在一些值得推敲的細節,還需要在將來的研究中加以改進。綜觀整個研究,我們發現,將基于計量語言學研究成果的語言結構分布特征作為語言風格對比和作家判定,實驗證明是可行可信的,而且特征選擇和對比分析結果都可以從語言學的角度進行分析和解釋。此外,學者黃偉、劉海濤曾用這種方法成功地進行了文本聚類和分類實驗。這樣的方法具有普適性,值得在更多的語言學研究領域進行嘗試。標注體系和工具對統計結果的影響,語言風格在字、詞、句等語言結構和語法、語義、語用層面的全面計量描寫等,都是今后值得繼續和深入研究的課題。
參考文獻:
[1]陳芯瑩,李雯雯,王燕.計量特征在語言風格比較及作家判定中的應用——以韓寒《三重門》與郭敬明《夢里花落知多少》為例[J].計算機工程與應用, 2012,48(3):137-139.
[2]黃偉,劉海濤.漢語語體的計量特征在文本聚類中的應用[J].計算機工程與應用,2009,45(29):25-27.
[3]桂詩春.基于語料庫的英語語言學語體分析[M].北京:外語教學與研究出版社,2009.
摘 要:以語料庫和統計方法進行語言結構特征計量研究是漢語語言風格描寫研究及作家判定研究的重要方法。本文以語言結構的計量特征表示文本的方法加強了語言風格對比及作者判定研究的可解釋性,具有較高的理論和應用價值。
關鍵詞:語言風格;語言結構;計量特征
本文基于語料庫和統計方法,獲取現代漢語語言結構的計量特征,而后考察這些語言結構計量特征在作家語言風格描寫、對比研究及作家判定方面的實際應用。具體過程是:首先,分別選取兩個作家的三個語料樣本,對其進行分詞并以文本為單位計算特定語言結構在文本中的頻率和百分比;然后,基于樣本的均值比較這些語言結構在分別屬于兩個作家的兩個樣本中的分布是否具有差異;最后,還對同一個作家的兩個不同的樣本中比較這些語言結構是否具有差異。
一、語料與方法
研究選取了3個文本,分別為韓寒早期作品《三重門》,韓寒近期作品《1988:我想和這個世界談談》和韓寒父親韓仁均作品《兒子韓寒》。《三重門》于2000年由作家出版社出版,總字數155820,總詞數116461;《1988:我想和這個世界談談》第一版于2010年7月6日《獨唱團》刊發,總字數92384,總詞數70185。兩者均為韓寒所著的長篇小說。而《兒子韓寒》為韓寒的父親韓仁均所寫,向讀者介紹了韓寒的成長經歷,具有傳記性質,總字數52854,總詞數37654。
首先,筆者將這三個文本進行了漢語分詞處理,漢語分詞標注所用的軟件為LJParser。LJParser文本搜索與挖掘開發平臺包括全文精準搜索、新詞發現、漢語分詞標注、詞語統計與術語翻譯、自動聚類與熱點發現、分類過濾、自動摘要、關鍵詞提取、文檔去重、正文提取等十余項功能。對于分詞標注后的三個文本,我們利用AntConc軟件進行了語料庫分析(詞頻統計等)。由于韓寒早期作品《三重門》的作者存在爭議,有人質疑《三重門》為韓寒父親代筆,所以我們試圖通過比較文本中陳述句、疑問句、感嘆句比例,近似平均句長,以及23個常見虛字在文本中的使用情況,來觀察《三重門》的語體風格和用詞習慣是更接近于韓寒近期作品《1988:我想和這個世界談談》還是其父作品《兒子韓寒》。如果《三重門》的語體風格和用詞習慣是更接近于《1988:我想和這個世界談談》,而與《兒子韓寒》有顯著性差異,那么我們就為《三重門》為韓寒自己所寫提供了證據。反之,如果《三重門》與《兒子韓寒》更為接近,而與《1988:我想和這個世界談談》存在顯著性差異的話,那么就為《三重門》由韓父代筆而作的質疑提供了證據。
二、數據與分析
本文主要研究了三個文本以下兩個方面的差異:一是陳述句、疑問句和感嘆句比例及近似平均句長,二是常見虛字(包括句尾虛字,白話虛字和表轉折程度比較的虛字)的比例。對于這兩個方面,AntConc的數據統計結果如表1所示:
表1 三個文本相應變量出現的頻度
■
由于三個文本的總字數和總詞數各不相同,為了更好地進行比較,我們將頻度轉換為頻率,從目標標點和虛字出現的頻率來進行對比,頻率數據如表2所示:
表2 三個文本相應變量出現的頻率
■
從表中可以看到《三重門》《1988:我想和這個世界談談》與《兒子韓寒》所用的逗號、句號、嘆號和問號比例分別有所差別,而其中《三重門》中嘆號出現的比例(0.35%)要顯著高于《1988:我想和這個世界談談》(0.00%)與《兒子韓寒》(0.06%)。從平均句長上來看,《三重門》為26.53,《1988:我想和這個世界談談》為27.20,而《兒子韓寒》則為31.94,高于前兩篇。可見韓寒早期作品《三重門》與近期作品《1988:我想和這個世界談談》平均句長接近,而其父作品《兒子韓寒》的平均句長則要長于韓寒。聯系到逗號的數據(《三重門》6.34%;《1988:我想和這個世界談談》8.22%;《兒子韓寒》4.95%),可以發現,韓仁均作品《兒子韓寒》不僅整句平均句長更長,其長句中每一個短句的句長也要長于其他兩部作品。而《1988:我想和這個世界談談》則呈明顯的短句更多更短的特點,其逗號比例顯著高于另外兩部作品。
虛字方面的分析,我們選取了23個虛字,分別為5個句尾虛字:呀、嗎、咧、么、呢;9個白話虛字:了、的、著、一、不、把、讓、是、好;9個表轉折程度比較的虛字:可、就、但、越、再、便、更、此、很。
從表2中可以看到,有四個虛字:“么”“了”“著”“是”在《1988:我想和這個世界談談》中的出現頻率要明顯高于《三重門》和《兒子韓寒》。由于單個字的對比說服力有限,因此我們運用SPSS進行了三個文本同樣23個虛字的相關性檢驗。
相關性檢驗表明,《三重門》(0.5179%±0.83918%)與《1988:我想和這個世界談談》(0.6438%±1.05711%)呈顯著相關,p=0;《三重門》與《兒子韓寒》(0.5209%±1.01391&)(p=0)和《1988:我想和這個世界談談》與《兒子韓寒》(p=0)也分別呈顯著相關。三個研究文本的相關系數如表3所示。
表3 三對文本對的成對樣本相關系數
■
結果表明,相關性檢驗并不能為研究提供有意義的證據。因此,針對這23個虛字,我們利用SPSS軟件進一步做了配對樣本T檢驗。
對于這23個虛字,我們分別以《三重門》和《1988:我想和這個世界談談》成對,以及《三重門》和《兒子韓寒》成對,進行了兩對成對樣本檢驗。表4為成對樣本檢驗結果,如下所示。
表4 兩對文本對的成對樣本檢驗結果
■
從表4中可以看到,《三重門》與《1988:我想和這個世界談談》存在顯著性差異,0
0.1。這樣的數據說明韓寒早期作品《三重門》與近期作品《1988我想和這個世界談談》的虛詞使用存在顯著差異,然而其早期作品《三重門》與其父親作品《兒子韓寒》的虛字用法卻非常相似。從某種意義上說,我們有理由認為《三重門》可能由韓仁均代筆而作。如果真是這樣,那么拿《1988:我想和這個世界談談》與《兒子韓寒》來比較,結果會是什么樣的呢?我們做了《1988:我想和這個世界談談》與《兒子韓寒》的成對樣本檢驗,結果如表5所示。
表5 《1988:我想和這個世界談談》與《兒子韓寒》的成對樣本檢驗結果
■
《1988:我想和這個世界談談》與《兒子韓寒》的成對樣本檢驗結果顯示,《1988:我想和這個世界談談》與《兒子韓寒》的23個虛字用法存在差異邊緣性顯著,0.05
三、結論
本研究通過對三個52,000字以上的語料樣本進行統計分析,有以下推測:《三重門》可能是由韓寒之父韓仁均代筆而作,或者《三重門》是韓寒父子二者合著。然而,我們的研究也存在一些值得推敲的細節,還需要在將來的研究中加以改進。綜觀整個研究,我們發現,將基于計量語言學研究成果的語言結構分布特征作為語言風格對比和作家判定,實驗證明是可行可信的,而且特征選擇和對比分析結果都可以從語言學的角度進行分析和解釋。此外,學者黃偉、劉海濤曾用這種方法成功地進行了文本聚類和分類實驗。這樣的方法具有普適性,值得在更多的語言學研究領域進行嘗試。標注體系和工具對統計結果的影響,語言風格在字、詞、句等語言結構和語法、語義、語用層面的全面計量描寫等,都是今后值得繼續和深入研究的課題。
參考文獻:
[1]陳芯瑩,李雯雯,王燕.計量特征在語言風格比較及作家判定中的應用——以韓寒《三重門》與郭敬明《夢里花落知多少》為例[J].計算機工程與應用, 2012,48(3):137-139.
[2]黃偉,劉海濤.漢語語體的計量特征在文本聚類中的應用[J].計算機工程與應用,2009,45(29):25-27.
[3]桂詩春.基于語料庫的英語語言學語體分析[M].北京:外語教學與研究出版社,2009.
摘 要:以語料庫和統計方法進行語言結構特征計量研究是漢語語言風格描寫研究及作家判定研究的重要方法。本文以語言結構的計量特征表示文本的方法加強了語言風格對比及作者判定研究的可解釋性,具有較高的理論和應用價值。
關鍵詞:語言風格;語言結構;計量特征
本文基于語料庫和統計方法,獲取現代漢語語言結構的計量特征,而后考察這些語言結構計量特征在作家語言風格描寫、對比研究及作家判定方面的實際應用。具體過程是:首先,分別選取兩個作家的三個語料樣本,對其進行分詞并以文本為單位計算特定語言結構在文本中的頻率和百分比;然后,基于樣本的均值比較這些語言結構在分別屬于兩個作家的兩個樣本中的分布是否具有差異;最后,還對同一個作家的兩個不同的樣本中比較這些語言結構是否具有差異。
一、語料與方法
研究選取了3個文本,分別為韓寒早期作品《三重門》,韓寒近期作品《1988:我想和這個世界談談》和韓寒父親韓仁均作品《兒子韓寒》。《三重門》于2000年由作家出版社出版,總字數155820,總詞數116461;《1988:我想和這個世界談談》第一版于2010年7月6日《獨唱團》刊發,總字數92384,總詞數70185。兩者均為韓寒所著的長篇小說。而《兒子韓寒》為韓寒的父親韓仁均所寫,向讀者介紹了韓寒的成長經歷,具有傳記性質,總字數52854,總詞數37654。
首先,筆者將這三個文本進行了漢語分詞處理,漢語分詞標注所用的軟件為LJParser。LJParser文本搜索與挖掘開發平臺包括全文精準搜索、新詞發現、漢語分詞標注、詞語統計與術語翻譯、自動聚類與熱點發現、分類過濾、自動摘要、關鍵詞提取、文檔去重、正文提取等十余項功能。對于分詞標注后的三個文本,我們利用AntConc軟件進行了語料庫分析(詞頻統計等)。由于韓寒早期作品《三重門》的作者存在爭議,有人質疑《三重門》為韓寒父親代筆,所以我們試圖通過比較文本中陳述句、疑問句、感嘆句比例,近似平均句長,以及23個常見虛字在文本中的使用情況,來觀察《三重門》的語體風格和用詞習慣是更接近于韓寒近期作品《1988:我想和這個世界談談》還是其父作品《兒子韓寒》。如果《三重門》的語體風格和用詞習慣是更接近于《1988:我想和這個世界談談》,而與《兒子韓寒》有顯著性差異,那么我們就為《三重門》為韓寒自己所寫提供了證據。反之,如果《三重門》與《兒子韓寒》更為接近,而與《1988:我想和這個世界談談》存在顯著性差異的話,那么就為《三重門》由韓父代筆而作的質疑提供了證據。
二、數據與分析
本文主要研究了三個文本以下兩個方面的差異:一是陳述句、疑問句和感嘆句比例及近似平均句長,二是常見虛字(包括句尾虛字,白話虛字和表轉折程度比較的虛字)的比例。對于這兩個方面,AntConc的數據統計結果如表1所示:
表1 三個文本相應變量出現的頻度
■
由于三個文本的總字數和總詞數各不相同,為了更好地進行比較,我們將頻度轉換為頻率,從目標標點和虛字出現的頻率來進行對比,頻率數據如表2所示:
表2 三個文本相應變量出現的頻率
■
從表中可以看到《三重門》《1988:我想和這個世界談談》與《兒子韓寒》所用的逗號、句號、嘆號和問號比例分別有所差別,而其中《三重門》中嘆號出現的比例(0.35%)要顯著高于《1988:我想和這個世界談談》(0.00%)與《兒子韓寒》(0.06%)。從平均句長上來看,《三重門》為26.53,《1988:我想和這個世界談談》為27.20,而《兒子韓寒》則為31.94,高于前兩篇。可見韓寒早期作品《三重門》與近期作品《1988:我想和這個世界談談》平均句長接近,而其父作品《兒子韓寒》的平均句長則要長于韓寒。聯系到逗號的數據(《三重門》6.34%;《1988:我想和這個世界談談》8.22%;《兒子韓寒》4.95%),可以發現,韓仁均作品《兒子韓寒》不僅整句平均句長更長,其長句中每一個短句的句長也要長于其他兩部作品。而《1988:我想和這個世界談談》則呈明顯的短句更多更短的特點,其逗號比例顯著高于另外兩部作品。
虛字方面的分析,我們選取了23個虛字,分別為5個句尾虛字:呀、嗎、咧、么、呢;9個白話虛字:了、的、著、一、不、把、讓、是、好;9個表轉折程度比較的虛字:可、就、但、越、再、便、更、此、很。
從表2中可以看到,有四個虛字:“么”“了”“著”“是”在《1988:我想和這個世界談談》中的出現頻率要明顯高于《三重門》和《兒子韓寒》。由于單個字的對比說服力有限,因此我們運用SPSS進行了三個文本同樣23個虛字的相關性檢驗。
相關性檢驗表明,《三重門》(0.5179%±0.83918%)與《1988:我想和這個世界談談》(0.6438%±1.05711%)呈顯著相關,p=0;《三重門》與《兒子韓寒》(0.5209%±1.01391&)(p=0)和《1988:我想和這個世界談談》與《兒子韓寒》(p=0)也分別呈顯著相關。三個研究文本的相關系數如表3所示。
表3 三對文本對的成對樣本相關系數
■
結果表明,相關性檢驗并不能為研究提供有意義的證據。因此,針對這23個虛字,我們利用SPSS軟件進一步做了配對樣本T檢驗。
對于這23個虛字,我們分別以《三重門》和《1988:我想和這個世界談談》成對,以及《三重門》和《兒子韓寒》成對,進行了兩對成對樣本檢驗。表4為成對樣本檢驗結果,如下所示。
表4 兩對文本對的成對樣本檢驗結果
■
從表4中可以看到,《三重門》與《1988:我想和這個世界談談》存在顯著性差異,0
0.1。這樣的數據說明韓寒早期作品《三重門》與近期作品《1988我想和這個世界談談》的虛詞使用存在顯著差異,然而其早期作品《三重門》與其父親作品《兒子韓寒》的虛字用法卻非常相似。從某種意義上說,我們有理由認為《三重門》可能由韓仁均代筆而作。如果真是這樣,那么拿《1988:我想和這個世界談談》與《兒子韓寒》來比較,結果會是什么樣的呢?我們做了《1988:我想和這個世界談談》與《兒子韓寒》的成對樣本檢驗,結果如表5所示。
表5 《1988:我想和這個世界談談》與《兒子韓寒》的成對樣本檢驗結果
■
《1988:我想和這個世界談談》與《兒子韓寒》的成對樣本檢驗結果顯示,《1988:我想和這個世界談談》與《兒子韓寒》的23個虛字用法存在差異邊緣性顯著,0.05
三、結論
本研究通過對三個52,000字以上的語料樣本進行統計分析,有以下推測:《三重門》可能是由韓寒之父韓仁均代筆而作,或者《三重門》是韓寒父子二者合著。然而,我們的研究也存在一些值得推敲的細節,還需要在將來的研究中加以改進。綜觀整個研究,我們發現,將基于計量語言學研究成果的語言結構分布特征作為語言風格對比和作家判定,實驗證明是可行可信的,而且特征選擇和對比分析結果都可以從語言學的角度進行分析和解釋。此外,學者黃偉、劉海濤曾用這種方法成功地進行了文本聚類和分類實驗。這樣的方法具有普適性,值得在更多的語言學研究領域進行嘗試。標注體系和工具對統計結果的影響,語言風格在字、詞、句等語言結構和語法、語義、語用層面的全面計量描寫等,都是今后值得繼續和深入研究的課題。
參考文獻:
[1]陳芯瑩,李雯雯,王燕.計量特征在語言風格比較及作家判定中的應用——以韓寒《三重門》與郭敬明《夢里花落知多少》為例[J].計算機工程與應用, 2012,48(3):137-139.
[2]黃偉,劉海濤.漢語語體的計量特征在文本聚類中的應用[J].計算機工程與應用,2009,45(29):25-27.
[3]桂詩春.基于語料庫的英語語言學語體分析[M].北京:外語教學與研究出版社,2009.