摘 要:隨著計算機技術的發展,語料庫技術作為一種更為科學的、經濟的手段,被越來越多地引入到辭書編纂領域。在漢語辭書釋義方面的語料庫技術運用,不僅能提高辭書釋義的客觀性、準確性,還能進一步增強漢語辭書編纂的科學性。語料庫的出現在為我們提供方便的同時,也帶來了一些問題。為了確保辭書編纂中語料分析的合理性、科學性,我們在進行數據分析時,應把握真實性、窮盡性、有效性和定量分析與定性分析相結合的原則。
關鍵詞:辭書編纂 語料庫 原則
一、引言
自20世紀80年代以來,隨著計算機應用技術的不斷發展,以語料庫為基礎的語言學研究在語言學和計算機科學領域中都取得了豐碩成果,語料庫的建設也受到了世界各國的廣泛重視。近年來,語料庫規模的擴大及配套的檢索技術的完善,為辭書編纂帶來了新的思路和角度。大量電子文本的出現,不僅給辭書編纂帶來了大量的信息來源,使我們節省了很多人力、物力,也給讀者提供了一種新的更加快捷的語料查找渠道,便于人們進行有關方面的學習和研究。但與此同時,為了確保辭書編纂中語料分析的合理性、科學性,我們在進行數據分析時,還應把握真實性、窮盡性、有效性和定性與定量相結合的原則。
二、真實性
所謂真實性,主要是指語料的真實性和數據的真實性。在我們進行數據分析前,首先要確保的是語料庫中語料的真實性。語料庫中的語料應該是在現實生活中真實應用于自然語言交際的真實話語和真實文本材料。語料庫素材的構成和取樣范圍要按照明確清晰的語言學原則和嚴謹科學的語料庫設計宗旨,通過科學的實際調查和合理的數據統計來完成,而并不是由隨意拼湊的或隨機抽取的某一部分語言材料堆積而成。因此,我們在進行數據分析時常常選擇一些規模較大語料庫,它們都是國家或者有實力的大學設計和建設的,從而使我們能方便快捷地找到大量真實可靠的數據。例如:國外的語料庫有布朗語料庫、倫敦—隆德口頭英語語料庫、國際英語語料庫等,國內的語料庫有現代漢語語料庫、北京大學計算語言學研究所開發的人民日報語料庫等。這些大型的語料庫為我們提供了大量的真實可靠的語料,這也為我們下一步進行數據統計的真實性奠定了堅實的基礎。
其次,我們還要保證統計數據的真實性。我們從語料庫中篩選出需要的語料,然后就要進行相關方面的數據統計,切記要一一進行查找,不能偷懶進行類推或者大致推算。因為每一個數據都有自身的獨特性,它所具有的某些性質也許只是這一個例子所表現出的特征,并不能代表全部。例如,我們要對“給力”這個詞條進行調查研究,在資料考證過程中我們發現“給力”在給定的語料庫2012年的語料使用中頻率較高,但是我們不能簡單推測在2013年的語料中它也大量使用,具體它的使用頻率是多少,是否在2013年的語料中同樣有較高的使用率,還要認真地在2013年的語料中進行實際的考察和統計才能得出真實可信的定論。如果我們的調查失去了真實性,那么也就失去了調查的意義,就更不要談語言研究的價值了。因此,真實性是辭書編纂中語料庫數據分析的首要原則。我們要確保數據統計的真實性,做好數據分析的基礎工作。
三、窮盡性
在確保真實性的基礎上,我們還要保證數據分析的窮盡性。所謂窮盡性,就是我們在檢索語料的過程中,要把語料庫中關于調查內容的語料全部檢索一遍,應該將含有檢索條目的語例盡可能完全地收錄進來。這樣我們不僅可以全面了解詞語的使用情況,而且還能為進一步的全面分析打好基礎。如果搜集的語料沒有窮盡所調查的使用領域,就會導致分析結果有一定程度的偏差,語料抽樣比例越小,最終所得到的的結果偏差就越大。比如說我們現在要對“問訊”這個詞條進行考察,通過在語料中的檢索我們發現,它通常有三層意思:作動詞,表示“詢問”;作動詞,表示“訊問,審問”;作動詞,帶有書名面色彩,表示“問候”。其中在含有“問訊”一詞的153則語料中,還有6個語例是表示僧尼跟人應酬時合十招呼——也叫“打問訊”。這一用法雖然只占到總數的4%,但如果在調查過程中忽略了這6個用法,就不僅沒有真實地反映語言在現實生活中的應用,而且在讀者遇到此類用法時也查無依據,還給語言的發展帶來不必要的麻煩。語料庫數據分析區別于傳統分析的最大特點,就是它建立在大規模真實語料數據的基礎之上,分析的方法較之過去更加客觀全面,分析的結果較之以往也有更加詳實充分的依據,因此也就具有了高度的科學性和說服力。
當然窮盡性是相對而言的,通用型的語料庫數據范圍和數量都極大,要想進行窮盡性的分析統計有時還需要借助相關的專業工具和技術。而專門語料庫數據量較小,進行窮盡性的分析難度較低,操作起來比較簡單易行。所以不論難度高低,我們都要進行窮盡性的檢索和統計,這樣我們最后得出的結果才有意義,有一定語言研究價值。因此,窮盡性是辭書編纂中語料庫數據分析的重要原則。只有把握了窮盡性原則,才能為辭書的進一步發展提供全面的有力支持。
四、有效性
所謂有效性,主要是指所分析的對象的有效性和分析數據運用的有效性。首先是分析的對象的有效性,也就是說在進行數據分析時,要在數據真實基礎上,進一步要求所調查的數據的有效性,或者說我們最終所選定的分析數據是符合我們所調查的目的的。例如,我們在北大語料庫中對語句中“叛離”一詞不同語句中的應用情況進行檢索,得到39個語例;但是在進一步的考察中發現,其中有2條語例是在詞典中的運用,因此在進行調查數據統計時,符合調查目的的有效語例應該計為37例。因此,我們不能簡單地把檢索出來的結果直接拿來使用,而要根據調查的目的認真仔細地進行篩選,剔除無效的數據,保留有效數據。
同時,我們還應考慮分析數據運用的有效性。數據分析對象的有效性并不等于分析數據運用的有效性,但是數據分析對象的有效性是保證分析數據運用的有效性的先決條件。以上文中“叛離”一詞為例,在確定了有效語例為37的基礎上,我們才能進一步考察其應用情況,在考察“叛離”后與組織類名詞搭配使用和與人物名詞搭配使用的情況時就不能將這37個語例籠統地運用進去。經過進一步的考察后發現,與組織類搭配的有9例,與人物類搭配的有5例,這是在有效語例中進一步考察分析數據運用的基礎上得出的有效數據。如果沒有前期考證的有效語例,那么這一次進一步的考證也是沒有絕對的說服力的,當然還有可能出現錯誤。如果在考察“叛離”搭配的使用時,我們以檢索到的39個語例進行分析,那么那2個無效的語例也就在無意中擴大了考察的范圍,也更會影響到最后統計比例的大小。當我們發現“叛離”與組織類名詞搭配使用的情況最多時,我們在進行詞典編纂時就可以將“叛離”與組織類搭配使用的例子放在首位,或者是多舉幾例。這些都說明分析數據運用的有效性是完全考慮到現實應用的,同時還說明建立在數據有效性基礎上的分析數據運用的有效性也是完全符合現實需要的。從語料分析的最終用途角度來看,有效性是不可忽視的重要問題。因此,有效性是辭書編纂中語料庫數據分析必不可少的重要原則。我們要把握分析的對象的有效性和分析數據運用的有效性原則,從辭書編纂的現實出發,不斷提高辭書的現實價值。
五、定量分析與定性分析相結合
在所有語料庫的分析方法中,定量分析是語料庫數據分析的基礎方法,所得到的的分析結果的科學性在很大程度上都是取決于定量分析的真實性、窮盡性和有效性。但是這并不是唯一的、萬無一失的方法,單純依靠定量分析的方法是不能得到最終的有效結果的。通過上文的分析可以看出,定量分析往往是與定性分析緊密結合在一起的,也只有將定量分析與定性分析結合起來,才能得出更加科學、可信的結果。在辭典編纂過程中,詞語義位的確定、用法功能的分析、搭配詞語的選擇等諸多方面都離不開定量和定性分析。比如我們現在要對“叛逆”一詞進行檢索調查,輸入被檢索的條目后,一共得到569個語例。但是“叛逆”一詞并不是一個單一詞性的詞語,它存在動詞和名詞兩種詞性,所以我們在進一步的分析中要考察其動詞和名詞的使用情況,明確了這些區別,我們才能更好地對它的使用情況做出分析統計。經過進一步的調查發現,“叛逆”作名詞的情況較作動詞的情況更多一些,在定性分析的結果指導下,我們在辭典編纂時就可以把“叛逆”作名詞的情況放在第一來解釋,作動詞的情況放在第二來解釋。這樣將定量與定性分析結合起來,在定量的基礎上進行定性的考察,在定性的分析結果指導下進而明確定量的分布安排,這樣往復循環,不斷提高語料庫數據分析的科學性。
因此,定量分析必須與定性分析相結合。如果缺少了定性分析,那么定量分析只能停留在僅僅反映現象的數據數字本身,根本不能揭示出數據背后的本質規律,當然也就無法得到科學的使用;如果缺少了定量分析,那么定性分析往往會表現出主觀性,有時甚至會片面反映客觀現象,只能流于經驗之談,最終的結果也只能是為了研究而研究,為了調查而調查,不能運用到實際應用中。所以定量與定性相結合是辭書編纂中語料庫數據分析根本性的重要原則。只有把定量分析與定性分析結合起來,它們才能相互補充,取長補短,不斷推動辭書編纂的科學性和客觀性的提高。
參考文獻:
[1]章宜華.計算詞典學與新型詞典[M].上海:上海辭書出版社,2004.
[2]符淮青.詞典學詞匯學語義學文集[C].北京:商務印書館,2004.
[3]張志毅,張慶云.詞匯語義學[M].北京:商務印書館,2005.
[4]SidneyI.Landau.詞典編纂的藝術與技巧[M].北京:商務印書館,2005.
[5]衛乃興.基于語料庫和語料庫驅動的詞語搭配研究[J].當代語言學,2002,(2).
[6]蘇寶榮.詞義研究與辭書釋義[M].北京:商務印書館,2008.
[7]馮志偉.計算語言學基礎[M].北京:商務印書館,2001.
(唐萌 山東煙臺 魯東大學文學院 264025)