999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

從彭澤潤\\李葆嘉《語言理論》看分詞連寫

2011-12-31 00:00:00余娜
現代語文 2011年8期

摘 要:《語言理論》作為一本教材,在實踐分詞連寫方面具有首創性,但是在論述分詞連寫的可操作性以及必要性上還存在一些欠缺。本文擬從分詞連寫和自動分詞的關系出發,對分詞連寫的必要性和可能性展開論述。

關鍵詞:《語言理論》 分詞連寫 自動分詞

一、引言

目前,我國高等院校漢語言文學專業有一門必修課叫做《語言學概論》,意在闡明語言學的基本理論和基本概念,為學習各門語言課程提供必要的理論知識。從20世紀80年代葉蜚聲與徐通鏘的《語言學綱要》開始,我國語言學界先后出版了幾十種教材,李葆嘉與彭澤潤(2007)《語言理論》(中南大學出版社)以其系統性、實用性、創新性見長,尤其是在分詞連寫方面有開創性,但我們認為分詞連寫和真正的中文信息處理還有一定的距離。本文從分詞連寫和自動分詞的關系入手,對分詞連寫的必要性和可能性展開論述。

二、《語言理論》的分詞連寫

從《語言理論》的封面我們就可以知道這本書的一個重要特色,那就是實踐了彭澤潤等的主張——分詞連寫。內容固然重要,但特別的形式同樣能夠給人以耳目一新的感覺,或者說能夠反映主編對內容的突出理解。這本書的分詞連寫形式不能不說特別,正如前言所說的一樣“恐怕可以得第一”。正如編者所言“建設一本好教材不容易,更不能一勞永逸”,彭、李所編的《語言理論》第二版在第一版局部采用分詞連寫的基礎上全部使用分詞連寫。

五十多年前,周有光等人就曾經作過將分詞連寫方式引入中文的嘗試,但由于當時的條件還不夠成熟,沒能取得突破。1987年,我國計算機產業奠基人之一陳力為院士基于信息處理的需要,推出了提倡分詞連寫的第一篇力作——《當前中文信息處理中的幾個問題及其發展前景》。1995年,我國信息處理專家俞士汶和周錫令基于同樣原因發表了近年來較早倡導分詞連寫的另外兩篇重要文章——《關于受限的規則漢語的設想》和《軟件書籍中譯本的可讀性和幾點看似荒謬的建議》。之后,一直密切關注中文書寫體式改革的語言學家陸丙甫、彭澤潤分別發表了題為《也談中文的改革》和《文字中的字間空隙和詞間空隙》的文章,參與有關討論。

以前沒有出現中文信息處理分詞連寫的問題,“一是由于當時的科技水平還不夠發達,沒有可能;二是記錄漢語的書面符號即漢字是表意型文字,它以詞義或語素義為主要表現對象,文言文的字界就是詞界,沒有必要。現在這兩個原因都改變了,我們對分詞連寫的認識也應該隨之發生改變。現在我們不能由于‘未有充分的實踐經驗使我們認識到它的嚴重危害性’和‘未感受到國民經濟信息化的進程對信息處理的猛烈沖擊’”(陳力為,1996)。造成“難將計算機和網絡在信息處理上的優勢完全發揮出來,最終影響到中文信息處理的更充分更深入更快速的發展”和“難以補救”的問題(李輝陽,2001)。

《語言理論》正是在“漢語分詞既有必要性又有緊迫性,還有可行性”(王衛兵,2006)的前提下進行實踐的,“它在這一點上開了一個新風氣”(王均,2002)。筆者曾經留意彭澤潤先生在北大中文論壇里的語言理論板塊,他自己不僅帶頭采用分詞連寫的形式,也要求他的學生使用,可以說是對“君不見,那些中文分詞連寫提倡者,有幾人帶頭垂范、身體力行?”(曹德和,2006)的有力回答。

目前尚未看到有其他教材采用分詞連寫的形式,所以,這本教材在貫徹分詞連寫方面所作的開創之功是值得推崇的。

三、分詞連寫和自動分詞的關系

(一)聯系

雖然有關分詞連寫的論文并不少見,但真正給“分詞連寫”定義的并不多見,這里選擇彭澤潤先生在《語言理論》里的界定:“分詞連寫又叫做詞式書寫、詞連寫,是用以詞為單位的方式書寫,把記錄口語中每個詞的字連接在一起,使詞和詞之間在書寫上有明顯的距離,體現詞的界線”(P242)。自動分詞是指“讓計算機確定中文文本之間詞與詞之間的界限”(齊滬揚、陳昌來,2007)。通過上述定義可以知道,分詞連寫和自動分詞其實是有內部聯系的。關于分詞連寫的目的,彭先生說“逼真地反映口語中詞的信息,方便閱讀,能夠提高書面語言的閱讀效率”進而實現中國語言文字的“現代化”(吳文超,2007),至于中文自動分詞,齊、陳二位先生說“是任何中文信息處理系統都難以回避的第一道‘工序’”進而促進中文信息處理的“智能化”。可見,從根本上二者都是為了促進中文的現代化或者說中文信息處理而進行的一項工作,而且都認為中文信息處理時應該進行分詞。

(二)區別

從上面的定義中可以知道分詞連寫和自動分詞的不同:前者是指人把句子中的詞分好,再用分詞連寫的方法輸入計算機;而后者是指讓機器來完成分詞這一過程。因此,雖然它們的目的都是促進中文的現代化,但它們的根本策略即實施分詞者是完全不同的,也就是說前者把分詞的任務直接交給人,并認為在口語產生時人其實就已經對它進行了分詞,我們現在要做的只不過是如實地把分詞的過程或者說分詞的結果記錄下來;而后者則把分詞的任務交給計算機,通過字符串匹配等方法最終實現分詞。

四、對分詞連寫的必要性和可能性的看法

(一)關于必要性

前面第二部分談到分詞連寫的研究已經有不少學者做過,其中支持者主要是語文現代化和中文信息處理的學者,他們認為分詞連寫的好處是顯而易見的,其中陳力為(1996)對其論述得最為深刻,上文已經談到,這里不再贅述。而其“障礙主要是心理方面的,正如五四時期的標點的使用一樣”,只要國家主導全面推進,就會在全國范圍展開(彭澤潤、周純梅,2004)。

但另外一些學者卻認為現在計算機的“自動分詞水平已經很高了,大約在97%~99%左右,分詞技術早就不只前向后向分詞了,還有一元、二元分詞算法,所以沒有必要那么費力地去讓人們讀那些詞(手動的分詞)”。并且“從人的閱讀緩存來說,一般十個字左右,沒有分句標記的話,大腦的緩存不夠用,需要特殊的訓練才能斷句,但是詞一般的長度才2~4個字,統計發現,看了6個字就能夠明確前四個字的分詞結果,出錯的概率是0.1%左右,我們不可能為了0.1%的錯誤,而去多看那么多空格。”還有學者認為“語言和句子是立體的多層級的,詞式書寫把他們都變成了線性的單層的,反而引起混亂”這些都可以看作對分詞連寫必要性的反駁。綜上可知,學者們認為漢語不能分詞連寫的理由主要是漢語的本身特點決定的,而且中文信息化的工作計算機已經取得了很大的進步,沒有必要為這信息化而信息化,反過來要求人來適應機器的需要。筆者完全贊同上述學者的看法,由現代化產生的問題最終還是要靠現代化去解決,中文信息處理的發展依賴于計算語言學的發展。

(二)關于可行性

從《馬氏文通》誕生起,人們就沒有停止過對詞的研究,可什么是詞,它與非詞的界限到底是什么,我們還很難從根本上揭示。一般的定義是“詞是語言的基本符號,是語言中最小又自由的形式和內容結合體”(彭澤潤,2007:275)。在區分詞與非詞的時候,一般采用插入擴展法來進行判別,但在實際語言生活中,往往由于語言的動態性,我們很難確定究竟哪些是詞哪些不是。正如黃昌寧(2003)所說的一樣,自動分詞其實是“一項沒有定義的任務”,關于漢語本體的研究還不足以讓我們制定精確完整的標準來進行分詞,那么把中文信息化(分詞)的任務交給不清楚分詞規范和標準的“說話人自己”顯然是不合理的,也可能正因如此,彭先生才沒有在他的《語言理論》中對分詞的實際操作進行詳細的介紹。

實際上,進行中文信息化必須進行分詞,而分詞則必須依靠計算機,人工的手動分詞連寫是不現實也不可靠的。鑒于我們現在通用的輸入法都是在輸入了漢字解碼后用空格鍵入,甚至大多數時候還是一個詞一個詞地輸入的,那么解決這一問題的辦法是可以使用超文本信息,把人輸入時的空格記錄下來,如果計算機在后臺存下這些信息,并且統一規范,則很有可能真正實現人的句書寫方式,而計算機獲得詞式寫法。

五、結語

既然《語言理論》的一大特點是采用了分詞連寫的形式,那么就應該對分詞書寫做一介紹,告訴讀者這里所用的分詞標準和依據是什么,應該怎樣具體操作。很可惜在“文字”一章只談到了什么是詞式書寫和正詞法以及漢語詞式書寫的意義,并未涉及詞式書寫的規則和標準,這不能不說是一個遺憾。如果能夠在教學中對具體的操作方法和標準進行講解,那么對于編者所倡導的分詞連寫的實施將會有所裨益。

至于上面存在的問題,關鍵還是在于主編本人或者說社會對于分詞連寫的認可度。有的讀者在北大中文論壇里所說:“您的這種分詞書寫的格式給了我一種感覺,我們在讀漢字的句子時應該是以句子為單位整體地讀出來的,所以眼睛掃一下立即看出了全句的大意。可如果要是分詞書寫,這種優勢馬上蕩然無存,讀起來要一個詞一個詞地理解,速度會下降一個數量級。”持贊同意見的呂觀雄也說:自己雖然嘗試了,但是沒有堅持下來,“一方面是許多人表示看不習慣,另一方面也發現的確存在著有些詞組、專有名詞該如何分才好的問題”,并且認為“詞式書寫的目的主要還是為了更好地閱讀,方便信息處理還是次要的”,而彭先生通過與俄語等語言的共性對比,一再強調“改革的阻力主要是心理障礙”。

筆者認為漢語有其自身的特點,之所以古代漢語到現代漢語的過渡中只引進了標點,而沒有引進詞式書寫的方法,主要是因為漢語一般是由一兩個字符來記錄一個詞的,并且字數成千上萬,而不像印歐語那樣只有26個字母,為了表示無限豐富的意思,它們之間可以組成無限的字組來表示不同的詞,所以要求漢語也像它們一樣來進行分詞連寫不僅是不現實的,也是不必要的。至于中文的現代化問題,就目前來看,既然分詞連寫對于信息處理是十分必要的,然而人們由于不習慣,那么解決的途徑便在于以機器服從人。雖然馮志偉說“漢語文本自動分詞離真正實用的目標,還有很大距離,至于大規模真實文本的高精度自動分詞,還是幻想中的事情”,這猶如當初的漢字信息化一樣,現在證明對于漢字無法進入計算機的擔心是多余的,任何科學創造在成功之前都是“幻想”,何況現在的輸入法中就已經出現了分詞或者說短語輸入的方式。在信息處理專家和語言學家的努力下,我們有理由相信計算機也會順利解決這一問題。

參考文獻:

[1]李葆嘉,彭澤潤.語言理論[M].長沙:中南大學出版社,2007.

[2]齊滬揚,陳昌來.應用語言學綱要[M].上海:復旦大學出版社,

2007.

[3]任紅梅.分詞連寫的中文信息處理[D].中國石油大學(華東),

2007.

[4]陳力為.漢語書面語的分詞問題[J].中文信息學報,1996,(6).

[5]李輝陽等.書面漢語分詞連寫的合理性與緊迫性及實現[J].中文

信息學報,2001,(5).

[6]曹德和.中文分詞連寫的問題與對策[J].北華大學學報(社會科

學版),2006,(2).

[7]王衛兵.中文分詞連寫可行性考察[J].北華大學學報(社會科學

版),2006,(1).

[8]彭澤潤,周純梅.漢語需從“字式書寫”到“詞式書寫”的改進

——“漢字書寫系統改進學術研究會”綜述[J].北華大學學報(社會科學版),2004,(3).

[9]吳文超.中文需要分詞連寫[J].北華大學學報(社會科學版),

2007,(10).

[10]孫茂松,鄒嘉彥.漢語自動分詞研究評述[J].當代語言學,2001,

(1).

[11]黃昌寧,高劍峰,李沐.對自動分詞的反思[A].語言計算與基于

內容的文本處理——全國第七屆計算語言學聯合學術會議論文集[C].2003.

[12]馮志偉.給漢語書面文本一個詞界限——“空格”[M].語言理

論通訊,2003-12-08.

(余娜 浙江金華 浙江師范大學人文學院 321004)

主站蜘蛛池模板: 亚洲无限乱码| 久久精品娱乐亚洲领先| 国产91精品最新在线播放| 久久天天躁夜夜躁狠狠| 熟妇丰满人妻| 亚洲人成网站观看在线观看| 日韩在线视频网站| 久久国产热| 呦女精品网站| 日韩视频精品在线| 精品一区二区三区水蜜桃| 国产在线98福利播放视频免费| 欧美综合中文字幕久久| 国产精品偷伦在线观看| 91精品国产一区| 伊人激情综合网| 欧美一区二区三区欧美日韩亚洲 | 色妞永久免费视频| 亚洲欧洲日韩综合色天使| 欧美日本在线播放| 在线观看国产网址你懂的| 亚洲欧美日本国产综合在线| 亚洲最新地址| 乱人伦视频中文字幕在线| 亚洲IV视频免费在线光看| 乱人伦视频中文字幕在线| 国产国语一级毛片在线视频| 国产区网址| 在线观看欧美国产| 日韩高清欧美| 尤物精品国产福利网站| 国产成人91精品免费网址在线| 高清免费毛片| 久久永久视频| 色男人的天堂久久综合| 亚洲最新在线| 日本高清免费一本在线观看| 亚洲Va中文字幕久久一区 | 国产99视频精品免费观看9e| 97国内精品久久久久不卡| 99在线国产| 欧美午夜一区| 午夜国产在线观看| 日韩无码视频播放| 国产成人综合日韩精品无码不卡 | 国产综合色在线视频播放线视 | 色婷婷在线影院| 国产第一页免费浮力影院| 欧美在线伊人| 99热这里只有免费国产精品| 91久久夜色精品| 久久婷婷人人澡人人爱91| 亚洲第一成年网| 国产精品永久久久久| 无码丝袜人妻| 久久久久夜色精品波多野结衣| 国产波多野结衣中文在线播放| 国产美女自慰在线观看| 午夜限制老子影院888| 国产成+人+综合+亚洲欧美| 91福利国产成人精品导航| 全裸无码专区| 亚洲欧洲综合| 91成人免费观看| 美女一区二区在线观看| 国产国语一级毛片在线视频| 欧美无专区| 国产欧美另类| 91偷拍一区| 国产自无码视频在线观看| 国产69精品久久久久孕妇大杂乱 | 另类欧美日韩| 国产精女同一区二区三区久| 久久综合九九亚洲一区| 香蕉在线视频网站| 丝袜亚洲综合| 91人妻日韩人妻无码专区精品| 欧美亚洲欧美区| 国产精品高清国产三级囯产AV | 免费无码网站| 成人午夜视频免费看欧美| 国产欧美自拍视频|