999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

面向書面言語(yǔ)鑒定的言語(yǔ)人副詞使用習(xí)慣研究

2019-09-25 08:38:12王虹
中國(guó)司法鑒定 2019年5期

王虹

(中國(guó)刑事警察學(xué)院 文件檢驗(yàn)技術(shù)系,遼寧 沈陽(yáng)100035;東北大學(xué) 自然語(yǔ)言處理實(shí)驗(yàn)室,遼寧 沈陽(yáng)110004)

書面言語(yǔ)是以文字形式存在的言語(yǔ),包括紙質(zhì)文本、網(wǎng)絡(luò)文本和電子文本。書面言語(yǔ)鑒定,英語(yǔ)譯作 Authorship Identification, Authorship Attribution或Authorship Comparison,是指通過(guò)檢材言語(yǔ)與樣本言語(yǔ)的比對(duì)鑒別,判斷兩者言語(yǔ)習(xí)慣是否一致,為案件偵查、審判提供證據(jù)的一種專門技術(shù)手段。

西方早就有專門的文本鑒別學(xué),1711年,一位德國(guó)牧師H.B.韋特最早提出了有關(guān)《圣經(jīng)》作者的爭(zhēng)議。隨后,出現(xiàn)了莎士比亞著作權(quán)的糾紛。從20世紀(jì)60年代埃文斯案促成司法語(yǔ)言學(xué)的誕生以來(lái),歐美各國(guó)作者鑒別技術(shù)發(fā)展方興未艾,成果顯著,應(yīng)用廣泛。很多國(guó)家和地區(qū)都有專門的語(yǔ)言證據(jù)研究機(jī)構(gòu),受理司法實(shí)踐中與語(yǔ)言相關(guān)的案件。

國(guó)內(nèi)漢語(yǔ)文體學(xué)、漢語(yǔ)語(yǔ)言學(xué)、英語(yǔ)語(yǔ)言學(xué)(主要是法律語(yǔ)言學(xué))、圖書情報(bào)學(xué)、自然語(yǔ)言處理等領(lǐng)域均有關(guān)于作者鑒別、作者歸屬、作者身份識(shí)別、作者識(shí)別的研究。公安技術(shù)領(lǐng)域自20世紀(jì)80、90年代起開始研究書面言語(yǔ)鑒定技術(shù),并將用于文件檢驗(yàn)鑒定,利用“語(yǔ)音特征”、“方音別字”、“特殊語(yǔ)法”等書面言語(yǔ)特征鑒定了多起無(wú)筆跡案件。

近年來(lái),互聯(lián)網(wǎng)及相關(guān)產(chǎn)業(yè)飛速發(fā)展,雖然在一定程度上方便了生活,但利用電子郵件、網(wǎng)絡(luò)論壇等方式犯罪的案件也不斷增多。此外,由于監(jiān)管漏洞的存在,侵犯他人知識(shí)產(chǎn)權(quán)的案件也時(shí)有發(fā)生。這些現(xiàn)象都對(duì)書面言語(yǔ)鑒定技術(shù)的完善和提高提出了迫切需求。

副詞使用頻率特征是書面言語(yǔ)鑒定中常用的言語(yǔ)特征之一,鑒定人員基于副詞屬于虛詞,而虛詞受言語(yǔ)內(nèi)容影響較小,具備較好的個(gè)人穩(wěn)定性這一假設(shè),一直在使用這一特征。但這種假設(shè)是否成立,我們并未見(jiàn)到相關(guān)的實(shí)驗(yàn)和統(tǒng)計(jì)研究。語(yǔ)言學(xué)領(lǐng)域?qū)Ω痹~的研究暫時(shí)處于基礎(chǔ)性、定義性的階段。國(guó)外司法語(yǔ)言學(xué)的研究和實(shí)踐中,已將副詞使用習(xí)慣特征當(dāng)作書面言語(yǔ)同一認(rèn)定的依據(jù)使用。但在漢語(yǔ)書面言語(yǔ)鑒定領(lǐng)域,副詞使用習(xí)慣特征是否能作為漢語(yǔ)書面言語(yǔ)同一認(rèn)定的依據(jù)還有待研究。對(duì)副詞研究的不斷深入以及各種統(tǒng)計(jì)工具、分析方法的完備,為我們提供了研究這一領(lǐng)域的可能。

本文擬引入自然語(yǔ)言處理技術(shù),采用實(shí)驗(yàn)研究和統(tǒng)計(jì)研究的方法,探討副詞使用習(xí)慣特征在漢語(yǔ)書面言語(yǔ)鑒定中作為同一認(rèn)定依據(jù)使用的可行性。

1 副詞及其分類

1.1 副詞定義

從中國(guó)第一本語(yǔ)法專著《馬氏文通》提出近似現(xiàn)代“副詞”的“狀字”開始,關(guān)于副詞的定義一直是眾說(shuō)紛紜。2004年,張誼生[1]提出將句法功能作為認(rèn)定副詞的根據(jù)并以語(yǔ)句的基本含義作為判斷的基礎(chǔ),將副詞定義為:“副詞主要充當(dāng)狀語(yǔ),一部分可以充當(dāng)句首修飾語(yǔ)或補(bǔ)語(yǔ),在一定條件下一部分還可以充當(dāng)高層次消浯或準(zhǔn)定語(yǔ)的具有限制、描摹、連接等功能的半開放類詞。”

1.2 副詞分類

語(yǔ)言學(xué)領(lǐng)域中對(duì)副詞的分類也有很多不同的看法,本文從研究需要出發(fā),采用呂叔湘的分類方法,即按照語(yǔ)法功能將副詞分為七類:程度、范圍、時(shí)間、語(yǔ)氣、肯定和否定、方式、處所[2]。

程度副詞,如很、最、極、太、非常、更加、越、稍、幾乎、略微、尤其……

范圍副詞,下分總括性范圍副詞:都、總、共、俱、皆、全然、全都、統(tǒng)統(tǒng)、統(tǒng)共、舉凡、一概、一總等;唯一性范圍副詞:僅、只、就、才、單、唯、偏、惟獨(dú)等;限定性范圍副詞有:約、大都、最多、最少、起碼、只有、只是、不過(guò)……

時(shí)間副詞,如:已、曾、剛剛、才、正在、立刻、終于、時(shí)時(shí)、漸漸、從來(lái)、始終、屢次、重新、還、偶爾……

語(yǔ)氣副詞,如:難道、果然、豈、索性、究竟、簡(jiǎn)直、就、可、也許、難怪、大約、不妨……

肯、否定副詞,分為肯定、必然、偶然、可能、否定判斷副詞。如必須、沒(méi)有、必定、是否、未、別、莫、勿、不必、不用、不曾…….

方式副詞,如:大肆、親自、特意、公然、忽然、悄悄……

處所副詞,如:處處、到處、隨處、四處……

《中國(guó)文法要略》分為七類:方所副詞,時(shí)間副詞,動(dòng)態(tài)動(dòng)相副詞,程度副詞,判斷副詞,否定副詞,一般副詞。

2 材料與方法

2.1 語(yǔ)料

本文以古龍、莫言、韓寒、金庸、三毛、郭敬明等6位作家的長(zhǎng)文本作品24部為研究語(yǔ)料,具體情況見(jiàn)表1。

2.2 分析工具與內(nèi)容

本文使用我們自主研發(fā)的《案件書面言語(yǔ)量化輔助分析系統(tǒng)》對(duì)語(yǔ)料進(jìn)行自動(dòng)分句、分詞、詞性標(biāo)注等處理,并進(jìn)行總詞數(shù)、副詞數(shù)、副詞數(shù)占總詞數(shù)的百分比、單個(gè)副詞數(shù)、單個(gè)副詞數(shù)占總詞數(shù)的百分比,以及同一人作品副詞使用頻率的平均值、標(biāo)準(zhǔn)差等數(shù)據(jù)統(tǒng)計(jì),以此分析總結(jié)個(gè)人在是否使用副詞上的偏好、個(gè)人在表示同類關(guān)系的副詞中是否有選用上的偏好和不同人在表示同類關(guān)系的副詞中是否有共同的選用偏好。

3 結(jié)果與分析

3.1 個(gè)人在是否使用副詞上的偏好

為了觀察個(gè)人在是否使用副詞上的偏好,我們分別統(tǒng)計(jì)出了24部作品的總詞數(shù)、副詞數(shù)、副詞數(shù)占總詞數(shù)的百分比,以及同一人作品副詞使用頻率的平均值、標(biāo)準(zhǔn)差,并分別按副詞使用頻率平均值和副詞占總詞數(shù)的百分比進(jìn)行了降序排序,如表1所示。分析表1我們發(fā)現(xiàn):

第一,6位作家使用副詞的頻率是有差別的,由古龍、韓寒、郭敬明、三毛、金庸、莫言依次降低。

第二,古龍和莫言在副詞使用頻率上相差較明顯,平均值差了約3個(gè)百分點(diǎn)。古龍的4部作品的副詞使用頻率均很高,均高于莫言的4部作品。

第三,同一作家不同作品的副詞使用頻率的穩(wěn)定性情況不同,由古龍、韓寒、莫言、郭敬明、三毛、金庸依次降低。古龍的5部作品之間副詞使用頻率差別較大,其平均值的標(biāo)準(zhǔn)差最大;而金庸4部作品之間副詞使用頻率的穩(wěn)定性最好,其平均值的標(biāo)準(zhǔn)差最小。

第四,創(chuàng)作時(shí)間、作者的個(gè)人經(jīng)歷對(duì)同一作者不同作品的副詞使用頻率穩(wěn)定性有影響。以古龍為例,1960年到1963年是古龍的試筆階段,接觸了大量的西方文學(xué),作品也帶有西方色彩;1963年之后,他向日本小說(shuō)取經(jīng),探索武道,逐步形成自己獨(dú)特的武打描寫方式;后期古龍又將戲劇、推理、詩(shī)歌等元素和自己的人生感悟帶入傳統(tǒng)武俠。這樣,隨著時(shí)間的推移和個(gè)人經(jīng)歷的變化,古龍作品的風(fēng)格前后有很大的變化。而作品中語(yǔ)言的變化則是形成作品風(fēng)格變化的重要因素,因此導(dǎo)致《劍客行》(1963)《大旗英雄傳》(1966)《三少爺?shù)膭Α罚?974)《拳頭》(1977)等不同時(shí)間節(jié)點(diǎn)上的作品中副詞使用頻率有較大的差異。

第五,體裁對(duì)同一作者不同作品的副詞使用頻率穩(wěn)定性有影響。以韓寒為例,他的兩部作品《像少年啦飛馳》、《通稿2003》的副詞使用頻率分別為5.500%和7.932%,差距較大。這兩部作品較明顯的不同是體裁分別為小說(shuō)和雜文。小說(shuō)是客觀性的語(yǔ)言,作者不會(huì)直接表達(dá)思想感情,而是讓人物和情節(jié)代作者說(shuō)話;雜文則是主觀性的語(yǔ)言,作者直抒胸臆,而且論證和說(shuō)理性強(qiáng)。體裁的不同,使得作品的語(yǔ)言風(fēng)格也不同。

鑒于此,從我們的實(shí)驗(yàn)中觀察到的數(shù)據(jù)來(lái)說(shuō),個(gè)人在是否使用副詞上是有偏好的,不同人的平均副詞使用頻率有差別,且這種差別較穩(wěn)定,尤其是在語(yǔ)料足夠多、足夠長(zhǎng),作品形成時(shí)間相近、作者言語(yǔ)風(fēng)格沒(méi)有階段性變化、作品體裁相同的前提下,這種偏好能夠得到較好的表現(xiàn)。

3.2 個(gè)人在表示同類關(guān)系的副詞中是否有選用上的偏好

為了觀察個(gè)人在表示同類關(guān)系的副詞中是否有選用上的偏好,我們分別抽取、統(tǒng)計(jì)6位作家24部作品中的程度、處所、范圍、方式、肯定和否定、時(shí)間、語(yǔ)氣等七類副詞,計(jì)算出每個(gè)副詞的出現(xiàn)數(shù)及其占總詞數(shù)的百分比,進(jìn)行了相應(yīng)的數(shù)據(jù)分析和比較。我們發(fā)現(xiàn)個(gè)人在表示同類關(guān)系的副詞中是有選用上的偏好的。這里僅以古龍的4部作品和郭敬明的4部作品為例做以說(shuō)明。

古龍4部作品的同類副詞選用情況:古龍?jiān)诔潭雀痹~中選用“更、很、最、太”的情況遠(yuǎn)多于“極、越、幾乎”等(圖 1)。 在處所副詞中,“到處”一詞出現(xiàn)的頻率較高,其余如“處處、四處、隨處”都是偶爾出現(xiàn)(圖2)。在總括性范圍副詞中,“都”的出現(xiàn)次數(shù)最多,遠(yuǎn)高于居于其次的“全、俱”等;唯一性范圍副詞中,“就、只、才”使用頻率很高,“光、偏偏”也出現(xiàn)多次;限定性范圍副詞中,“不過(guò)、只有、只是”出現(xiàn)較多,“至少、約、大概”也有出現(xiàn)(圖3)。在方式副詞中,古龍偏向于選擇“忽然”引發(fā)場(chǎng)景、情節(jié)的變化,“暗暗、猛然”少量出現(xiàn)(圖 4)。在肯定、否定副詞中,“不、沒(méi)有”出現(xiàn)最多,“未、莫、必”等文言文化詞亦有出現(xiàn)(圖5)。時(shí)間副詞出現(xiàn)的較多,“已、還、再”都有大量出現(xiàn),“已”的頻率明顯高于“已經(jīng)”,“正、常、曾”的頻率分別高于“在、正在、常常、曾經(jīng)”(圖6)。語(yǔ)氣副詞中,表示疑惑時(shí)多用“難道、究竟”;表示驚訝時(shí),多用“果然、居然、豈、竟然”(圖 7)。

郭敬明4部作品的同類副詞選用情況:在程度副詞中,郭敬明大量選擇“很”,比例較高,“最、太、更”也有一定比例,“幾乎、好像”也在每篇文章中都有體現(xiàn)(圖8)。在處所副詞中,“到處”出現(xiàn)頻率明顯高于其他兩個(gè)。但總體而言,處所副詞使用量較小(圖9)。在總括性范圍副詞中,郭敬明大量使用了“都、全”;唯一性范圍副詞中,“就、只、才”使用頻率高,其他如“僅僅、僅、光”等都是偶爾出現(xiàn);限定性范圍副詞中,除了“只是、不過(guò)”占有一定比例外,其他副詞均只零星出現(xiàn)(圖10)。方式副詞的整體使用頻率偏低,都只是零星出現(xiàn),相對(duì)來(lái)說(shuō)使用“悄悄、趕緊”多些(圖11)。 肯定、否定副詞中,“不、沒(méi)有、沒(méi)”使用次數(shù)多,肯定副詞則只用了“的確”(圖12)。時(shí)間副詞中,“還”出現(xiàn)頻率最高,“已經(jīng)、總是、再”頻率接近,其他時(shí)間副詞如“還是、依然、曾經(jīng)”等都有出現(xiàn)(圖13)。語(yǔ)氣副詞中,“也許”出現(xiàn)頻率較高,其次是“居然、竟然、反正、可”(圖 14)。

圖1 古龍作品程度副詞使用頻率圖

圖2 古龍作品處所副詞使用頻率圖

圖3 古龍作品范圍副詞使用頻率圖

圖4 古龍作品方式副詞使用頻率圖

圖5 古龍作品肯定和否定副詞使用頻率圖

圖6 古龍作品時(shí)間副詞使用頻率圖

圖7 古龍作品語(yǔ)氣副詞使用頻率圖

圖8 郭敬明作品程度副詞使用頻率圖

圖9 郭敬明作品處所副詞使用頻率圖

圖10 郭敬明作品范圍副詞使用頻率圖

圖11 郭敬明作品方式副詞使用頻率圖

圖12 郭敬明作品肯定和否定副詞使用頻率圖

圖13 郭敬明作品時(shí)間副詞使用頻率圖

圖14 郭敬明作品語(yǔ)氣副詞使用頻率圖

3.3 不同人在表示同類關(guān)系的副詞中是否有共同的選用偏好

為了觀察不同人在表示同類關(guān)系的副詞中是否有共同的選用偏好,我們對(duì)每位作家4部作品中出現(xiàn)的每個(gè)程度副詞、范圍副詞、時(shí)間副詞、語(yǔ)氣副詞、肯定和否定副詞、方式副詞、處所副詞的數(shù)量進(jìn)行了平均和比較。我們發(fā)現(xiàn),不同人在表示同類關(guān)系的副詞中有共同的選用偏好,有些高頻詞是大家共同的選擇。但同時(shí),也有一些詞,人們?cè)谶x用他們時(shí)存在較大差異。

3.3.1 不同人均常會(huì)選用的副詞

我們整理出了每位作家使用的程度副詞、范圍副詞、方式副詞、肯定和否定副詞、時(shí)間副詞、語(yǔ)氣副詞中平均頻率排名前5的高頻詞,以及處所副詞中排名前4的高頻詞,發(fā)現(xiàn)6位作家使用的各類高頻詞中有很多是相同的:在程度副詞中,“很、最、更、太”常被選用,出現(xiàn)頻率高(表2)。在處所副詞中,“到處”最常被選用,其余處所副詞選用相對(duì)較少(表3)。在范圍副詞中,總括性范圍副詞上“都、全”最常被選用,唯一性范圍副詞“就、只、才”常被選用,限定性范圍副詞“不過(guò)、只是、只有”常被選用(表4)。在方式副詞上,表現(xiàn)趨勢(shì)并不穩(wěn)定,但“悄悄、忽然”出現(xiàn)頻率較高(表5)。在肯定和否定副詞上,“不、沒(méi)、沒(méi)有”被大量使用(表6)。時(shí)間副詞中,“還、再”常被選用,其他的出現(xiàn)頻率不穩(wěn)定(表7)。語(yǔ)氣副詞中,不同人的選擇差異較大,并沒(méi)有較為一致的選用習(xí)慣(表8)。

表2~8中所列副詞是6位作家使用的高頻副詞,根據(jù)我們的經(jīng)驗(yàn),這些副詞也正是人們普遍常用的副詞,在人群中出現(xiàn)率高,反映的是言語(yǔ)的共性特點(diǎn),在書面言語(yǔ)鑒定中特征價(jià)值較低。

表2 程度副詞高頻詞表 (%)

表3 處所副詞高頻詞表 (%)

表4 范圍副詞高頻詞表(%)

表5 方式副詞高頻詞表 (%)

表6 肯定和否定副詞高頻詞表 (%)

表7 時(shí)間副詞高頻詞表 (%)

表8 語(yǔ)氣副詞高頻詞表 (%)

3.3.2 選用頻率差異大的副詞

在分析6位作家的副詞使用情況時(shí),我們也發(fā)現(xiàn)了一些在選用頻率上差異較大的副詞。舉例如圖15~21所示。

從圖15~21中我們可以直觀地看出,不同作家在某些副詞的選用上確實(shí)差異較大,體現(xiàn)了不同人的言語(yǔ)習(xí)慣,這類副詞特征價(jià)值較高,可以用于書面言語(yǔ)鑒定。

圖15 6位作家程度副詞“尤其、過(guò)于”選用平均頻率圖

圖17 6位作家唯一性范圍副詞“偏偏、單、僅僅”選用平均頻率圖

圖18 6位作家限定性范圍副詞“大約、多半、約”選用平均頻率圖

圖19 6位作家時(shí)間副詞“立刻、還是、將、總是”選用平均頻率圖

圖20 6位作家語(yǔ)氣副詞“果然、豈、也許”選用平均頻率圖

圖21 6位作家方式副詞“趕緊、連忙、大力”選用平均頻率圖

4 結(jié)論

本文通過(guò)對(duì)6位作家24部作品副詞使用頻率、選用偏好等數(shù)據(jù)進(jìn)行提取和分析,發(fā)現(xiàn)以下規(guī)律:

第一,個(gè)人在是否使用副詞上是有偏好的,不同人的平均副詞使用頻率有差別,尤其是在語(yǔ)料足夠多、足夠長(zhǎng)的情況下,這種偏好能夠得到較好的表現(xiàn)。

第二,個(gè)人在表示同類關(guān)系的副詞中有存在選用上的偏好,人們會(huì)有自己習(xí)慣使用的副詞。

第三,不同人在表示同類關(guān)系的副詞中會(huì)有共同的選用偏好。某些副詞是人們都習(xí)慣選用的,這類副詞的特征價(jià)值低,案件檢驗(yàn)中我們應(yīng)該盡量少選這類詞作為特征詞使用;某些副詞在被選用的頻率上有較大差別,這類詞的特征價(jià)值高些,可以作為特征詞使用。

第四,對(duì)于長(zhǎng)語(yǔ)料來(lái)說(shuō),由于其文本數(shù)量大,副詞使用頻率相對(duì)穩(wěn)定,受出版時(shí)間等因素的影響相對(duì)較小。我們認(rèn)為副詞使用頻率可以作為同一認(rèn)定的輔助特征使用,但使用時(shí)要充分考慮到語(yǔ)料的形成過(guò)程、創(chuàng)作背景、個(gè)人經(jīng)歷等因素的影響。

這些分析是建立在文本篇幅較長(zhǎng)的前提下的,短文本的副詞使用頻率特點(diǎn)受言語(yǔ)內(nèi)容、體裁、題材、形成過(guò)程等因素的影響很大,在沒(méi)有大規(guī)模實(shí)驗(yàn)證明之前,我們認(rèn)為要慎用短文本中的副詞使用頻率特征。關(guān)于短文中副詞使用頻率特征的具體內(nèi)容,我們將另文討論。

主站蜘蛛池模板: 九九热免费在线视频| 88av在线播放| 老司机aⅴ在线精品导航| 精品视频一区二区三区在线播| 久夜色精品国产噜噜| 人妻一区二区三区无码精品一区| 人妖无码第一页| 国产在线视频福利资源站| 欧美中文字幕无线码视频| 亚洲三级色| 99视频有精品视频免费观看| 国产经典在线观看一区| 久久综合伊人77777| 91色在线观看| 91精品国产情侣高潮露脸| 在线看AV天堂| 亚洲成a人片| 国产专区综合另类日韩一区| 全免费a级毛片免费看不卡| 国产欧美精品一区二区| 熟女成人国产精品视频| 91国内视频在线观看| 国产精品不卡片视频免费观看| 精品无码专区亚洲| 亚洲天堂视频网| 狠狠色婷婷丁香综合久久韩国| 欧美日韩精品综合在线一区| 日本一区高清| 欧美在线国产| 久久久久免费精品国产| 国产人成午夜免费看| 久久国产拍爱| 91免费在线看| 玖玖免费视频在线观看| 亚洲精品福利网站| 91无码视频在线观看| a级毛片免费播放| 在线观看的黄网| 国产精品自在在线午夜区app| 成人va亚洲va欧美天堂| 成人在线视频一区| 国产乱子伦无码精品小说| 久久 午夜福利 张柏芝| 久久性妇女精品免费| 国产欧美中文字幕| 91色爱欧美精品www| 欧美在线精品一区二区三区| 亚洲欧美日韩中文字幕一区二区三区 | 亚洲 成人国产| 国产91视频观看| 日本一区二区三区精品国产| 日韩成人在线网站| 欧美精品另类| 99热这里只有精品国产99| 最近最新中文字幕免费的一页| 为你提供最新久久精品久久综合| 69视频国产| 日韩成人高清无码| 欧美专区日韩专区| 性色生活片在线观看| 欧美性猛交一区二区三区| 日本国产在线| 亚洲日韩精品欧美中文字幕| 91久久偷偷做嫩草影院精品| 国产在线98福利播放视频免费| 中文字幕欧美成人免费| 青青草综合网| 蜜桃臀无码内射一区二区三区| 丝袜亚洲综合| 国产在线八区| 特级精品毛片免费观看| 热99精品视频| 好紧好深好大乳无码中文字幕| 深爱婷婷激情网| 中文字幕66页| 亚洲国产综合精品中文第一| 亚洲精品人成网线在线| 国产精品久久久久久久久kt| 国产福利小视频在线播放观看| 不卡无码网| 视频二区亚洲精品| 国产一区二区三区在线精品专区|