999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

語素位置及語素義對構(gòu)詞的貢獻分析
——基于字位分詞的理論依據(jù)

2019-04-19 06:53:00戴玉玲
文教資料 2019年35期
關(guān)鍵詞:方法

戴玉玲

(南京師范大學(xué) 文學(xué)院,江蘇 南京 210097)

基于字位的分詞方法是目前中文文本分詞的重要方法,它將分詞任務(wù)轉(zhuǎn)換成了標注任務(wù),首先按照字在詞中所處的位置,將語料庫中已正確切分的詞語轉(zhuǎn)化為一個標注序列,通過訓(xùn)練最大熵模型或隨機場模型進行機器學(xué)習(xí),由訓(xùn)練得出的標注器來執(zhí)行標注任務(wù),最后將被標注的測試數(shù)據(jù)再轉(zhuǎn)換為分詞形式。字本位分詞,無須詞表,占用資源少;分詞速度和效果也最高,對于沒有大量分析結(jié)果的特質(zhì)語料和古典文學(xué)這些同質(zhì)性較少的語料來說更能滿足用戶需求。針對該種分詞方法,已有多項實驗證明使用該方法進行分詞,其結(jié)果的精確率和召回率均已達到較高水平,是一種行之有效的分詞方法[1](29-48)。 但歷年來對該方法的研究僅限于實驗應(yīng)用方面,而對于其有效性的理論分析卻稍顯不足。作為一種成功的分詞方法,對其背后蘊含的語言學(xué)理論及知識的挖掘也十分必要。本文將從語言學(xué)理論角度出發(fā),對基于字位的分詞方法加以分析,采用假設(shè)檢驗法,假設(shè)語素義、語素位置以及詞義三者之間關(guān)聯(lián),并通過實驗和統(tǒng)計分析,證明語素義、語素位置對構(gòu)詞的作用,并且總結(jié)字位分詞的錯誤類型及原因。

一、前人工作

(一)基于字位分詞的相關(guān)研究

薛念文[2](57-63)在2002年首次提出了基于字的分詞方法,他提出將分詞過程視作構(gòu)詞過程,標記特定詞語中每個字的位置:LL標記詞首,RR標記詞尾,MM標記詞中,LR標記單字詞。所有的標記根據(jù)定義好的特征模板進行學(xué)習(xí)并獲得概率模型。然后,在待分字串上,根據(jù)字與字之間的結(jié)合緊密程度,得到一個詞位的標注結(jié)果。再根據(jù)標注結(jié)果獲得分詞結(jié)果。他在次年運用最大熵模型訓(xùn)練的分詞系統(tǒng)在評測任務(wù)中取得了優(yōu)秀的成績。在Bakeoff-2005和Bakeoff-2006中,采用條件隨機場模型訓(xùn)練的分詞系統(tǒng)的各項評測結(jié)果均獨占鰲頭。

此后,使用最大熵模型和條件隨機場等模型的基于字的分詞方法得到了廣泛的應(yīng)用,并且由眾多學(xué)者進行優(yōu)化推廣。針對標點符號、姓氏和地名機構(gòu)名添加相應(yīng)的特征模板,提高分詞精度[3]。近年來深度學(xué)習(xí)的方法如循環(huán)神經(jīng)網(wǎng)絡(luò)、卷積神經(jīng)網(wǎng)絡(luò)等模型也被運用于字序列標注[4](169-177)。出現(xiàn)了特定領(lǐng)域的如基于字序列標注的對書目名的關(guān)鍵詞抽取[5](39-45),對于同樣沒有明顯詞 語邊界的外語文 本如緬甸語,也有研究者基于該方法論述了其分詞問題及其實現(xiàn)[6](1682-1688)。

但縱覽相關(guān)論文,它們基本都是從實驗角度對基于字位的分詞方法進行驗證和優(yōu)化,薛念文給出該方法的理據(jù)支撐是漢語中特定詞語的字數(shù)有限,一般在四字以內(nèi),且漢字總體數(shù)量保持相對穩(wěn)定[1]。從語言學(xué)角度看,詞是由語素構(gòu)成的,且漢語中的語素大部分都是單字,因此,可以從語素角度切入,分析基于字位的分詞方法的理據(jù)性。

(二)語素位置及語素義的相關(guān)研究

語素是語言中最小的音義結(jié)合體,也是最小的構(gòu)詞單位。《現(xiàn)代漢語》對語素進行了簡單的分類:根據(jù)語素是否可以單獨成詞,可以分為成詞語素和不成詞語素;根據(jù)不成詞語素在詞語中的位置是否固定,可分為定位語素和不定位語素[7]。

最近研究表明,不管語素是否可以單獨成詞,將一段文本中詞語語素的位置打亂,漢語母語者仍然可以暢通無阻地理解文本的內(nèi)涵[8](158-166)。他們會在閱讀中不自覺地還原語素固有的位置信息,這從心理學(xué)角度證明了語素位置與詞語分割以及詞義認知關(guān)系密切。而對于語素義的研究較少,主要集中于詞義的研究。吉志薇通過標注詞語中語素的義類,根據(jù)語素意義分布表計算得到所有義類組合的詞語,返回排名最高的義類組合作為該詞最有可能的意義,以此輔助分詞以及識別理解未登錄詞[9](63-68)。 總體來說,從語素位置與語素義的角度入手,進行分詞實驗的優(yōu)化或是對分詞方法的理論分析依然有待挖掘。

由于現(xiàn)代漢語中的詞語大多數(shù)為二字詞語,因此本文將利用《現(xiàn)代漢語詞典》(第六版)中51265個二三字詞作為研究對象,剔除其中含字母的詞7個,共計51258個詞語,并提取其中出現(xiàn)頻率最高的前50個語素,根據(jù)這些高頻語素在詞中的位置及語義信息,討論語素對構(gòu)詞的貢獻以及基于字的分詞方法的有效性。

二、語素位置對構(gòu)詞的貢獻

本章首先對已得出的50個高頻語素的位置信息進行統(tǒng)計,查看各語素在詞語中的位置分布情況,發(fā)現(xiàn)一些特定的語素,例如詞尾出現(xiàn)詞語的末尾的特征可以作為自動分詞的依據(jù)之一。再對特定的語素“人”進行研究,發(fā)現(xiàn)語素位置在一定程度上影響著其構(gòu)詞方式。

(一)語素位置信息統(tǒng)計

統(tǒng)計50個高頻語素出現(xiàn)在《現(xiàn)代漢語詞典》中詞語的詞首位置(第一位置)、詞中位置(第二位置)、詞尾位置(第三位置),可以得出:除了“子”“兒”“頭”三個語素外,其他高頻語素出現(xiàn)在第三個位置上的概率均小于0.1,且“小”“打”“不”“出”的相應(yīng)概率為0。其中“子”“兒”出現(xiàn)在第一位置的概率也小于0.1。這印證了“子”“兒”“頭”常以詞語后綴的形式出現(xiàn)。但各高頻語素出現(xiàn)在各個位置上的概率差異并不明顯。計算各高頻語素位置的熵信息[10](23)來表示其分布的均勻程度。熵,又稱自信息,可度量變量的不確定性,變量數(shù)和集中程度都能夠影響熵值。一般來說,熵值越大,表明變量的數(shù)量越多,分布均勻,不確定性越大;反之則確定性越大,熵值為0,表明變量完全可以確定。

計算每個高頻語素X在每個位置上的概率P(X),再根據(jù)給定的熵的計算公式得出每個語素X的熵①。對得出的結(jié)果進行統(tǒng)計。圖1為語素位置的熵值分布圖:

圖1 語素位置的熵值分布

若熵值越大,則分布越均勻,僅通過語素位置信息進行分詞的困難也就越大。反之,熵值越小,分布越不均勻,語素固有的位置信息則可以作為分詞的標準之一。從圖1可以看出,該50個高頻語素的熵值均較大,集中在0.3-0.5之間。這說明總體來看,各語素在各位置上的分布較均衡,因此不能單憑語素固有的位置信息作為分詞的依據(jù)。

(二)語素位置與構(gòu)詞方式的關(guān)系

根據(jù)上述實驗可以看到,單純看待詞內(nèi)部每個語素的位置分布似乎沒有什么規(guī)律可言。那語素構(gòu)詞的方式是否與其出現(xiàn)在特定詞中的位置有關(guān)?本文選取在《現(xiàn)代漢語詞典》(第六版)中出現(xiàn)頻率高且在詞內(nèi)各位置上分布較均勻的語素“人”,分別統(tǒng)計二字詞和三字詞中,“人”出現(xiàn)在詞各位置上時語素的構(gòu)詞方式,形成表1。

表1 “人”出現(xiàn)在詞各位置上的構(gòu)詞方式

表1中共統(tǒng)計了418個含“人”的詞語,其中二字詞278個,三字詞199個。可以看出,不管是二字詞還是三字詞,偏正結(jié)構(gòu)的構(gòu)詞方式占據(jù)了絕對地位,共230例,其次是述賓結(jié)構(gòu)的構(gòu)詞方式,共145例。而述賓結(jié)構(gòu)不出現(xiàn)在第一位置,主謂結(jié)構(gòu)不出現(xiàn)在第二位置,這說明語素出現(xiàn)的位置在一定程度上限制了其構(gòu)詞方式。表2給出了語素“人”在不同詞位上的概率和熵值。觀察發(fā)現(xiàn),“人”處于三字詞的第一位置時熵值最小,為0.15,此時這些三字詞有極大可能是偏正結(jié)構(gòu)。

表2 “人”出現(xiàn)在詞各位置上構(gòu)詞方式的熵值

三、語素義對構(gòu)詞的貢獻

第二章統(tǒng)計分析了語素的位置信息及其與特定詞的構(gòu)詞方式的關(guān)系,發(fā)現(xiàn)了其位置信息雖然可以揭露出一定的構(gòu)詞方式信息,但無法作為判斷分詞的唯一標準。因此本章將從語素意義的角度,探究跨詞語語素意義以及詞語內(nèi)語素意義的關(guān)系,分析其是否有可能對構(gòu)詞產(chǎn)生影響,進一步成為基于字的分詞方式的理論支撐。

(一)跨詞語語素義與詞語內(nèi)語素義

由于漢語中語素的意義通常比較復(fù)雜,因此本文僅選取語料庫在線中的單個實例,手工對該句子進行分詞,得到8對跨詞語素及6對詞內(nèi)語素,分別研究其跨詞語素以及詞語內(nèi)語素的在語料庫中的分布情況,并通過查詢《現(xiàn)代漢語詞典》(第六版)每個語素的義項,觀察各對語素的意義之間是否具有相近或相關(guān)關(guān)系。

革命/人民/團結(jié)/越/廣泛,階級/敵人/越/孤立[11]。

表3 例句中語素對之間的頻次及語素義關(guān)系

表3中的頻次一欄表示的是各語素對在語料庫在線中的頻次分布,可以清楚地看出詞間語素對的頻次遠遠高于跨詞語素間的頻次,下面以“團結(jié)”“結(jié)越”為例,查詢“團”“結(jié)”“越”在《現(xiàn)代漢語詞典》(第六版)中的相關(guān)義項,說明語素義間的關(guān)系。

【團】tuán⑤會合在一起:~聚|~結(jié)。[12](1321)

【結(jié)】jié④凝聚;凝結(jié):~晶|湖面~了一層冰。[12](662)

【越】1yuè①跨過(阻礙);跳過:~墻|翻山~嶺。 ②不按照一般的次序;超出(范圍):~級|~權(quán)。③(聲音、情感)昂揚:激~|聲音清~。④〈書〉搶奪:殺人~貨。

【越】2yuè疊用,表示程度隨著條件的變化而變化(跟“愈…愈…”相同):腦子~用~靈|爭論~認真,是非也就~清楚。

【越】3yuè①周朝國名,原來在今浙江東部,后來擴展到江蘇、山東。 ②指浙江東部。 ③姓。[12](1609)

觀察所列出的義項,“團”的⑤義項和“結(jié)”的④義項呈現(xiàn)出語義相似的關(guān)系,都包含著“聚合”的意義,因此二者結(jié)合成詞的可能性很大,而“結(jié)”與“越”的任何一個義項都沒有相似或相關(guān)關(guān)系,因此二者結(jié)合成詞的可能性很小。這說明詞語中各項語素義之間呈現(xiàn)出緊密的聯(lián)系,而對跨詞語中各項語素義之間聯(lián)系不大。語素意義的考慮說明了詞并不是字與字的簡單堆砌,而是有其內(nèi)部的結(jié)構(gòu)和意義,也正因此印證了各語素對在語料庫中的出現(xiàn)頻次差別如此之大,足以使通過機器學(xué)習(xí)獲得概率模型,進一步進行基于字的分詞方法成為可能。

(二)語素義與詞義的關(guān)系

除了詞語內(nèi)部的語素義,語素義與詞義的關(guān)系也十分密切。 根據(jù)符淮青[13](98-110)的觀點,語素義和詞義的關(guān)系可分為5種:第一種類型,語素義直接地完全地表示詞義,即相等關(guān)系;第二種,語素義直接地但部分地表示詞義。這種類型的詞義等于語素義之和加上詞的暗含內(nèi)容,即縮小關(guān)系;第三種類型,語素義和詞義的聯(lián)系是間接的,詞義是語素義的引申比喻義即擴大關(guān)系;第四種類型,部分語素在構(gòu)詞中失落原義,即缺失關(guān)系;第五種類型,構(gòu)成詞的所有語素的意義都不顯示詞義,即語素義與詞義無關(guān)。

圖2 “人”的語素義與詞義的關(guān)系

從圖2中可以看出,對高頻語素“人”來說,語素義直接完全地表示詞義的情況,即詞義相等的情況最為突出,共297個詞例,占比71.05%,而其他幾種情況出現(xiàn)的頻次則較為平均,且頻率較低,前三種情況中,語素義都與詞義有關(guān),共計360例,占比86.12%。這說明了語素義對詞義的理解具有較大的幫助。在分詞時,若在統(tǒng)計或深度學(xué)習(xí)的基礎(chǔ)上能將語素義納入考慮,在現(xiàn)階段分詞技術(shù)的基礎(chǔ)上,利用詞典或知網(wǎng)等中各語素的義項,自動分析分詞后語素義之間的關(guān)聯(lián)度,以及各相鄰詞義之間的關(guān)聯(lián)度,可以進一步提高分詞精度。

四、分詞錯誤類型及原因

目前基于字的分詞方法的應(yīng)用已較為廣泛,不管是使用傳統(tǒng)機器學(xué)習(xí)的最大熵模型和隨機場模型的分詞系統(tǒng),還是使用深度學(xué)習(xí)中一些模型的分詞系統(tǒng),其分詞精度均已達到95%左右甚至更高,但在分詞結(jié)果中仍不可避免地出現(xiàn)一些錯誤,本章將歸納兩種分詞過程中的常見錯誤,并且嘗試給出分詞錯誤的原因。

(一)錯誤類型

未登錄詞是指在機器可讀的詞典中沒有出現(xiàn)過的詞,有數(shù)據(jù)表明,未登錄詞造成的分詞精度失落至少比分詞歧義大5倍以上[14](8-19),但自從采取了基于字的分詞方法,由于將分詞的任務(wù)轉(zhuǎn)化為構(gòu)詞的任務(wù),未登陸詞的識別錯誤情況已明顯改善,但仍然不可避免。

未登錄詞的識別錯誤主要體現(xiàn)在命名實體識別錯誤以及專業(yè)術(shù)語的識別錯誤。命名實體主要包括人名、地名、機構(gòu)名,例如“某某出席宗教團體負責(zé)人迎春座談會。”,根據(jù)《信息處理用現(xiàn)代漢語分詞規(guī)范》,漢族人名的姓和名需要進行切分,分開處理,但分詞系統(tǒng)會對該詞進行誤判斷,將它作為普通名詞進行處理,切分情況為“某某/出席/宗教/團體/負責(zé)人/迎春/座談會/。/”。其次對于某些特定領(lǐng)域的文本來看,其中可能充斥著較多的專業(yè)術(shù)語,例如“組織間橋”是醫(yī)學(xué)專業(yè)術(shù)語,分詞系統(tǒng)會將它作普通名詞處理,錯誤切分為“組織/間橋/”。

詞語的歧義類型可以分為交集型歧義和組合型歧義。前者指對于一個漢字串ABC,在不考慮上下文的情況下,切分為AB/C或者A/BC都是合理的,如漢字串“地面積”,可以切分為“地面/積”或者是“地/面積”,后者指的是對于一個漢字串AB,在不考慮上下文的情況下,切分或者合并都是合理的,即可以切分為A/B,也可以不切分,如漢字串“將來”可以切分為“將/來”,也可以不進行切分[15](171-176)。 目前隨著模型的不斷優(yōu)化,基于字的分詞方法可以有效解決兩種歧義引起的問題,但切分錯誤的情況也時有發(fā)生。

(二)錯誤原因

語言學(xué)知識的利用率低。以基于字的分詞方法中,使用的條件隨機場模型為例,雖然在條件隨機場模型中的特征模板有意識地添加一些語言學(xué)的規(guī)則,例如“子”“兒”等一般情況下是詞尾,因此可以估計它們出現(xiàn)的位置,但這特征只能在分詞中起到微弱的輔助作用,一是因為漢語中本來作詞尾的語素就很少,特征無法具有概括性;二是因為即使是這些常作詞尾的語素,也有可能出現(xiàn)在詞的其他位置,例如“子孫”。由上文的分析可知,語素義對詞語的構(gòu)成以及詞義的影響很大,而目前主流的基于統(tǒng)計的方法和基于深度學(xué)習(xí)的方法無法利用語素義來輔助分詞,它們對于系統(tǒng)中參數(shù)的估計只能依靠不斷的調(diào)試。

不管是基于統(tǒng)計的方法還是基于深度學(xué)習(xí)的方法,在開放測試的環(huán)境下表現(xiàn)并不是非常出彩,因此它們都要求一個盡可能大,且涉及領(lǐng)域盡可能廣的訓(xùn)練集。訓(xùn)練集越小、訓(xùn)練集文本的題材越單一,分詞的精度也就越差。再加上未登錄詞由于其性質(zhì)特殊,也就更加難以切分出來。

五、總結(jié)及未來工作

在漢語文本的自動分詞任務(wù)中,利用基于字的分詞方法表現(xiàn)出優(yōu)秀的分詞效果,占據(jù)了主流的地位,因此本文期望找到該分詞方法背后的語言學(xué)知識的支撐,即語素位置在一定程度上影響著構(gòu)詞的方式,通過對詞內(nèi)語素對和跨詞語素對的分析,發(fā)現(xiàn)語素義間的緊密關(guān)系是構(gòu)詞成功的重要依據(jù)。之后,本文通過對含高頻語素“人”的詞的詞義進行統(tǒng)計,說明了語素義和詞義之間也存在著緊密的聯(lián)系,大部分的語素義都可以直接完全地表示詞義。最后,歸納了分詞中常見的錯誤類型及錯誤原因,提出若能將語素義作為自動分詞的標準之一,那么自動分詞的精度或許會進一步提高。

因此,從理論角度看,現(xiàn)有詞典中并沒有清晰地將語素意義的義項和詞義義項區(qū)分開來,未來此類資源有待加入到詞典中。從應(yīng)用角度看,在自動分詞領(lǐng)域中,如何最大程度地利用語言學(xué)的本體知識,與機器學(xué)習(xí)或者深度學(xué)習(xí)的方法相結(jié)合,是未來值得考慮的一個方向。從語言學(xué)的理論角度看,語素與語素組合成詞是否可以歸納出更加簡潔深刻的規(guī)律,并以機器可讀的方式呈現(xiàn)出來;語素義這一判斷標準如何能夠量化計算,運用于自動分詞中也很值得研究。

注釋:

①規(guī)定當概率為0時,熵值也為0。

猜你喜歡
方法
中醫(yī)特有的急救方法
中老年保健(2021年9期)2021-08-24 03:52:04
高中數(shù)學(xué)教學(xué)改革的方法
河北畫報(2021年2期)2021-05-25 02:07:46
化學(xué)反應(yīng)多變幻 “虛擬”方法幫大忙
變快的方法
兒童繪本(2020年5期)2020-04-07 17:46:30
學(xué)習(xí)方法
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
最有效的簡單方法
山東青年(2016年1期)2016-02-28 14:25:23
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
賺錢方法
捕魚
主站蜘蛛池模板: 日本一本正道综合久久dvd| 成年人久久黄色网站| 日韩欧美国产中文| 男女男免费视频网站国产| 91精品综合| 国产视频 第一页| 青草午夜精品视频在线观看| 久久久久夜色精品波多野结衣| 亚洲男人的天堂久久香蕉网| 国产呦精品一区二区三区网站| 亚洲区第一页| 欧美日韩在线亚洲国产人| 国产九九精品视频| 91小视频在线| 夜夜拍夜夜爽| 99re66精品视频在线观看| www.国产福利| 国产精品亚欧美一区二区| 亚洲综合欧美在线一区在线播放| 亚洲国产一成久久精品国产成人综合| 青青青国产免费线在| 亚洲AV无码乱码在线观看代蜜桃| a在线亚洲男人的天堂试看| 免费一级大毛片a一观看不卡| 亚洲欧美国产视频| 午夜激情福利视频| 亚洲欧美成人影院| 日本人妻丰满熟妇区| 久久久无码人妻精品无码| 国产SUV精品一区二区6| 无码一区二区波多野结衣播放搜索| 潮喷在线无码白浆| 亚洲日韩每日更新| 91免费精品国偷自产在线在线| 欧美精品高清| 亚洲成在人线av品善网好看| 国产成人高清亚洲一区久久| 国产日韩欧美黄色片免费观看| 亚洲男人天堂网址| 日本亚洲最大的色成网站www| 国产va欧美va在线观看| 欧美精品在线观看视频| 久久精品亚洲专区| 国产午夜福利片在线观看| 久久综合九九亚洲一区| 网久久综合| 这里只有精品在线| 波多野结衣在线se| 伦伦影院精品一区| 老司国产精品视频91| 色综合五月婷婷| 日韩 欧美 小说 综合网 另类 | 一本色道久久88| 亚洲av成人无码网站在线观看| 777国产精品永久免费观看| 亚洲乱亚洲乱妇24p| 亚洲精品另类| 亚洲三级色| 免费国产好深啊好涨好硬视频| 香蕉久久国产精品免| 四虎永久在线视频| 日韩av电影一区二区三区四区| 国产97色在线| 在线99视频| 好吊日免费视频| 国产交换配偶在线视频| 一区二区三区毛片无码| 中文字幕在线看| 国产精品无码一二三视频| www.91中文字幕| 香蕉视频在线精品| 天天综合网亚洲网站| 免费无码网站| 午夜毛片免费观看视频 | 免费看av在线网站网址| 色综合中文| 国产成人久久777777| 亚洲成人一区在线| 久久综合色播五月男人的天堂| 亚洲人成网站日本片| 国产精品黄色片| 国产91丝袜在线播放动漫|