999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于知識(shí)融合的藏語安多方言數(shù)據(jù)增強(qiáng)方法

2025-04-12 00:00:00錢木吉仁增多杰拉毛吉
電腦知識(shí)與技術(shù) 2025年7期

摘要:針對藏語安多方言數(shù)據(jù)稀缺的問題,文章提出一種基于知識(shí)融合的數(shù)據(jù)增強(qiáng)方法。該方法首先分析安多方言詞匯特征,將其分為8種實(shí)體特征和5種非實(shí)體特征,并構(gòu)建了藏語辭藻、敬語和反義詞詞典。然后,利用Tibetan-Llama2模型進(jìn)行風(fēng)格遷移,將藏語書面語轉(zhuǎn)換為安多方言。最后,結(jié)合安多方言語法特征,對生成的方言文本進(jìn)行多特征融合擴(kuò)充。實(shí)驗(yàn)結(jié)果表明,該方法將源語料擴(kuò)充了6.67倍,生成的數(shù)據(jù)兼具多樣性和可讀性,為藏語安多方言數(shù)據(jù)增強(qiáng)提供了一種有效的解決方案。

關(guān)鍵詞:藏語;安多方言;數(shù)據(jù)增強(qiáng);知識(shí)融合;風(fēng)格遷移;低資源語言

中圖分類號(hào):TP18" " 文獻(xiàn)標(biāo)識(shí)碼:A

文章編號(hào):1009-3044(2025)07-0050-06

開放科學(xué)(資源服務(wù)) 標(biāo)識(shí)碼(OSID)

0 引言

低資源自然語言處理(NLP) 任務(wù)中,數(shù)據(jù)稀缺性是一項(xiàng)重大挑戰(zhàn)。藏語作為一種低資源語言,其方言數(shù)據(jù)的匱乏尤為突出,制約了機(jī)器翻譯、語音識(shí)別等技術(shù)的有效應(yīng)用。數(shù)據(jù)增強(qiáng)技術(shù)為解決這一問題提供了有效途徑。不同于圖像處理中常用的旋轉(zhuǎn)、裁剪等方法,文本數(shù)據(jù)增強(qiáng)需要考慮語言的語法結(jié)構(gòu)和語義含義[1-7]。

藏語是我國重要的低資源語種之一,屬于漢藏語系藏緬語族藏語支,主要分布在我國西藏自治區(qū)、云南、青海、四川、甘肅等五個(gè)省區(qū)。方言是全民共同語的地方變體,由語言的分化與融合,即語言變異和相互影響等因素形成。方言之間主要在語音、詞匯和語法方面存在差異。根據(jù)20世紀(jì)50年代的藏語普查及隨后的重點(diǎn)深入補(bǔ)充調(diào)查,我國境內(nèi)的藏語被劃分為衛(wèi)藏方言、康巴方言和安多方言。然而,格桑居冕等[8-13]人從語言學(xué)的角度深入研究了藏語三大方言的語音、詞匯與語法特征。因此,在進(jìn)行藏語方言數(shù)據(jù)增強(qiáng)時(shí),需要考慮不同方言之間的差異,以確保增強(qiáng)后的數(shù)據(jù)對藏語三大方言都具有代表性和覆蓋性。

在藏語書面語數(shù)據(jù)增強(qiáng)領(lǐng)域中,趙小兵等[14]人采用數(shù)據(jù)增強(qiáng)方法擴(kuò)充公開的SICK藏漢平行語料,擴(kuò)充21萬句對時(shí),藏漢改寫檢測模型的皮爾森系數(shù)達(dá)到0.547 6,比基線系統(tǒng)的皮爾森系數(shù)提升了0.397 1。蔡子龍等[15]人提出低頻詞的同義詞替換,在Transformer實(shí)驗(yàn)中BLEU值最高提升了0.61,在XLM-R實(shí)驗(yàn)中BLEU值最高提升了0.58。通過三種不同的回譯方法構(gòu)建藏漢偽平行語料庫,三種不同的回譯方法對于Transformer和XLM-R實(shí)驗(yàn)的性能提升效果不同。傳統(tǒng)回譯方法在提升BLEU值方面效果不明顯,而交替訓(xùn)練的回譯方法在Transformer實(shí)驗(yàn)中的BLEU值最高提升了1.57,在XLM-R實(shí)驗(yàn)中的BLEU值最高提升了1.44。迭代回譯方法在Transformer實(shí)驗(yàn)中的BLEU值最高提升了1.38,在XLM-R實(shí)驗(yàn)中的BLEU值最高提升了1.17。汪超等[16]人提出一種面向神經(jīng)機(jī)器翻譯的最小翻譯單元調(diào)換以得到新的平行句對的數(shù)據(jù)增強(qiáng)方法,在藏漢、漢英兩種語言對上進(jìn)行實(shí)驗(yàn),BLEU值提高了4個(gè)點(diǎn)。張瑞等[17] 人使用詞向量擴(kuò)充情感詞詞典的方法,通過實(shí)驗(yàn)對比,在藏文新聞文本情感分析方面,SVM+詞向量+詞典方法訓(xùn)練模型得到了較好的效果,為后續(xù)藏文文本的數(shù)據(jù)增強(qiáng)奠定了基礎(chǔ)。

盡管藏語文本數(shù)據(jù)增強(qiáng)取得了一定發(fā)展,但大多是針對藏語書面語文本進(jìn)行數(shù)據(jù)增強(qiáng),鮮少有研究者探討對藏語方言文本進(jìn)行數(shù)據(jù)增強(qiáng)。針對上述問題,本文提出一種基于知識(shí)融合的數(shù)據(jù)增強(qiáng)方法。該方法首先分析安多方言詞匯特征,然后利用Tibetan-Llama2模型進(jìn)行風(fēng)格遷移,將藏語書面語轉(zhuǎn)換為安多方言。最后,結(jié)合安多方言語法特征,對生成的方言文本進(jìn)行多特征融合擴(kuò)充,為藏語安多方言數(shù)據(jù)增強(qiáng)提供了一種有效的解決方案。

1 安多方言特點(diǎn)

安多方言分布在甘肅省甘南藏族自治州、天祝藏族自治州、青海省海南藏族自治州、海北藏族自治州、海西蒙古族藏族哈薩克族自治州、黃南藏族自治州、果洛藏族自治州和四川阿壩藏族羌族自治州。多數(shù)地區(qū)從事牧業(yè)生產(chǎn),也有不少地區(qū)是農(nóng)業(yè)區(qū)或半農(nóng)半牧區(qū)。根據(jù)語言學(xué)家的研究,以下將探討以夏河話為主的藏語安多方言變體的詞匯和語法特點(diǎn)。

1.1 詞匯特點(diǎn)

藏語方言文本與書面語文本的最明顯區(qū)別體現(xiàn)在兩者的用詞層面。書面語文本中使用的詞基本上都能在全藏區(qū)理解,具有很好的通用性。但方言文本中的詞則沒有那么強(qiáng)的通用性,甚至很多詞在不同方言下出現(xiàn)完全看不懂的情況。

安多方言在名詞、代詞、形容詞、動(dòng)詞、數(shù)詞、量詞、副詞和助詞等方面與書面語有許多區(qū)別。安多方言的名詞除了基礎(chǔ)名詞外(如“??????" ????" "???" ??????" " "??????" ???????”等) ,還有帶有特殊詞素“??”“???????”等的名詞(如“??:????? ????????" "????????:??????????? ?????????? ???????????”等) ;代詞的復(fù)數(shù)形式也有顯著差異,如使用“???”或“????”來表達(dá)復(fù)數(shù);形容詞方面,安多方言常見雙重語尾的形容詞,如“?????????”和“?????????”。動(dòng)詞則有特殊的形態(tài)變化,例如表示否定、疑問、現(xiàn)在時(shí)或猜測等情況下的不同后綴(如“表示否定的謂語動(dòng)詞加‘?????????’,表示疑問的謂語動(dòng)詞加‘?????’,表示現(xiàn)在時(shí)的謂語動(dòng)詞加‘?????????’,表示猜測的謂語動(dòng)詞加‘????’”) ;在數(shù)詞和量詞方面,雖然與書面語相比沒有太大的差別,但在特定物品的計(jì)數(shù)和度量方式上可能有所不同(如“??????? ????? ???????????”) ;副詞方面,安多方言的使用也與書面語有明顯差異(如“?????(?????? ???????(??????? ??????(???????????”) ;最后,助詞在安多方言中的使用也有顯著區(qū)別,特別是在疑問語氣助詞(如“???(?????????? ??????? ??????? ??????? ???????? ????????”等) 和命令語氣的助詞(如“?????? ??????? ?????? ?????”等) ,使用的形式和頻率有所不同。安多方言的詞匯特征具體見表1。

1.2 語法特點(diǎn)

藏語安多方言文本除了在用詞方面與書面語有差別外,其語法上也有許多不同點(diǎn)。這些不同點(diǎn)主要體現(xiàn)在詞語的復(fù)數(shù)形式、動(dòng)詞的時(shí)態(tài)變化、復(fù)合謂語的連接助詞、語尾疑問助詞、命令語氣助詞、語尾助詞以及格助詞的使用等方面。具體示例見表2。

2 藏語安多方言知識(shí)庫構(gòu)建

2.1 藏語安多方言詞匯特征庫構(gòu)建

名詞在語言中扮演著多種角色,涵蓋人名、地名、時(shí)間名和組織結(jié)構(gòu)名等多個(gè)類別。缺乏細(xì)分和準(zhǔn)確替換可能導(dǎo)致與相應(yīng)的形容詞、動(dòng)詞和量詞用法不匹配,進(jìn)而影響語言的準(zhǔn)確性和清晰度。例如,在句子“??????????????????????”(扎西娶了老婆) 中,若將人名“???????”替換為地名“??????”,則生成的句子“?????????????????????”(北京娶了老婆) 明顯失去了原意。適當(dāng)?shù)拿~細(xì)分和精準(zhǔn)的用法不僅能確保語言表達(dá)的精確性,避免因語法不當(dāng)而造成的歧義,還能更有效地捕捉藏語安多方言文本中的關(guān)鍵信息,并生成具有上下文連貫性的同義詞性替換。

基于命名實(shí)體識(shí)別(NER) 技術(shù)的相關(guān)理論,本文將安多方言的詞匯特點(diǎn)分為實(shí)體特征和非實(shí)體特征兩大類。實(shí)體特征是指具體實(shí)體詞在詞性上所體現(xiàn)出來的特性,非實(shí)體特征是指非實(shí)體詞在詞性上所體現(xiàn)出來的特性,這些特性能夠反映文本中詞匯的使用模式和蘊(yùn)含的語義信息。其中,實(shí)體特征包括交通、人名、人稱代詞、動(dòng)物名、地名、時(shí)間名、民族名和組織結(jié)構(gòu)等八種類別,這些類別對應(yīng)于NER中的命名實(shí)體類型,有助于系統(tǒng)識(shí)別和分類文本中的重要信息;非實(shí)體特征則包括嘆詞、計(jì)數(shù)詞、序數(shù)詞、指示代詞和疑問代詞等五種類別,這些元素在語言表達(dá)中起到補(bǔ)充和修飾的作用。這樣的分類為進(jìn)一步的研究提供了基礎(chǔ),有助于深入理解安多方言的語言結(jié)構(gòu)和使用規(guī)律,同時(shí)為應(yīng)用于自然語言處理領(lǐng)域提供了理論支持。具體見表3與表4。

本文構(gòu)建特征庫時(shí)考慮了藏語的語法結(jié)構(gòu)和用詞規(guī)范等問題。例如,藏語的一條句子中動(dòng)詞大部分為其中心詞,因此在數(shù)據(jù)增強(qiáng)時(shí)通過直接替換動(dòng)詞可能會(huì)導(dǎo)致動(dòng)詞用法不當(dāng)?shù)那闆r。例如,將“???????????????”(我要吃飯。) 中的動(dòng)詞“?”(吃) 替換為同義詞“????”(笑) ,結(jié)果為“??????????????????”(我要笑飯。) ,這顯然不符合語法。量詞在藏語中用法固定,替換量詞也會(huì)導(dǎo)致量詞混用。例如,將“???????????”(四疋布) 中的量詞“???”(疋) 替換為“???”(頓) ,結(jié)果為“???????????”(四頓布) ,同樣不符合規(guī)范。因此,構(gòu)建特征庫時(shí)需要特別注意這些動(dòng)詞和量詞的問題。

2.2 詞典構(gòu)建

辭藻詞典的數(shù)據(jù)主要來源于傳統(tǒng)的藏文口訣和經(jīng)典文獻(xiàn)。這些口訣通常包含豐富的藻飾詞匯,用于修飾和美化核心關(guān)鍵詞。為了構(gòu)建辭藻詞典,需要收集并整理這些口訣,確保它們的準(zhǔn)確性和代表性。

本文參考《辭藻學(xué)選編》(仁青措和康主才讓,2012年民族出版) 對口訣進(jìn)行收集和整理后,對每個(gè)口訣進(jìn)行了細(xì)致分析,并提取出其核心關(guān)鍵詞。關(guān)鍵詞是口訣中表達(dá)的主要概念或?qū)ο螅砹丝谠E的核心思想。在關(guān)鍵詞提取完成后,進(jìn)一步識(shí)別與其相關(guān)的藻飾詞。藻飾詞通常是修飾性詞匯、短語或句子,用以增強(qiáng)關(guān)鍵詞的表達(dá)效果。接著,將這些藻飾詞按照與關(guān)鍵詞的關(guān)聯(lián)程度進(jìn)行分類和整理。最終,構(gòu)建出結(jié)構(gòu)化的表格數(shù)據(jù)。表格中,每一行對應(yīng)一個(gè)關(guān)鍵詞,第一列為關(guān)鍵詞本身,后續(xù)列為與之相關(guān)的藻飾詞。表格設(shè)計(jì)注重?cái)?shù)據(jù)的準(zhǔn)確性和清晰性,以便于查閱和使用。具體見表5。

敬語的數(shù)據(jù)也主要來源于傳統(tǒng)的藏文口訣。本文參考《藏語敬語童謠》(旦杰,2010年西藏人民出版社) 對口訣進(jìn)行收集和整理后,通過分析口訣中的敬語表達(dá),識(shí)別出普通敬語和最高敬語等不同程度的敬語形式。將敬語按照其程度和用法進(jìn)行分類和整理。

根據(jù)敬語的分類和用法,構(gòu)建敬語詞典的映射關(guān)系。這可以是一對多的映射關(guān)系(即一個(gè)關(guān)鍵詞對應(yīng)多個(gè)敬語形式) ,也可以是一對一的映射關(guān)系(即一個(gè)關(guān)鍵詞對應(yīng)一個(gè)特定的敬語形式) 。具體見圖1和圖2。

通過參考《藏語文反義詞詞典》(索朗確吉編著,2023年民族出版社) 、《藏漢對照拉薩口語詞典》(于道泉,1983年民族出版社) 、《安多藏語口語詞典》(耿顯宗等,2007年甘肅民族出版社) 以及《藏語康方言詞匯集(第一冊) 》(鄧戈,2020年西藏人民出版社) ,收集已有的反義詞詞典和口語詞典,并對這些詞典進(jìn)行整理和合并,以確保詞典的準(zhǔn)確性和完整性。

將反義詞對與口語詞典進(jìn)行對比,并將反義詞調(diào)整為口語化的表達(dá)形式。這有助于提高反義詞詞典的實(shí)用性和適用性。具體見表6。

3 藏語安多方言數(shù)據(jù)增強(qiáng)方法

本文方言數(shù)據(jù)來源于藏語方言研究的書籍及劉穎等人①開發(fā)的藏語方言時(shí)空數(shù)據(jù)共享服務(wù)平臺(tái),最初統(tǒng)計(jì)出801條數(shù)據(jù)。經(jīng)過篩選,丟棄了短于五個(gè)字和長于三十字的句子,以及沒有特別明顯的方言特征的句子。最終篩選出的安多方言數(shù)據(jù)有727條,主要內(nèi)容為日常對話,構(gòu)建的安多方言語料命名為TF_An。

此外,從藏文小說、新聞和微博評論中收集了1 299條書面語數(shù)據(jù),并將其作為基礎(chǔ),構(gòu)建書面語與安多方言的平行語料,命名為TS_m。借助分詞詞性標(biāo)注工具[18]對最終句子進(jìn)行分詞及詞性標(biāo)注,并進(jìn)行人工校對,以確保原始語料的準(zhǔn)確性與可靠性。

在模型選擇方面,本實(shí)驗(yàn)采用了Tibetan-Llama2作為遷移學(xué)習(xí)的基礎(chǔ)模型。Tibetan-Llama2是基于Llama2模型架構(gòu)構(gòu)建的,經(jīng)過較大規(guī)模數(shù)據(jù)的增量預(yù)訓(xùn)練和指令微調(diào),具備對藏文的深入理解和處理能力。在藏文理解和生成任務(wù)中表現(xiàn)出了較高的效率和性能,并且在多個(gè)領(lǐng)域都有廣泛的應(yīng)用前景。

3.1 數(shù)據(jù)預(yù)處理模塊

在處理原始文本數(shù)據(jù)時(shí),面臨數(shù)據(jù)來源廣泛且多樣、噪聲信息混雜等挑戰(zhàn)。為了確保數(shù)據(jù)質(zhì)量和后續(xù)分析的準(zhǔn)確性,本文進(jìn)行了全面而細(xì)致的預(yù)處理工作。

首先,在數(shù)據(jù)清洗階段,我們特別關(guān)注了微博評論等來源的文本數(shù)據(jù)中充斥的大量噪聲符號(hào)。這些特殊字符如“/*amp;%¥#@”等對文本分析并無實(shí)質(zhì)性貢獻(xiàn),反而可能干擾最終的分析結(jié)果。因此,我們采取了有效措施,將這些無用符號(hào)從文本中移除,確保數(shù)據(jù)的純凈性。同時(shí),為了統(tǒng)一文本中的數(shù)字表示,我們對阿拉伯?dāng)?shù)字和藏文數(shù)字進(jìn)行了轉(zhuǎn)寫處理。這一步驟不僅消除了數(shù)字表示上的差異,還為后續(xù)的數(shù)據(jù)處理和分析提供了便利。此外,我們還根據(jù)文本長度進(jìn)行了篩選,排除了長度過短或過長的文本條目,進(jìn)一步提升了數(shù)據(jù)質(zhì)量,并對數(shù)據(jù)進(jìn)行了嚴(yán)格的去重處理。這一步驟消除了重復(fù)數(shù)據(jù)對分析結(jié)果可能產(chǎn)生的負(fù)面影響,確保了最終數(shù)據(jù)集的高質(zhì)量和可靠性。

在此基礎(chǔ)上,我們構(gòu)建了藏語安多方言文本與書面語文本的平行語料庫。這一語料庫為后續(xù)的分析工作提供了更為豐富和全面的數(shù)據(jù)基礎(chǔ)。最后,我們利用開源的分詞系統(tǒng)對數(shù)據(jù)進(jìn)行了分詞及詞性標(biāo)注處理,并進(jìn)行了人工校對。由于開源分詞系統(tǒng)在方言文本數(shù)據(jù)上的效果并不理想,人工校對成為文本預(yù)處理流程中的重要環(huán)節(jié)。通過這一系列預(yù)處理工作,我們?yōu)楹罄m(xù)的文本分析任務(wù)奠定了堅(jiān)實(shí)的基礎(chǔ),為數(shù)據(jù)增強(qiáng)等后續(xù)任務(wù)提供了有力的技術(shù)支撐。

3.2 風(fēng)格遷移模塊

1) 基于Tibetan-Llama2模型。LoRA(Low-Rank Adaptation) 技術(shù)應(yīng)用于Tibetan-Llama2模型中,旨在實(shí)現(xiàn)藏語書面語向安多方言的風(fēng)格遷移。本文為模型精心設(shè)計(jì)了兩個(gè)小巧且可調(diào)整的低秩矩陣A和B,這兩個(gè)矩陣作為LoRA的核心參數(shù),被巧妙地嵌入到基礎(chǔ)模型的權(quán)重矩陣旁邊。在訓(xùn)練過程中,研究人員專注于調(diào)整這兩個(gè)新增的矩陣,而保持基礎(chǔ)模型的原始權(quán)重不變。這種策略不僅顯著減少了需要訓(xùn)練的參數(shù)數(shù)量,提高了整體的訓(xùn)練效率,還有效地保持了基礎(chǔ)模型的穩(wěn)定性和性能。

通過利用精心搜集的藏語書面語和安多方言數(shù)據(jù),進(jìn)行了深入的微調(diào)實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果表明,該模型成功地實(shí)現(xiàn)了從藏語書面語到安多方言的風(fēng)格轉(zhuǎn)換,為藏語方言的智能化處理開辟了新的道路。這一創(chuàng)新方法不僅展示了LoRA技術(shù)在風(fēng)格遷移任務(wù)中的巨大潛力,也為藏語方言的智能化處理提供了新的思路和解決方案。

2) 虛詞糾錯(cuò)。為了后續(xù)數(shù)據(jù)增強(qiáng)的可靠性,對模型生成的方言數(shù)據(jù)進(jìn)行人工的虛詞修改,最終得到數(shù)據(jù)TS_An。

3.3 知識(shí)融合模塊

數(shù)據(jù)TS_m通過Tibetan-Llama2的預(yù)訓(xùn)練優(yōu)勢與藏語方言數(shù)據(jù)相結(jié)合,得出的方言數(shù)據(jù)TS_An和方言數(shù)據(jù)TF_An作為源數(shù)據(jù)繼續(xù)完成知識(shí)融合模塊的任務(wù)。

1) 詞性定位。系統(tǒng)逐句遍歷文本,細(xì)致檢查每一個(gè)詞匯,以核實(shí)這些詞匯是否收錄于預(yù)先構(gòu)建的特征詞庫中。這一步驟的核心使命在于為文本中的每一個(gè)單詞準(zhǔn)確分配一個(gè)詞性標(biāo)簽,如名詞、動(dòng)詞、形容詞或副詞等,保障文本詞匯與其對應(yīng)特征之間的精確匹配。這一匹配機(jī)制為后續(xù)可能進(jìn)行的詞匯置換任務(wù)奠定了堅(jiān)實(shí)的基礎(chǔ),提供了不可或缺的指引。

2) 詞匯置換。首先,對每一行文本進(jìn)行分析,創(chuàng)建相應(yīng)的實(shí)體和非實(shí)體置換后的文本變體,從同類型實(shí)體中選擇置換詞,如人名置換為人名,地名置換為地名,替換比例為10%;其次,在基礎(chǔ)文本上,為每一行生成包含敬語、辭藻及反義詞置換后的變體,為確保語境中合理且不引起歧義,替換比例為5%;再次,針對前一步生成的實(shí)體和非實(shí)體變體,再次進(jìn)行敬語、辭藻和反義詞的置換,形成更復(fù)雜的變體組合。最后,對實(shí)體和非實(shí)體變體生成的敬語變體,進(jìn)一步生成辭藻變體;同時(shí),對實(shí)體和非實(shí)體變體生成的辭藻變體,生成反義變體;再對實(shí)體和非實(shí)體變體生成的反義詞變體,生成敬語變體。這樣的層層置換不僅豐富了語料,也提高了其語言表達(dá)的靈活性。替換過程應(yīng)逐步進(jìn)行,避免一次性替換過多詞匯導(dǎo)致文本難以理解。

3) 虛詞糾錯(cuò)。在所有文本處理完畢后,最后一步是輸出處理后的文本T_An,并對已替換特征詞的句子進(jìn)行檢錯(cuò),特別是針對虛詞的用法進(jìn)行人工校正。此步驟確保文本在豐富性和準(zhǔn)確性之間達(dá)到平衡,從而提高整體語料的質(zhì)量。

4 結(jié)果及分析

4.1 結(jié)果

本文對最終生成的結(jié)果進(jìn)行了人工質(zhì)量評估,特別邀請了5名評估者,他們隨機(jī)抽取了200條樣本進(jìn)行細(xì)致打分。評估依據(jù)是表7中詳細(xì)列出的評分標(biāo)準(zhǔn)。評估結(jié)果如圖4所示,這些樣本的平均得分高達(dá)4.14分。

就方言數(shù)據(jù)集建立的難度而言,MOS評測的平均分能達(dá)到4分,足以證明該數(shù)據(jù)集的建立是成功的,并且具有重要的研究價(jià)值。這一成果為后續(xù)的方言研究工作奠定了堅(jiān)實(shí)的基礎(chǔ),提供了寶貴的數(shù)據(jù)資源。

原來的書面語數(shù)據(jù)通過Tibetan-Llama2的預(yù)訓(xùn)練優(yōu)勢與藏語方言數(shù)據(jù)相結(jié)合,得出一個(gè)方言數(shù)據(jù)TS_An。此方言數(shù)據(jù)和方言數(shù)據(jù)TF_An作為源數(shù)據(jù)繼續(xù)完成特征融合模塊的任務(wù)。

在特征融合模塊中,進(jìn)行實(shí)體與非實(shí)體替換時(shí),各生成0~5條變體;進(jìn)行反義詞替換時(shí),生成0~1條變體;進(jìn)行辭藻和敬語替換時(shí),每個(gè)都生成0~3條變體。因此,一條句子能生成新變體的數(shù)量N的計(jì)算公式為公式(1) :

[N=n1+n2n3+n4+n5+n3n4+n5+n4*n5+n1+n2+n3] (1)

[n1、n2、n3、n4、n5]分別表示實(shí)體、非實(shí)體、反義詞、敬語以及辭藻替換后生成的新變體個(gè)數(shù)。對于一條原始語料,其生成的變體數(shù)最多時(shí),[n1]至 [n5] 均為 1,最少時(shí)則均為 0。因此,在藏文安多方言數(shù)據(jù)增強(qiáng)方法的性能測試中,評測指標(biāo)為擴(kuò)充率(E) ,公式(2) 所示。

[ E= Z+Nt][=1 299+12 209條2 026條][=6.67倍] (2)

式中:[N]表示增強(qiáng)后的句子個(gè)數(shù),[Z]表示通過風(fēng)格遷移把書面語數(shù)據(jù)轉(zhuǎn)為方言數(shù)據(jù)的個(gè)數(shù),[t]表示原語料的句子個(gè)數(shù)。

4.2 結(jié)果分析

例子1:???????????/vi ?????/R_C ??/gx ????????/DZ_C ????/ux ??/cn ????/R_C ??/gx ????/DZ_C ????/ux ?/lz?

首先,用Tibetan-Llama2預(yù)訓(xùn)練微調(diào)生成的結(jié)果為“?????????????????????????????????????????”,再次,把這個(gè)結(jié)果作為源數(shù)據(jù)繼續(xù)完成特征融合模塊(首先,對文本生成實(shí)體“???????”和“????”置換后的變體1和2;其次,非實(shí)體“???” 置換后的變體3;再次,對文本生成敬語置換后的變體4;最后,對實(shí)體和非實(shí)體變體生成敬語變體5和6)。

1.???????????????????????????????????????????

2.???????????????????????????????????????????

3.????????????????????????????????????????????

4.???????????????????????????????????????????

5.????????????????????????????????????????????

6.?????????????????????????????????????????????

例子2:????/nn ????/gz ??????/as ????/ff ???/cd ???/nn ???/gz ??????/as ???/ff ??????/vt ???/uz ??/ry ?/lz

首先,用Tibetan-Llama2預(yù)訓(xùn)練微調(diào)生成的結(jié)果為“?????????????????????????????????????????????????”,再次,把這個(gè)結(jié)果作為源數(shù)據(jù)繼續(xù)完成特征融合模塊(首先,對文本生成實(shí)體“???”置換后的變體1;非實(shí)體“??” 置換后的變體3;再次,對文本生成敬語和辭藻置換的變體3和4;最后,再對辭藻變體生成敬語變體5)。

1.????????????????????????????????????????????????

2.????????????????????????????????????????????????????????

3.???????????????????????????????????????????????????

4.???????????????????????????????????????????????????

5.?????????????????????????????????????????????????????

例子3:???????????/nn ???/gz ??????/nn ???????/vt ????/un ?/lz ??????????/nn ???/gz ??????????/nn ????/vt ???/yy ????/mg ???/up ?/lz

首先,用Tibetan-Llama2預(yù)訓(xùn)練微調(diào)生成的結(jié)果為“?????????????????????????????????????????????????”,再次,把這個(gè)結(jié)果作為源數(shù)據(jù)繼續(xù)完成特征融合模塊(文本中沒有出現(xiàn)特征庫中的實(shí)體與非實(shí)體詞,因此,首先,對文本生成辭藻變體1;再次,對文本生成敬語變體2;最后,對辭藻變體生成敬語變體3) 。

1.??????????????????????????????????????????????????????????????????????

2.??????????????????????????????????????????????????????????????????????

3.???????????????????????????????????????????????????????????????????????

5 結(jié)束語

本文初步探討了一種知識(shí)融合的藏語安多方言數(shù)據(jù)增強(qiáng)方法。這種方法將語言學(xué)特征與數(shù)據(jù)增強(qiáng)技術(shù)相融合,為安多方言的語料庫豐富提供了一種新途徑,有望促進(jìn)該方言研究的進(jìn)展。藏語三大方言的較大區(qū)別還體現(xiàn)在形容詞和副詞上,本文的數(shù)據(jù)增強(qiáng)方法沒有考慮形容詞、副詞與量詞等因素。今后將在此研究成果的基礎(chǔ)上,進(jìn)一步研究針對藏語安多方言中形容詞、副詞和量詞的特點(diǎn),可以探索形容詞的程度修飾、副詞的修飾對象以及量詞與名詞的搭配關(guān)系等,從而設(shè)計(jì)出更加符合方言習(xí)慣的替換策略。這將有助于生成更加豐富多樣的安多方言數(shù)據(jù)。

注釋:

① http://139.224.128.89/zyfycloud/index.php/Index/Login/index.html.

參考文獻(xiàn):

[1] 皮洲,奚雪峰,崔志明,等.一種面向長文本小數(shù)據(jù)集自動(dòng)摘要任務(wù)的數(shù)據(jù)增強(qiáng)策略[J].中文信息學(xué)報(bào),2022,36(9):46-56.

[2] 李劍.面向自然語言處理的數(shù)據(jù)增強(qiáng)方法研究[D].天津:天津大學(xué),2022.

[3] 李健,張克亮,唐亮,等.面向中文命名實(shí)體識(shí)別任務(wù)的數(shù)據(jù)增強(qiáng)[J].計(jì)算機(jī)與現(xiàn)代化,2022(4):1-6,11.

[4] 王文幻.基于資料增強(qiáng)的文本情感分析方法研究[D].南京:南京航空航天大學(xué),2021.

[5] 何家勁.基于文本數(shù)據(jù)增強(qiáng)與混合模型的情感分析研究[D].合肥:合肥工業(yè)大學(xué),2018.

[6] 高凡雅.基于資料增強(qiáng)和參數(shù)遷移的越南語依存句法分析方法研究[D].昆明:昆明理工大學(xué), 2022.

[7] 線巖團(tuán),高凡雅,相艷,等.融合多策略數(shù)據(jù)增強(qiáng)的低資源依存句法分析方法[J].計(jì)算機(jī)科學(xué),2022,49(1):73-79.

[8] 格桑居冕,格桑央京.藏語方言概論[M].北京:民族出版社,2002.

[9] 東主才讓.藏語方言學(xué)[M].北京:民族出版社,2020.

[10] 東主才讓.藏語方言調(diào)查與研究:藏文[M].北京:中國藏學(xué)出版社,2011.

[11] 王志敬.藏語拉薩口語語法[M].北京:中央民族大學(xué)出版社,1994.

[12] 王詩文.藏語康方言語法研究:德格話語法:藏文[M].北京:民族出版社,2012.

[13] 敏生智.安多藏語常用虛詞釋例[M].西寧:青海民族出版社,1990.

[14] 趙小兵,鮑薇,董建,等.基于數(shù)據(jù)增強(qiáng)的藏文改寫檢測研究[J].中文信息學(xué)報(bào),2019,33(12):83-90.

[15] 蔡子龍,楊明明,熊德意.基于數(shù)據(jù)增強(qiáng)技術(shù)的神經(jīng)機(jī)器翻譯[J].中文信息學(xué)報(bào),2018,32(7):30-36.

[16] 汪超.基于數(shù)據(jù)增強(qiáng)技術(shù)的藏漢機(jī)器翻譯方法研究[D].拉薩:西藏大學(xué),2023.

[17] 張瑞.基于大數(shù)據(jù)的藏文文本情感分析方法研究[D].西寧:青海師范大學(xué),2019.

[18] 李亞超,江靜,加羊吉,等.TIP-LAS:一個(gè)開源的藏文分詞詞性標(biāo)注系統(tǒng)[J].中文信息學(xué)報(bào),2015,29(6):203-207.

【通聯(lián)編輯:唐一東】

主站蜘蛛池模板: 国产av剧情无码精品色午夜| 玖玖精品在线| 亚洲精品色AV无码看| 久草网视频在线| 亚洲成人福利网站| 永久成人无码激情视频免费| 美女扒开下面流白浆在线试听 | 亚洲美女久久| 亚洲综合精品第一页| 欧美一区精品| 欧美中出一区二区| 中文字幕人成乱码熟女免费| 日韩高清欧美| 九色在线观看视频| 一区二区三区精品视频在线观看| 欧美狠狠干| 狠狠久久综合伊人不卡| 久久99国产综合精品1| Aⅴ无码专区在线观看| 久久99精品久久久久久不卡| 国产成人福利在线| 一本色道久久88综合日韩精品| 57pao国产成视频免费播放| 国产成人亚洲综合A∨在线播放| 伊人激情综合网| 亚欧成人无码AV在线播放| jizz在线观看| 亚洲成av人无码综合在线观看| 免费A级毛片无码免费视频| 国产精品免费电影| 激情无码字幕综合| 无码有码中文字幕| 在线看免费无码av天堂的| 色天堂无毒不卡| 最新国语自产精品视频在| 综合亚洲色图| 少妇极品熟妇人妻专区视频| 亚洲—日韩aV在线| 无码专区在线观看| 亚洲天堂日韩av电影| 亚洲精品第一在线观看视频| 欧美在线天堂| 国产在线一区视频| 在线免费无码视频| 香蕉99国内自产自拍视频| 亚洲福利片无码最新在线播放| 在线观看国产精品一区| 国产高清无码麻豆精品| 97人妻精品专区久久久久| 成人精品视频一区二区在线 | 青青极品在线| 97久久精品人人| 欧美日韩国产在线播放| 色综合久久88色综合天天提莫 | 免费看久久精品99| 国产精品欧美在线观看| 欧美另类图片视频无弹跳第一页| 香蕉国产精品视频| 国产日韩欧美黄色片免费观看| 成人毛片在线播放| 国产毛片高清一级国语 | 亚洲国产精品日韩av专区| 亚洲欧洲美色一区二区三区| 欧美五月婷婷| 福利片91| 欧美中文字幕在线视频| 天天色天天综合| 97人妻精品专区久久久久| 国产免费黄| 国产自在线拍| 久久综合激情网| 69国产精品视频免费| 91九色国产porny| 中文字幕佐山爱一区二区免费| 久久黄色影院| 一级毛片免费的| 亚洲精品天堂自在久久77| 久久综合色播五月男人的天堂| 精品视频一区二区三区在线播| 久热re国产手机在线观看| 国产美女无遮挡免费视频网站 | 高潮毛片无遮挡高清视频播放|