999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于深度學(xué)習(xí)的中文至拼音首字母自動(dòng)轉(zhuǎn)化方法

2020-03-24 11:10:38胡升澤蔡偉柯何春輝
關(guān)鍵詞:模型

胡升澤 蔡偉柯 何春輝*

(1、國(guó)防科技大學(xué)信息系統(tǒng)工程重點(diǎn)實(shí)驗(yàn)室,湖南 長(zhǎng)沙410073 2、國(guó)防科技大學(xué)教研保障中心,湖南 長(zhǎng)沙410073)

隨著搜索引擎和智能技術(shù)的快速發(fā)展,很多系統(tǒng)都集成了中文首字母快速檢索功能。較常見(jiàn)的有KTV 點(diǎn)歌系統(tǒng)中歌曲名稱的搜索以及智能電視中電視劇或電影名稱的搜索等。它不同于傳統(tǒng)的搜索引擎,為了提升用戶的體驗(yàn)效果,它通常會(huì)簡(jiǎn)化用戶的輸入操作,只需用戶按順序輸入檢索內(nèi)容的首字母,無(wú)需輸入檢索條件的全部?jī)?nèi)容,這樣可以降低用戶的輸入難度,從而提升用戶的檢索體驗(yàn)。

這種基于首字母構(gòu)建的快速檢索系統(tǒng)雖然可以大大提升用戶的體驗(yàn)效果。但它也面臨著一個(gè)亟待解決的核心問(wèn)題,即如何高效、準(zhǔn)確的完成中文至拼音首字母的自動(dòng)轉(zhuǎn)換。眾所周知,中文是一種很特殊的語(yǔ)言,它除了常見(jiàn)的單音字之外,還包含很多的多音字。對(duì)于單音字而言,漢字至拼音首字母的自動(dòng)轉(zhuǎn)換比較簡(jiǎn)單,但是對(duì)于多音字的漢字至拼音首字母的自動(dòng)轉(zhuǎn)換是一個(gè)較復(fù)雜的任務(wù),它需要依賴上下文語(yǔ)義信息才能正確的完成自動(dòng)轉(zhuǎn)換。華逢兆采用漢字的分級(jí)結(jié)構(gòu)實(shí)現(xiàn)了漢字轉(zhuǎn)化為拼音首字母的功能[1]。這種方法雖然可以在大部分情況下完成漢字至拼音首字母的轉(zhuǎn)換任務(wù),但是它的轉(zhuǎn)換準(zhǔn)確率還有待進(jìn)一步提升,尤其是面臨多音字的正確轉(zhuǎn)換顯得捉襟見(jiàn)肘。

近來(lái),隨著硬件水平的提升使得深度學(xué)習(xí)算法在文本挖掘領(lǐng)域得到了廣泛的應(yīng)用[2]。因此,文章引入了深度學(xué)習(xí)算法來(lái)提升中文至拼音首字母的自動(dòng)轉(zhuǎn)換性能。在數(shù)據(jù)標(biāo)注階段,將需要轉(zhuǎn)化的中文和它所對(duì)應(yīng)的拼音首字母進(jìn)行編碼形成序列映射。最后用這些標(biāo)注過(guò)的數(shù)據(jù)來(lái)完成深度學(xué)習(xí)模型的訓(xùn)練。

1 中文至拼音首字母自動(dòng)轉(zhuǎn)換算法

由類型來(lái)分,中文至拼音首字母的自動(dòng)轉(zhuǎn)換可以歸為自然語(yǔ)言處理[3]中的序列標(biāo)注任務(wù)。考慮到Bi-LSTM-CRF(雙向長(zhǎng)短時(shí)記憶條件隨機(jī)場(chǎng))[4]序列標(biāo)注模型在很多任務(wù)上都取得了優(yōu)秀的表現(xiàn)。因此,文章采用了這種深度學(xué)習(xí)網(wǎng)絡(luò)結(jié)構(gòu)來(lái)構(gòu)建中文至拼音首字母的自動(dòng)轉(zhuǎn)換算法。其結(jié)構(gòu)如圖所示.

由圖可知,自動(dòng)轉(zhuǎn)換算法一共包含了8 個(gè)層次。首先是輸入序列層,實(shí)現(xiàn)中文字符串的輸入。接下來(lái)是字符向量嵌入層,用來(lái)完成中文字符的向量化表示。核心部分是雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)層,它利用前向-LSTM層和反向-LSTM層來(lái)獲取上下文的特征。其次通過(guò)隱藏層來(lái)實(shí)現(xiàn)數(shù)據(jù)轉(zhuǎn)換。再次再利用條件隨機(jī)場(chǎng)層給出最佳的序列預(yù)測(cè)結(jié)果。最后再結(jié)合單音字首字母映射表對(duì)預(yù)測(cè)結(jié)果中的單音字首字母進(jìn)行微調(diào)并輸出最終的首字母序列標(biāo)注結(jié)果。

2 數(shù)據(jù)預(yù)處理

2.1 數(shù)據(jù)集獲取

為了驗(yàn)證算法的性能,利用開(kāi)源的網(wǎng)絡(luò)爬蟲(chóng)工具WebMagic①?gòu)亩拱觌娪阿诰W(wǎng)站中爬取到5 萬(wàn)部中文電視劇或電影名稱。此外,還融合了搜狗實(shí)驗(yàn)室對(duì)外公開(kāi)的精簡(jiǎn)版③新聞數(shù)據(jù)集包含的全部中文新聞標(biāo)題共同作為模型訓(xùn)練和測(cè)試的原始語(yǔ)料。

Bi-LSTM-CRF 中文至拼音首字母自動(dòng)轉(zhuǎn)換算法的結(jié)構(gòu)圖

2.2數(shù)據(jù)的標(biāo)注

漢字至拼音首字母標(biāo)注需要將輸入的中文漢字字符序列對(duì)應(yīng)的轉(zhuǎn)換為這些字符所對(duì)應(yīng)的拼音首字母序列的形式。根據(jù)中文的相關(guān)拼音發(fā)音標(biāo)準(zhǔn),約定整個(gè)標(biāo)注數(shù)據(jù)中只包含24 類不同的字符標(biāo)簽。這些標(biāo)簽分別為3 個(gè)單韻母和20 個(gè)聲母以及1 個(gè)非中文的統(tǒng)一映射符。像電視劇名稱“《快樂(lè)成長(zhǎng)》”,就將它對(duì)應(yīng)的字符序列標(biāo)注為“-KLCZ-”。因?yàn)檎麄€(gè)數(shù)據(jù)集較大,其中將80%作為訓(xùn)練數(shù)據(jù)集,15%作為驗(yàn)證數(shù)據(jù)集,5%作為獨(dú)立測(cè)試集。在數(shù)據(jù)標(biāo)注階段,文章借助了中文到拼音開(kāi)源的自動(dòng)轉(zhuǎn)換工具HanLP 并結(jié)合人工校正的方式來(lái)完成數(shù)據(jù)的標(biāo)注。最后,使用上述標(biāo)注方式得到的標(biāo)注數(shù)據(jù)來(lái)完成深度學(xué)習(xí)模型的訓(xùn)練、驗(yàn)證和測(cè)試。

3 實(shí)驗(yàn)分析

3.1 評(píng)測(cè)指標(biāo)

在文章的實(shí)驗(yàn)評(píng)測(cè)環(huán)節(jié),采用平均準(zhǔn)確率來(lái)評(píng)估模型的性能。準(zhǔn)確率的定義如下:對(duì)于一個(gè)輸入的中文序列,如果拼音首字母自動(dòng)轉(zhuǎn)換方法能將它映射成一個(gè)完全正確的首字母序列,意味轉(zhuǎn)換成功,只要轉(zhuǎn)換結(jié)果中包含一個(gè)錯(cuò)誤首字母意味轉(zhuǎn)換失敗。對(duì)于平均準(zhǔn)確率的計(jì)算,需要統(tǒng)計(jì)所有參與評(píng)測(cè)的樣本總數(shù)中轉(zhuǎn)換成功的數(shù)量,并用它除去參與評(píng)測(cè)的樣本總數(shù)。它的計(jì)算公式如下:

3.2 實(shí)驗(yàn)結(jié)果

為了充分的驗(yàn)證模型性能,采用獨(dú)立測(cè)試數(shù)據(jù)集對(duì)條件隨機(jī)場(chǎng)、Bi-LSTM-CRF 以及結(jié)合單音字首字母映射表進(jìn)行微調(diào)的Bi-LSTM-CRF 這3 種不同的模型進(jìn)行了實(shí)驗(yàn)對(duì)比,并結(jié)合平均準(zhǔn)確率指標(biāo)對(duì)不同模型的性能進(jìn)行評(píng)估。相關(guān)的實(shí)驗(yàn)結(jié)果如表所示。

不同模型在獨(dú)立測(cè)試數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果

根據(jù)表的實(shí)驗(yàn)結(jié)果可知,不同模型之間存在一定的差距。CRF 的平均準(zhǔn)確率為94.1%,Bi-LSTM-CRF 模型取得了99.3%的平均準(zhǔn)確率,但是在結(jié)合單音字首字母映射表進(jìn)行微調(diào)后,微調(diào)的Bi-LSTM-CRF 模型的平均準(zhǔn)確率高達(dá)99.7%。

4 結(jié)論

在中文至拼音首字母自動(dòng)轉(zhuǎn)換任務(wù)上,文章提出了基于深度學(xué)習(xí)的中文至拼音首字母自動(dòng)轉(zhuǎn)換方法,實(shí)驗(yàn)結(jié)果表明這種方法可以有效的提升多音字的轉(zhuǎn)換準(zhǔn)確率,且在融入單音字首字母映射表后可以有效提升中文至拼音首字母轉(zhuǎn)換模型的性能。

注釋

①https://www.oschina.net/p/webmagic.

②https://movie.douban.com/.

③https://www.sogou.com/labs/resource/cs.php.

猜你喜歡
模型
一半模型
一種去中心化的域名服務(wù)本地化模型
適用于BDS-3 PPP的隨機(jī)模型
提煉模型 突破難點(diǎn)
函數(shù)模型及應(yīng)用
p150Glued在帕金森病模型中的表達(dá)及分布
函數(shù)模型及應(yīng)用
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
3D打印中的模型分割與打包
主站蜘蛛池模板: 在线观看av永久| 亚洲第一av网站| 国产成人综合日韩精品无码不卡| 亚洲av无码久久无遮挡| 亚洲视频四区| 白丝美女办公室高潮喷水视频| 日韩AV无码免费一二三区| 嫩草国产在线| 91国语视频| 国产后式a一视频| 日韩av高清无码一区二区三区| 性69交片免费看| 亚洲精品人成网线在线| 国产精品太粉嫩高中在线观看| 国产成人区在线观看视频| 国产流白浆视频| 国产又色又刺激高潮免费看| 亚洲熟女中文字幕男人总站| 视频二区亚洲精品| 成人精品在线观看| 亚洲第一中文字幕| 91久久国产成人免费观看| 日本道中文字幕久久一区| 伊人网址在线| 亚洲视频免费播放| 日韩中文无码av超清| 国产精品刺激对白在线| 亚洲天堂视频在线播放| 国产精品免费久久久久影院无码| 国产综合无码一区二区色蜜蜜| 青草视频久久| AV片亚洲国产男人的天堂| 久久精品人人做人人爽97| 国产精品私拍在线爆乳| 老司机精品一区在线视频| 久久久精品无码一区二区三区| 国产人免费人成免费视频| 一本一道波多野结衣一区二区| 欧美日韩国产在线观看一区二区三区| 色播五月婷婷| 国产精品久久自在自线观看| 在线观看国产精品一区| 国产成人高精品免费视频| 一级毛片免费观看久| 2020极品精品国产| 国产精品手机在线观看你懂的 | 亚洲成av人无码综合在线观看| 白浆免费视频国产精品视频| 天天色天天综合网| 真实国产精品vr专区| 久久亚洲精少妇毛片午夜无码| 久久精品欧美一区二区| 欧美一级在线播放| AV无码无在线观看免费| 国产精品99在线观看| 国产在线观看高清不卡| 夜夜爽免费视频| 色综合久久88| 国产剧情无码视频在线观看| 免费无码又爽又刺激高| 国产区网址| 亚洲日韩图片专区第1页| 久久人体视频| 久久综合色天堂av| 婷婷五月在线| 一本一道波多野结衣av黑人在线| 精品三级网站| 高潮爽到爆的喷水女主播视频| 中文字幕天无码久久精品视频免费 | 亚洲天堂精品在线| 国产精品专区第一页在线观看| 97狠狠操| 亚洲一区网站| 亚洲无码视频图片| 欧美日韩激情在线| 欧美精品在线视频观看| 无码精品福利一区二区三区| 中文字幕永久在线看| 亚洲欧美日韩另类在线一| 国产精品国产三级国产专业不| 日韩中文无码av超清| 欧美三级日韩三级|