999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于Word2Vec的藏文文本語義預測分析研究

2021-03-29 02:12:48丁海蘭
關鍵詞:語義詞匯文本

丁海蘭

(蘭州交通大學 文學與國際漢學院,甘肅 蘭州 730070)

0 引言

1 詞向量

介于計算機只能識別1和0進行自然語言處理,那么想讓計算機處理文本,就必須把文本轉(zhuǎn)化成計算機所能識別的語言,其最直接的方法就是把詞轉(zhuǎn)化成詞向量.詞的向量化是指把詞進行數(shù)學化表示,主要有one-hot representation、Distributed representation和word2vec模型訓練詞向量三種表示方式.第一種方式是用一個很長的向量來表示一個詞,其分量為1,其余全部為0,1,其缺憾是無法提供語義信息;第二種方式是由Hinton最早提出,他是將詞映射到一個低維且稠密的100~200大小的實數(shù)向量空間中,這樣使得詞義越相近的詞距離越近;第三種方式是借鑒Bengio提出的NNLM模型(Neural Network Language Model)以及Hinton的Log-Linear模型、Mikolov模型等,都提出了Word2Vec的語言模型,Word2vec可以高速有效地訓練詞向量[1].

2 Word2Vec工具

2.1 Word2Vec的兩種訓練模型

詞向量其實是將詞映射到一個語義空間,得到的向量.Word2Vec則是借用神經(jīng)網(wǎng)絡的方式實現(xiàn)的,考慮文本的上下文關系,Word2Vec有CBOW 和Skip-gram共兩種模型,這兩種模型在訓練的過程中類似.Skip-gram 模型是用一個詞語作為輸入,來預測它周圍的上下文,CBOW模型是拿一個詞語的上下文作為輸入,來預測這個詞語本身.

2.1.1 Skip-gram訓練模型

如果是用一個詞語作為輸入,來預測它周圍的上下文,那這個模型叫做Skip-gram 模型.首先確定窗口大小Window,對每個詞生成2*window個訓練樣本,(i,i-window),(i,i-window+1),…,(i,i+window-1),(i,i+window).緊接著確定batch_size,注意batch_size的大小必須是2*window的整數(shù)倍,這確保每個batch包含了一個詞匯對應的所有樣本.訓練算法有兩種:層次Softmax和 Negative Sampling[2].最后將神經(jīng)網(wǎng)絡迭代訓練一定次數(shù),得到輸入層到隱藏層的參數(shù)矩陣,矩陣中每一行的轉(zhuǎn)置即是對應詞的詞向量,具體模型如圖1.

圖1 Skip-gram模型

2.1.2 CBOW訓練模型

CBOW(Bag-of-words model)模型是拿一個詞語的上下文作為輸入,來預測這個詞語本身.首先,確定窗口大小window,對每個詞生成2*window個訓練樣本,(i-window,i),(i-window+1,i),…,(i+window-1,i),(i+window,i).其次,確定batch_size,注意batch_size的大小必須是2*window的整數(shù)倍,這能確保每個batch包含了一個詞匯對應的所有樣本,訓練算法有兩種:層次Softmax和 Negative Sampling.最后是將神經(jīng)網(wǎng)絡迭代訓練一定次數(shù),得到輸入層到隱藏層的參數(shù)矩陣,矩陣中每一行的轉(zhuǎn)置即是對應詞的詞向量,具體模型如圖2.

圖2 CBOW模型

Word2Vec的Skip-gram和CBOW兩種訓練模型中,訓練的語料較多時建議使用Skip-gram訓練模型去訓練,而語料相對較少時建議用CBOW訓練模型去訓練.總體來說,Word2Vec就可以利用訓練好的詞向量模型,通過輸入詞轉(zhuǎn)化成詞向量再經(jīng)過模型訓練,最后輸出按照距離遠近的詞類,將這些單詞變成了近義詞集.

3 實驗過程及結果分析

3.1 實驗步驟

終端搭建好環(huán)境變量后在Anaconda3的spyder開發(fā)環(huán)境中,使用python程序設計語言編寫詞向量測試代碼.調(diào)用Gensim工具包中的Word2Vec的CBOW模型算法去訓練,訓練的詞向量大小(size)為50,訓練窗口(window)為5,最小詞頻為5.首先,計算兩個詞的相似度,再計算一條詞的相關詞,最后再輸出與兩個詞在語義上距離最接近的詞集.使用python程序設計語言編寫的詞向量測試的核心代碼如下:

# genism modules

from genism.models import Word2Vec

from genism.models.word2vec import Text8Corpus

import os.path

import sys

import numpy as np

訓練的語料是經(jīng)過分詞核對后,批處理為每行一句,共有33244句,接著去除語料中的所有詞性標注并以空格代替詞性標注,每句保留藏文句子中的終結符號即單垂符作為句子的單位.最終,得到一篇文本的特征列表.在詞袋模型(CBOW)中,文檔的特征就是其包含的詞(word).具體步驟如圖3所示.

圖3 Word2Vec實驗步驟

表1 文本《賢者喜宴》高頻詞匯表

以10組高頻詞匯作為訓練目標輸入Word2Vec model進行訓練,得出的訓練結果見表2~表5.

表2 Word2Vec模型訓練兩條詞的相關詞表

表3 Word2Vec模型訓練兩條詞的相關詞表

表4 Word2Vec模型訓練兩條詞的相關詞表

表5 Word2Vec模型訓練兩條詞的相關詞表

4 結束語

本文用GOOGLE下開源的Word2Vec工具把藏文文本作為語料進行輸入,將文本中的詞利用詞匯的上下文信息轉(zhuǎn)變?yōu)樵~向量,通過用Word2Vec中的CBOW模型算法模型訓練得到許多語言規(guī)律,從而得出詞與詞之間的距離即相似度.進一步通過高頻詞匯作為輸入,通過訓練即可輸出與高頻詞匯距離最近的詞匯,以高頻詞和與其相近的詞匯作為重要信息去預測文本的語義.此方法為快速掌握長篇語料中的主旨語義起到了快速且便捷的作用,同時通過訓練可以發(fā)現(xiàn)許多有趣的語言規(guī)律,避免了人工翻譯持續(xù)時間長和主觀判斷的問題.但是,在訓練中發(fā)現(xiàn)許多詞匯并未在語境中顯現(xiàn),這給語義預測帶來了些許誤差.總體來說,基于Word2Vec工具可以有效地預測文本語義.

猜你喜歡
語義詞匯文本
本刊可直接用縮寫的常用詞匯
一些常用詞匯可直接用縮寫
語言與語義
在808DA上文本顯示的改善
本刊可直接用縮寫的常用詞匯
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
“上”與“下”語義的不對稱性及其認知闡釋
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
認知范疇模糊與語義模糊
如何快速走進文本
語文知識(2014年1期)2014-02-28 21:59:13
主站蜘蛛池模板: 午夜福利亚洲精品| 亚洲美女AV免费一区| 尤物精品视频一区二区三区| 色噜噜中文网| 伊人网址在线| 婷婷成人综合| 伊伊人成亚洲综合人网7777 | 亚洲国产精品一区二区第一页免| 青青草一区| 波多野衣结在线精品二区| 婷婷色中文网| 午夜a级毛片| 中文成人无码国产亚洲| 国产精品网拍在线| 国产精品私拍99pans大尺度 | 欧美全免费aaaaaa特黄在线| 色综合中文字幕| 免费a级毛片视频| 亚洲欧美一区在线| 欧美日韩第三页| 国产精品自拍合集| 好紧好深好大乳无码中文字幕| 亚洲Aⅴ无码专区在线观看q| 亚洲日韩在线满18点击进入| 四虎影视8848永久精品| 2021国产乱人伦在线播放| 色国产视频| 久久久久国产精品熟女影院| 日韩成人免费网站| 久久五月视频| 26uuu国产精品视频| 日韩在线观看网站| 狠狠色狠狠综合久久| 5388国产亚洲欧美在线观看| 91亚洲精选| 亚洲香蕉伊综合在人在线| 亚洲色图综合在线| 亚洲无码高清免费视频亚洲| 日韩欧美国产另类| 一本一道波多野结衣av黑人在线| AⅤ色综合久久天堂AV色综合| 夜夜操天天摸| 欧美www在线观看| 一级毛片中文字幕| 美女无遮挡免费视频网站| 国产精品欧美亚洲韩国日本不卡| 国产00高中生在线播放| 久久国产亚洲偷自| 2021天堂在线亚洲精品专区| 91年精品国产福利线观看久久 | 国产麻豆福利av在线播放 | 高清不卡一区二区三区香蕉| 美女视频黄又黄又免费高清| 在线不卡免费视频| 国产一级小视频| 72种姿势欧美久久久大黄蕉| 亚洲视频免费播放| 欧美另类图片视频无弹跳第一页| 国产在线拍偷自揄观看视频网站| 国产人碰人摸人爱免费视频| 91久草视频| 国产午夜精品鲁丝片| 18禁影院亚洲专区| 久久久久九九精品影院| 99在线视频免费| 国产成人欧美| 亚洲欧美日韩动漫| 98超碰在线观看| 国产成年女人特黄特色毛片免 | 91小视频在线播放| 国产拍在线| 人妻一本久道久久综合久久鬼色| 视频二区中文无码| 乱系列中文字幕在线视频| 国产噜噜在线视频观看| 在线观看免费国产| 美女一级毛片无遮挡内谢| 欧美国产在线一区| A级毛片无码久久精品免费| 黄色网址手机国内免费在线观看| 亚洲小视频网站| 精品午夜国产福利观看|