999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于詞嵌入技術的文本表示研究現狀綜述

2020-11-25 06:09:18劉勝杰許亮
現代計算機 2020年1期
關鍵詞:語義單詞文本

劉勝杰,許亮

(四川大學計算機學院,成都610065)

0 引言

隨著時代的進步,自然語言處理作為人工智能領域重要的方向之一,也在快速發展。計算機是基于數值或向量來進行計算的,而自然語言處理領域處理的對象并非數值或者向量,而是大量的文本數據,這些文本數據并不被計算機所理解。通常的第一步處理就是要將文本數據進行轉換,將其轉換為一種結構化形式,即可以利用數據的結構化形式應用在不同的任務中。而將文本數據轉換為計算機可以識別的表示是自然語言處理中非常重要的一個環節。詞嵌入技術的表示方法是目前流行且有效的方法,如何找到通用的詞嵌入表示方法成為近年來學者研究的熱點問題。文本的詞嵌入表示也很大程度上決定了具體應用任務的性能。

目前詞嵌入的技術包括早期的傳統的詞表示法,如獨熱表示、TF-IDF 等,以及詞的分布式表示法,如ELMo、Bert 等。

1 傳統的詞表示法

1.1 獨熱表示

獨熱表示把文本的單詞作為基本單位進行編碼,編碼后的向量中只有數字0 和1,且其中只有一個維度是1,而其位置即表示這個單詞在詞匯表里的位置,其他維度的值都是0。獨熱表示的缺點很明顯,主要有兩大問題:一個問題是獨熱表示的向量為稀疏表示,詞匯表的大小決定了向量的維度大小,而當詞匯表里單詞很多時,向量的維度也就會很大,則會存在維數災難的問題;且其表示能力弱,N 維度大小的向量僅能表示N個單詞。另一個問題是,不同單詞使用獨熱表示得到的向量之間是相互獨立的,這就造成了“語義鴻溝”的現象,即獨熱表示也不能表示一個單詞與另一個單詞的語義相似度。

1.2 TF-IDF

TF-IDF 是一種用來計算每個單詞重要性的關鍵詞抽取的方法。評價一個單詞重要性的依據是其在一個文本以及語料庫中出現的次數,在一個文本中出現越多,越重要,而在整個語料庫中出現越多,則越不重要。TF 表示詞頻,統計的是這個單詞在文本中出現了多少次,但統計過后的高頻詞語會有“是”、“的”這樣沒有實際意義的詞語,這些詞稱為停用詞,這時就需要為其加上一個權重,即IDF。IDF 表示逆文檔頻率,其衡量詞的常見程度,一個單詞越常見,則IDF 的值就越小。

通過計算詞頻和逆文本頻率,TF-IDF 在考慮效率的同時也得到了比較滿意的效果。但由于TF-IDF 僅僅考慮與詞頻相關的統計,沒有關注單詞與單詞之間的聯系。與獨熱表示相同,TF-IDF 依然存在向量維度較高、不能準確表示文本語義的缺點。

相比傳統的詞表示法,詞的分布式表示法較好地解決了以上問題。

2 詞的分布式表示法

與簡單的詞嵌入表示如TF-IDF 相比,詞的分布式表示[1]是一種維度大小相對較低的稠密向量表示,且每一個維度都是實數。分布式表示將所有信息分布式的表示在稠密向量的各個維度上,其表示能力更強,且具備了不同程度上語義表示的能力。例如應用在如機器翻譯,命名實體識別等許多任務中提升了很大的準確率。

詞的分布式表示法又分為靜態的詞嵌入表示和動態的詞嵌入表示。

2.1 靜態的詞嵌入表示

(1)NNLM

NNLM 是由Bengio 等人在2003 年提出的模型[2]。NNLM 模型中的思路較為簡單,我們認為句子中某個單詞的出現與其上文存在很大的相關性,其中N 元語言模型即表示這個單詞與其前面的N-1 個單詞有關。即輸入是目標單詞上文的單詞,學習任務是要求準確預測這個單詞。模型在擬合過程中,優化目標是使得預測概率最大似然化。

在NNLM 模型中,詞嵌入映射矩陣是作為參數而存在的,訓練這個語言模型時,詞嵌入表示也在不斷地被訓練。即模型不僅可以根據上文預測后面接的單詞,還得到了單詞的詞嵌入這個副產品。

NNLM 使用稠密向量作為單詞的詞嵌入表示,解決了簡單詞嵌入表示如TF-IDF 的向量稀疏等問題。TF-IDF 不具備不同語境下表示不同語義的功能,而NNLM 可以在相似的語境下預測相似的單詞,具備了一定表示語義的功能。

(2)Word2Vec

Word2Vec 是谷歌開源的訓練詞嵌入向量的工具,其中又包括CBOW 和Skip-Gram 兩種不同的訓練模式[3]。在一個句子中,當我們遮住目標單詞時,能否通過其前面以及后面的單詞來推測出這個單詞,這就是CBOW 的思想。相反地,Skip-Gram 的思想則是,考慮這個單詞,模型要求通過這個單詞來推測出其前面以及后面的單詞。和NNLM 順便得到詞嵌入表示的方法不一樣,學習每個單詞的詞嵌入表示是Word2Vec 的主要任務。

Word2Vec 的缺點是,由于其訓練出來的詞嵌入向量表示與單詞是一對一的關系,一詞多義問題還是沒有解決。

單詞在不同上下文中是具有不一樣含義的,而Word2Vec 學習出來的詞嵌入表示不能考慮不同上下文的情況。

通過NNLM、Word2Vec 等技術方法得到的靜態的詞嵌入表示,其本質上就是當模型訓練好之后,在不同的上下文語境中,單詞的詞嵌入表示是一樣的,不會發生改變。為了解決一詞多義問題,考慮上下文而選擇不同語義,動態的詞嵌入方法提供了研究的思路和方向。

2.2 動態的詞嵌入表示

(1)ELMo

2018 年,Peters 等人首次提出了ELMo 模型[4]。與靜態的詞嵌入表示得到固定向量表示不一樣,ELMo 首先通過語言模型進行學習,得到單詞的一個詞嵌入表示,在實際使用詞嵌入時,根據上下文單詞的語義再去調整單詞的詞嵌入表示,從而使得單詞在不同的上下文語境中得到不同的詞嵌入表示。

其網絡結構采用了雙層雙向LSTM 網絡。其中前向雙層LSTM 和逆向雙層LSTM 分別代表正方向編碼器和反方向編碼器,輸入的分別是單詞的上文和下文。一個句子輸入到訓練好的網絡中,最終將得到每個單詞三個不同的嵌入表示:雙向LSTM 中的兩層詞嵌入表示以及單詞的詞嵌入表示。其中雙向LSTM 中的兩層詞嵌入表示分別編碼了單詞的句法信息和語義信息。在做實際任務時,網絡中單詞對應的詞嵌入表示將被提取出來作為新特征補充到實際任務中去。

ELMo 訓練出來的詞嵌入效果已經很好,其適用范圍廣,如閱讀理解、分類任務等。與之前的靜態詞嵌入表示方法相比,ELMo 最大的創新之處就在于,ELMo 可以依據不同上下文來動態地生成相關的詞嵌入表示。

對比后來出現的BERT 等模型,ELMo 的不足之處有兩點:一是ELMo 模型中使用LSTM 來提取特征,而LSTM 提取特征的能力沒有后來的Transformer 好;二是其采取的是用雙向簡單的拼接來融合特征,而后來的BERT 一體化融合特征表現更好。

(2)OpenAI GPT

在基于無監督方式進行預訓練時,GPT[5]仍然是使用標準的語言模型來訓練,學習出來單詞的詞嵌入表示,然后可以在通過很小的調整之后應用到不同的任務中去。與ELMo 相比,ELMo 模型中的特征提取器是使用的LSTM,GPT 采用的則是Transformer,Transformer 是谷歌團隊在2017 年提出的模型[6],其中最主要的是自注意力機制。自注意力機制是注意力機制的另一種形式。在Transformer 公布之前,自然語言處理領域的神經網絡,大多數是淺層的,而Transformer 公布以來,才將其網絡層數上升到幾十乃至上百層。Transformer 摒棄了如RNN、LSTM 等時序類模型結構,而相比RNN 等時序類模型又有更多的優點,如并行化地更快速的處理,以及能學習更長距離的依賴關系等。

GPT 的不足之處在于,其采取的語言模型是單向的,未考慮下文。

(3)BERT

2018 年10 月,谷歌團隊提出了BERT 模型[7]。測試數據中表示,BERT 在多項自然語言處理任務中表現優異,多數任務在原來的最優指標的基礎上有了很大的提高。自BERT 模型公布以來,就以其卓越的表現深受開發者們的喜愛。作為自然語言處理領域近幾年來研究成果的集大成者,BERT 也為詞嵌入表示的研究提供了很好的思路。

和GPT 一樣,在BERT 中,特征提取器也是使用的Transformer。且BERT 與ELMo 在最高層進行簡單的拼接特征不一樣,BERT 模型是真正在雙向上深度融合特征的語言模型。可以認為,BERT 同時擁有ELMo 和GPT 兩個模型的優勢。

與一般的編碼-解碼模型不一樣,BERT 中只有編碼器,沒有解碼器。BERT 創新的提出了兩個任務:遮擋語言模型、預測下一個句子。前者是詞級別的,其采取的方法是,隨機擋住15%的單詞,讓模型去預測這個單詞,能夠訓練出深度的雙向詞嵌入向量表示;后者是句子級別的,也是一個二分類任務,其采取的方法是,將兩個句子的序列并連作為模型的輸入部分,中間加入分割符號,句子的開始和結束部分加上符號標記,其能夠學習句子之間的關系,捕捉句子級別的表示。BERT 往往作為預訓練模型來使用,其輸出的文本嵌入表示可以適用于各種實際的任務,這也是BERT 只有編碼器而沒有解碼器的原因。在BERT 出現之前的詞嵌入技術,如Word2Vec 中,一個句子的嵌入表示,往往簡單的使用Word2Vec 得到的各個單詞的詞嵌入表示進行平均或加和得到,這就導致無法得到包含深層語義的詞嵌入表示,實際任務中效果也較差。而通過BERT 得到的詞嵌入表示融入了更多的語法、詞法以及語義信息,而且動態的改變詞嵌入也能夠讓單詞在不同語境下具有不同的詞嵌入表示。

雖然目前BERT 模型效果已經很好,但也存在不足的地方,主要有兩點:一是數據規模要求較高,如果沒有足夠大的語料,則很難達到期望的效果。二是開銷較大,其計算量很大,所需成本較高。

3 詞嵌入的評價

對于我們訓練的詞嵌入向量表示,往往還需要評價這些向量的質量。詞嵌入的評估分為兩大類:內部評價和外部評價。

內部評價是,在詞嵌入訓練過程的某個子任務中,對通過詞嵌入技術如Word2Vec 和BERT 等生成的詞嵌入進行的評價。相比整體的任務,往往這些子任務比較簡單快速,能幫助我們理解相關的系統。進行內部評價的原因是因為一般的機器學習任務通常占用很多計算資源,且需要很多時間,有時我們沒有必要進行一個具體的任務,通過內部評價,來評估這些詞嵌入表示在子任務中的表現。

對在一個實際任務中產生的詞嵌入詞向量進行的評價,則是外部評價。詞嵌入的評價依賴于任務的結果,畢竟我們訓練詞嵌入是為了完成具體任務。很多時候我們需要根據具體的任務來選擇合適的詞嵌入向量訓練方法,這些任務通常都比較復雜,也需要花很長時間來計算精度。然而當某個具體的任務表現較差時,我們往往不太清楚是否是某個子系統或是幾個子系統相互作用引起的問題,這時還需要配合內部評價一起來評估。

4 結語

在自然語言處理領域任務中,文本的詞嵌入表示是很重要的一環,大量的研究針對其進行展開。從傳統的基于統計的TF-IDF 表示,到靜態詞嵌入表示如NNLM、Word2Vec,再到動態詞嵌入表示如ELMo、BERT 等,詞嵌入技術也隨著深度學習技術以及自然語言處理領域的發展而漸趨成熟。同時詞嵌入技術也是自然語言處理領域產業實際落地的重要支撐力量,未來也還有許多問題值得深入地研究。

猜你喜歡
語義單詞文本
語言與語義
單詞連一連
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
看圖填單詞
“上”與“下”語義的不對稱性及其認知闡釋
現代語文(2016年21期)2016-05-25 13:13:44
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
認知范疇模糊與語義模糊
如何快速走進文本
語文知識(2014年1期)2014-02-28 21:59:13
最難的單詞
主站蜘蛛池模板: 成人精品视频一区二区在线| 网久久综合| 狠狠亚洲五月天| 99久久国产综合精品2020| 欧美色亚洲| 国产精品女主播| 国产成人精品免费av| jizz亚洲高清在线观看| 欧美a在线看| 国产永久免费视频m3u8| 亚洲中文字幕久久无码精品A| 在线不卡免费视频| 99热这里只有精品免费| 亚洲欧美日本国产综合在线| YW尤物AV无码国产在线观看| 女人毛片a级大学毛片免费| 久久婷婷国产综合尤物精品| 国产H片无码不卡在线视频| 日韩免费毛片视频| 国产精品亚洲精品爽爽 | 国产精品视频3p| 亚洲人成在线精品| a色毛片免费视频| 免费毛片a| 亚洲成人黄色在线观看| 日韩精品亚洲一区中文字幕| 54pao国产成人免费视频| 小蝌蚪亚洲精品国产| 人妻丰满熟妇αv无码| 国产成人无码AV在线播放动漫| 无码国产伊人| 午夜精品久久久久久久无码软件 | 综合网久久| 欧美成人区| 欧美一区二区三区欧美日韩亚洲| 国产成人成人一区二区| 91视频青青草| 伊人成人在线| 色呦呦手机在线精品| 亚洲视频一区在线| 在线日韩日本国产亚洲| 伊人欧美在线| 黄色网址免费在线| 青草精品视频| 国产福利大秀91| 国产午夜不卡| 99热国产这里只有精品9九| 日韩a级毛片| 精品视频一区在线观看| 日本精品αv中文字幕| 素人激情视频福利| 久久91精品牛牛| 日本妇乱子伦视频| 色综合天天综合中文网| 日本成人在线不卡视频| www.91在线播放| 亚洲欧美自拍一区| 成人国产精品2021| 日韩精品无码不卡无码| 午夜三级在线| 热九九精品| 午夜啪啪福利| 国产一在线观看| 欧美精品啪啪| 国产黄网永久免费| 91一级片| 亚洲综合精品香蕉久久网| 人妻夜夜爽天天爽| 无码中文AⅤ在线观看| 成人精品区| 高清国产va日韩亚洲免费午夜电影| 亚洲久悠悠色悠在线播放| 国产欧美视频在线| 久久无码av一区二区三区| 日韩不卡免费视频| 久久精品国产电影| …亚洲 欧洲 另类 春色| 美女一级毛片无遮挡内谢| 99re精彩视频| 日韩毛片视频| 91青青视频| 日韩一区精品视频一区二区|