999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于深度學習的《辭海》分詞方法

2020-07-21 06:30:44陳美李頓偉高洪美吳小麗
現代計算機 2020年16期
關鍵詞:模型

陳美,李頓偉,高洪美,吳小麗

(上海計算機軟件技術開發中心,上海201112)

0 引言

《辭海》[1]是我國文化資產最重要代表之一,目前唯一的一部以字帶詞、兼有字典、語文詞典和百科詞典主要功能于一體的大型綜合性辭典,被譽為“歷史和時代的檔案館、大事記和里程碑”,對我經濟、社會以及文化等發展具有重要支撐。《辭海》收集了自然科學與工程技術、哲學社科、歷史地理、文學藝術等領域知識,集成了中華上下五千年文化的精粹,具有重要的研究價值。隨著新一代信息技術的快速發展,利用大數據、人工智能、知識圖譜等技術研究數字《辭海》,推動知識內容創新、知識服務創新等成為發展趨勢。

分詞是數字《辭海》的研究基礎,本文將開展《辭海》的分詞研究。目前中文分詞技術[2]主要包括基于詞典[3]、基于統計[4]、基于深度學習[5-6]三種分詞類型。每種類型各有其優缺點,如規則分詞簡單、效率高,但是對歧義詞和新詞分詞效果不佳;統計分詞基于詞頻統計,對歧義詞和新詞分詞表現較好,但是效率和復雜度居中;深度學習方法借助詞向量技術將詞轉化成為向量,能夠很好的提取詞語特征,分詞效果相對最佳,但是效率較低、復雜度高。隨著硬件技術的突破,基于深度學習的分詞目前成為主流,典型的深度學習分詞模型包括基于RNN(循環神經網絡)[7]、LSTM(長短記憶神經網絡)[8,9]、BILSTM(雙向長短記憶神經網絡)[10-13]等。

由于《辭海》的內容比較復雜,即引用了大量的文言文、詩、歌等古文,如《漢書》、《史記》、《左轉》等內容,又包含了自然科學與工程技術、哲學社科、歷史地理、文學藝術等領域知識,對分詞任務帶來巨大的挑戰。本文通過深入分析《辭海》內容特點,同時結合目前分詞技術成果,提出了基于深度學習的《辭海》分詞方法。首先,鑒于目前在古文分詞不成熟,同時《辭海》引用了大量各個朝代的文言文、詩、歌等古文,目前基本上找不到合適的古文數據集進行訓練,因此本文分詞工作先移除古文;其次,針對《辭海》內容涉及領域廣問題,本文擬選擇《新華字典》,利用CBOW 模型訓練字向量;最后,基于《新華字典》訓練的字向量,選擇目前比較主流的BI-LSTM-CRF 模型執行《辭海》分詞任務。

1 分詞算法

1.1 分詞框架

本文針對《辭海》內容特點,提出了基于深度學習的分詞方法,分詞框架如圖1 所示。

圖1 分詞框架

從圖1 可知,分詞任務包括三部分:首先,對《辭海》內容進行預處理,去除古文等;其次,利用CBOW 模型訓練字向量;最后,利用BI-LSTM-CRF 模型執行《辭海》分詞任務。

1.2 字向量訓練

字向量訓練,本文選擇目前主流的CBOW 模型,訓練框架如圖2 所示。

圖2 字向量訓練框架

字向量訓練主要工作包括:利用結巴分詞工具對《新華字典》分詞,然后利用CBOW 模型訓練字向量,最后輸出字向量矩陣。

(1)分詞

首先,輸入《新華字典》,利用結巴分詞工具對《新華字典》分詞,然后去除特殊符號、標點符號、停用詞、字母等。

(2)CBOW 訓練

CBOW 是Mikolov 等人提出的Word2Vec[14]分布式表示的一種實現。Word2Vec 具有效率高和表示效果好的優勢,已經成為主流的詞向量和字向量訓練模型。Word2Vec 模型提供兩種實現CBOW 和Skip-Gram,文獻[15]提到CBOW 比較適合常見詞,在本研究中,主要為常見詞,故選擇CBOW 實現。CBOW 模型核心思想是通過目標詞wt的上下文詞Context(wt)預測目標詞:Context(wt)=(wt-c,...,wt-1,wt+1,...wt+c) →predictwt。其中,c為窗口,圖3 為c=2 的CBOW 模型結構。

圖3 CBOW模型結構

在CBOW 中,訓練之前需要進行相關初始化,包括利用語料庫建立詞典W={w1,…,wN}、基于詞典和詞頻建立哈夫曼樹、隨機初始化詞向量Wword={v1,…,vN}和哈夫曼樹內部節點Wnode={θ1,…,θN-1}等,其中,N為詞典長度,wi、vi分別為第i詞和詞向量,θi為第i節點向量參數。

CBOW 各層功能如下。

①輸入層

設目標詞wt,c為窗口,則依次執行輸入上下文:Context(wt) ,熱詞編碼:OneHot(Context(wt)) ,查詢詞向量:

②投影層

將上下文詞向量(vt-c,…,vt-1,vt+1,…,vt+c)首尾相連拼接或者求和取平均值,作為的一個新特征Vt去預測目標詞wt。

③輸出層依據wt的哈夫曼樹二進制編碼,采用邏輯回歸遍歷wt葉子節點,遍歷過程中根據定義的優化目標函數,利用梯度上升方法去更新相關參數,詳細實現可參閱文獻[14]。

在CBOW 輸出層計算中,通常采用交叉熵損失函數(Cross Entropy Loss),其中Sigmoid 函數如式(1),邏輯回歸分類函數如式(2),則交叉熵損失函數定義和推導如式(3)所示。最后,采用梯度下降訓練,并更新相關的參數。

其中,li為wordi的Huffman 樹路徑長度,θj為wordi的Huffman 樹路徑上第j節點參數。

CBOW 模型是基于中心詞的上下文預測中心詞,每次預測遍歷一次和學習訓練一次,訓練效率高,復雜度為O(N)(N為詞典長度)。CBOW 主要利用上下文信息生成詞向量,能夠較好的提取上下文語義特征,表示文本信息。

1.3 分詞模型

分詞模型,本文采用經典的BI-LSTM-CRF 模型執行分詞任務,模型結構如圖4 所示。

圖4 BI-LSTM-CRF分詞模型

BI-LSTM-CRF 主要包括文本表示、句子特征提取和標簽預測三層。

(1)文本表示層

文本表示功能是將輸入句子向量化,為BI-LSTM模型提供輸入。首先將句子轉化成One-Hot 熱詞表示,然后通過Wword={v1,…,vN}查詢詞向量,得到整個句子詞向量X=(x1,x2,…,xO)(xi為輸入句子第i詞的詞向量,且xi∈Wword,O為句子長度),同時設置Dropout 以緩解過擬合。

(2)句子特征提取

句子特征提取是采用BI-LSTM 模型。首先,提取正向LSTM 隱狀態序列與反向的序列,接著對正反向輸出序列拼接形成最后,接著將隱狀態向量ht∈Rm×O映射到k維(k是標注集的標簽數),得到句子特征矩陣P=(p1,p2,…,pn)∈RO×k。

(3)標簽預測

標簽預測層是在局部最優P基礎上,利用CRF 模型[16-17]和Viterbi 算法[18]產生全局最優句子序列。

首先,利用CRF 模型產生標簽轉移矩陣A,其中Aij表示第i個標簽轉移到第j個標簽的概率;pij表示第i個詞為第j個標簽的概率。設CRF 模型輸出為y=(y1,y2,...,yO) ,則對句子的打分計算:

接著,利用Softmax 對y=(y1,y2,...,yO)進行歸一化。

其中Yx:{B,M,E,S},表示四個分類標簽,B表示詞的開始,M表示詞的中間,E表示詞的結束,S表示單獨詞。對BI-LSTM-CRF 分詞模型,主流采用交叉熵損失函數,同樣利用梯度下降訓練,并更新相關的參數。

最后,在預測過程時使用Viterbi 算法求解最優句子序列y*:

2 實驗結果與分析

2.1 實驗設置

(1)實驗數據

《新華字典》主要來自文獻[19],收錄包括14032 條歇后語,16142 個漢字,264434 個詞語,31648 個成語。《辭海》由國家新聞出版廣電總局“大數據治理與服務”重點實驗室提供,收錄單字(包括異體字、繁體字),約700 萬字,約78754 條字詞。

此外,從《辭海》中隨機選擇10000 條字詞進行標注,用于執行評估。數據標注采用四位序列標注法BMES:B 表示一個詞的詞首位值,M 表示一個詞的中間位置,E 表示一個詞的末尾位置,S 表示一個單獨的字詞。

(2)評價方法

為了評估模型的分詞性能,采用評價標準包括準確率P(Precision)、召回率R(Recall)和綜合性能F1。具體定義如下。

(3)實驗參數設置

CBOW 模型參數見表1 和BILSTM-CRF 模型參數見表2。

表1 CBOW 模型參數

表2 BI-LSTM-CRF 模型參數

2.2 結果與分析

(1)分詞效果實驗與分析

本組實驗評估提出的分詞方法效果,實驗結果如表3 所示。

表3 分詞效果評估結果

從表3 可知,提出的分詞方法,P、R和F1分別達到94.18%、94.09%和94.13%,取得了比較理性的分詞效果。首先,本文選擇《新華字典》訓練字向量,基本上可以滿足《辭海》知識領域廣的分詞需求;其次,CBOW模型基于中心詞的上下文預測中心詞,能夠較好提取上下文語義特征,能夠較好地表示文本;最后,BILSTM(雙向長短記憶神經網絡)采用雙向LSTM,一個作為正向輸入序列,一個作為反向輸入序列,再將正反向輸出結合作為最終的結果,考慮了上文的特征和下文的特征,所以BI-LSTM 模型既能保持上下文信息,又能考慮到未來的上下文信息,從而表現出較好的分詞性能。因此本文提出的分詞方法能夠取得比較理想的分詞效果。

(2)詞頻分析

對《辭海》分詞結果進行處理,除去單字、停用詞等操作,有效提取:297976 詞語,包含1416148 漢字,非重復詞語154041 個。

接下來,對《辭海》的詞語特點進行分析,首先開展詞頻統計分析,重點分析《辭海》Top50 高頻詞語,如表4 所示。同時選擇Top1000 高頻詞語,做詞云圖分析,實驗結果如圖5 所示。

表4 《辭海》Top10 詞頻分析

圖5 《辭海》Top1000詞云圖

分析表4 和圖5 可知,Top50 和Top1000 高頻詞語主要以解釋性詞義為主,突出內容的解釋特點,印證了《辭海》內容的本質。其次,解釋具有兩種特點,一是通俗性解釋,如指、比喻、形容、泛指等,用于解釋詞義含義;二是引用性解釋,如古代、漢代、佛教、帝王等,通過引經據典,證明解釋的出處,強調解釋內容的科學性和權威性。

3 結束

本文圍繞《辭海》數字化建設,開展了《辭海》的分詞研究。針對《辭海》內容特點,包括古文類型廣和知識領域廣等特點,提出了基于深度學習的分詞方法。首先,針對古文類型廣問題,鑒于古文分詞不成熟問題,先移除;針對知識領域廣問題,選擇《新華字典》訓練字向量;最后,選擇目前比較主流的BI-LSTM-CRF模型執行《辭海》分詞。實驗結果顯示,提出的分詞方法,準確率、召回率和F1 值到分別達到94.18%、94.09%和94.13%,取得了比較理性的分詞效果。

今后研究方向是聚焦《辭海》的古文分詞方法,以及開展《辭海》的知識內容創新、知識服務創新等數字化建設。

猜你喜歡
模型
一半模型
一種去中心化的域名服務本地化模型
適用于BDS-3 PPP的隨機模型
提煉模型 突破難點
函數模型及應用
p150Glued在帕金森病模型中的表達及分布
函數模型及應用
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
3D打印中的模型分割與打包
主站蜘蛛池模板: 国产精品成| 小蝌蚪亚洲精品国产| 丰满人妻久久中文字幕| 国产精品熟女亚洲AV麻豆| 欧美专区日韩专区| 国产精品冒白浆免费视频| 久久大香香蕉国产免费网站| 亚洲精品老司机| 日本欧美视频在线观看| 亚洲欧洲自拍拍偷午夜色无码| 九九九精品成人免费视频7| 亚洲国产无码有码| 国产在线一区二区视频| 在线观看免费国产| 日韩午夜福利在线观看| 青青久久91| 国产爽歪歪免费视频在线观看| 国产chinese男男gay视频网| 国产精品白浆无码流出在线看| 欧美成人aⅴ| P尤物久久99国产综合精品| 精品国产一区二区三区在线观看| 亚洲一区二区三区国产精品| 日本欧美精品| 手机在线国产精品| 波多野结衣一区二区三视频| 免费在线色| 日韩经典精品无码一区二区| a级毛片毛片免费观看久潮| 丁香婷婷激情网| 国产精品美女网站| 伊人久久婷婷| 免费xxxxx在线观看网站| 这里只有精品国产| 亚洲第一色网站| 国产爽爽视频| 久久久久国产一级毛片高清板| 日韩av手机在线| 国产18页| 国产第一福利影院| 精品视频第一页| 无码精品国产dvd在线观看9久 | 成AV人片一区二区三区久久| 亚洲视频一区| 热久久这里是精品6免费观看| 激情亚洲天堂| 亚洲娇小与黑人巨大交| 欧美午夜网站| 国产精品专区第1页| 男女猛烈无遮挡午夜视频| 亚洲国产精品无码久久一线| 波多野结衣国产精品| 欧美成人精品在线| 黄色一及毛片| 综合色区亚洲熟妇在线| 91欧洲国产日韩在线人成| 国产亚洲日韩av在线| 日韩高清一区 | 国产肉感大码AV无码| 中文字幕中文字字幕码一二区| 国产高清不卡视频| 99免费在线观看视频| 天堂av综合网| 欧美日韩va| 在线国产毛片手机小视频| 久久人妻xunleige无码| 高清欧美性猛交XXXX黑人猛交| 激情视频综合网| 欧美日韩国产在线人成app| 国产福利一区视频| 在线看片中文字幕| 国产精品成人一区二区不卡| 国产高清又黄又嫩的免费视频网站| 国产女人18水真多毛片18精品| 国内精品久久久久鸭| 久久一色本道亚洲| 97久久超碰极品视觉盛宴| 91探花在线观看国产最新| 亚洲日本www| swag国产精品| 精品在线免费播放| a网站在线观看|