999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

向量模型和多源詞匯分類體系相結合的詞語相似性計算

2018-05-29 03:27:57梁泳詩黃沛杰岑洪杰唐杰聰王俊東
中文信息學報 2018年4期
關鍵詞:語義詞匯分類

梁泳詩,黃沛杰,岑洪杰,唐杰聰,王俊東

(華南農業大學 數學與信息學院,廣東 廣州 510642)

0 引言

詞語相似性用于衡量兩個詞語之間語義相似的程度,是自然語言處理(natural language processing, NLP)的一個重要的任務,也是信息檢索、機器翻譯、自動文摘、問答系統、情感分析等眾多NLP下游應用的基礎[1],所以如何正確計算詞語的相似性顯得尤為重要。詞語間的相似性主要有兩種,一種是關系相似,另一種是屬性相似[2]。在屬性上有很強相似性的兩個詞語也被稱為同義詞。而本文所研究的詞語相似性計算就是在屬性相似上開展的。

目前主要有兩種計算詞語相似性的方法,一種是基于訓練文本上下文的向量模型,其中最主流的是基于詞向量[3-4];另一種是基于手工構建的詞匯分類體系[5-7]。通過向量模型得到詞向量,計算詞向量間的余弦相似度以代表詞語間的語義相似性,這種基于向量模型的方法可以在文本語料中提取詞語間的關系與詞語的特征表達,但上下文不等同于真正意義上的語義,向量模型的可解釋性是受到限制的[8]。詞匯分類體系是由人工構建的知識體系。根據詞匯分類體系的結構特點,可以對詞語的語義相似性進行計算,但是人工構建的詞匯分類體系詞匯量少,詞匯分類粒度粗糙,難以對眾多詞語的語義差別進行細致的評價。

組合方法可以彌補單一詞向量和單一詞匯分類體系在詞語相似性計算中的不足。Guo等人[9]在NLPCC-ICCPOL 2016評測比賽中,運用多種語料庫得到的向量表達以及多種詞匯分類體系對詞語進行相似性計算,然后通過加權組合得到最終的詞語相似性,取得了比賽的第一名。但他們的組合方法過于簡單,也沒有考慮不同類型知識來源的差別。Faruqui等人[10]利用詞匯分類體系,在已經訓練好的詞向量上增強它的語義關系,彌補了詞匯分類體系中詞匯量不足的缺點,同時改善了詞向量的語義表達。然而,他們忽視了不同的詞匯分類體系對詞語向量表達的修正帶來的潛在差異,本文在詞語的向量表達構建中綜合了不同類型的詞匯分類體系知識,并初步探索了這些差異性知識的選用和融合效果。相比已有的研究,本文的主要貢獻如下。

(1) 提出了向量模型和多源詞匯分類體系相結合的詞語相似性計算方法。采用HowNet、《同義詞詞林擴展版》等詞匯分類體系的近義詞關系以及中文信息學會社會媒體專委會提供的SMP 2015微博數據集訓練得到的詞向量,計算得到的詞向量表達,取得優于單一詞向量、單一詞匯分類體系以及單一詞匯分類體系修正詞向量等方案的詞語相似性計算效果。

(2) 研究了不同類型詞匯分類體系提供的知識的選用和融合,進一步提高詞語相似性的計算效果。在中文詞語相似性評測的公開數據集PKU 500上進行實驗,取得了0.637的斯皮爾曼等級相關系數,比NLPCC-ICCPOL 2016詞語相似度評測比賽第一名的方法的結果提高了23%。

本文后續部分安排如下: 第二節介紹相關工作,第三節介紹本文提出的方法,第四節給出測試結果及分析,最后一節總結本文的工作并做了簡要的展望。

1 相關工作

在現有的計算詞語相似性的兩類方法中,基于向量模型的方法建立在一個假設上: 有相似語義的詞語會傾向于在相似的上下文中出現。因此一個詞語的語義可以通過對它所在的上下文建模計算出來[11]。盡管所有的向量空間模型都是基于相同的假設,他們又有各自的特色。他們之間最主要的區別在于如何定義上下文[11]。早期的模型是基于文檔模型(document-based models)進行潛在語義分析(latent semantic analysis, LSA)[12]。這些模型是以所有的文檔或者段落作為上下文,因此在文檔中經常共同出現的詞語會被視作語義相似。還有一種模型是近年來最受歡迎的分布式向量表示,它就是詞向量,也稱為詞嵌入(word embeddings)[3-4]。它的核心思想是通過詞的上下文(周圍的詞)訓練出詞匯表征[13]。在這種模型里面詞語被投射進連續的空間,擁有相似上下文的詞語在這個多維空間里面會很相近。

在詞匯分類體系方面,過去有很多研究者花了巨大的人力構建詞匯分類體系,意在為自然語言處理提供詞匯知識庫,如在中文上就有HowNet[6]和《同義詞詞林擴展版》[7],在英文上有WordNet[5]、DBnary[14]等。

WordNet和《同義詞詞林擴展版》都是以層次結構的方式呈現的,而詞語的相似性是根據詞語在語義分類樹上的距離所定義的。WordNet是一個詞匯資源,由普林斯頓大學構建[5]。WordNet把名詞、動詞、形容詞和副詞連接成一套同義詞集(synsets),每套同義詞集都代表一個概念,同義詞集之間會根據語義、概念和詞匯關系相連接。一詞多意的詞語會與多個同義詞集對應,它們的意思會根據出現頻率進行排序。而HowNet則與WordNet和《同義詞詞林擴展版》不一樣,HowNet是用復雜的、多個維度的知識描述語言對詞語進行定義的。HowNet選用義原(最小單位)作為標記集去描述詞語的語義。通過這些標記集,可以對詞語的語義相似性進行計算以及生成詞類。

但是如上文所提到的,這兩類傳統的詞語相似性計算方法在詞語表達的語義性、構建代價以及詞匯覆蓋等方面都存在各自的缺點。本文提出一種向量模型與多源詞匯分類體系相結合的詞語相似性計算方法,采用多源詞匯分類體系的近義詞關系以及向量模型得到的詞向量,計算得到詞語的向量表達,并探索不同類型詞匯分類體系提供的知識的選用和融合問題,彌補了單一詞向量和單一詞匯分類體系在詞語相似性計算中的缺點。

2 向量模型和多源詞匯分類體系相結合的詞語相似性計算

2.1 總體技術架構

圖1是本文所提出方法的總體技術架構。

圖1所示的技術框架中,主要分為四個部分: 第一部分是利用大型的語料庫,通過向量模型訓練得到詞向量,構成初始向量表達層;第二部分是詞匯分類體系,本文選用HowNet和《同義詞詞林擴展版》兩種中文詞匯分類體系;第三部分是近義關系層,有別于Faruqui等人[10]采用的單一詞匯分類體系的近義詞關系修正詞語向量表達,本文采用多源詞匯分類體系的近義詞關系結合向量模型得到的詞向量,計算得到詞語的向量表達;第四部分是多源融合層,與Guo等人[9]采用的簡單組合方法不同,本文提出對不同類型的詞匯分類體系提供的差異性知識進行選用和融合,通過不同的關聯強度對詞向量進行修正,最后得到更能體現詞語語義的向量表達。

圖1 向量模型與多源詞匯分類體系相結合的技術架構

2.2 向量模型

目前訓練詞向量的主流方法是在訓練語言模型的同時得到詞向量。基于統計的語言模型能夠表示成一個已出現的詞和當前詞的條件概率的極大似然估計,如式(1)所示。

(1)

針對不同的上下文構造方法,在訓練詞向量時主要有CBOW (continuous bag-of-words)和Skip-gram兩種語言模型[4]。Skip-gram模型允許某些詞被跳過,在訓練數據少的情況用Skip-gram可以創造更多的訓練例子,而連續的CBOW則可以有較快的訓練速度[4]。由于本文選用的詞向量訓練數據不論是新聞語料還是微博數據都是數量較大,因此本文使用CBOW語言模型對詞語的語義層面建模。CBOW語言模型不限于已出現的詞為wt的上下文,而是把句子中距離當前詞n以內的詞都看作是當前詞的上下文環境。

用一個函數f表示當前詞wt的上下文的向量到當前詞wt條件概率的映射[3],并結合CBOW的機制,則當前詞的上下文和當前詞的條件概率可以表示為式(2)。

(2)

其中,C(wi)是詞語wi的分布式特征向量。

在訓練語言模型及詞向量時,對于wt都要掃一遍詞庫大小|V|,計算復雜度過高??梢圆捎秘摬蓸?negative sampling)[15]和分層的softmax(hierarchical softmax)[16]的方法來降低計算復雜度。

2.3 詞匯分類體系

基于詞匯分類體系計算詞語相似度的方法是在某種世界知識庫上展開的,這些世界知識庫一般都采用一棵或者幾棵樹狀的層次結構對詞語的概念進行描述,在這些層次結構圖中,一個概念代表一個節點,任何兩個節點之間有且僅有一條路徑,這條路徑的長度就可以反映這兩個概念的語義距離。本文主要研究的是兩個中文方面的詞匯分類體系,分別是HowNet[6]以及《同義詞詞林擴展版》[7],并根據詞匯分類體系各自的結構特點,制作近義詞詞典。

在HowNet中,義原是描述概念的最基本單位,不同義原的集合表述不同的概念。HowNet中的詞語有一個或者多個概念[17-18]。如在HowNet中詞語“男人”的表述如圖2所示。

圖2 HowNet結構示例

從圖2可以看到,在HowNet中,詞語“男人”的概念是DEF=human|人,family|家,male|男,人、家、男就是組成概念的義原。

HowNet中的義原有1 600多個[18],HowNet中的中文詞語就由這些義原的組合進行描述。義原又以樹狀結構的層次體系進行組織,通過義原在層次體系中的深度求出義原的相似度,進而逐步求出詞語概念的相似度以及詞語的相似性。本文利用HowNet的詞語相似性的計算方法,計算出HowNet中所有詞語兩兩之間的相似性,并把一個詞語及與之相似度最高的詞語視為該詞語的近義詞詞集,所有近義詞詞集組合成HowNet的近義詞詞典。

而《同義詞詞林》則是由梅家駒等人[19]在1983年整理編寫,隨后由哈爾濱工業大學信息檢索實驗室進行更新而成的一部具有漢語大詞表的“哈工大信息檢索研究室同義詞詞林擴展版”[7]?!锻x詞詞林擴展版》包含約七萬條詞語,按照詞語的意思進行編碼,是一部同義詞類的詞典,如圖3所示。

圖3 《同義詞詞林擴展版》示例

《同義詞詞林擴展版》在秉承《同義詞詞林》編撰風格的基礎上,對《同義詞詞林》進行修正與擴充。與《同義詞詞林》編碼規則類似,《同義詞詞林擴展版》按照樹狀層次結構把詞條進行組織,把詞語分為大、中、小、詞群和原子詞群五類,大類有12組,中類有95組,小類有1 425組,詞群有4 223組,原子詞群有17 807組。每一個原子詞群中都有若干個詞語,同一原子詞群的詞語不是語義相同或十分接近就是語義有很強的相關性[7]。每一行都有自身所屬的編碼,在《同義詞詞林擴展版》中,詞語的相似性就是根據每一行的編碼計算的。編碼的最后一位標記符用于說明同一個原子詞群中的詞語關系,共有三種標記符,分別為“=”“#”“@”,“=”代表相等、同義,“#”代表同行詞語屬于相關詞語,是同類,不能視為相等,“@”代表獨立,表示在詞典中該詞既沒有同義詞也沒有相關詞?!锻x詞詞林擴展版》自身就是一部同義詞類的詞典,每一行詞語視為語義上具有強相關性,可以直接用在詞向量的修正上。并且,《同義詞詞林擴展版》中近義詞的不同標記符也成為本文對其提供的知識進行選用的依據。

2.4 向量模型和多源詞匯分類體系相結合

向量模型和詞匯分類體系相結合的方法可以彌補單一詞向量和單一詞匯分類體系在詞語相似性計算中的不足。Guo等人[9]在NLPCC-ICCPOL 2016評測比賽中也運用了多種語料庫得到的向量表達以及多種詞匯分類體系對詞語進行相似性計算,但他們的組合方法過于簡單,僅僅通過加權組合得到最終的詞語相似性。Faruqui等人[10]利用詞匯分類體系,在已經訓練好的詞向量上增強其語義關系,在英語語料上取得了較好的應用效果。本文在其基礎上,進一步考慮不同的詞匯分類體系對詞語向量表達的修正帶來的潛在差異,在向量表達的構建中綜合了不同類型的詞匯分類體系知識,并研究了這些差異性知識的選用和融合效果。具體而言,如圖1所示,由近義關系層、初始向量表達層以及多源融合層共同完成本文方案中詞語向量表達的構建。

近義關系層提供了特定詞語在詞匯分類體系中的近義詞關系信息。通過不同類型的詞匯分類體系,可以得到多組語義上具有強相關性的詞集,如上文提到的HowNet中的相似度最大近義詞詞集以及《同義詞詞林擴展版》中的原子詞群。

本文在Faruqui等人[10]提供的方法基礎上,增加了多源融合層。考慮到不同詞匯分類體系,以及同一詞匯分類體系內部的不同近義情況對于詞語語義向量表達價值的差異,本文增加多源融合層對多源的詞匯分類體系提供的知識進行選用和修正權重的賦予。目前本文僅在一定數量案例分析的基礎上嘗試了一些較為基礎的選用考慮因素,更為系統的選用機制還有待進一步研究。一方面,對來自于《同義詞詞林擴展版》的強關聯詞,本文選取了編碼的最后一位的標記符為“=”的原子詞群,而棄用了標記符為“#”的原子詞群,因為“#”代表詞語間是相關的,是同類,但在很多情況下和同義有一定差距。另一方面,對于來自于HowNet相似度最大的近義詞詞集,本文只保留最大相似度為α以上的近義詞詞集(在后面的實驗中,我們采用了α=0.75的設置,更優化的參數可以通過驗證得到),因為相似度過低的詞語,對詞向量的修正可能會造成負面影響。本文的實驗表明,上述詞匯分類體系的知識選用有助于近義詞詞集質量的提高。

(3)

其中,α和β是控制關聯相對強度的系數,βk代表不同來源的詞匯分類體系知識權重,i代表需要構建的詞語,j代表詞語i的近義詞。

根據要求,對公式Ψ(Q)求最小值,對Ψ(Q)進行一階求導,并令導數等于0,從而得到詞向量qi的更新公式,如式(4)所示。

(4)

3 實驗3.1 實驗數據集

本文采用兩個來源的訓練語料庫訓練詞向量,分別是搜狗實驗室提供的搜狗新聞數據集以及中國中文信息學會社會媒體專委會提供的SMP2015微博數據集(SMP 2015 Weibo DataSet),其中在SMP 2015 Weibo DataSet 中取了4G和10G的微博作為訓練語料庫,得到三個語料庫用于對比試驗。

在中文詞匯分類體系選用方面,本文采用了HowNet 2000版(HowNet的開源版本,實驗結果中標記為“HowNet”)以及《同義詞詞林擴展版》。

在實驗效果評價方面,采用了中文詞語相似度評測數據集PKU 500數據集[1]。PKU 500共有500對詞語,每對詞語都有人工標注的相似度(范圍為0~10)。PKU 500被采用到第五屆國際自然語言處理與中文計算會議暨第24屆國際東方語言計算機處理會議(NLPCC-ICCPOL 2016)的評測比賽中。

3.2 實驗設置

本文采用斯皮爾曼等級相關系數(Spearman rank correlation coefficient)去衡量詞向量計算詞語相似性的效果。通過計算PKU 500中每對詞語人工標注的相似性和詞向量計算出的詞語相似性之間的斯皮爾曼等級相關系數,借以判斷各實驗方案對詞語相似性的計算效果。

實驗方案為:

(1) 基于向量模型的詞語相似性計算: 對比不同的訓練語料訓練得到的詞向量對詞語的相似性計算的效果。

(2) 基于詞匯分類體系的詞語相似性計算: 對比不同詞匯分類體系,本文中為HowNet和《同義詞詞林擴展版》應用于詞語相似性計算的效果。

(3) 基于向量模型與詞匯分類體系相結合的詞語相似性計算: 分別利用HowNet與《同義詞詞林擴展版》所提供的知識參加詞語向量表達的構建,考察其結合方法的效果。

(4) 基于向量模型與多源詞匯分類體系相結合的詞語相似性計算: 對比了本文提出的方法在不同類型的詞匯分類體系的知識選用及其在詞語向量表達構建中的不同權重的效果。

(5) 研究進展方法在中文詞語相似性計算上的性能對比: 對比了本文提出的方法與研究進展方法在詞語相似性計算上的性能。

本文的方法為向量模型和多源詞匯分類體系相結合的詞語相似性計算方法,用于與之對比的兩個研究進展的方法如下:

(1) NLPCC-ICCPOL 2016評測比賽第一名的方法: Guo等人[9]在NLPCC-ICCPOL 2016評測比賽中也運用組合多種語料庫得到的向量表達以及多種詞匯分類體系對詞語進行相似性計算的方法,對比實驗中直接引用了其在比賽中得到的結果。

(2) 向量模型與單一詞匯分類體系相結合的方法: Faruqui等人[10]利用詞匯分類體系,在已經訓練好的詞向量上增強它的語義關系,在英文語料上取得了較好的應用效果。本文將其應用于中文詞語相似性計算,在實驗中,以實驗效果最好的單一詞匯分類體系(本文實驗中為《同義詞詞林擴展版》)修正詞向量的結果代表該方法的結果。

3.3 實驗結果分析

3.3.1 基于向量模型的詞語相似性計算

本實驗運用word2vec的CBOW模型在三個語料上進行詞向量的訓練,“搜狗新聞”代表搜狗新聞語料庫訓練詞向量?!?G微博”代表用4GB的微博數據來進行詞向量訓練的方案?!?0G微博”代表用10GB的微博數據作為語料庫來訓練詞向量。三個語料庫對PKU 500的數據集詞語的覆蓋率,如表1所示。

表1 不同的詞向量訓練語料庫對PKU 500詞語的覆蓋率

從表1可以看到,搜狗新聞語料庫,在PKU 500的1 000個詞語中有12個詞語不存在,4G微博語料庫缺失了八個,而10G微博語料庫覆蓋了全部詞語。進一步地,我們對比了不同語料庫訓練的詞向量的詞語相似性計算效果,如表2所示。

表2 不同語料庫訓練的詞向量的詞語相似性計算效果

表2顯示,通過這三種語料庫計算出來的斯皮爾曼等級相關系數分別為0.412、0.413和0.418。證明語料庫越大,詞語覆蓋率就會越高,計算出的詞語相似度就會越高,斯皮爾曼等級相關系數也會越高。本文后續實驗都采用10G微博訓練的詞向量。

3.3.2 基于詞匯分類體系的詞語相似性計算

本實驗采用HowNet以及《同義詞詞林擴展版》作為詞匯分類體系,詞語的相似性計算分別采用了李峰等[18]以及田久樂等[20]的方法。

利用HowNet和《同義詞詞林擴展版》計算詞語相似度的參數設置分別如表3和表4所示。

表3 HowNet相似性計算參數設置

表4 《同義詞詞林擴展版》相似性計算參數設置

首先考察這兩個詞匯分類體系在PKU 500數據集中詞語的覆蓋情況,如表5所示。

表5 不同的詞匯分類體系對PKU 500詞語的覆蓋率

從表5可以看到,在PKU 500的數據集的1 000個詞中,HowNet和《同義詞詞林擴展版》的詞語覆蓋率分別為88.5%和95.8%,可見,詞匯分類體系的詞語覆蓋率還存在不足。因為這些詞匯分類體系都是人工打造,要收錄所有詞語十分困難,這是詞匯分類體系方法的不足之處之一。而且我們發現,不同于詞向量計算得到的結果,在HowNet的計算結果中,相似度為1的詞語有85對(占17%),在《同義詞詞林擴展版》中,相似度為1的有134對(占26.8%),所以相對于詞向量計算詞語相似性而言,人工打造的詞匯分類體系詞語的區分粒度不夠細致,很多情況下都不能區分相似度較高的詞語。進一步檢驗詞匯分類體系計算詞語相似度的效果,如表6所示。

表6 詞匯分類體系的詞語相似性計算效果

在表6中,來自HowNet的詞語相似度與人工標注的詞語相似度的斯皮爾曼等級相關系數為0.483,《同義詞詞林擴展版》的為0.481。通過與上一個實驗方案的斯皮爾曼等級相關系數對比,可以發現基于詞匯分類體系求得的斯皮爾曼等級相關系數都比基于向量模型求出的斯皮爾曼等級相關系數高,說明盡管詞匯分類體系有自身的缺點,但是利用詞匯分類體系求出的詞語相似度比利用詞向量求出的詞語相似度更能反映真實的詞語語義相關性情況。

3.3.3 基于向量模型與詞匯分類體系相結合的詞語相似性計算

在本實驗中,“w2v”代表采用10G微博訓練詞向量的計算方法,“w2v+HowNet”代表在詞語向量表達構建中采用了10G微博訓練詞向量以及來自于HowNet的知識。“w2v +同義詞詞林擴展版” 代表在詞語向量表達構建中采用了10G微博訓練詞向量以及來自于《同義詞詞林擴展版》的知識。不同方案的詞語相似性計算效果如表7所示。

表7 不同方案的詞語相似性計算效果

從表7可以看到,采用詞匯分類體系對詞向量進行修正的方法,實驗效果比傳統的兩種詞語相似性的計算方法都要好,說明這種利用詞匯分類體系對詞向量進行修正從而計算詞語相似性的方法是可行的。這種方法彌補了詞匯分類體系中詞匯量不足的缺點,同時也補充了詞向量語義表達上的欠缺。同時我們也發現《同義詞詞林擴展版》的修正效果在PKU 500數據集上比HowNet的修正效果更好一些。如3.2節所述,本文用效果較好的“w2v+同義詞詞林擴展版”方案、代表Faruqui等人[10]方法在中文詞語相似性計算的應用。

3.3.4 基于向量模型與多源詞匯分類體系相結合的詞語相似性計算

本實驗中,“w2v+ (HowNet,同義詞詞林擴展版)”代表采用了HowNet和《同義詞詞林擴展版》兩個詞語語義關系的知識源?!癏owNet(>0.75)”代表HowNet的知識來源只保留相似度大于0.75的近義詞加入到詞語的近義詞集?!巴x詞詞林擴展版(=)”表示《同義詞詞林擴展版》的知識來源只保留編碼最后一位標記符為“=”的原子詞群?!安町悪嘀亍贝韺碜杂贖owNet、《同義詞詞林擴展版》以及兩者的交集的近義詞差異對待,考慮到3.3.2節的實驗中《同義詞詞林擴展版》的單源結合效果優于HowNet,在式(4)的詞語向量表達構建中,本文分別給詞語本身w2v、僅來自于HowNet的近義詞的w2v、僅來自于《同義詞詞林擴展版》的近義詞的w2v、同時來自于HowNet和《同義詞詞林擴展版》的近義詞的w2v設定了0.2、0.1、0.2和0.5的權重。而非差異權重的方案,則給予來自于不同詞匯分類體系的近義詞的w2v相同的權重。結果如表8所示。

表8 不同知識選用及權重方案的詞語相似性計算效果

可以看到,不做任何選取地選用HowNet和《同義詞詞林擴展版》的多源方案,結果并沒有優于單獨采用《同義詞詞林擴展版》的方案(表7),可見探索不同類型詞匯分類體系提供的知識的選用和融合問題是有價值的。而本文采用的最優方案,在PKU 500數據集上取得了高達0.637的斯皮爾曼等級相關系數。

3.3.5 研究進展方法在中文詞語相似性計算上的性能對比

本文的方法與研究進展方法的對比如表9所示。

表9 本文的方法與研究進展方法在中文詞語相似性計算上的性能對比

從表9可以看到,在PKU 500數據集上,以斯皮爾曼等級相關系數標準,本文的方法比Faruqui等人[10]的方法在中文詞語相似性計算的效果提高18.4%,比NLPCC-ICCPOL 2016評測比賽中第一名的方法[9]高出23%。

4 結束語

本文提出一種向量模型與多源詞匯分類體系相結合的詞語相似性計算方法,采用多源詞匯分類體系的近義詞關系以及向量模型得到的詞向量,計算得到詞語的向量表達,并探索了不同類型詞匯分類體系提供的知識的選用和融合問題,彌補了單一詞向量和單一詞匯分類體系在詞語相似性計算中的缺點,在公開數據集PKU 500數據集的評測取得了0.637的斯皮爾曼等級相關系數,比NLPCC-ICCPOL 2016詞語相似度評測比賽第一名的方法的結果提高了23%。進一步的工作主要集中在研究更為系統的不同類型詞匯分類體系提供的知識的選用和融合方案。

[1] Wu Y F, Li W. Overview of the NLPCC-ICCPOL 2016 shared task: Chinese word similarity measurement[J]. Lecture Notes in Artificial Intelligence, 2016, 10102:828-839.

[2] Turney P D. Similarity of semantic relations[J]. Computational Linguistics, 2006, 32(3):379-416

[3] Bengio Y, Ducharme R, Vincent P,et al. A neural probabilistic language model[J]. The Journal of Machine Learning Research, 2003(3):1137-1155.

[4] Mikolov T, Chen K, Corrado G, et al. Efficient estimation of word representations in vector space[C]//Proceedings of the International Conference on Learning Representations (ICLR 2013), 2013.

[5] Miller G A. WordNet: A lexical database for English[J]. Communications of the ACM, 1995,38(11): 235-244.

[6] Dong Z D, Dong Q. HowNet and the computation of meaning[M]. World Scientific Publishing Company, Singapore, 2006.

[7] Li W, Liu T, Zhang Y, et al. Automated generalization of phrasal paraphrases from the web[C]//Proceedings of the 3rd International Workshop on Paraphrasing (IWP2005), 2005: 49-56.

[8] Panchenko A. Best of both worlds: Making word sense embeddings interpretable[C]//Proceedings of the 10th Language Resources and Evaluation Conference (LREC 2016), 2016: 2649-2655.

[9] Guo S R,Guan Y, Li R, et al. Chinese word similarity computing based on combination strategy[C]//Proceedings of NLPCC 2016,Lecture Notes in Artificial Intelligence, 2016,10102: 744-752.

[10] Faruqui M, Dodge J, Jauhar S K, et al. Retrofitting word vectors to semantic lexicons[C]//Proceedings of the 2015 Annual Conference of the North American Chapter of the ACL (NAACL 2015), 2015:1606-1615.

[11] Heylen K, Peirsmany Y, Geeraerts D, et al. Modeling word similarity: An evaluation of automatic synonym extraction algorithms[C]//Proceedings of the 6th International Language Resources and Evaluation, 2008, 3243-3249.

[12] Landauer T K, Dumais S T. A solution to plato’s problem: The latent semantic analysis theory of acquisition, induction and representation of knowledge[J]. Psychological Review, 1997,104(2):211-240.

[13] Baroni M, Zamparelli R. Nouns are vectors, adjectives are matrices: Representing adjective-noun constructions in semantic space[C]//Proceedings of the 2010 Conference on Empirical Methods in Natural Language Processing (EMNLP 2010), 2010:1183-1193.

[14] Sérasset G. DBnary: Wiktionary as a lemon-based multilingual lexical resource in rdf[J]. Semantic Web Journal-Special Issue on Multilingual Linked Open Data, 2015, 6(4):355-361.

[15] Mikolov T, Sutskever I, Chen K, et al. Distributed representations of words and phrases and their compositionality[C]//Proceedings of the 27th Annual Conference on Neural Information Processing Systems (NIPS 2013), 2013b: 3111-3119.

[16] Morin F, Bengio Y. Hierarchical probabilistic neural network language model[C]//Proceedings of the International Workshop on Artificial Intelligence and Statistics (AISTATS 2005), 2005: 246-252.

[17] 劉群, 李素建. 基于《知網》的詞匯語義相似度計算[J]. 中文計算語言學, 2002, 7(2): 59-76 .

[18] 李峰, 李芳. 中文詞語語義相似度計算·基于《知網》2000[J]. 中文信息學報, 2007, 21(3): 99-105.

[19] 梅家駒, 竺一鳴, 高蘊琦,等. 同義詞詞林[M].上海:上海辭書出版社, 1983: 106-108.

[20] 田久樂, 趙蔚. 基于同義詞詞林的詞語相似度計算方法[J]. 吉林大學學報(信息科學版), 2010,28(6): 602-608.

E-mail: cenhongjie@stu.scau.edu.cn

猜你喜歡
語義詞匯分類
分類算一算
本刊可直接用縮寫的常用詞匯
一些常用詞匯可直接用縮寫
山東醫藥(2020年34期)2020-12-09 01:22:24
語言與語義
本刊可直接用縮寫的常用詞匯
分類討論求坐標
數據分析中的分類討論
教你一招:數的分類
“上”與“下”語義的不對稱性及其認知闡釋
現代語文(2016年21期)2016-05-25 13:13:44
認知范疇模糊與語義模糊
主站蜘蛛池模板: 免费A∨中文乱码专区| 97青青青国产在线播放| 精品91自产拍在线| 九九热精品在线视频| 幺女国产一级毛片| 亚洲一区二区黄色| 色九九视频| 亚洲第一色视频| 欧美一区国产| 国产对白刺激真实精品91| 免费无码又爽又刺激高| 婷五月综合| 高清欧美性猛交XXXX黑人猛交 | 亚洲视频在线青青| 亚洲精选高清无码| 国产综合在线观看视频| 日韩一级毛一欧美一国产| 日韩欧美在线观看| 无码免费的亚洲视频| 久久网综合| 色婷婷视频在线| 欧美.成人.综合在线| 九九这里只有精品视频| 国内精自视频品线一二区| 国产v精品成人免费视频71pao| 亚洲欧美自拍中文| 亚洲欧美成人网| 久久中文电影| 青青久视频| 欧美另类第一页| 亚洲综合婷婷激情| 亚洲美女AV免费一区| 中文字幕在线观看日本| 亚洲男女在线| 欧美成人一区午夜福利在线| 免费无遮挡AV| 无码一区中文字幕| 不卡视频国产| 国内毛片视频| 亚洲男人的天堂网| 国产欧美日韩一区二区视频在线| 中文精品久久久久国产网址 | 日本爱爱精品一区二区| 精品免费在线视频| 日韩精品一区二区三区免费| 999在线免费视频| а∨天堂一区中文字幕| 四虎亚洲国产成人久久精品| 欧美www在线观看| 国产欧美一区二区三区视频在线观看| 99青青青精品视频在线| 亚洲视频一区| 亚洲第一视频免费在线| 亚洲欧州色色免费AV| 老司国产精品视频91| 亚洲一区二区约美女探花| 欧美国产在线看| 成人无码区免费视频网站蜜臀| 九九热免费在线视频| 国国产a国产片免费麻豆| 精品人妻无码中字系列| 国产特级毛片aaaaaaa高清| 国产福利微拍精品一区二区| 精品国产一区二区三区在线观看| 国产视频a| 国产一二视频| 国产毛片高清一级国语| 99免费在线观看视频| 青草娱乐极品免费视频| 亚洲人成人伊人成综合网无码| 国产区人妖精品人妖精品视频| 狠狠色噜噜狠狠狠狠色综合久| 亚洲欧洲综合| 久久综合一个色综合网| 2021国产v亚洲v天堂无码| 色播五月婷婷| 一本一道波多野结衣av黑人在线| 一级毛片免费不卡在线| 98超碰在线观看| 日本高清视频在线www色| 99这里只有精品在线| 久久99国产综合精品1|