999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

語義增強型全文本共詞網絡的構建與分析

2023-11-21 09:48:48趙一鳴尹嘉穎
情報學報 2023年10期
關鍵詞:語義詞匯特征

趙一鳴,尹嘉穎

(1. 武漢大學信息資源研究中心,武漢 430072;2. 武漢大學信息管理學院,武漢 430072;3. 武漢大學大數據研究院,武漢 430072;4. 武漢大學圖書情報國家級實驗教學示范中心,武漢 430072)

0 引 言

共詞分析是圖書情報學最常用的方法之一,其研究重心已經從關鍵詞共現分析演變為面向全文本的共詞分析。自然語言文本是一種復雜動態系統,呈現高度的復雜網絡結構[1],構造一個可靠的詞匯網絡是自然語言文本理解與分析的重要環節[2]。通過不同的詞匯網絡,可以解決詞義辨析[3]、主題建模與識別[4-5]、作者畫像[6]、關鍵詞提取[7]等問題。然而,由于語言的復雜性,單一維度的詞匯網絡在實際應用中存在較多缺陷,如難以揭示詞匯共現的同量不同質現象、基于共詞網絡的下游任務結果(如詞匯聚類得到的類團)缺乏解釋性等。同時,雖然利用詞匯的共現關系能夠促成許多有價值的研究,但是促成詞匯共同出現的“介質”是什么,目前仍未有定論[8]。

傳統的共詞網絡研究通常把每一次共現都看作無差異的,僅僅是利用其共現的頻次特征開展進一步研究。實際上,詞匯共現具有典型的“同量不同質”特征,同樣兩個詞在不同場景下的共現具有多維度的差異性。換句話說,一個共現詞對可以擁有除共現頻次特征之外的更豐富的內涵,如共現詞之間的多重語義關系、共現詞在原始文本中的跨距等。這些豐富內涵的揭示對于詞匯共現研究、共詞網絡研究具有重要意義。

本文提出了一種語義增強型的共詞網絡的構造和分析方法,通過拓展共詞網絡中共現詞匯的語義知識及其本身的共現特征、網絡特征來構建共詞網絡,并結合語義學的相關理論進行分析。通過構建并分析語義增強型全文本共詞網絡,可以提升詞匯聚類結果的可解釋性,還可以通過詞匯的結伴、結群關系反映詞匯在語言系統中的作用等。

1 相關工作

為了探究語言構建過程中的詞匯組織,Ferrer i Cancho 等[9]基于英語國家語料庫(British National Corpus,BNC)構建了全文本詞匯共現網絡,并發現了共詞網絡的小世界效應和無標度特性。之后,共詞網絡的小世界效應和無標度特性也在新聞[10]、軍事[11]、文獻關鍵詞[12]等語料庫或數據集構建的共詞網絡中得到了驗證。

已有的全文本共詞網絡的構造模型主要有n階Markov 同現模型[2]、詞相似模型[13]、詞共現矩陣[14-15]等。其核心思想是以詞作為網絡的節點,通過測量兩個詞之間的共現來構造節點的邊。

一些學者開始突破單純的共現關系,引入共現強度、TF-IDF(term frequency-inverse document frequency)值、語義相關度等因素來改進共詞網絡的權重[16]。此外,有學者在共詞網絡上引入了方向、時間等各種維度,從而構建有向、加權、時序等共詞網絡[17]。隨著復雜網絡理論的發展,共詞網絡被廣泛應用于信息檢索、文本分析、話題與熱點發現等領域。

語義網絡及知識圖譜的發展為詞匯共現研究提供了新的契機。通過詞典或語料庫等語言資源構造的語義網絡,可以反映人類儲存知識的方式和結構[2]。在語義網絡中,節點一般是概念或實詞,節點之間的邊表示節點的語義關系,如等同關系、等級關系以及相關關系等?,F有的主流語義知識庫包括Cyc、WordNet、ConceptNet、Freebase、DBpedia、Wikidata、BabelNet、YAGO、NELL (Never-Ending Language Learner)、Zhishi.me 等。這些知識庫為各種自然語言相關研究提供了廣泛的語義知識資源,如概念間的語義關系、概念的語義表示、知識推理等。Yang 等[18]為解決基于單詞的主題檢測模型準確率較低的問題,在詞匯共現的基礎上提出了膠囊語義圖來進行新聞主題檢測。

結合語義網絡中的語義知識能夠很好地從認知角度描述共現詞匯之間的關系。Shi 等[19]使用預訓練語言模型得到的詞向量結合文檔中的詞義共現,提出了一種新的文本表示方法,從而能夠靈活地進行跨平臺和跨內容的新聞推薦。趙一鳴等[20]提出了一種融合概念知識圖譜的中文文本語義圖的構建方法,解決了傳統文本表示方法中語義缺失的問題。馮佳等[21]基于語義知識構建了詞匯間的語義距離,改進了共詞矩陣分析方法。王忠義等[22]為解決共現詞對間同量不同質的問題,通過關聯數據對共現詞的統計單元進行碎片化處理,利用LDA (latent Dirichlet allocation)主題模型將詞匯的語義信息融入共詞分析中,使基于詞匯共現聚類出的類團更具有實際意義。

然而,現有的將語義網絡應用于共詞網絡方法改進的研究主要是對共詞網絡連邊權重的數值改進,對語義知識庫的利用程度較淺,對共詞網絡構架方法的改進程度比較小。因此,本文結合傳統共詞網絡的特征與共詞網絡的語義特征,如語義關系、語義韻等維度,構建語義增強型的全文本共詞網絡。

2 語義增強型全文本共詞網絡的構建方法

2.1 語義增強型共詞全文本網絡的定義及特征

語義增強型全文本共詞網絡是指以文本的全文為對象,加入節點之間的語義關系、語義關系的方向、跨距等語義特征信息的詞匯共現網絡。與傳統的關鍵詞共現網絡相比,該共詞網絡可用于海量文本的全文本分析與挖掘。通過特定的特征選取和分析,可以實現更多元的研究目標。

語義增強型全文本共詞網絡中可以進行分析的特征如表1 所示,包括共現特征、網絡特征和語義特征等三大類特征。其中,共現特征主要包括共現頻次、包容指數、臨近指數、等價指數、向心度、密度、Salton 指數等,這些指標的計算方式可以參見文獻[23-24];網絡特征包括點度中心度、聲望、PageRank 值、中介中心度、接近中心度、平均路徑長度、聚集系數等,這些指標的計算方式可以參見文獻[17,25]等。本文選取研究所需的共現特征和網絡特征,加入語義關系和語義關系方向等新特征,并借助共現特征中的跨距來研究詞匯的語義韻,為共詞網絡分析引入了新的特征和分析維度。

表1 詞匯共現網絡的特征指標

語義增強型全文本共詞網絡N可以被表示為語料庫或數據集中的所有詞匯w、共現詞對具有的語義關系r和共現詞對五元組t的集合,即

共現詞對五元組t表示語義增強型全文本共詞網絡中的一組共現詞對wi和wj具有的語義關系rx、語義關系的方向d以及其具有的特征p,即

共現詞對具有的特征p由共現頻次、共現強度、跨距等組成,即

跨距是指兩個詞匯在句子中的間隔距離。在語言學領域,往往通過短跨距下的固定搭配或意義拓展單元來研究詞匯或詞對。語言學家Sinclair[26]認為詞匯搭配是文本當中較短距離下的詞匯共現,并給出了一個詞匯跨距為5 的推薦距離。雖然學界并沒有完全規定何種距離下的詞匯共現才能被視為搭配,但是搭配距離的研究卻向人們傳達出一種信息,即共現詞對在句子當中的間隔距離伴隨詞匯共現現象所產生的一個重要特征。

語義韻(semantic prosody)是語料庫語言學的一個重要概念,是指一個詞吸引某類具有相同語義特點的詞,從而形成某種搭配習慣和語義氛圍的現象。詞匯的語義韻體現在該詞匯與其高頻共現的一組具有某種語義關系的搭配詞中[27]。進一步地,通過分析詞匯共現網絡中節點和與其具有特定語義關系的共現詞集合構成的子網絡,可以發現共現詞之間語義氛圍,從而理解詞匯的語義韻。

2.2 語義增強型全文本共詞網絡的構建流程

語義增強型網絡的構建方法和研究框架如圖1所示。①選定需要研究的數據集或語料庫;②通過分詞、詞形還原、刪除停用詞等文本處理得到語料庫中的所有候選詞,并挖掘候選詞之間的共現關系,組成共現詞對;③將作為網絡節點的候選詞映射到語義知識庫的概念或實體中,并標注共現詞對之間的語義關系,從而構成網絡中節點的邊;④對共現詞對的特征進行提取或統計,如共現頻次、Salton 指數、跨距、語義特征等,其中語義特征包括語義關系、語義關系的方向、語義韻,這些特征將被作為邊的屬性;⑤通過網絡構建得到語義增強型的全文本共詞網絡,為后續的共現網絡分析提供模型與數據支撐。

圖1 語義增強型全文本共詞網絡的構建框架

3 實驗及分析

3.1 基于新聞文本的語義增強型全文本共詞網絡構建

本文使用的語料庫是著名數據科學和機器學習平臺Kaggle 中的“All the News”新聞數據集[28]。此數據集包含從New York Times、CNN、Fox News 等15 個國際著名新聞平臺上所收集到的14 萬余篇新聞文本數據。

對每個語篇進行分句、分詞處理,為了避免單詞受單復數、時態等形式的影響,本文對句子中的每個詞語進行詞性標注及詞形還原,以減少句子語法如時態、單復數、變形的噪音干擾對同一語義詞語的影響。

為了避免一些無意義的介詞、連詞、助詞、冠詞、數字、感嘆詞等造成干擾,本文使用了Indri 停用詞表刪除了語料庫中的停用詞[29]。統計詞形還原和刪除停用詞后的詞匯出現頻次,并根據齊普夫第二定律篩選高頻詞匯作為詞匯共現的候選詞。

通過編程抽取候選詞之間的共現關系,從而得到語料庫中的共現詞對,具體思路:首先,對句子進行編號,并統計每個詞語所在的句子編號序列。其次,對兩個不同的高頻詞的所在句子編號序列取交集,若不存在任何句子編號,則這兩個詞語在語料庫的句子窗口沒有發生共現;反之,則存在共現現象,且交集中句子數量可視為該詞對的共現次數。

在特征抽取方面,使用基于共現頻次的Salton指數作為詞對的共現強度,并統計每個共現詞對在所有共現句子中的平均跨距。在共現詞對的語義特征方面,使用ConceptNet 語義知識庫對共現詞對進行語義關系標注。ConceptNet 是在由麻省理工大學發起的Open Mind Common Sense 眾包項目的基礎上構建的開源語義知識庫,包含了維基詞典、專家構建的WordNet 和JMDict 等數據,通過專家標注和多重篩選標準的算法來保證數據的高質量[30]。其利用包含語義關系等屬性的加權邊來連接自然語言中的單詞和短語,從而實現對自然語言中涉及的一般知識的理解,被廣泛應用于信息檢索、文本分析、機器翻譯等領域。ConceptNet 中存在超過800 萬個節點以及2100 萬條邊,核心語義關系共有34 種。其中,單向關系27 種,雙向關系7 種。每兩個節點間可以存在一種或多種語義關系。

從ConceptNet 語義知識庫中抽取語義特征的常用方法有兩種。一是通過ConceptNet 的API 接口可以構建出特定的查詢式,從而獲取到關于某個詞匯的三元組知識。調用ConceptNet 接口的具體方式為構建以下形式的URI——http://api.conceptnet.io/query?start=/c/en/keyword。其中,“start=”表示以某一單詞作為三元組中頭部節點進行相應信息的查找,若是按照尾部節點進行查找,則對應位置設置為“end=”;“/c/”表示節點;“/en/”表示所查詢的詞匯為英語單詞;“/keyword”則表示所要進行查詢的目標詞匯。將所有共現詞對分別作為頭節點與尾節點,構建查詢式的URL 來標注共現詞對的語義關系及方向。二是通過獲取ConceptNet 的離線版本并導入數據庫,通過查詢頭尾節點來標注語義特征,離線版本數據中的URL 形式與API 接口返回數據的形式一致。以本文使用的數據為例,使用ConceptNet的API 接口標注1000 個共現詞對之間的多重語義關系及每個語義關系方向,用時約1 小時26 分鐘;使用ConceptNet 本地化標注80762 個共現詞對之間的多重語義關系以及每個語義關系方向,用時約4分鐘。

當ConceptNet 中的兩個詞匯節點之間無法查詢到邊時,表示共現詞匯在ConceptNet 中不存在語義關系。若能夠查詢得到邊,則需要判斷頭尾節點的連接邊的數量及屬性,即詞匯之間存在的一種或多種語義關系。得到查詢結果后,可以根據頭節點、尾節點、邊的數量及屬性來抽取共現詞對具有的單一或多種語義關系及方向,并構成共現詞對五元組。然后,將每個詞匯作為節點,語義關系的方向作為邊的方向,匯總共現詞對的共現特征和語義特征作為節點間的邊的屬性。

整理語義增強型全文本共詞網絡中的詞匯集合W、共現詞對具有的語義關系的集合R和共現詞對五元組集合T,將數據導入Neo4j 數據庫中。通過Neo4j 的查詢語言,可以計算出節點數、邊數等基本統計特征。 同時, 通過Graph Data Science(GDS)庫可以進一步計算出節點中心度、節點最短路徑、聚集系數等網絡特征。GDS 是Neo4j 圖數據庫的一個插件庫,提供了在圖數據庫中進行數據分析、機器學習等任務的算法,包括中心性度量(點度中心度、中介中心度、接近中心度、PageRank 值等)和社區檢測(聚集系數、網絡傳遞性等)等算法[31],可以更方便地挖掘圖數據的結構、模式和關系,有助于計算和儲存詞匯共現網絡中的相關網絡特征。

綜上所述,先通過Python 進行文本處理與共現詞對抽取,計算共現詞對的共現特征。然后,通過ConceptNet 本地化標注方式進行語義特征的抽取。最后,將數據整合導入至Neo4j 圖數據庫中,并利用GDS 庫得到網絡特征,即可實現語義增強型全文本共詞網絡的構建。

3.2 語義增強型全文本共詞網絡的特征分析

3.2.1 描述性統計

本文構建的共詞網絡基本統計特征如表2所示。

表2 語義增強型全文本共詞網絡基本特征統計

表2 中匯總了語義增強型全文本共詞網絡的一些基本特征,基于80762 對具有語義關系的共現詞對,構建得到了由12808 個節點和約13 萬條邊構成的語義增強型共詞網絡。通過Neo4j 查詢語句和GDS 庫計算可知,網絡的平均節點度數較高,平均每個詞與其他20 個詞連接;節點平均最短路徑較短,約為3.458,即兩個詞之間的平均可通過另外3個節點進行連接;聚集系數為0.1151,而隨機網絡的聚集系數約為1.55×10-4[9]。由此可見,網絡具有較高的聚集性。較短的平均最短路徑和高聚集系數表明本文構造的語義增強型全文本共詞網絡具有小世界效應,這與一般語言網絡的特征相符。

3.2.2 連接共現詞對的語義關系分布特征

使用ConceptNet 語義知識庫標注得到的具有語義關系的共現詞對共80762 對,這些共現詞對一共呈現30 種語義關系,每種語義關系的定義詳見附表1。受篇幅所限,本文僅展示占比前15 位的語義關系,如圖2 所示。

附表1 ConceptNet語義知識庫中的核心關系及其定義[30]

圖2 共現詞對語義關系分布

由圖2 可以看出,RelatedTo 是共現詞對中最主要的語義關系,占比約為所有語義關系的一半,其后依次是IsA、HasContext、Synonym、MannerOf、AtLocation 等語義關系,這6 種語義關系累計占比超過80%。其中,在ConceptNet 定義的34 種語義關系中,沒有出現的語義關系為EtymologicallyRelatedTo、HasProperty、ObstructedBy 和Etymologically-DerivedFrom。

3.2.3 共現詞對在自然句中的跨距分布特征

詞匯在自然句中的跨距特征對于揭示詞匯共現的差異性、從語義韻視角豐富共現詞匯的內涵具有重要作用。本文計算了每種語義關系連接的所有共現詞匯在原始文本中的平均跨距,受篇幅所限,圖3 展示了出現頻次占比前15 位的語義關系連接的共現詞對的平均跨距及其分布特征。圖3 中的每一格表示某一種語義關系連接的所有共現詞匯的平均跨距的分布情況。以第一行為例,在CapableOf 連接的所有共現詞對中,49.22%的詞對在原始自然句中的平均跨距為1,即兩個詞在句子序列中的位置差值為1(兩個詞之間沒有間隔其他詞),28.53%的詞對在原始自然句中的平均跨距為2,即兩個詞之間被一個詞隔開,以此類推。

圖3 語義關系跨距熱力圖(彩圖請見https://qbxb.istic.ac.cn)

如圖3 所示,共現詞對的平均跨距一般較小,但不同語義關系連接的共現詞對的跨距分布呈現不同的特征。例如,具有CapableOf、HasProperty、PartOf 語義關系的共現詞對中,40%以上的詞對跨距為1,即往往會以詞組或固定搭配的方式出現。相似地,具有Antonym、IsA、SimilarTo 等語義關系的占比最大的跨距為2,即中間往往會被另一個詞隔開。同時,HasContext、DerivedFrom、FormOf 的詞語跨距較為平均,即這3 種語義關系可能并不會給其共現詞對的跨距帶來影響。

從語義的視角出發可以看出,跨距不超過5 的共現詞對占比普遍較大。同時,若要更細粒度地研究共現詞對的共現窗口,則可以考慮不同的語義關系來選取共現窗口的強度。

3.2.4 共現詞對的多重語義關系

一個特定的詞匯可能表示多種意義,而一種詞語搭配也可能產生不同的含義。因此,一組共現詞對可能出現多重語義的現象,通過研究共現詞對的多重語義關系,可以在一定程度上反映詞對的共現現象的語義原因。共現詞對的統計結果如表3所示。

表3 共現詞對具有的語義關系數量統計

以表3 中的示例詞對為例:①news 和fox 僅具有RelatedTo(相關)關系,即這兩個詞有一定的相關關系,而組合起來為Fox News(??怂剐侣劊"赿rink 和coffee 具有Antonym 和RelatedTo 兩個語義關系,可以發現,當drink 表示名詞酒時,其與coffee 在某種程度上是相反的;當drink 表示動詞飲用時,可表示drink coffee,呈現相關關系。③rock 和roll 兩個詞具有Antonym、RelatedTo 和MannerOf 這3種語義關系,即當rock 表示動詞劇烈晃動時,與roll 表示動詞翻轉在某種程度上是相反的;當rock表示名詞石頭時,rock roll 可以表示石頭會滾落的行為語義關系;當組成rock & roll 這一搭配時,又可以表示搖滾的意義。因此,也具有某種程度上的相關關系。④country 可以表示國家、鄉村等含義,國家和城市是不同的,城市位于國家中,鄉村和城市具有不同的內涵,且這兩個詞語經常一起出現,因此,country 和city 還具有相關關系。⑤相似地,trash 和garbage 都可以表示名詞垃圾,而garbage 還具有垃圾桶的含義,因此,除了Synonym、Related-To、IsA、SimilarTo 的語義關系外,還具有AtLocation 的語義關系。⑥faith 和belief 都有信心、信仰的意思,但是從語義關系而言,faith 是belief 的一部分,來源于belief,由此也能看出,該組同義詞具有一定的上下位關系。⑦rest 和sleep 都可以作為名詞或動詞使用,語義關系更加豐富,不僅具有DistinctFrom、Synonym 等概念性的語義關系,還具有HasFirstSubevent、HasPrerequisite、MotivatedByGoal等動詞間的語義關系。

在連接同一個詞對的多重語義關系之間,也存在著某種共現關系。此處以表3 第3 行的數據為例對語義關系的共現進行分解,即把Antonym、RelatedTo、MannerOf 這3 種語義關系的共現分解為(Antonym, RelatedTo)、 (RelatedTo, MannerOf) 和(Antonym, MannerOf)的形式進行統計,繪制熱力圖,如圖4 所示。其中,由于RelatedTo 語義關系占比最大,且每一種語義關系均與RelatedTo 語義關系共現最多,為了更好地對比與其他語義關系的占比,在圖4 中剔除了RelatedTo 這一語義關系。

圖4 語義關系共現熱力圖

由此,可以從數據角度側面證實語義關系的非對稱性與傳遞性,為語義關系的分類與推導提供數據驗證。如圖4 所示,每一行表示該語義關系與其他語義關系的共現占比??梢园l現,一些定義相似的語義關系往往一起共現,如Synonym 和Similar-To、MannerOf 等,其中SimilarTo 與Synonym 的共現占比最高,達到了58.70%。

同時可以發現,語義關系的共現并不一定是對稱的,圖5 統計了5 種語義關系之間的共現占比。HasA 和AtLocation 兩種語義關系由于定義相反,往往一起出現,且占比均超過90%,證實了語言共現現象的對稱性。在事件的發生條件的3 種語義關系中,HasFirstSubevent 常常與HasPrerequisite 一起出現,占比達到了77.78%,且與其他語義關系出現較少,所以占比較低。結合語義學知識可知,這是由于這兩個語義關系是充分不必要關系,具有語義關系的傳遞性與非對稱性。

圖5 語義關系共現的對稱性

如圖6 所示,relax 與sleep 具有HasPrerequisite語義關系,sleep 與close eyes 具有HasFirstSubevent語義關系,因此,后者是前者的充分不必要條件,也可以證實語義關系的傳遞性與非對稱性。

圖6 HasFirstSubevent和HasPrerequisite語義關系示意圖

3.3 語義增強型全文本共詞網絡的應用

本節將通過具體的應用案例來證明和驗證語義增強型全文本共詞網絡構建方法的有效性,并凸顯該網絡在語義消歧和詞義理解方面的應用與價值。

3.3.1 語義增強型全文本共詞網絡在語義消歧方面的應用

語義增強型全文本共詞網絡中的語義韻信息是觀察和描述詞匯的新視角,在同義詞辨析等語義消歧方面具有應用前景。在已有研究中,語義韻是基于專家的經驗進行觀測和判斷的,難以支撐大規模詞匯網絡中的語義分析。使用本文構建的語義增強型全文本共詞網絡則可以查詢以詞匯為中心的子網絡,更清晰地展示詞匯與其具有某種語義關系的共現詞的集合,從而構建出語義韻的研究結構,有助于揭示詞匯的語義韻特征。

雖然happen、occur 在概念上是絕對的同義詞,但實際上在搭配關系和語義韻等語言特征中存在差異。通過語料庫中的檢索結果進行精讀分析,可以發現如happen 往往與“事故”“問題”等具有“消極結果”語義的詞匯共現,但occur 則不具有明顯的消極語義韻傾向性,表明了語義韻的態度標示功能和在同義詞差異辨析中的作用。

以happen 和occur 為例,這兩個詞匯的共現詞對在語義增強型共詞網絡中的查詢結果如圖7 所示,兩個詞分別具有18 個和11 個共現詞匯,其中4個為共同的共現詞。由此可以看出,這兩個詞語具有較大的語境差異,且happen 比occur 具有豐富的共現詞匯和語義關系。其中,與happen 共同出現的詞匯中包括一些讓人感覺到“消極結果”的語義氛圍,如intervene (干涉)、backfire (適得其反)、transpire (泄露)、force (強迫) 等,由此可見,happen 比occur 具有更消極的語義韻態度。

圖7 happen和occur詞匯的子網絡

因此,當面臨同義詞選擇問題時,可以將詞匯在共詞網絡中的共現詞匯和語義關系構建為向量特征,用于衡量詞向量的差異性,通過模型訓練進行分類或選擇,從而通過共詞網絡中的詞匯特征改進語義消歧方法。

3.3.2 語義增強型全文本共詞網絡在詞義理解方面的應用

幫助使用者確定一些語義模糊詞語在特定語義中的確切意義,是語義增強型全文本共詞網絡可以帶來的又一好處,可以解決很多行業問題。

以法律行業為例,美國法律界對法律條款中關鍵詞的解釋往往需要通過詞匯的“平義”(plain meaning)來裁定。然而,詞典中枚舉了詞匯的所有釋義,很難辨別詞匯的“平義”,且缺乏詞匯使用的語境,因此,許多法律專家開始通過語料庫來尋找詞匯的平義。其中,知名的案例包括“聯邦通信委員會訴美國電話電報公司案”(FCC v. AT&T Inc., 562 U.S. 2011)、“美國訴科斯特洛案”(United States v. Costello, 666 F.3d 1040, 2012)、“猶他州訴J.M.S 案”(State of Utah v. J.M.S, 2011 UT 75) 等。Mouritsen[32]統計了20 世紀60 年代到21 世紀初的美國最高法院裁決記錄,發現ambiguity、plain meaning 等詞語頻率急劇增長,說明法律條款的解釋已經成為庭審中的難點問題。

本文構建的共詞網絡有助于揭示一個詞語的平義。以“聯邦通信委員會訴美國電話電報公司案”為例,庭審中的核心糾紛之一為《信息自由法案》條例中的侵犯個人隱私(personal privacy)是否適用于公司(corporation)。在本文構建的共詞網絡中查詢privacy 一詞可以得到該詞匯的共現子網,如圖8 所示;與privacy 共同出現的詞匯及其語義關系和語義強度如表4 所示。

圖8 privacy詞匯的共現子網

表4 privacy詞匯的共現詞

可以看出,privacy 一詞與person 具有較高的共現強度,具有Desires 的語義關系;而在以privacy為中心的子網絡中卻不存在corporation 一詞。其共現詞主要包括:①隱私的主體:person;②描述隱私的相關定義:private、legal、confidentiality、isolation、secrecy;③保護隱私的方式或條件:fence、curtain、dark、bedroom、wall、cubicle、lock。由此可知,個人隱私不適用于公司這一主體,這也與“聯邦通信委員會訴美國電話電報公司案”的裁決結果一致,且該案裁定之后,美國公司的隱私權不再受《信息自由法案》的保護。

通過語義增強型全文本共詞網絡對特定詞匯的子網進行來查詢和分析,可以加深對特定詞匯的詞義理解,進而分析詞匯的常用語境,辨別詞匯的平義,從而為法律行業等需要明確厘清詞義的領域提供詞義理解的數據驗證方法。同時,通過查詢子網絡,可以避免在語料庫中通過檢索行來總結和判斷詞匯的詞義的復雜流程,大大減少詞匯“平義”的語義知識檢索時間,實現更精細化的詞匯檢索,提高詞義理解在行業使用中的效率。

4 討論與結論

本文提出的語義增強型全文本共詞網絡構建方法引入了共現詞對間的多重語義關系、語義關系方向、共現詞對在原始文本中的平均跨距等新特征,揭示了共詞網絡中蘊含的RelatedTo、IsA、HasContext、Synonym、MannerOf、AtLocation 等語義關系,并發現共現詞對語義關系的類型會影響詞匯在句子中的跨距,通過研究實例證明了該網絡的應用價值。

相較于以往的共詞網絡研究,本文提出的語義增強型全文本共詞網絡有3 個方面的學術貢獻。

第一,引入了詞間語義關系、跨距等新的語義特征,極大地豐富了共詞網絡的理論內涵。已有關于共詞網絡的研究通常是對共現詞對進行數值上的統計分析,把每一次共現都看作無差異的,主要利用共現頻次等統計特征開展應用研究,未考慮詞語之間差異化的語義關系[11,14],沒有解決詞匯共現“同量不同質”的問題。本文通過共現詞對詞間語義關系的揭示,較好地解決了該問題。

第二,揭示了共現詞之間的多重語義關系,通過實例證明了共現詞之間語義關系的非對稱性與傳遞性[33],為共現詞對詞間語義關系的分類與推導提供了理論依據,這一點在已有研究中尚未被清晰地揭示出來。

第三,從語義層面刻畫了同一共現詞對在不同情境下的差異性,提升了共詞分析的精確性。已有研究大多沒有考慮這種差異性,忽略了同一個共現詞對在不同的情境下表達出的不同含義[14,21]。本文通過共現詞之間多重語義關系的識別與表示,揭示了這種差異,為精細化的共詞分析打下良好的基礎。

本文的實踐啟示包括兩點。

第一,提供了同義詞辨析等語義消歧問題的解決思路,通過語義增強型全文本共詞網絡中詞匯子網絡的識別,揭示了詞匯的語義韻特征,發現同義詞的在語義氛圍上的差異性,有利于語義消歧中詞向量的構建,提高詞匯語義研究的效率。

第二,有助于抽取出更高質量、更有意義的共現詞對,從語義關系的視角增強詞匯共現現象的可解釋性,從而為詞匯聚類、知識發現等下游任務提供全新的思路和視角。

未來研究將基于語義增強型全文本共詞網絡,通過構造語義詞向量等方式,推動該方法在詞義理解、語義消歧等領域的應用。

猜你喜歡
語義詞匯特征
本刊可直接用縮寫的常用詞匯
一些常用詞匯可直接用縮寫
山東醫藥(2020年34期)2020-12-09 01:22:24
語言與語義
如何表達“特征”
本刊可直接用縮寫的常用詞匯
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
抓住特征巧觀察
“上”與“下”語義的不對稱性及其認知闡釋
現代語文(2016年21期)2016-05-25 13:13:44
認知范疇模糊與語義模糊
線性代數的應用特征
河南科技(2014年23期)2014-02-27 14:19:15
主站蜘蛛池模板: 精品国产一区91在线| 思思99思思久久最新精品| 国产高清无码第一十页在线观看| 精品国产自在现线看久久| 黄色网在线| 中文字幕乱码中文乱码51精品| 国产精选小视频在线观看| 玖玖免费视频在线观看| 无码精品福利一区二区三区| 精品视频91| 内射人妻无套中出无码| 亚洲第一成网站| 国产成人久久777777| 91麻豆精品国产91久久久久| 日韩精品中文字幕一区三区| 国产乱视频网站| 青青草原国产免费av观看| 99在线观看免费视频| 国产综合另类小说色区色噜噜| 在线免费观看AV| 午夜精品影院| 久久综合一个色综合网| 国产91透明丝袜美腿在线| 2020国产精品视频| 国产喷水视频| 国产在线精品99一区不卡| 国产欧美视频在线观看| 久久综合色视频| 久久亚洲中文字幕精品一区| 久热精品免费| 2021精品国产自在现线看| 黄色a一级视频| 国产一级无码不卡视频| 国产成人精品一区二区三区| 国产a在视频线精品视频下载| 伊人成人在线| 91九色最新地址| 97国产精品视频自在拍| 成人在线天堂| 久久婷婷六月| 中文字幕永久在线看| 国产白浆视频| 国产精品密蕾丝视频| 美女毛片在线| 日韩区欧美国产区在线观看| 亚洲日韩国产精品无码专区| 亚洲国产精品人久久电影| 91精品网站| 香蕉国产精品视频| 亚洲欧美在线综合一区二区三区| 亚洲人成在线免费观看| 国产综合另类小说色区色噜噜| 国产自产视频一区二区三区| 国产精品毛片一区视频播| 欧美色综合久久| 在线播放真实国产乱子伦| 成人在线观看不卡| 亚洲成综合人影院在院播放| 欧美成人第一页| 国内精品久久人妻无码大片高| 草逼视频国产| 成人精品区| a毛片在线播放| 国产成人精品免费视频大全五级| 国产精品成人啪精品视频| 又爽又大又黄a级毛片在线视频| 青青草欧美| 99久久成人国产精品免费| 一级全黄毛片| 97se亚洲| 国产裸舞福利在线视频合集| 免费在线一区| 真实国产精品vr专区| 91高清在线视频| 国产成人禁片在线观看| 国产在线高清一级毛片| 91久久青青草原精品国产| 久久婷婷六月| 欧美在线黄| 福利视频久久| 国产成人h在线观看网站站| 午夜国产精品视频|