999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

句法網與語義網的對比研究

2019-01-22 08:33:46趙懌怡
中文信息學報 2018年12期
關鍵詞:句法語義分析

馬 丹,趙懌怡

(廈門大學 人文學院,福建 廈門 361005)

0 引言

語義分析指運用各種方法,學習與理解一段文本所表示的語義內容,任何對語言的理解都可以歸為語義分析的范疇。語義分析又可進一步分解為詞匯級語義分析、句子級語義分析及篇章級語義分析[1]。本文主要關注句子級語義分析,句子級語義分析目標是分析整個句子所表達的語義內容和語義關系。研究發現,以往的語義分析主要關注句子中的實詞之間的關系,“針對動態語料的語義依存分析若只考慮論元關系[2],并不能充分實現句法分析到語義分析的轉化,導致句法網絡與語義網絡產生不可解釋的參數差異?!盵3]因此,本文把虛詞納入語義處理框架,從而實現從句法依存到語義依存的完全轉換,進一步推動句法網絡與語義網絡的對比研究。本文基于同一文本,以詞為單位構建了句法網和語義網,試圖從網絡的整體數據和網絡的局部節點討論兩者之間的差異。

1 語言網絡構建

句法網絡是基于句法理論構建的語言網絡。句法網絡的構建是句法分析結果的直觀反映。句法分析又可以分為短語結構句法分析和依存句法分析[4]。本文的句法分析依賴于依存關系[5]理論。劉海濤等[6]認為依存句法分析比短語結構句法分析更容易發現句子中兩詞之間的關系。依存句法分析的前提是建立能夠輸入的依存句法樹庫。本文所用的樹庫是小型百科語料樹庫,采用表格的形式展示(參見表1)。

表1 依存句法樹庫示例

表中每一行代表的都是一個依存關系,本文采用的文本,共有1 000個詞,475個依存關系。我們以詞為節點、依存關系為邊構建語言網絡。

語義網絡是介于句法和概念網絡的中間層[7],對于語義網絡的特征研究有助于句法和語義之間的轉換研究。語義網絡的研究也是以依存理論為基礎,本文所探討的語義依存理論基于句法依存分析,是句法依存分析朝深度語義理解的進一步發展,并為構建語義網絡提供理論支撐。不同的是,語義分析一般只對實詞進行分析,不包含虛詞。語義依存分析常常建立在句法依存分析的基礎上,從句法分析到語義分析,虛詞是否應該被保留呢?我們知道虛詞在句子中起著經絡的作用[8]。陳芯瑩、劉海濤[9]曾以新聞聯播和實話實說為語料資源,探究虛詞“的”“了”“在p”在句法網絡中的特征,發現“的”是網絡的中心節點;“了”和“在p”是局部網絡節點去掉三個節點后,網絡的平均度、網絡密度、最大范圍均有所降低,平均路徑及直徑增加。虛詞在句法網絡中作為中心節點或者局部中心節點存在,那么在語義網絡中的作用呢?趙懌怡等[3]在進行語義分析的時候,考慮到副詞“不”會影響語義的表達,進行了保留??梢娞撛~會對語義分析產生影響,把虛詞納入語義分析的范疇,分析虛詞在語義網絡中的地位。

語義分析離不開詞的分類問題,這里我們主要討論動詞的分類問題。在句法分析中,動詞按形式分為助動詞、系動詞、趨向動詞、不及物動詞、小句賓語、雙賓動詞等。為了滿足語義分析的需要,我們參考陳昌來[10]對動詞的分類及《漢語動詞概述》[11]對動詞進行了語義分類,分別為動作動詞、存在動詞、使令動詞、趨向動詞、心理動詞、能愿動詞、關系動詞、先導動詞。虛詞等的標記參照劉海濤[6]的句法標注體系,因為其與句法分析中的詞類標記保持一致,可以更直觀地分析虛詞在句法網絡和在語義網絡中的地位。語義標注的方法很多,這里不多贅述,本文主要參考陳昌來對語義角色的標注[12-16]、HowNet[17-18]的動態角色及哈工大LTP[19]的語義角色標注。

依存關系轉換成語言網絡的方法,本文采用的是軟件Cytoscape[注]http://www.cytoscape.org,它是一個專注于開源網絡可視化分析的平臺,核心是提供基礎的功能分布和網絡查詢,并依靠基本的數據形成可視化網絡。它最先應用于生物學領域,顯示分子之間的相互作用[20]。這里我們應用于依存網絡的構建,展現各個語言單位之間的關系。Cytoscape是以兩個節點(source node,taget node)以及一個關系(interaction)為基礎進行的網絡構建[21],這里支配詞作為源節點(source node),被支配詞作為(target node)來處理,關系就是兩個詞之間的支配關系。用表1中的支配詞、被支配詞、支配關系,可以轉換成這樣的語義網絡(如圖1 (b)所示)。本文句法關系的確定主要采用劉海濤[6]關于漢語依存關系的描述,利用Cytoscape同樣可以構建如圖1所示的網絡。

圖1是由12個節點構成的語義網和句法網,箭頭表示各個節點之間的支配關系,箭頭上標注的是各個節點之間的依存關系。對比圖1(a)和圖1(b),雖然節點完全一致,但是由于構造方式的不同,結構存在較大差異,那么網絡的參數是否也有較大的差異呢?

圖1 句法網絡和語義網絡

2 分析結果對比

我們以依存關系為邊、詞為節點,用Cytoscape軟件構建了句法網和語義網。根據Cytoscape的數據對網絡進行整體分析。這里,為了更清晰地看到節點之間的依存關系, 我們采 用的是有向網絡的分析方法。語言網絡的對比主要從聚集系數[7]、最短路徑[22]、平均相鄰節點數、網絡的層級性[23]等方面進行考察,結果如表2所示。

表2 網絡整體數據對比分析

聚集系數C(clustering coefficient)是一種用來衡量網絡聚類傾向或小集群形態的指標,設網絡節點i有k條邊和其他節點相連,那么該節點與這Ki個節點構成了一個子網絡(集群)。而K條邊連接的節點(k個)之間最多可能存在的邊的條數為k(k-1)/2。如果將Ei看作是ki個節點之間實際存在的邊數,那么Ei和Ki最多可有的邊數之比就是節點i的聚集系數Ci,如式(1)所示。

那么整個網絡的聚集系數C就是所有節點聚集系數Ci的平均值,如式(2)所示。

聚集系數是衡量網絡集團化程度的標準,聚集系數越高說明各個節點之間的聯系越緊密。由表2我們可以知道: 句法網的聚集系數比語義網高,直徑比語義網的直徑小。

最短路徑d指的是網絡中任意兩點的最短路徑,這里Cytoscape給出的是任意兩個節點之間的最短路徑數和最短路徑在總路徑中的百分比。句法網的最短路徑數占35%,語義網的最短路徑數占27%。

特征路徑長度(平均路徑長度)cpl指任意兩個節點的距離的平均值。設兩個任意節點分別是i、j,這兩個任意節點之間的距離為dij,網絡的節點數為N,則:

特征路徑的長度與節點之間的距離有關系,無向網絡節點之間的距離就是兩點之間最短路徑所包含的連線數,有向網絡節點之間的距離是一個節點指向另外一個節點之間的距離,并且在相反方向上距離不同。若把網絡看作有向網絡,那我們發現語義網的特征路徑長度遠大于句法網。

“網絡的層級結構,可以用網絡的聚集系數和節點度的相關性來表示,這種相關性C(k)表示的是度為k的所有節點的平均聚集系數”[7],計算如式(4)所示。

其中Nk為節點度為k的所有節點總數,δki,kj為克羅內克符號(Kronecker),當ki=kj的時候,即任意兩個節點i,j的節點度相同,那么克羅內克符號的值就是1,當ki≠kj時,即兩個節點的節點度不同的時候,那么符號的值就是0(不執行求和)。在許多真實的網絡中,如果節點度k變大,節點聚集系數C(k)按照冪率衰減,那就說明網絡的層級性比較明顯,即低節點度節點,其鄰節點互聯的概率較大,而高節點度的節點,其鄰節點互聯概率較小,如圖2所示。下面我們通過數據的計算對比句法網和語義網層級性明顯程度的差異。

圖2 句法網與語義網節點度與聚集系數的相關性

圖中,橫軸表示節點的度(k),句法網中節點最高的度為94,語義網中節點最高的度也是94,我們把最大節點度設為100??v軸表示平均聚集系數,計算方法為節點度相同的節點聚集系數的和/這些節點的個數。圖中的擬合線表示圖表的整體趨勢,即是節點度k與節點度為k的平均聚集系數的相關性。

句法網和語義網點度與聚集系數之間的相關性都不是特別明顯,但是兩者的相關性一致。劉海濤[7]曾在統計語義網中節點度與聚集系數的相關性時發現,節點度為1的節點可能是導致網絡層級性差的原因。虛詞進入語義網絡以后,語義網和句法網的層級性保持一致,可能是因為虛詞的存在增強了語義網絡的層級性。

節點的相關性表示一個節點的度與其相鄰的節點度之間的相關性,我們可以用平均相鄰節點度(K-Nearest Neighbor,KNN)來衡量網絡節點之間的相關性。一般來說,如果在一個網絡中,節點度數大(小)的節點常常與節點度數大(小)的節點連接,那么我們認為這個網絡是正相關(assortativity)。相反,如果節點度大(小)的節點常常與節點度數小(大)的節點連接,那么這個網絡就是負相關(disassortativity)[20]。

我們可以選擇一個節點度為k的節點,然后統計這個節點與其相鄰節點之間的相關性,如果隨著k的變大,相鄰的節點度也變大,則表明這個網絡是正相關的;如果隨著k的變大,相鄰的節點度變小,則表明這個網絡是負相關的;如果擬合線的斜率傾向于0,則表示網絡的節點間缺乏相關性。為了統計的方便,我們以節點度k為橫軸,鄰居節點的聯通度為縱軸。鄰居節點的聯通度可以用Cytoscape中對節點的鄰居節點的平均度(neighborhood connectivity)進行統計,圖中標記為NC,如圖3所示。

圖3 句法網和語義網節點度相關性

句法網中擬合線的斜率為-0.13,這說明句法網中的節點與相鄰節點的聯通度成負相關的關系,語義網擬合線的斜率接近于0,節點之間的相關性并不明顯。在句法網中,實詞和虛詞之間的關系緊密,節點與節點之間反映的是實詞與虛詞之間的關系。語義網中,虛詞只能充當被支配詞,節點與鄰居節點的相關性不強。我們有理由推斷虛詞是造成網絡相關性差異的原因。

通過對網絡整體性參數的對比分析,我們發現語義網和句法網在聚集系數、最短路徑長度、節點度的相關性都存在著差異,這說明網絡構造方法的不同會對參數產生影響。

節點度是一個節點所擁有的連線(依存關系)的數量,如果把網絡看作是一個簡單無向圖,那么節點的度就是與其相鄰的節點的數量。一個節點的度就是對其領域的規模的大小的一種測量。高節點度的節點往往位于網絡的中心或者局部網絡的中心。陳芯瑩、劉海濤[9]發現虛詞“的”“了”“過”等虛詞可能是句法網絡的中心節點,那么這些虛詞在語義網中是否也可能是中心節點呢?

節點的聚集系數(云集系數)表示在該節點的鄰點中,直接相連的鄰點對占所有鄰點對的比例。它是衡量該節點與相鄰節點之間的連通程度、反映節點之間關系的緊密度的參數。中介中心度(betweenness centrality)指在網絡中所有節點之間的測地線[注]無向網絡中,兩個節點之間的距離,就是兩點之間最短路徑所含的連線數。平均最短路徑又稱測地線。中,經過該節點的測地線所占的比例。一個節點在網絡中起到多大的“中間”的作用就代表著這個節點在網絡中占著多中心的位置。一個節點度不高的節點也可能因為起著中介作用而成為網絡中心或者局部中心。中介中心度和接近中心度都是用來測算節點在網絡中的整體中心度。接近中心度(closeness centrality)指的是其他節點數除以該節點與其他節點的距離之和??偩嚯x越大,接近度的值就越小。

在表3 中,句法網中 “的”的聚集系數、中介中心度均比語義網高,說明“的”的中心地位在句法網中更為明顯。但值得一提的是 “的”在語義網中雖然不起“中間”作用,但是接近中心度與句法網基本持平,平均路徑也很短,我們有理由認為“的”在語義網中的中心地位比較突出。

“和”作為連詞出現在兩個網絡中,節點度、接近中心度較高,平均路徑長比較短,這說明“和”很有可能作為局部中心節點存在?!昂汀痹趦蓚€網絡中的參數基本保持一致性, 這說明“和”在網絡中的地位并不受網絡構建方式的影響。

表3 句法網和語義網中高節點度節點參數分析

量詞“個”在語義網和在句法網中,地位大體相同。在句法網中中介中心度比較高,這說明在句法網絡中,“個”的“中間”作用更為突出。從平均路徑上看,兩個網絡中“個”的平均路徑都很短,這說明“個”可能是處在網絡中心附近的節點。

“是”在兩個網絡中都具有很高的點度、入度和出度,聚集系數也較高,這說明“是”在兩個網絡中的地位重要,并且與鄰居節點的連通性很好。但是兩個網絡中“是”的接近中心度都很小,平均路徑也很長,這說明“是”不可能處于網絡的中心節點,可能作為局部中心節點存在。

為了驗證節點在網絡中的地位,我們統計了觀察剔除節點以后網絡特征的變化。這里主要從平均度(average degree)、網絡的中心度(network centralization)、特征路徑長度(characteristic path length)、孤立節點數(isolated nodes)幾個方面討論。

平均度指的是每個節點平均具有的節點度數。計算方法是各個節點的度數之和與節點數之比。

網絡中心度指整個網絡的中心化程度,中心度在各個節點之間的差異越大,網絡就越中心化,也就是說節點中心度的差異越大,網絡的中心化程度就越高。

特征路徑長度又叫平均路徑長度,指任意兩點之間的平均最短路徑,計算方法見式(3)。

孤立節點指的是節點度為0的節點。這里是去節點之后產生的孤立節點。去節點之后的網絡參數如表4所示。

表4 顯示,去掉“的”之后的,句法網和語義網的平均度、 中心度明顯下降, 特征路徑長度變長,產生了8個孤立節點。去“的”之后,語義網絡的中心度變小了,但是變化程度遠遠低于句法網去“的”之后。原因是“的”在句法網中接近中心度更高,去掉之后,各個節點之間的差異性會變小,但是在語義網中,“的”的接近中心度不高,對各個節點之間的差異影響不大。“的”去掉之后,語義網的特征路徑變長,中心度降低,這說明“的”在語義網中雖然不占據中心位置,但仍然與其他節點保持著聯系。去掉虛詞“的”導致語義網的參數發生了變化,這說明“的”在語義網中的重要作用。

表4 去節點之后網絡參數分析

去掉“是”之后,兩個網絡的平均度、中心度和密度均降低了,平均路徑都增加了,網絡直徑都保持不變,孤立節點數都是5。節點“是”在句法網中的中心度降低了0.4%,語義網中降低了1%,這說明去掉“是”以后,語義網中節點之間的差異在語義網中變得更小,“是”在語義關系連接中具有更強的中心節點功能,這很可能說明節點“是”在語義網中比在句法網中更占據中心的位置。當然,這需要用更大的數據庫來驗證。

剔除節點“和”之后,兩個網絡的中心度都變大,句法網中增大幅度為0.4%,語義網增大了1%,網絡的中心度變大,說明“和”在兩個網絡中都不處于中心節點的位置,但是節點“和”在語義網中的重要性要弱于句法網。

去“個”之后,兩個網絡的平均度下降,中心度和特征路徑長度均變大,產生了兩個孤立節點。網絡的中心度表示的是網絡中各個節點之間的差異程度,差異越大,中心度越高。去掉“個”之后中心度變大,說明網絡節點之間的差異變大,網絡的集中度變高,也就是“個”在兩個網絡中的存在影響了網絡的集中度。

3 總結

把虛詞納入語義分析的范疇,用同一文本構建語言網絡,是從句法依存分析到語義理解的進一步發展。虛詞只具有功能性意義,但是卻會對語義分析產生影響。通過對語義網和句法網的參數分析發現,虛詞“的”“個”“和”在語義網中具有同樣重要的地位。本文研究的意義在于討論虛詞在語義網中的地位,初步研究句法到語義完全轉換。接下來本研究還會在此基礎上進一步擴大語料,探究更多虛詞在語義網中的作用。本文在建立包含虛詞的語義處理框架之后,對網絡進行了對比分析,以求進一步推動從句法到語義之間的完全轉換研究。

猜你喜歡
句法語義分析
句法與句意(外一篇)
中華詩詞(2021年3期)2021-12-31 08:07:22
述謂結構與英語句法配置
隱蔽失效適航要求符合性驗證分析
語言與語義
電力系統不平衡分析
電子制作(2018年18期)2018-11-14 01:48:24
句法二題
中華詩詞(2018年3期)2018-08-01 06:40:40
詩詞聯句句法梳理
中華詩詞(2018年11期)2018-03-26 06:41:32
電力系統及其自動化發展趨勢分析
“上”與“下”語義的不對稱性及其認知闡釋
現代語文(2016年21期)2016-05-25 13:13:44
認知范疇模糊與語義模糊
主站蜘蛛池模板: 亚洲一级毛片在线播放| 精品色综合| 欧美一区国产| 国产精品真实对白精彩久久| 欧美日韩国产在线人| 99热这里只有精品国产99| 亚洲乱强伦| 久久精品无码专区免费| 亚洲伦理一区二区| 伊人久久婷婷| 无码'专区第一页| 先锋资源久久| 国产一级毛片yw| 一级毛片在线免费视频| 午夜啪啪网| 欧美午夜网| 五月天久久综合| 亚洲最大情网站在线观看| 国产亚洲美日韩AV中文字幕无码成人| 国产欧美视频在线| 欧美福利在线观看| 亚洲一道AV无码午夜福利| 久久久久88色偷偷| 国产精品无码久久久久AV| 免费看的一级毛片| 色综合激情网| 99视频国产精品| 日韩精品欧美国产在线| 日本黄色a视频| a级毛片网| 在线免费不卡视频| 91小视频在线| 国产自无码视频在线观看| 91国内视频在线观看| 成人国产精品一级毛片天堂| 亚洲成人网在线观看| 18禁高潮出水呻吟娇喘蜜芽| 一级毛片在线播放免费观看| 一区二区理伦视频| 欧美亚洲一区二区三区在线| 美女无遮挡免费视频网站| 日韩精品一区二区三区视频免费看| 久久福利片| 日韩国产黄色网站| 日本一区二区不卡视频| 久久国产拍爱| 亚洲区视频在线观看| 久久亚洲国产视频| 2022精品国偷自产免费观看| 欧美人与牲动交a欧美精品| 国模视频一区二区| 国产成a人片在线播放| 亚洲中文字幕在线一区播放| 五月婷婷精品| 91免费国产在线观看尤物| 无码中文字幕加勒比高清| 国产对白刺激真实精品91| 久久久国产精品无码专区| 精品视频在线一区| 亚卅精品无码久久毛片乌克兰| 久久亚洲天堂| 毛片a级毛片免费观看免下载| 中国国产高清免费AV片| 久久国产免费观看| 亚洲综合天堂网| 91啦中文字幕| 思思99热精品在线| 国产经典三级在线| 亚洲人精品亚洲人成在线| 婷婷亚洲视频| 日韩在线欧美在线| 99久久国产综合精品2020| 国产成人综合久久| 99热这里只有成人精品国产| 亚洲成人在线免费观看| 精品福利视频网| 亚洲国产精品成人久久综合影院| 呦系列视频一区二区三区| 日本a级免费| 国产一区二区三区夜色| 亚洲综合色婷婷| 国内自拍久第一页|