999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

語言網絡研究進展

2014-02-27 05:50:46王東波路高飛蘇新寧
中文信息學報 2014年1期
關鍵詞:句法語義語言

韓 普,王東波,路高飛,蘇新寧

(1. 南京郵電大學 管理學院,江蘇 南京 210023;2. 南京農業大學 信息科學技術學院,江蘇 南京,210095;3. 南京大學 信息管理學院,江蘇 南京 210093)

1 引言

1998年,Nature上發表了Watts和Strogatz有關小世界網絡的論文[1],1999年,Science發表了Barabasi和Albert的隨機網絡的論文[2],兩篇文章在全球科學領域產生了巨大影響,被認為是復雜網絡研究的里程碑。從數學的角度上講,復雜網絡起源于圖論,數學界稱1736年是圖論歷史元年,因為這一年瑞士數學家Euler發表了圖論的首篇論文《哥尼斯堡七橋問題無解》。傳統條件下,圖論研究的頂點數量往往比較少,現代信息技術的出現,使得圖論得到進一步的發展,借助現代信息技術,可以處理擁有幾萬甚至幾十萬節點的真實網絡。大規模真實網絡是人類社會發展需要解決的問題,正是源于社會的需求,復雜網絡得到社會學、生物學、醫學、物理學、經濟學、信息科學、數學、計算機科學、交通等學科領域研究者的關注[3-4]。

在復雜網絡的研究中,語言網絡作為一個新的研究方向,正在悄然興起。語言和文字是人類文明的起源,也是人類文明出現的兩大標志,作為人類智慧的結晶,也是除了化石之外,最能體現悠久文明和燦爛文化的方式之一。據推測,人類目前有數千種語言[5],傳統語言學一般將其劃分為9大語系。受到地域和文化的影響,同一語言也存在著分化現象。雖然語言種類繁多,但不同語種之間存在著一定的聯系,目前的相關研究尚不能對以下問題進行解釋,幾千種語言之間是否存在共性?不同語言中的規律和淵源如何挖掘?一些小語種語言正在消失,所蘊含的人類智慧如何保留?1949年,哈佛大學語言學家Zipf發現了語言學中的Zipf定律[6],這一定律最初在英語中發現,但隨后的相關研究表明,其他語言一定程度上也符合Zipf定律[7-10],雖然在部分語言中呈現的并不完美[9-10]。對語言研究來說,Zipf定律無疑是一個重大發現,它描述了詞頻和詞序存在著一定聯系,揭示了語言學中的靜態規律,但如果將單詞打亂,詞頻和詞序依然可以滿足Zipf定律,所以這個定律并不能解釋人類語言更為復雜的問題。在語言學界,語言是一種網絡的觀點已經被普遍接受[11-12],由于語言的特點,語言不僅是一種網絡,還是一種復雜網絡[13]。Cancho和Sole首次用復雜網絡的方法研究了英語同現詞網絡。隨后,不同語種中由不同語言單位及其關系構成的語言網絡受到了關注。由于語言網絡的跨學科特點,該領域吸引了一批語言學家、物理學家、生物學家和數學家參與其中。從已有的研究來看,語音、語素、詞匯、短語在不同語言中構成的網絡幾乎均具有真實網絡的一般統計特性,多數網絡在整體上呈現出了典型的小世界特征和無尺度現象,與社會網絡、生物網絡、生態網絡具有類似的特征??偟膩碚f,目前語言網絡的研究已經取得了一定的進展。本文將從語言網絡的特點、常用統計特性、相關模型、語言網絡的分類和研究進展進行論述。

2 語言網絡常用統計特征

語言網絡是復雜網絡的子集,在語言網絡研究中常借鑒復雜網絡的研究方法。一般來說,度、平均最短路徑長度、聚集系數以及中介度是語言網絡常用的統計特征。

度: 度是對節點而言,節點i的度即與該節點連接的其他節點的數目。語言網絡通常是有向網絡,根據節點的指向關系,度又分為出度和入度。節點度是語言網絡最常用的統計參數,度分布是衡量一個網絡無尺度現象的重要特征。

平均最短路徑長度: 在復雜網絡中,節點i與j的距離d(i,j)實際上就是連接節點i和節點j所需的最短路徑長度。大部分真實網絡都具有較小的平均最短路徑長度,在語言網絡中,表示從一個語言節點到另一個語言節點所需要的平均最短路徑長度,該參數是小世界網絡判斷的重要參數之一,常常用來和隨機語言網絡進行對比。

聚集系數: 在圖論中,聚集系數是圖中點傾向于集聚在一起的程度的一種度量。對于語言網絡,該參數呈現了與一個語言節點相連的其他節點中相互直接連接的概率。網絡聚集系數可分為基于全局的和局部的,通常情況下,聚集系數是指全局平均聚集系數。該參數和平均最短路徑長度一起用來判斷小世界網絡。

中介度: 該概念源于分析社會網絡中個體的重要性,1977年由Freeman提出[14],他認為,如果一個節點處于多對節點之間,該節點的度可能會較低,但這個度較低的點可能會起到重要的中介作用,是網絡中重要的節點。中介度衡量了一個節點位于其他節點之間的程度,表示其他節點對其依賴的程度。在語言網絡中,陳芯瑩和劉海濤認為,中介度測量的是一個點在多大程度上位于網絡中其他點的“中間”,一個度數相對比較低的點可能起到重要的“中介”作用,因而處于網絡中心[15]。一個節點中介度測量的是該節點對應的行動者在多大程度上成為“掮客”或者“中間人”,能在多大程度上控制其他節點。一個節點的中介度越大,表明大量語句將通過它,它的作用就越重要。

3 語言網絡相關模型

語言網絡具有哪些特征,屬于什么類型,與其他類型的網絡有哪些不同,這是語言網絡研究首先要關注的基本問題。在語言網絡研究中,多種網絡被證明具有小世界模型和無尺度模型的特征,為了判斷語言網絡的類型,往往會與其他網絡模型等進行比較。這里僅列出語言網絡研究中常涉及到的幾個模型。

隨機網絡模型: 該模型是隨機圖論在網絡中的進一步發展。隨機網絡是在給定一個概率p的情況下,對網絡中任意兩節點間的可能連接,都嘗試以概率p進行連接。經典的隨機網絡模型是Erd?s和Rényi提出的ER隨機網絡模型。真實的語言網絡模型并不是ER模型,但在語言網絡研究中,為了界定語言網絡的類型,突出語言網絡的特征,在整體特征統計分析時,往往與ER隨機網絡進行比較??陀^世界中,一個真實網絡具有小世界現象的一個體現是其最長路徑長度D≈Drand。小世界現象是真實網絡的一個重要特征,但真實網絡與ER隨機網絡的一個重要區別是聚類系數C?Crand。

小世界模型: 該模型是一個總稱,當一個網絡滿足較高的聚集系數和較短的平均最短路徑等條件時,便可以稱為小世界網絡。在語言網絡中,小世界網絡一般是指1998年由Watts和Strogatz 在Nature中提出的基于人類社會網絡的網絡模型。他們最早生成了具有高聚集系數和最短路徑長度的網絡,該網絡也稱WS小世界模型。語言網絡大都符合WS小世界模型,大多數節點只需經過少量的邊便可到達。在聚集系數上,與隨機語言網絡相比,真實語言網絡的聚集系數較高。

無尺度網絡模型: 無尺度網絡是物理學領域的一個專業詞匯,統計物理學家習慣于把服從冪律分布的現象稱為無尺度現象,相應的網絡稱為無尺度網絡。度分布是判斷無尺度網絡的重要特性,在大量的真實網絡實驗中,度分布呈現出無尺度現象,度分布一般對兩邊取log做圖。其分布可用函數P(k)來描述,P(k)表示的是一個隨機選定的節點的度為k的概率。即P(k)為網絡中度為k的節點占節點總數的比例,見式(1)。

為了減小度分布曲線尾部噪音的干擾,也可以采用累積度分布函數Pk表示累積度的分布。大量真實語言網絡被證明具有冪律度分布的現象,是一種無尺度網絡。換言之,語言網絡具有成長性和優先連接性,可以將分散的節點組織起來,形成穩定有意義的系統。

4 語言網絡分類及研究進展

在復雜網絡研究基礎上,語言網絡研究已經取得了一定進展。由于語言網絡具有典型的跨學科特點,其研究分散在多個學科中,如語言學、數學、物理學、生命科學和信息科學。如何全面了解語言網絡的當前研究成果和研究進展,對語言網絡進行合理分類是必要的。目前語言網絡并沒有統一認可的分類,從不同的角度,可將語言網絡劃分為不同的類型。根據網絡是否有向,可分為有向語言網絡和無向語言網絡;按照是否有權重,可分為加權語言網絡和無權語言網絡;按照網絡構建來源是否真實語料,可分為靜態語言網絡和動態語言網絡,如基于詞典資源的靜態語言網絡,基于真實文本語料的動態語言網絡。在當前多種語言網絡研究基礎上,從語言單位構成并結合目前語言網絡主要關注方向,本文將語言網絡劃分為語音網絡、共現網絡、依存句法網絡、語義概念網絡,對于沒有包含在4種網絡中的,稱為其他語言網絡。目前語言網絡繁雜,本分類中前四種網絡可以涵蓋大部分的研究,對于部分關注較少,或者僅在某一語言中存在的語言網絡,即在4種語言網絡之外的網絡,本文一并稱為其他語言網絡,具體見圖1。

圖1 語言網絡結構圖

將語言網絡進行合理的劃分對語言網絡研究具有重要意義,首先,通過對語言網絡研究的系統梳理,有助于研究者全面了解語言網絡當前的研究現狀。其次,對于不同領域研究者,可以結合自己的研究方向,選擇語言網絡的一個或幾個子領域,有針對性的深入研究。本文將對以上幾類語言網絡分別進行詳細介紹。

4.1 語音網絡

語音系統是人類重要的交流系統,在溝通交流中扮演著重要角色。從語言的觀點來看,語音是最微觀的范疇。音節是聽覺能感受到的最自然的語音單位,音素是最小的語音單位或最小的語音片段,是音節的組成部分。雖然目前世界上有幾千種語言,但音素數量卻要小的多,不同語言的發音差異較大。語音系統在整體上有什么特點?是否有共性?對于這些問題,研究者從復雜網絡的角度對音節、音素等語音網絡進行了探究。

Medeiros和Corso等基于葡萄牙語詞典和作家作品全集,構建了葡萄牙語的音節網絡[16],網絡節點為葡萄牙語音節,節點的連接以兩個音節是否可以組成詞為依據,統計參數表明該網絡具有較高的聚集系數和較短的平均距離,該網絡的冪指數γ≈1.4,葡萄牙語音節的增長符合優先增長模型。Peng和Minett等基于普通話詞典和粵語詞典,分別構建了普通話和粵語的基本音節網絡和音調音節網絡[17],該方法與Medeiros采用的方法類似,以音節為節點,以兩個音節是否可以組成漢語中的詞建立音節之間的邊。如“火車”漢語拼音為“huo3 che1”,粵語拼音為“fo2 ce1”,漢語音調音節網絡中“huo3”和“che1”為節點,其相鄰連接“huo3”和“che1”為網絡的邊,粵語音調音節網絡構造與漢語類似,這些網絡都表現出了隨機網絡所不具有的,但真實網絡所具有的特征,度分布符合無尺度分布,具有較高的聚集系數,表明漢語音節網絡是一種小世界網絡和無尺度網絡。Arbesman和Strogatz等基于詞典研究了英文、中文等6種語言的音位網絡[18],發現音位網絡具有與其他網絡不同的特點,在度分布上介于指數分布和冪律分布之間。于水源、劉海濤利用漢語字典、漢語詞典和兩組真實語料,分別從字、詞和句子的角度,以漢語音素為節點,相鄰音素構造有向邊,如“甘”包含三個音素“k”、“a”和“n”,共包含兩個有向邊“k→a”、“a→n”,構建了6種漢語音素網絡[19]。結論發現音素網絡有相當高的度和更短的平均路徑,音素的度分布符合指數分布,但有權音素網絡度分布符合無尺度分布,表明語音網絡是一種穩定的網絡系統。

語音網絡主要以靜態網絡為主,動態語音網絡研究較少。通過多組語音網絡的研究,可以發現語音網絡整體上的特點,多種語言之間呈現出了比較接近的特征,但與字詞等其他類型語言網絡有不同的特征,尤其是在度分布上??梢哉J為語音網絡是一種特殊結構的網絡,這種結構保證語音系統是一種高效并且有效的人類交流系統[19],是人類語音在進化過程中逐步演變的結果。通過語音網絡研究,有助于認識語音系統的組織結構,了解人類在語音上的認知機理以及語音交流系統的原理。

4.2 共現網絡

共現網絡是基于真實語料而構建的網絡,不同語料構建的網絡會有所差異。共現網絡具有動態性,屬于典型的動態網絡。按照共現網絡節點的構成,還可以進一步劃分為字共現網絡和詞共現網絡。詞共現網絡不論是在表意文字還是表音文字中均可構建,字共現網絡存在于漢語等表意文字中。較早采用復雜網絡方法構建的語言網絡是英文詞共現網絡[11]。共現網絡構造比較方便,尤其是對于英文等不需要分詞的語言,非常容易構建詞共現網絡,不需要大量的語言學知識支持,只需考慮共現關系,相關的研究也比較多。

對于共現關系,也有不同的理解,最簡單的共現是鄰接關系,也可以將共現理解為在一個句子中同時出現。Cancho和Sole認為,在一個句子中出現的詞是有關系的,多數共現關系是有語法聯系的,最相關的詞一定是距離最近的。他們基于BNC語料庫,將同現的距離控制在2以內,構建了英語的共現詞網絡[11],該網絡平均最短路徑在2.6左右,與隨機網絡相比,表現出明顯的無尺度特性和小世界效應。Dorogovtsev和Mendes認為,相互連接的詞可以用復雜網絡來描述,并且根據句子中詞的共現關系,提出了一個語言演變的模型[12],該模型將語言視為詞之間的自組織網絡。Choudhury和Chatterjee等對涵蓋了3大語系的7種語言[20](英語、法語、德語、孟加拉語、愛沙尼亞語、印地語、泰米爾語)構建了詞共現網絡,通過整體拓撲特征進行深入比較,揭示了7種語言網絡的共同特征,并進一步研究了共現網絡的譜特征。

在中文詞共現研究中,劉知遠和孫茂松在1 300萬詞次的《人民日報》語料和5 000萬字左右的人工分詞語料庫基礎上構建了漢語的詞共現網絡[21],得到漢語詞共現網絡的平均最短路徑在2.63~2.75之間,聚類系數遠大于相同參數下的隨機網絡,揭示了漢語在詞共現網絡上的小世界效應和無標度特性,表現出了與英語共現詞網絡類似的性質。Zhou和Hu等在1998年1月份的《人民日報》語料基礎上,采用不同方法構造了兩種漢語詞無向同現網絡[22],一種是鄰接距離為1的網絡,一種是只要兩個詞匯在一個句子中同時出現,則認為兩個詞節點存在連接的網絡,并且考慮了不同詞性的情況,結果兩個網絡均呈現出小世界效應、無尺度特征、層次結構和負相關性,在整體特征上和其他語言網絡相似。

和英語等表音文字相比,漢語是表意文字,在構建語言網絡上有更多選擇,在沒有分詞的情況下,還可以構成字共現網絡。Peng和Minett等基于詞典資源,根據漢語詞匯中的共字關系構建了漢字網絡[17],由漢字構建的網絡表現出明顯的高聚集系數和無尺度特征。Liang和Shi等對散文、小說、科普文章、新聞報道4種體裁的中文和英文語料,分別構建了英文詞共現網絡、中文字共現網絡和詞共現網絡[23],從復雜網絡角度揭示了3類語言網絡的共性和個性,其共同之處是均滿足無標度特征和小世界現象,不同之處在于從某種程度上英文的表達要比中文更為簡潔。Liang和Shi等還對中國歷史上不同歷史時期的漢字網絡進行了對比研究[24],發現99.6%的漢字網絡具有無尺度特征度分布,95.0%的漢字網絡有小世界的現象。Sheng和Li構建了英文詞共現和中文字共現的有權網絡[25],語料分別來自George Orwell英文版小說《一九八四》和中文版的《毛澤東傳記》,結果發現兩個網絡不僅呈現出無尺度等共同特征,還呈現出顯著的不同,中文字共現網絡中高權重連接要高于英文詞共現網絡。

此外,詞共現網絡還被用來研究語言的演化,Ke和Yao基于英語兒童對話語料,采用詞共現方法構建了不同兒童的語言網絡[26],從網絡視角研究了兒童語言的發展。

構建詞共現網絡需要滿足一個重要假設,即Cancho和Sole在構建BNC英語詞共現網絡時的假設[11],在一個句子中以鄰接關系出現的兩個詞匯是有一定聯系的。詞共現網絡的每一個節點都是有意義的語言單位,通過調節詞共現的距離可以構造一個句子內部詞匯之間的連接,雖然很難將詞共現稱為句法網絡,但鄰接詞之間的確有一定的意義。字共現網絡主要以漢語為代表,漢語是典型表意文字,具有獨特和優美的結構,有強大的組合能力,古漢語中一個字往往可以表達一個完整的含義,但現代漢語由一個字表示完整詞意的比較少,多是由組合詞來表示詞意。漢語字共現網絡的構建可以像英文詞共現網絡一樣,不需要分詞處理,這對于漢語研究來說,所構建的網絡更為客觀,往往可以用來探索詞匯的形成以及字詞的演化。

4.3 依存句法網絡

依存語法理論的創立者,法國語言學家Tesnière認為句子是一個有機的整體,詞和鄰近詞會產生聯系,這些聯系構成了句子框架,并認為“謂語”中的動詞是句子的中心,不受其他成分支配,其他成分與動詞直接或間接地產生聯系。圖2是依存句法的示例。

圖2 依存句法中英文示例

在圖2中,箭頭代表句法上的一種支配關系,支配者在箭頭起點,被支配者在箭頭終點。Cancho和Sole等給出了依存句法網絡(SDN)的描述[27],SDN是一種有向網絡,每個單詞構成網絡的節點,網絡的有向邊由存在依存關系的詞進行連接。Cancho在依存句法基礎上,構造了3種歐洲語言(德語、羅馬語、捷克語)依存句法網絡[28],從度分布、層次組織、中心性、聚集系數和負相關性等幾個統計特性進行了分析,發現3種語言的句法網絡具有與其他語言網絡類似的特性,并且在一些細微的模式上表現出同質性。

劉知遠、鄭亞斌和孫茂松利用清華大學100萬詞的句法標注樹庫,在依存句法基礎上,構造了漢語依存句法有向網絡[29],得到了漢語依存句法網絡平均路徑長度=3.8,聚集系數C=0.13,出度和入度的累積度分布均具有無尺度特征。劉海濤對20種語言的依存句法網絡進行了統計,發現相鄰接的詞只有50%左右是語法相關的[30],并認為用依存句法來構造語言句法網絡是最合適的[30],用鄰接詞構建的語言網絡沒有充分的語言學知識支持,缺乏合理的解釋。劉海濤在新聞聯播和實話實說兩種不同體裁的漢語依存樹庫基礎上[31],以依存句法為基礎[32],構造了不同體裁的漢語語言依存無向網絡,該網絡中,每個詞作為節點,每個支配關系作為網絡的邊。通過對網絡直徑、平均最短距離、聚集系數和冪律等參數的統計分析,表明兩個漢語依存網絡均屬小世界網絡,其度分布符合無尺度特征,平均最短路徑長度在3左右,累積度分布的冪律指數分別為2.40和2.18,與劉知遠等對漢語依存句法網絡研究結果非常接近。劉海濤還對中文、英文等15種語言的依存句法網絡進行聚類研究[33],得到平均最短路徑長度在2.755—3.938之間,冪律指數在1.077—1.353之間。雖然15種語言網絡均是小世界網絡,但聚集系數存在顯著差異,通過選擇網絡的7組特征,對15種語言進行了聚類,發現英語和漢語網絡整體上比較接近。

依存網絡句法結構本身簡便,與共現網絡構建相比,依存網絡的構建需要依存句法標注,顯得稍微復雜。和共現網絡相比,依存句法能夠較好展現詞與詞之間的句法關系。雖然基于詞共現的語言網絡比較易于構建,但卻忽略了詞與詞之間的句法和語義的關系?;谝来婢浞嫿ǖ恼Z言網絡比基于詞共現構建的語言網絡更具有語言學特征,依存句法網絡更容易獲得語言學領域的認可。目前依存句法網絡研究和其他語言網絡研究一樣大多停留在宏觀層面上,需要進一步的深入探索。另外,依存句法網絡也存在一些問題,一方面,依存句法網絡需要依存句法分析,單純的依存句法損失了節點的順序關系,不利于語言的生成;另一方面依存句法構建的網絡和人腦的認知網絡是否最為接近,還有待進一步探究和證明。此外,句法網絡和詞共現網絡在整體的特性上也有很多相同之處,其原因也有待于進一步探索。

4.4 語義概念網絡

語義概念網絡是從語義層面上構建的較為深入的語言網絡。根據網絡構建資源的不同,語義概念網絡可分為靜態語義概念網絡和動態語義概念網絡。靜態語義概念網絡利用概念詞典資源構建,動態語義概念網絡基于真實標注語料構建。靜態語義網絡較為常見,該類型網絡的一個典型特征是靜態性,其構建資源并不是真實語料。根據詞典資源的不同,還可以進一步劃分,基于同義詞詞典可以構成同義詞網絡,基于概念詞典可以構成概念網絡。詞典資源便于獲取并且精確度相對也比較高,相關的研究較多。

Sigman和Cecchi基于Wordnet概念詞典,構造了基于WordNet中名詞語義網絡[37],該網絡以詞典中的名詞為節點,以名詞之間的4種連接關系(上位關系hypernymy,反義關系antonomy,部分關系meronomy,一詞多義關系polysemy)作為語義網絡的邊,研究發現WordNet本身就是一個自組織系統,遵從無尺度分布,并發現一詞多義對構建整個語義網絡有重要作用。Motter和de Moura等基于Moby II同義詞詞典,構建了英文概念網絡[38],該網絡以單詞為節點,以單詞之間是否有同義關系構建網絡的邊,發現該網絡具有較高的聚集系數(C=0.52)和較短的平均路徑長度(=3.16),具有典型的小世界特征,并且冪律分布呈現兩個區間,在度分布高區間呈現出無尺度現象。Holanda和Pisa等在Motter的基礎上,進一步研究了同義詞詞典的構成[39]。Steyvers和Tenenbaum等基于WordNet、Roget同義詞詞典和Free Association Norms詞典分別構建了3種語義網絡[40],從最短路徑、稀疏性、度分布等5種網絡特性上對3個語義網絡進行了對比分析,發現通過不同方式構建的語義網絡,均呈現出真實網絡的特征,具有小世界性和無尺度特征,根據語義網絡呈現出的特點,作者還提出了一個簡單語義網絡增長模型。Tang和Zhang等構建了基于HowNet的漢語語義網絡[41],發現基于HowNet的中文語義網絡具有與WordNet和Roget詞典網絡類似的特征,具有較短的平均路徑長度和較高的聚類系數,屬于典型的小世界網絡,具有無尺度現象,但在具體參數上與WordNet并不完全相同,存在一定差異。

基于詞典的語義網絡是靜態的,所反映的現象并不完全是語言在真實交流過程中的呈現,但由于動態語義標注語料較困難,動態語義概念網絡的研究較少。劉海濤通過對真實語料進行語義角色標注,構造一種節點為實詞、連接為語義或論元關系的網絡[42],研究了漢語的動態語義概念網絡的整體特征。雖然研究結果表明漢語動態語義網絡也是小世界和無尺度的,但在一些特征上與依存句法網絡和靜態語義網絡有所不同。

與共現網絡和句法網絡相比,語義網絡是一種更為復雜的網絡。靜態語言網絡反映了概念之間的語義關系,如同義關系、上下位關系等。靜態語言網絡可以從一定角度上通過揭示這些語義關系來研究人腦中知識網絡的形成,對語義詞典的構建和人類認識的探索有一定幫助?;谡鎸嵳Z料的動態語義概念網絡,反映的是在真實環境中人類語言交流中的語義關系,可以用來研究語義產生的機理,深入了解動態的概念交流網絡。

4.5 其他語言網絡

盡管語言網絡類型較多,但相關研究主要集中在前面提到的4種網絡上。除此之外,還有一些語言網絡,關注度較少,或者僅存在于某一語言中。例如,漢語中的字結構網絡,這在英語等表音文字中是不存在的。根據漢字的構成,Li和Zhou對新華字典中6 652個漢字進行了拆解,構造了漢字的部首網絡[43],如“按”可以拆分成“扌”和“安”兩個部首節點,由于兩個部首可以組成漢字,那么這兩個節點之間存在連接,研究揭示了漢字部首網絡具有與其他真實語言網絡同樣的特性。另外,根據漢語詞組的組成,Li和Wei構建了漢字詞組網絡[44],該網絡將詞組作為網絡的節點,若兩個詞組節點中出現同一個漢字就認為它們有一條連接,如“網球”、“網絡”、“絡繹不絕”便可以構建3個節點兩條邊的詞組網絡,研究發現漢字詞組網絡的平均最短路徑和聚類系數與英語單詞網絡類似,到達另一個詞組的平均距離為3,具有典型小世界特性。此外,王建偉和榮莉莉對清華紫光數據庫中兩個字組成的詞構建了中文字網絡[45],他們以選取的7 440個漢字作為網絡中的節點,以詞中相鄰漢字為網絡的邊,研究表明中文字共現網絡具有真實網絡的統計特性(γ=1.15,C=0.451 6)。

通過對語言網絡研究的系統梳理,我們發現,從語言最基本單位音素到句法結構,均可構建相應的語言網絡。從各種語言網絡的研究結果來看,依據不同方法、不同資源構建的語言網絡幾乎均屬于小世界網絡并且具有無尺度特征,與其他復雜網絡具有類似的整體特征,但在具體特征參數上,存在著差別,這些共性和個性可以總結如下:

首先,語言是人類智慧的結晶,語言網絡具有與隨機網絡不同的特征。通過多種語言網絡的研究表明,無尺度特性和小世界現象在語言網絡中普遍存在。語言網絡的無尺度特征表明,在節點數量龐大的各種語言網絡中,發揮著重要作用僅有少部分節點。小世界現象表明,語言網絡和社會網絡一樣,一個節點到另外一個節點的最短距離往往很短。

其次,各種語言網絡在整體上呈現出類似的特性,但不同語言網絡之間存在著差別,如部分語音網絡的度并不完全符合冪律分布,漢語音素無權網絡的度呈現指數分布[19]。在語言網絡其他統計特征上,也存在顯著差異,如在凝聚度和最短路徑方面,和靜態語義概念網絡相比,動態語義概念網絡凝聚度偏低,平均最短路徑較長,所組成的網絡顯得更為松散。對于動態語言網絡,不同的體裁、語種構建的網絡也有所區別,這些都表明語言網絡不僅可以從整體上衡量語言的特性,還可以用來研究語言的個性化和相似性。

從音素、音節、字、詞、短語、句法到語義、概念,語言網絡研究層次在逐漸加深,但對于人類語言中的復雜問題依然沒有進行很好的解釋,哪種語言網絡更貼近人類在語言交流時的語言系統,語言表達中詞匯究竟是如何組織的,靜態語義概念在人類大腦中如何存儲,目前的語言網絡研究還不能回答這些問題。

5 語言網絡研究展望

作為復雜網絡的一個子領域,語言網絡剛剛出現10年左右的時間,已經在國際上產生了一定影響力的研究,受到了物理學、語言學、信息科學等多個領域的關注??偟膩碚f,語言網絡研究進展可以總結為以下幾點。

1) 語言網絡研究開創了語言學研究新方向

作為一門以經驗為基礎的學科,語言學在19世紀中葉開始成為一項獨立的研究,它是以其自身特征、規律作為學科對象進行研究的一門學科。語言學的研究方法主要以定性、定量或定性結合定量為主,復雜網絡為語言學研究提供了一個全新的視角,借助現代信息技術,將語言作為一個系統,從整體和局部挖掘語言的規律,呈現語言節點之間的動態連接性,是對當前以字、詞、短語、句子和篇章范疇的語言學研究的深化。

2) 當前時期是語言網絡研究的黃金時機

語言學規則是通過語言學專家根據經驗和內省的知識總結,存在著一定的局限性。面對浩瀚的語言文本,只能窺一面而不能知全貌,信息技術可以為超級復雜網絡的運算提供便利途徑。此外,網絡上大量的電子資源為語言網絡研究提供了豐富語料來源。

3) 語言網絡已經取得了一定研究成果

從已有研究來看,語言網絡研究已經發現了之前所沒有關注的研究領域。將人類語言作為一個整體系統,揭示了語言作為一個有機系統具有真實網絡的特征,發現了語言的一些共性,如語言網絡中的核心節點在整個網絡的構成中發揮著重要作用;超越單個以句子為單位的分析;一個語言節點對整個語言網絡都有一定的作用;語言網絡不同于隨機網絡;語言網絡的鄰接節點發生連接的概率要遠大于隨機網絡等。

4) 語言網絡有別于其他網絡

雖然目前的研究從多種角度揭示了語言網絡具有和大部分真實網絡一樣的特征,但不能忽視語言網絡與其他網絡的不同之處。如引文網絡是一種獨特的網絡,一種典型的不連通網絡,從時間上說,被引文獻節點一般只能出現在引文的時間之前。語言是一種有向網絡,如果構建的是無向語言網絡,這樣就忽視了詞的先后順序的問題,而詞的先后順序是影響語言生成機制的重要因素。所以在研究網絡共性的同時,不能忽視語言網絡的個性,這些個性特征對于語言的識別和區別均是關鍵問題。

5) 語言網絡研究是一門跨學科的研究

語言網絡研究屬于典型的跨學科研究,不是一個學科所能解決的問題,需要將語言學、物理學、數學、信息科學、計算機科學、認知科學等多個學科知識融合起來。目前來自物理學、數學、計算機科學的研究者對該領域進行了關注,語言學領域的研究者還比較少。不同學科的關注視角也有所不同,物理學、數學注重網絡機理研究,語言學偏重于從定性的角度進行研究。目前這些領域的研究還是基本處在孤立的狀態,未能真正實現多學科的交叉融合。語言網絡研究的時期已經來臨,迫切需要多學科領域的研究人員進行協作研究,解決目前語言中還難以回答的問題。

6) 構建合適的語言網絡

究竟采用什么樣的方式構建語言網絡是合適的,這個問題又回到了語言網絡的本質問題上,采用復雜的方式還是采用簡便的方式,雖然在依存句法關系中,僅有50%左右的連接屬于鄰接詞,但依存網絡就是在真實交流系統中,反映在人腦中的語言網絡嗎?可以直接用于失語癥患者的治療嗎?如果不是真實網絡,那么到底有多接近呢?經驗語言學還回答不了這些問題,筆者認為,從認知的語言角度,如果能結合真實環境下的人腦所建構的語言復雜網絡,應該有更大的應用前景。要想更深入研究人腦中的語言網絡,需要認知語言學和心理學領域的結合,而不僅僅是局限于網絡整體的研究,而應將更多的研究著眼于局部細節。

7) 語言網絡研究還有待深入

目前的語言網絡研究主要還停留在整體層面,針對語言網絡內部結構的深入研究還非常少,目前語言學界等領域的研究者已經意識到該問題,逐漸將目光投向網絡內部。

語言網絡不是一個泛泛的理論研究,相關研究已經應用于信息檢索[46]、機器翻譯[47]、詞義消歧[48]、自動文摘[49]、關鍵詞提取[50]、情感分析[51]、失語癥患者治療研究[52]等領域。語言網絡的研究才剛剛起步,我國學者已經緊隨這一潮流,目前在語言網絡領域中已經占有一席之地,尤其是在漢語語言網絡領域。漢語作為最古老的語言之一,也是目前使用人數最多的語言,其研究不僅可以解決漢語語言中的問題,還對英語、日語等其他語言研究有重要的啟發。我們期待在各學科領域的全力協作下,語言網絡研究能取得一定進展。

[1] Watts D J, Strogatz S H. Collective dynamics of small-world networks[J].Nature,1998,393:440-442.

[2] Barabasi A L, Albert R. Emergence of scaling in random networks[J]. Science, 1999, 286:509-512.

[3] 汪小帆,李翔,陳關榮. 復雜網絡理論及其應用[M].北京: 清華大學出版社,2006.

[4] 陳關榮. 復雜網絡及其新近研究進展簡介[J].力學進展, 2008,38(06): 653-662.

[5] Crystal D. The Cambridge Encyclopedia of Language[M].London: Cambridge University Press, Cambridge, UK, 1997.

[6] George K. Zipf. Human Behaviour and the Principle of Least-Effort[M]. London: Addison-Wesley, Cambridge MA, 1949.

[7] Jayaram B D, Vidya M N. Zipf’s Law for Indian Languages[J]. Journal of Quantitative Linguistics, 2008, 15(04):293-317.

[8] Tuzzi A, Popescu I-I, Altmann G. Zipf’s Laws in Italian Texts[J]. Journal of Quantitative Linguistics, 2009, 16(04):354-367.

[9] 游榮彥. Zipf 定律與漢字字頻分布[J].中文信息學報, 2000, 14(03): 60-65.

[10] Wang D, Li M, Di Z. True reason for Zipf’s law in language[J].Physica A,2005,358(02):545-550.

[11] Cancho R F I, Sole R V. The Small World of Human Language[C]//Proceedings of the Royal Society of London Series B-Biological Sciences, 2001, 268(1482): 2261-2265.

[12] Dorogovtsev S N, Mendes J F F. Language as an evolving word web[C]//Proceedings of The Royal Society of London. Series B, Biological Sciences, 2001,268(1485):2603-2606.

[13] 劉海濤. 語言網絡:隱喻,還是利器?[J]. 浙江大學學報(人文社會科學版), 2011,41(02):170-180.

[14] Freeman L C. A Set of Measures of Centrality Based on Betweenness[J].Sociometry,1979(40):35-41.

[15] 陳芯瑩,劉海濤. 漢語句法網絡的中心節點研究[J].科學通報, 2011,56(10):735-740.

[16] Medeiros Soares M, Corso G, Lucena L. The network of syllables in Portuguese[J]. Physica A,2005, 355(02): 678-684.

[17] Peng G, Minett J W, Wang W S Y. The networks of syllables and characters in Chinese[J]. Journal of Quantitative Linguistics. 2008,15(03): 243-255.

[18] Arbesman S, Strogatz S H, Vitevitch M S. The Structure of Phonological Networks Across Multiple Languages[J].International Journal of Bifurcation and Chaos,2010,20(03): 679-685.

[19] Yu S, Liu H, Xu C. Statistical properties of Chinese phonemic networks[J]. Physica A,2011, 390(07): 1370-1380.

[20] Choudhury M, Chatterjee D, Mukherjee A. Global topology of word co-occurrence networks: Beyond the two-regime power-law[C]//Association for Computational Linguistics, Beijing,2010,162-170.

[21] 劉知遠,孫茂松. 漢語詞同現網絡的小世界效應和無標度特性[J].中文信息學報,2007,21(06): 52-58.

[22] Zhou S, Hu G, Zhang Z, et al. An empirical study of Chinese language networks[J]. Physica A, 2008, 387(12):3039-3047.

[23] Liang W, Shi Y, Tse C K,et al. Comparison of co-occurrence networks of the Chinese and English languages[J]. Physica A, 2009, 388(23): 4901-4909.

[24] Liang W, Tse C K, Huang Q, et.al. Study on the co-occurrence of character networks in Chinese essays from different periods[J]. Science in China Ser. F, 2011,accepted.

[25] Sheng L, Li C. English and Chinese languages as weighted complex networks[J]. Physica A,2009, 388(12): 2561-2570.

[26] Ke J, Yao Y. Analyzing language development from a network approach[J]. Journal of Quantitative Linguistics, 2008,15(01):70-99.

[27] Cancho R F I, Solé R V, K?hler R. Patterns in Syntactic Dependency Networks[J]. Physical Review E, 2004. 69(05): 051915.

[28] Cancho R F I. The Euclidean distance between syntactically linked words[J], Physical Review E, 2004,70(05): 056135.

[29] 劉知遠,鄭亞斌,孫茂松. 漢語依存句法網絡的復雜網絡性質[J].復雜系統與復雜性科學, 2008,5(2):37-45.

[30] Liu H T. Dependency Distance as a Metric of Language Comprehension Difficulty[J]. Journal of Cognitive Science,2008, 9(02):159-191.

[31] Liu H T. The complexity of Chinese syntactic dependency networks [J]. Physica A, 2008, 387(12):3048-3058.

[32] 劉海濤. 依依存語法的理論與實踐[M]. 北京: 科學出版社, 2009.

[33] 劉海濤. 語言復雜網絡的聚類研究[J]. 科學通報, 2010, 55: 2667-2674.

[34] Cancho R F I, Capocci A, Caldarelli G. Spectral methods cluster words of the same class in a syntactic dependency network[J]. International Journal of Bifurcation and Chaos, 2007, 17(07):2453-2463.

[37] Sigman M, Cecchi G A. Global organization of the Wordnet lexicon[C]//Proceedings of the National Academy of Sciences of the United States of America, 2002. 99(03): 1742-1747

[38] Motter A E, de Moura A P S, Lai Y C, et al.Topology of the conceptual network of language[J]. Physical Review E,2002, 65(06):065102.

[39] Holanda A J, Pisa I T, Kinouchi O, et al. Thesaurus as a complex network[J]. Physica A , 2004,344(03-04):530-536.

[40] Steyvers M, Tenenbaum J B. The large-scale structure of semantic networks:statistical analyses and a model of semantic growth[J].Cognitive Science,2005,29(01):41-78.

[41] Tang L, Zhang Y G, Fu X. The Statistic Properties of Chinese Semantic Network in HowNet[C]//Proceedings of NLP-KE’05, 2005,58-61.

[42] Liu H T. Statistical properties of Chinese semantic networks[J]. Chinese Science Bulletin,2009,(16): 2781-2785.

[43] Li J Y, Zhou J. Chinese character structure analysis based on complex networks[J]. Physica A,2007, 380(01):629-638.

[44] Li Y, Wei L, Li Wei, et al. small-world patterns in Chinese phrase networks[J]. Chinese Science Bulletin, 2005, 50(3): 286-288.

[45] 王建偉, 榮莉莉. 基于復雜網絡理論的中文字字網絡的實證研究[J]. 大連海事大學學報, 2008, 34(4): 15-18.

[46] Veronis J. Hyperlex: lexical cartography for information retrieval[J]. Computer Speech & Language, 2004:18(03): 223-252.

[47] Amancio D R, Antiqueira L, Pardo T A S, et al. Complex networks analysis of manual and machine translations[J].International Journal of Modern Physics C,2008, 19 (04):583-598.

[48] Tsatsaronis G, Varlamis I, N?rv?g K. An experimental study on unsupervised graph-based word sense disambiguation[C]//Proceedings of Computational Linguistics and Intelligent Text Processing, 11th International Conference, CICLing2010, Iasi, Romania, March 21-27, 2010: 184-198.

[49] Antiqueira L, Oliveira Jr O N, Costa, et al. A complex network approach to text summarization[J]. Information Sciences,2009,79(05), 584-599.

[50] 趙鵬,蔡慶生,王清毅,等.一種基于復雜網絡特征的中文文檔關鍵詞抽取算法[J].模式識別與人工智能,2007, 20(06):827-831.

[51] 余傳明, 周丹. 情感詞匯共現網絡的復雜網絡特性分析[J].情報學報,2010,29(05):906-914.

[52] 江鐘立, 林楓, 孟殿懷.復雜適應性系統理論在言語認知康復中的應用前景[J].中國康復醫學雜志, 2006, 21(2):183-185.

猜你喜歡
句法語義語言
句法與句意(外一篇)
中華詩詞(2021年3期)2021-12-31 08:07:22
述謂結構與英語句法配置
語言是刀
文苑(2020年4期)2020-05-30 12:35:30
語言與語義
句法二題
中華詩詞(2018年3期)2018-08-01 06:40:40
讓語言描寫搖曳多姿
詩詞聯句句法梳理
中華詩詞(2018年11期)2018-03-26 06:41:32
累積動態分析下的同聲傳譯語言壓縮
“上”與“下”語義的不對稱性及其認知闡釋
現代語文(2016年21期)2016-05-25 13:13:44
我有我語言
主站蜘蛛池模板: 五月婷婷综合色| 99视频只有精品| 亚洲一区二区约美女探花| 成人韩免费网站| 欧美自拍另类欧美综合图区| 欧美在线视频a| 亚洲国产中文在线二区三区免| 麻豆国产精品| 成人综合在线观看| 亚洲成在线观看| 国内精品视频在线| 成人毛片在线播放| 国产区在线看| 曰AV在线无码| 国产靠逼视频| 尤物精品国产福利网站| 在线无码私拍| 亚洲无码精品在线播放| 亚洲欧美另类中文字幕| 一区二区三区国产| 免费人成在线观看视频色| 青青青国产精品国产精品美女| 国产成人精品一区二区秒拍1o| 国产在线视频自拍| 国产网站黄| 亚洲国产成人自拍| 亚洲天堂网在线播放| 玖玖精品视频在线观看| 午夜不卡视频| 亚洲一欧洲中文字幕在线| 尤物成AV人片在线观看| 精品偷拍一区二区| 综合色88| 精品無碼一區在線觀看 | 国产熟睡乱子伦视频网站 | 久久国产精品夜色| 三上悠亚在线精品二区| 国产夜色视频| 香蕉久久国产超碰青草| 中文国产成人久久精品小说| 亚洲美女一级毛片| 欧美激情综合一区二区| 一区二区三区四区精品视频| 欧美激情综合一区二区| 97国产精品视频人人做人人爱| 久久国产亚洲欧美日韩精品| 国产成人精品在线| 热99精品视频| 国产精品美女自慰喷水| 午夜久久影院| 亚洲综合二区| 久久黄色小视频| 91青青在线视频| 久久中文字幕不卡一二区| 动漫精品啪啪一区二区三区| 国产精品美女在线| 国产精品深爱在线| 国产精品蜜芽在线观看| 国产小视频a在线观看| 青青草国产在线视频| 国产91精品最新在线播放| 国产精品成| 国产午夜精品鲁丝片| 天天做天天爱夜夜爽毛片毛片| 亚洲最大福利网站| 久久人体视频| 久久久久九九精品影院| 精品视频在线观看你懂的一区 | 亚洲最新在线| 欧美亚洲综合免费精品高清在线观看| 久996视频精品免费观看| 波多野结衣第一页| 国产精品美女免费视频大全| av无码久久精品| 国产综合精品一区二区| 亚洲欧美激情小说另类| 久久国产精品电影| 国产电话自拍伊人| 日韩黄色大片免费看| 97国产精品视频自在拍| 中日无码在线观看| 欧美97欧美综合色伦图|