曹茂元等
摘要:當前對于漢語語義層次的語言網絡研究方法僅限于靜態詞典生成以及人工手動生成兩種方法,具有很大的局限性。對此,該文從大規模語料庫生成的語義空間出發,結合語義空間豐富的語義信息和義類詞典資源,提出一種新穎的基于分布語義的語義網絡構建策略,并在此基礎上探究了由不同性質的語義空間所構建的語義網絡的統計特性。相比前人的方法,該文提出的方法優勢在于無需依賴人工標注,支持大規模動態語料的網絡自動構建。實驗結果表明,語義網絡具有復雜網絡兩個典型的特性:小世界效應和無標度特性。此外,由于語義網絡描述的是詞之間最為本質的語義關系,與不同文體中的措辭、使用習慣、風格等不存在直接的關系,因此當語義網絡節點到達一定規模時,語義網絡的某些統計特性可能會趨于一致。
關鍵詞:語義網絡;語義空間;小世界;無標度
中圖分類號:TP391 文獻標識碼:A 文章編號:1009-3044(2014)32-7703-07
復雜網絡研究方法的出現使對語言網絡進行大規模實證性研究成為可能[1]。語義研究是當前研究的熱點,如何借助復雜網絡方法研究語言的語義特性是一個十分關鍵的問題。唐璐、張永光等[2]在兩個大型詞典HowNet和WordNet基礎上,利用詞典信息構建了兩個語義網絡。劉海濤[3]通過人工語義標注的語料,構建了一個小型的語義網絡,借此探究語義網絡的復雜特性。Steyvers 和Tnenenbaum[4]利用WordNet、羅杰分類詞典等資源分別構建了大規模英語語義網絡,并對其進行復雜統計分析?!?br>