999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

《紅樓夢(mèng)》中社會(huì)權(quán)勢(shì)關(guān)系的提取及網(wǎng)絡(luò)構(gòu)建

2015-04-21 10:40:58胡亦旻胡俊峰
中文信息學(xué)報(bào) 2015年5期
關(guān)鍵詞:文本

陳 蕾,胡亦旻,艾 葦,胡俊峰,2

(1. 北京大學(xué) 信息科學(xué)與技術(shù)學(xué)院,北京 100871;2. 計(jì)算語(yǔ)言學(xué)教育部重點(diǎn)實(shí)驗(yàn)室(北京大學(xué)),北京 100871)

?

《紅樓夢(mèng)》中社會(huì)權(quán)勢(shì)關(guān)系的提取及網(wǎng)絡(luò)構(gòu)建

陳 蕾1,胡亦旻1,艾 葦1,胡俊峰1,2

(1. 北京大學(xué) 信息科學(xué)與技術(shù)學(xué)院,北京 100871;2. 計(jì)算語(yǔ)言學(xué)教育部重點(diǎn)實(shí)驗(yàn)室(北京大學(xué)),北京 100871)

社會(huì)地位與權(quán)勢(shì)的研究一直是社會(huì)語(yǔ)言學(xué)領(lǐng)域的一個(gè)熱點(diǎn)話題。該文借助數(shù)據(jù)挖掘中的關(guān)系提取方案雪球算法(SnowballAlgorithm),實(shí)現(xiàn)了《紅樓夢(mèng)》文本中候選的特征語(yǔ)言模式(pattern)和人物關(guān)系對(duì)之間的相互定位與賦權(quán),對(duì)小說(shuō)中頻繁同現(xiàn)的人物對(duì)之間的社會(huì)等級(jí)關(guān)系進(jìn)行挖掘,以此建立了能反映人物等級(jí)關(guān)系的有向加權(quán)人際關(guān)系網(wǎng)絡(luò)。進(jìn)一步應(yīng)用最小樹形圖算法,生成了涵蓋192個(gè)《紅樓夢(mèng)》主要人物的單向聯(lián)通的樹狀社會(huì)關(guān)系圖。通過(guò)這種方法生成的社會(huì)關(guān)系圖不但能有效反映人際交往親密度與社區(qū)影響力,同時(shí)還透視了人與人之間的社會(huì)等級(jí)差異。相較于單純基于人際交往親密程度的無(wú)向關(guān)系網(wǎng)絡(luò),能更加客觀地表達(dá)出社會(huì)交往中人際關(guān)系網(wǎng)絡(luò)的真實(shí)圖景。

關(guān)系提取;權(quán)勢(shì)關(guān)系;社會(huì)關(guān)系網(wǎng)絡(luò);最小樹形圖

1 前言

社會(huì)語(yǔ)言學(xué)研究作為一門新興學(xué)科,其主題圍繞著語(yǔ)言和社會(huì)之間的相互作用展開(kāi),社會(huì)權(quán)勢(shì)關(guān)系和不同社會(huì)階層的語(yǔ)言使用是其中常見(jiàn)的研究方向之一[1]。不同身份地位的人群所使用的語(yǔ)言有特異性,特殊的用語(yǔ)往往也會(huì)成為特定社會(huì)關(guān)系的語(yǔ)言標(biāo)志。據(jù)此,如果收集人物間兩兩互動(dòng)的語(yǔ)料,并提取出一些反映相對(duì)權(quán)勢(shì)關(guān)系的特征詞語(yǔ),理論上就可以通過(guò)這些特征詞語(yǔ)在群體中評(píng)估人物地位高低,并定位出具有權(quán)勢(shì)差距的一對(duì)對(duì)個(gè)體。本文旨在通過(guò)文本提取信息,構(gòu)建《紅樓夢(mèng)》一書中微型社會(huì)的權(quán)勢(shì)網(wǎng)絡(luò)。

權(quán)勢(shì)是一種等級(jí)化、易于度量的單向社會(huì)關(guān)系。關(guān)于權(quán)勢(shì)的社會(huì)語(yǔ)言學(xué)研究可以追溯到20世紀(jì)60年代,美國(guó)語(yǔ)言學(xué)家William Labov在1966年出版的TheSocialStratificationofEnglishinNewYorkCity一書中報(bào)道了用“隱蔽式錄音”的方法研究紐約市百貨公司職員口語(yǔ)中對(duì)(r)音的著重程度和其社會(huì)地位之間的關(guān)系[2],發(fā)現(xiàn)社會(huì)地位越高的職員越傾向于將(r)音發(fā)出。1972年,英國(guó)語(yǔ)言學(xué)家通過(guò)采集英國(guó)諾里奇市方言的語(yǔ)音資料,得出與性別和潛在聲望相關(guān)的音位和語(yǔ)音變素[3]。早期的社會(huì)心理學(xué)家也曾經(jīng)嘗試通過(guò)分析歐洲語(yǔ)言中權(quán)勢(shì)與同等關(guān)系的代詞的使用,揭示在歷史進(jìn)程中不同社會(huì)階級(jí)之間的人際關(guān)系演變[4],探討了社會(huì)地位高的人自稱和他稱方式從明顯與社會(huì)地位低的人用語(yǔ)方式分開(kāi),到逐漸也用權(quán)勢(shì)低者的用語(yǔ)進(jìn)行自稱和他稱的變化。社會(huì)語(yǔ)言學(xué)在中國(guó)發(fā)展起來(lái)后,國(guó)內(nèi)相關(guān)研究也逐漸發(fā)展起來(lái)。2009年胡美馨等通過(guò)分析前秦到晚清的文本,揭示女性身份認(rèn)同的話語(yǔ)從強(qiáng)調(diào)男女差異(如在文學(xué)作品中“妳”和“你”的性別區(qū)分,暗示女性社會(huì)地位較低)逐漸過(guò)渡至男女“平等”(如逐漸趨向于“你”的統(tǒng)一化使用,代表女性社會(huì)地位趨于平等)的變化,探討了女性社會(huì)地位的變遷[5]。2013年李佳靜等通過(guò)對(duì)杭州市“老板娘”一稱呼語(yǔ)的調(diào)查,認(rèn)為“老板娘”一用語(yǔ)包含上對(duì)下的社會(huì)權(quán)勢(shì)關(guān)系,而這種用語(yǔ)的逐漸減少和廢棄,也從另一方面反映出女性地位的提升[6]。傳統(tǒng)的社會(huì)語(yǔ)言學(xué)研究方法能夠以專業(yè)角度結(jié)合社會(huì)歷史發(fā)展進(jìn)程和語(yǔ)言元素的變化,然而往往也需要投入大量時(shí)間和人力進(jìn)行采樣。本研究中,我們采用了程序篩選結(jié)合人工監(jiān)督過(guò)程,有效提高研究效率,同時(shí)更多從文本和數(shù)據(jù)本身入手,研究角度有別于前述“由假設(shè)推動(dòng)的(hypotheses driven)”的研究。

近年來(lái),隨著計(jì)算科學(xué)的介入,基于文本的權(quán)勢(shì)研究中出現(xiàn)了更多機(jī)器學(xué)習(xí)和統(tǒng)計(jì)模型的方法。大多數(shù)研究針對(duì)易于根據(jù)團(tuán)隊(duì)角色明確劃分強(qiáng)弱勢(shì)團(tuán)體的情況。如2012年Danescu Niculescu Mizil等[7]于World Wide Web Conference發(fā)表文章,分別采集維基百科中管理員、管理員申請(qǐng)者、非管理員的網(wǎng)絡(luò)討論記錄和美國(guó)最高法院的辯護(hù)記錄,根據(jù)不同群體間互動(dòng)時(shí)使用與對(duì)方相同語(yǔ)言模式的頻率差異,分析“附和”(coordination)行為與權(quán)勢(shì)的關(guān)系。同年,Gilbert[8]使用開(kāi)源的Enron公司內(nèi)部電子信件,根據(jù)職位建立權(quán)勢(shì)層級(jí)結(jié)構(gòu),并據(jù)此提取不同權(quán)勢(shì)階級(jí)在詞匯選用上的不同偏好。2014年Agarwal等[9]使用相同語(yǔ)料,說(shuō)明交談中被提到次數(shù)越多的人物,社會(huì)地位就越高的現(xiàn)象。以上研究與前文提到的傳統(tǒng)社會(huì)語(yǔ)言學(xué)研究思路較為相似,都是在已知個(gè)體或群體的社會(huì)地位的基礎(chǔ)上,尋找分布特點(diǎn)對(duì)應(yīng)權(quán)勢(shì)差異的語(yǔ)言因素,如詞語(yǔ)、詞性、語(yǔ)言習(xí)慣等。另外一些研究則采用逆向思維,通過(guò)少數(shù)已知權(quán)勢(shì)關(guān)系,提取特征語(yǔ)素,再用這些特征語(yǔ)素建立分類器,進(jìn)行未知權(quán)勢(shì)關(guān)系的預(yù)測(cè)。如2011年Bramsen[10]等發(fā)表的研究,同樣利用Enron公司Email文本資料,將雇員間兩兩通郵的信件分為訓(xùn)練集和測(cè)試集,并通過(guò)在訓(xùn)練集中統(tǒng)計(jì)N-gram頻率,篩選特征,借助支持向量機(jī)模型(Support Vector Machine)預(yù)測(cè)寄信者相對(duì)于收信人的地位差異。本文中,我們希望能夠通過(guò)地位關(guān)系和語(yǔ)言特征之間的互證從而擴(kuò)增已知信息,這一點(diǎn)與前人研究相似。然而,我們同時(shí)也嘗試探索結(jié)構(gòu)信息,在《紅樓夢(mèng)》的虛擬社會(huì)體系中構(gòu)建權(quán)勢(shì)關(guān)系網(wǎng)絡(luò),一方面修正兩人交互的偶然性偏差,獲得人物之間社會(huì)地位關(guān)系的全局最優(yōu)解;另一方面,清晰闡述小說(shuō)的社會(huì)關(guān)系和權(quán)勢(shì)結(jié)構(gòu)。這一點(diǎn)由于應(yīng)用文本的特殊性,則是在前述研究中鮮少出現(xiàn)的。

本文選用《紅樓夢(mèng)》作為研究語(yǔ)料主要基于以下三點(diǎn)考慮。首先,《紅樓夢(mèng)》中出場(chǎng)人物數(shù)量多,人物間階級(jí)關(guān)系相對(duì)穩(wěn)定且鮮明;其次,針對(duì)該語(yǔ)料的研究能夠比較容易地通過(guò)人們對(duì)小說(shuō)內(nèi)容的理解進(jìn)行驗(yàn)證與評(píng)測(cè);最后,為該項(xiàng)研究今后在更加廣泛的領(lǐng)域開(kāi)展研究奠定可靠的基礎(chǔ)。

2 實(shí)驗(yàn)方法

2.1 實(shí)驗(yàn)背景介紹和方法概述

本實(shí)驗(yàn)采用已分詞的《紅樓夢(mèng)》小說(shuō)文本和包括了各人物所有稱謂的紅樓夢(mèng)人名文本,在預(yù)處理階段提取兩個(gè)人名同現(xiàn)的語(yǔ)句(如“惜春 又 謝 了 王夫人”)。目標(biāo)是從出現(xiàn)在人名之間的詞語(yǔ)中提取模式,并用模式詞語(yǔ)預(yù)測(cè)人物對(duì)間權(quán)勢(shì)關(guān)系。由于小說(shuō)文本容量有限,相當(dāng)一部分人物對(duì)之間的交互頻率不高,以前研究中普遍是基于統(tǒng)計(jì)的方法使用分類器系統(tǒng),對(duì)于樣本量小的情況不甚適用。在此處我們引入的雪球系統(tǒng)本質(zhì)上采用了HITS算法,能夠通過(guò)不斷迭代,強(qiáng)化最具優(yōu)勢(shì)的特征,過(guò)濾掉一些偶發(fā)的干擾特征。在關(guān)系提取階段,會(huì)盡量保留人物對(duì)之間雙向的可能關(guān)系,最后通過(guò)生成有向圖的單向連通最小支撐樹的方案來(lái)削減偶然交互造成的異常值。

主要方法部分,本文先借鑒經(jīng)典雪球系統(tǒng),由權(quán)勢(shì)人名對(duì)提取特征模式詞語(yǔ)。后用同義詞林?jǐn)U充,經(jīng)HITS系統(tǒng)篩選后,對(duì)得分低的詞語(yǔ)進(jìn)行去除,保留質(zhì)量較高的特征模式詞語(yǔ)。接下來(lái)對(duì)上述特征詞在文中進(jìn)行定位,并據(jù)此計(jì)算每一對(duì)存在交互的人物之間的權(quán)勢(shì)值。最后,用最小樹形圖算法生成整個(gè)紅樓夢(mèng)社區(qū)中可定位人物組成的有向無(wú)環(huán)權(quán)勢(shì)關(guān)系圖。

2.2 經(jīng)典雪球系統(tǒng)對(duì)研究有向關(guān)系的啟發(fā)

1999年哥倫比亞大學(xué)的Agichtein和Gravano等發(fā)表了一個(gè)用于關(guān)系提取的經(jīng)典算法,命名為“雪球”(Snowball)系統(tǒng)[11]。雪球系統(tǒng)及其各類變體多應(yīng)用于開(kāi)放系統(tǒng)中實(shí)體提取,如互聯(lián)網(wǎng)中的問(wèn)題發(fā)掘等。其基于“關(guān)系”(relationships)的篩選機(jī)制,對(duì)本文研究小說(shuō)文本這一封閉集合中社會(huì)關(guān)系結(jié)構(gòu)具有深刻啟發(fā)。研究者們觀察到,在《紅樓夢(mèng)》中具有權(quán)勢(shì)差的個(gè)體之間,普遍存在不少重復(fù)出現(xiàn)的“相處模式”,如權(quán)勢(shì)高的一方對(duì)權(quán)勢(shì)低的一方常常有“命令”、“驅(qū)使”等行為[12]:

“原來(lái)寶玉心里有件私事,于頭一日就吩咐茗煙……”

“寶玉便命晴雯來(lái)吩咐道……”

“黛玉不時(shí)遣雪雁來(lái)探消息……”

而權(quán)勢(shì)低的一方對(duì)權(quán)勢(shì)高的一方常常有“伴”、“從”等行為:

“惜春又謝了王夫人。”

“這里紫鵑扶著黛玉躺在床上……”

“這里雪雁正在屋里伴著黛玉 ……”

這些在文本中反復(fù)出現(xiàn)的特征詞匯和經(jīng)典雪球系統(tǒng)中的“模式”非常相似,而具有權(quán)勢(shì)差的一對(duì)人物可看做主體。因此,在最初的嘗試中,本文作者嘗試了通過(guò)經(jīng)典雪球系統(tǒng)進(jìn)行實(shí)體與模式的迭代提取,后考慮到文學(xué)作品的修辭特點(diǎn)和人際關(guān)系的信息復(fù)雜性,在傳統(tǒng)算法的思路基礎(chǔ)上做出以下改進(jìn)。

(1) 改用單個(gè)詞語(yǔ)取代詞向量作為模式。

(2) 使用HITS算法對(duì)候選的語(yǔ)言模式和關(guān)系實(shí)體進(jìn)行加權(quán)評(píng)估。

(3) 考慮到封閉系統(tǒng)的特點(diǎn),減少迭代次數(shù)、并就每一步擴(kuò)展和提取采用不同的策略(圖1)。

圖 1 改進(jìn)后的實(shí)體和模式提取流程

(4) 原始雪球系統(tǒng)中,辨別的是“存在目標(biāo)關(guān)系的實(shí)體”和“不存在目標(biāo)關(guān)系的實(shí)體”。而在我們的假設(shè)中,每對(duì)人物之間總是存在一定的權(quán)勢(shì)差,只是實(shí)體之間社會(huì)地位相差的程度有異,因此我們根據(jù)模式對(duì)文中所有實(shí)體共現(xiàn)場(chǎng)景進(jìn)行遍歷,最后得出的并非一個(gè)區(qū)分系統(tǒng),而是一個(gè)N×N打分矩陣,儲(chǔ)存每一個(gè)人相對(duì)于其他所有人的權(quán)勢(shì)分值。

(5) 根據(jù)打分矩陣確定主要人物間權(quán)勢(shì)關(guān)系,初步?jīng)Q定圖中大多數(shù)邊的方向。

(6) 引入有向圖的最小生成樹算法,以交互頻率為邊權(quán),生成主要人物間社會(huì)權(quán)勢(shì)關(guān)系的有向加權(quán)無(wú)環(huán)圖。

2.3 用種子實(shí)體提取模式詞語(yǔ)

首先,通過(guò)文本閱讀和資料分析,我們列出100對(duì)存在明確地位差異的人物對(duì)作為種子實(shí)體,其中主要以“主-仆”(如“黛玉-紫鵑”、“寶玉-襲人”)、“長(zhǎng)-幼”(如“賈母-鳳姐”、“賈政-寶玉”)關(guān)系為主。按照上位者所處的位置順序分為“上對(duì)下”和“下對(duì)上”兩組種子包。

然后,提取原文中所有在種子之間出現(xiàn)的詞語(yǔ),統(tǒng)計(jì)其在不同種子之間出現(xiàn)的頻率,并根據(jù)頻率(經(jīng)過(guò)詞頻修正)各篩選出前100個(gè)“上對(duì)下”和“下對(duì)上”的模式詞語(yǔ)。

2.4 引入HITS算法進(jìn)行權(quán)威度評(píng)估

HITS (Hyperlink-Induced Topic Search) 算法是1999年由康奈爾大學(xué)的Jon Kleinberg提出的一種基于“樞紐值(hubs)”和“權(quán)威值(authorities)”進(jìn)行網(wǎng)頁(yè)質(zhì)量評(píng)價(jià)的算法思想。本文引入此方法實(shí)現(xiàn)對(duì)實(shí)體和模式的質(zhì)量控制:假設(shè)人物對(duì)主要具備“權(quán)威性”,模式詞語(yǔ)主要具備“樞紐性”——即被具有高樞紐性的模式所命中的人物對(duì),具有更為顯著的地位差異;而存在于權(quán)勢(shì)差更顯著的人物之間的模式詞語(yǔ), 能更有效地區(qū)分人物之間的地位差異。最終根據(jù)迭代至基本穩(wěn)定的分值,將“上對(duì)下”和“下對(duì)上”的模式詞語(yǔ)進(jìn)行排序。

2.5 通過(guò)同義詞詞林?jǐn)U充模式詞語(yǔ)范圍

考慮到意義相近的詞語(yǔ)在揭示權(quán)勢(shì)關(guān)系的作用上有最大概率和原模式詞語(yǔ)相同,我們運(yùn)用哈爾濱工業(yè)大學(xué)信息檢索研究室《同義詞詞林》(擴(kuò)展版)對(duì)模式詞語(yǔ)列表進(jìn)行擴(kuò)增。擴(kuò)展后,分別得到“上對(duì)下”模式詞語(yǔ)1 494個(gè)和“下對(duì)上”模式詞語(yǔ)1 214個(gè)。然而,由于漢語(yǔ)詞匯的一詞多義現(xiàn)象,其中很多結(jié)果可信度較低。因此,對(duì)各1 000余個(gè)詞語(yǔ)再次使用HITS算法評(píng)估其質(zhì)量,將小于底限分?jǐn)?shù)(0.000 1)的結(jié)果去掉,并將“上對(duì)下”和“下對(duì)上”中都出現(xiàn)的重復(fù)詞匯去掉,最終得到“上對(duì)下”模式詞語(yǔ)112個(gè),“下對(duì)上”模式詞語(yǔ)124個(gè),作為對(duì)2.2中所得詞語(yǔ)的修正和擴(kuò)充。

2.6 人物關(guān)系加權(quán)有向無(wú)環(huán)圖的生成

將模式詞語(yǔ)作為地位差距的標(biāo)志,遍歷文中所有人名對(duì),對(duì)其交互頻率和出現(xiàn)權(quán)勢(shì)差異的次數(shù)進(jìn)行統(tǒng)計(jì),得出一個(gè)交互頻率矩陣和雙向的權(quán)勢(shì)矩陣。以兩個(gè)矩陣為數(shù)據(jù)基礎(chǔ),結(jié)合最小樹形圖算法,我們希望得到人物關(guān)系的加權(quán)有向無(wú)環(huán)圖,將兩點(diǎn)之間交互頻率的對(duì)數(shù)值賦值為兩個(gè)點(diǎn)之間的交互邊權(quán),作為親疏程度的衡量。親疏程度在某種程度上反映了社會(huì)關(guān)系中子群落的信息,我們使用這種信息對(duì)一些偶然交互造成的誤判進(jìn)行校正。例如,彩屏在權(quán)勢(shì)矩陣中體現(xiàn)出比賈母更高的地位,而兩人在文中僅有一次交互,數(shù)據(jù)可信性極低,故用對(duì)數(shù)計(jì)算剔除是合理的,同時(shí)對(duì)于交互次數(shù)多的兩人,其邊權(quán)值自然就大,體現(xiàn)出兩者關(guān)系的緊密。

接下來(lái),再根據(jù)權(quán)勢(shì)矩陣,考察圖中每對(duì)人物之間的權(quán)勢(shì)方向,以明確上述帶權(quán)圖邊的指向。首先計(jì)算出所有人名對(duì)的權(quán)勢(shì)差的絕對(duì)值的平均值,將其作為篩選的閾值。當(dāng)權(quán)勢(shì)差高于閾值,保留權(quán)勢(shì)更大的方向?yàn)樽罱K無(wú)環(huán)圖中兩結(jié)點(diǎn)間方向,若小于等于閾值,則暫時(shí)保留結(jié)點(diǎn)間的雙向關(guān)系,若認(rèn)為之間的相對(duì)權(quán)勢(shì)并不明顯,但對(duì)于權(quán)勢(shì)值較高的方向,增加10%的邊權(quán),以保證在之后生成樹的過(guò)程中實(shí)際存在的微弱地位優(yōu)勢(shì)不會(huì)被過(guò)強(qiáng)的交互頻率所逆轉(zhuǎn)。

在此圖的基礎(chǔ)上,運(yùn)行最小樹形圖算法最終得到確定的方向。使用最小樹形圖的目的在于得到全局邊權(quán)的最優(yōu)的情況,并依此得到每個(gè)人名對(duì)確定的單一權(quán)勢(shì)方向。具體來(lái)說(shuō),對(duì)于我們之前得到的有向帶權(quán)的圖,假設(shè)一個(gè)“權(quán)勢(shì)至高者”作為根節(jié)點(diǎn)(本文中假設(shè)賈母在文中的地位最高),從根出發(fā),選擇其伸出的邊權(quán)最大的邊來(lái)擴(kuò)展下一個(gè)點(diǎn),并從下一個(gè)點(diǎn)重復(fù)這一擴(kuò)展方法,直至所有的點(diǎn)連入圖中,從而得到一個(gè)較優(yōu)解。考察每一個(gè)點(diǎn)的入邊,如果有比其值更大的未選邊,就要考慮替換,由于圖中不可成環(huán),故有兩種情況:

(1) 如果待替換的邊與原來(lái)的邊共圈,替換不產(chǎn)生環(huán),則直接替換(圖2a)。

(2) 如果替換邊與其他邊成環(huán),先替換掉原邊,再考慮打開(kāi)所成的環(huán)。在從所有連到環(huán)上某點(diǎn)的未選邊中選擇與該點(diǎn)原入邊邊權(quán)差最小的替換環(huán)中邊,若還有環(huán)則放棄,選差第二小的反復(fù)進(jìn)行直至無(wú)環(huán)(圖2b)。

圖 2 最小樹形圖算法思路圖解粗箭頭代表待替換邊

通過(guò)這樣的算法,我們就成功得到了邊權(quán)和最大《紅樓夢(mèng)》人物關(guān)系有向無(wú)環(huán)圖,即最小樹形圖[13]。

3 實(shí)驗(yàn)結(jié)果

3.1 模式詞匯提取

列舉“上對(duì)下”、“下對(duì)上”兩種關(guān)系中最終權(quán)重較高的模式詞匯(圖3、表1、表2),可看出,在“上對(duì)下”關(guān)系中,模式詞匯之間權(quán)重差距更為明顯;而“下對(duì)上”關(guān)系中,模式詞匯的權(quán)重差異則較為緩和。根據(jù)得分最高的模式詞匯,可推測(cè)其中社會(huì)地位相對(duì)較高的人對(duì)社會(huì)地位較低的人在“命”一詞的使用上有很高的頻率,且一旦這一語(yǔ)素出現(xiàn)于兩個(gè)人之間,二者社會(huì)地位懸殊的事實(shí)就很容易被確定下來(lái)。而從“下對(duì)上”的關(guān)系詞中,直觀上應(yīng)該更為顯著的如“陪”、“扶”等詞匯實(shí)際上得分卻并不如“到”、“睡”一

圖 3 關(guān)系模式詞匯權(quán)重分布示意圖

類從詞義本身偏向中性的詞匯那么高。推測(cè)出現(xiàn)這種差異的原因是,在《紅樓夢(mèng)》這一作品中對(duì)于地位高者的威嚴(yán)和權(quán)勢(shì)的形象塑造著墨更重(致使相似命令式詞匯出現(xiàn)頻繁),而對(duì)于丫鬟和小輩這樣的地位相對(duì)較低者,則一來(lái)更少作為交際中的主動(dòng)者(模式詞匯描述的更多是回應(yīng)和反應(yīng)的行動(dòng)),二來(lái)《紅樓夢(mèng)》中對(duì)他們的描寫也更注重人物的獨(dú)特個(gè)性(使得如同“命”一樣千遍一律的詞匯很少出現(xiàn))。

從模式詞匯的提取結(jié)果上看,我們并不能下結(jié)論說(shuō)每一個(gè)詞匯都能夠獨(dú)自代表一種關(guān)系,甚至其中也有可能出現(xiàn)一些由于主被動(dòng)關(guān)系無(wú)法區(qū)分而混淆的結(jié)果。但是從另一方面說(shuō),在對(duì)文本進(jìn)行深入研究之前,也無(wú)法根據(jù)對(duì)詞義的直觀理解來(lái)排除結(jié)果。因此我們選擇在關(guān)系提取這一步中驗(yàn)證這些模式詞匯對(duì)權(quán)勢(shì)關(guān)系的預(yù)測(cè)準(zhǔn)確度,來(lái)判斷模式詞匯對(duì)文中社會(huì)地位差異場(chǎng)景的敏感性。

表1 “上對(duì)下”關(guān)系模式詞匯舉例

表2 “下對(duì)上”關(guān)系模式詞匯舉例

3.2 《紅樓夢(mèng)》權(quán)勢(shì)關(guān)系人物對(duì)的提取

對(duì)于主要的192個(gè)人物之間的社會(huì)地位差異,我們使用模式詞語(yǔ)在其間出現(xiàn)的頻率計(jì)算,對(duì)于每?jī)蓚€(gè)人之間出現(xiàn)雙向有權(quán)邊的情況,保留得分更高的一條,作為權(quán)勢(shì)降低的方向。之后,用已知158對(duì)具有相對(duì)權(quán)勢(shì)差異的人物對(duì),進(jìn)行準(zhǔn)確度測(cè)試。具體地,對(duì)于二者能夠通過(guò)一條邊直接連通的人物對(duì),觀察連通方向是否與假設(shè)方向相同,若相同則記為“正確”,反之記為“不正確”;對(duì)于二者不能夠通過(guò)一條邊直接連通的人物對(duì),在只能往權(quán)勢(shì)降低方向行進(jìn)的前提下,觀察從假設(shè)中地位高的一方是否能夠間接連通地位低的一方,以及地位低的一方是否能夠連通地位高的一方。若前一種情況通暢而后一種情況無(wú)法到達(dá),記為“正確”,反之記為“不正確”,若兩種情況都可以連通,則記為“不定”。最終,我們得到92個(gè)正確結(jié)果,23個(gè)不正確結(jié)果,以及43個(gè)不定結(jié)果。

3.3 《紅樓夢(mèng)》社會(huì)關(guān)系網(wǎng)絡(luò)模型初探

原始的有向關(guān)系網(wǎng)絡(luò)存在相當(dāng)數(shù)量的環(huán)路,這反映了人際交往過(guò)程中地位關(guān)系的復(fù)雜性。因此存在43對(duì)人物之間權(quán)勢(shì)方向無(wú)法確定。例如,湘云和岫煙、湘云和鴛鴦、鳳姐和探春、鳳姐和寶釵等。因此,直接觀察該有向關(guān)系網(wǎng)絡(luò)中人物間等級(jí)化關(guān)系和社區(qū)結(jié)構(gòu)劃分并不清晰(圖4a)。

考慮到個(gè)人之間的關(guān)系在實(shí)際交往中可能會(huì)有偶然性,即跨越等級(jí)的表現(xiàn)(如寶玉和晴雯之間常常出現(xiàn)僭越主仆關(guān)系的互動(dòng)),但從社群整體來(lái)看等級(jí)關(guān)系則是相對(duì)穩(wěn)定的。因此,我們利用最小樹形圖算法將有向關(guān)系網(wǎng)絡(luò)中的次要的邊去除,形成一個(gè)整體上擁有最強(qiáng)單向依賴關(guān)系的樹,由此得到以數(shù)個(gè)主要人物為中心的多中心輻射狀樹形圖(圖4b、圖4c)。考慮到賈母在紅樓夢(mèng)中的地位,我們這里選取賈母作為樹根,默認(rèn)沒(méi)有權(quán)勢(shì)地位明顯高于賈母的人。大多數(shù)(134個(gè))結(jié) 點(diǎn) 都只有一條關(guān)聯(lián)的邊(葉子結(jié)點(diǎn)),而只有少數(shù)結(jié)點(diǎn)(8個(gè))被多余五條邊連接,成為每一簇小社群的中心,通常都是《紅樓夢(mèng)》中社會(huì)地位較高的人物(表3)。其中,賈寶玉的主角效應(yīng)非常顯著,其他人物社會(huì)關(guān)系也能在圖中很好地體現(xiàn)出來(lái)。

圖 4 《紅樓夢(mèng)》192個(gè)主要人物網(wǎng)絡(luò)模型(未示權(quán)勢(shì)方向)

圖 4(續(xù))

表3 樹形網(wǎng)絡(luò)中出入邊總數(shù)大于5的人物

可以預(yù)期,由于人物間交互信息繁雜,不怎么打交道的兩人之間,容易在少數(shù)往來(lái)中偶然命中特征詞匯,造成原始網(wǎng)絡(luò)中一些誤保留的邊。通過(guò)生成最小樹形圖刪除一些邊后,這種情況有所改善,使得社會(huì)關(guān)系結(jié)構(gòu)能夠更好地體現(xiàn)出來(lái),如圖5所示情況。在原圖中,除去權(quán)重顯著低于反向邊權(quán)的邊后,紫鵑相連的邊共有30條,而雪雁所連的邊有12條。在最小樹形圖算法處理下, 許多邊由于交互頻率過(guò)低而被消除,如雪雁和紫鵑與賈母、寶玉之間的邊。然而,這并不代表我們放棄了對(duì)這些關(guān)系的判定,雖然沒(méi)有被直接相連,我們依然可以從樹形圖中得到紫鵑、雪雁和賈母、寶玉等人之間的關(guān)系。從而很大程度上去除了冗雜交互信息,促進(jìn)有向社交網(wǎng)絡(luò)的可視化。事實(shí)上,這樣的樹狀網(wǎng)絡(luò)直觀地反應(yīng)出了人物的行政權(quán)勢(shì)關(guān)系。最小樹形圖算法不僅刪除了許多可疑的邊,還刪除了非直接隸屬(聯(lián)系不夠緊密)關(guān)系的邊,這樣留下的邊往往連接的是有直接上下級(jí)關(guān)系的兩人,有利于我們對(duì)整個(gè)網(wǎng)絡(luò)的權(quán)勢(shì)脈絡(luò)有更加清晰、正確的認(rèn)識(shí)。同時(shí),對(duì)于文本中沒(méi)有直接產(chǎn)生交互關(guān)系的個(gè)體,只要在樹上存在直接連通的通路,就可以預(yù)測(cè)其在《紅樓夢(mèng)》中的相對(duì)權(quán)勢(shì)關(guān)系。舉例來(lái)說(shuō),墨雨很少與其他人物有交集,但其處于紫鵑的下級(jí),從而我們可以合理地推斷,與其在同一路徑且位于上層的賈寶玉對(duì)于墨雨有社會(huì)地位上的優(yōu)勢(shì)。也就是說(shuō),即使對(duì)于非直接隸屬的關(guān)系,我們通過(guò)權(quán)勢(shì)的可傳遞性以及樹的特點(diǎn),能夠做出合理的推斷。

圖5 樹形網(wǎng)絡(luò)局部特寫(寶玉——黛玉——紫鵑——雪雁)

當(dāng)然,最小樹形圖也有其局限性,對(duì)于數(shù)據(jù)稀少的個(gè)體,可能由于全局最優(yōu)的需要而生成我們意料之外的邊,例如,原始關(guān)系數(shù)據(jù)極少的北靜郡王和賈元春,就接入了寶玉的下方,并不太符合實(shí)際的關(guān)系。同樣地,有些與他人交集較少的底層的丫鬟或奴仆,也可能作為個(gè)例接入并非其主人的父節(jié)點(diǎn)。根據(jù)觀察,若不考慮一些個(gè)體由于數(shù)據(jù)不足而產(chǎn)生的問(wèn)題,樹形圖整體上以很高的準(zhǔn)確度反應(yīng)《紅樓夢(mèng)》中的權(quán)力制約關(guān)系。

4 結(jié)語(yǔ)

本研究嘗試了在文本語(yǔ)料中提取人物社會(huì)階層關(guān)系,建立了反映社會(huì)階層關(guān)系的紅樓夢(mèng)人際關(guān)系網(wǎng)。實(shí)驗(yàn)表明,通過(guò)該有向關(guān)系網(wǎng)做出的最小樹形圖能較為準(zhǔn)確地反映《紅樓夢(mèng)》中192個(gè)主要人物之間的社群結(jié)構(gòu),對(duì)多數(shù)人物對(duì)之間的社會(huì)地位差異的預(yù)測(cè)結(jié)果也比較可靠。

相對(duì)于以前的研究,此方法的特點(diǎn)有三個(gè);其一,適用于文學(xué)作品一類的小文本,人物關(guān)系復(fù)雜,而交互信息有限的情況;其二,相較于以往的社區(qū)劃分算法,在加入了權(quán)勢(shì)依賴關(guān)系是單向且無(wú)環(huán)路的約束后,實(shí)現(xiàn)了整體權(quán)勢(shì)結(jié)構(gòu)的最優(yōu)。能有效地消除個(gè)別人物角色之間偶然發(fā)生的階層越位的互動(dòng)帶來(lái)的干擾,因此在社會(huì)地位的判定上更為精細(xì)。由于階層關(guān)系并非可以單純依據(jù)人物之間的兩兩互動(dòng)來(lái)確定,因此在本研究中我們沒(méi)有使用常見(jiàn)的分類器的方案,一開(kāi)始就盡可能地保留了人物之間所有的雙向關(guān)系,然后再局部對(duì)比和全局考量過(guò)程中逐漸選擇性刪除邊,最后達(dá)到了好的效果;其三,所得到的權(quán)勢(shì)關(guān)系不再局限于有交互事件發(fā)生的個(gè)體之間,而是可以借助連接其他節(jié)點(diǎn)形成通路來(lái)間接比較,因此能有很好的預(yù)測(cè)性。在權(quán)勢(shì)網(wǎng)絡(luò)中的兩個(gè)人物只要有通路,就能唯一判定相互之間的權(quán)勢(shì)關(guān)系,而并不要求在文本中兩個(gè)人有實(shí)際的互動(dòng)。

在人際關(guān)系網(wǎng)絡(luò)研究中加入等級(jí)關(guān)系更真實(shí)地還原了社會(huì)網(wǎng)絡(luò)中人物之間的社會(huì)交往形態(tài)。可以認(rèn)為本文的方法在研究社群劃分、社會(huì)關(guān)系變遷和社會(huì)結(jié)構(gòu)分析中都存在更大的應(yīng)用潛力。

同時(shí),本研究仍然存在一些局限性。

(1) 可應(yīng)用語(yǔ)料的有限性。如《紅樓夢(mèng)》這樣出場(chǎng)人物眾多、存在明確而復(fù)雜的人物關(guān)系、等級(jí)森嚴(yán)的社會(huì)制度的小說(shuō)非常少。因此,在后續(xù)的探索中,我們考慮嘗試在網(wǎng)絡(luò)論壇的社區(qū)環(huán)境下考察此方法的有效性,并同時(shí)嘗試尋找其他可用語(yǔ)料和應(yīng)用場(chǎng)景。

(2) 由于文學(xué)作品側(cè)重于主角的描寫,眾多配角的出場(chǎng)多是圍繞主角進(jìn)行,而現(xiàn)實(shí)生活中,這樣以一人為核心、其他人之間的關(guān)系都很疏離的情況是不太常見(jiàn)的。且由于最小生成樹的算法特征,無(wú)法連入劇情主干的一些成獨(dú)立“小圈子”的節(jié)點(diǎn)們?cè)诮溥^(guò)程中被逐漸刪去,邊緣化群體之間的關(guān)系無(wú)法被觀測(cè)到。因此,若考慮將本文方法應(yīng)用于現(xiàn)實(shí)生活中的網(wǎng)絡(luò)社區(qū),尚且需要做更多的嘗試和調(diào)整。

(3) 本文以詞語(yǔ)提取而非詞包提取為主,并沒(méi)有特別考慮被動(dòng)式。分辨“上對(duì)下”和“下對(duì)上”關(guān)系主要依靠?jī)蓚€(gè)人物在文本中出現(xiàn)的順序。當(dāng)被動(dòng)式一類可能造成詞義反轉(zhuǎn)的情況出現(xiàn)時(shí),詞語(yǔ)在兩種關(guān)系方向中的權(quán)重都會(huì)降低(主動(dòng)式和被動(dòng)式的權(quán)重互相抵消)。這就導(dǎo)致本研究在模式詞語(yǔ)的提取上始終比較保守。在未來(lái)大文本的工作中,可以考慮進(jìn)一步使用詞袋模型或更復(fù)雜的語(yǔ)言元素代替單獨(dú)詞組,將被動(dòng)式等可能造成詞義削弱或反轉(zhuǎn)的因素納入模型中。而在現(xiàn)有的小文本情況下使用詞袋模型等可能會(huì)導(dǎo)致每個(gè)候選模式的頻率都比較低。

5 致謝

感謝北京大學(xué)信息科學(xué)與技術(shù)學(xué)院張夢(mèng)楠、苗睿同學(xué),地球空間學(xué)院李豐翔同學(xué)為本文研究工作提供幫助和支持。

[1] 趙蓉暉編. 社會(huì)語(yǔ)言學(xué)[M]. 上海:上海外語(yǔ)教育出版社,2004.

[2] Labov W. The social stratification of English in New York city[M]. Cambridge University Press, 2006.

[3] 祝畹瑾編. 社會(huì)語(yǔ)言學(xué)譯文集[M]. 北京:北京大學(xué)出版社,1985.

[4] 祝畹瑾編. 社會(huì)語(yǔ)言學(xué)譯文集[M]. 北京:北京大學(xué)出版社,1985.

[5] 胡美馨,吳宗杰. 從先秦與晚清文本看女性身份的話語(yǔ)變遷——一種譜系學(xué)的跨文化分析[J]. 中國(guó)社會(huì)語(yǔ)言學(xué),2009,2(13): 141-151.

[6] 李佳靜,孫德平. 杭州市稱呼語(yǔ)"老板娘"調(diào)查[J]. 中國(guó)社會(huì)語(yǔ)言學(xué),2013,1(20): 27-37.

[7] Danescu-Niculescu-Mizil C, Lee L, Pang B, et al. Echoes of power: Language effects and power differences in social interaction[C]//Proceedings of the 21st international conference on World Wide Web. ACM, 2012: 699-708.

[8] Gilbert E. Phrases that signal workplace hierarchy[C]//Proceedings of the ACM 2012 conference on Computer Supported Cooperative Work. ACM, 2012: 1037-1046.

[9] Agarwal A, Omuya A, Zhang J, et al. Enron Corporation: You're the Boss if People Get Mentioned to You[C]//Proceedings of the 2014 International Conference on Social Computing. ACM, 2014: 2.

[10] Bramsen P, Escobar-Molano M, Patel A, et al. Extracting social power relationships from natural language[C]//Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies-Volume 1. Association for Computational Linguistics, 2011: 773-782.

[11] Agichtein E, Gravano L. Snowball: Extracting relations from large plain-text collections[C]//Proceedings of the fifth ACM conference on Digital libraries. ACM, 2000: 85-94.

[12] 曹雪芹,高鶚. 紅樓夢(mèng)[M]. 北京:人民文學(xué)出版社,2000.

[13] Kleinberg J M. Hubs, authorities, and communities[J]. ACM Computing Surveys (CSUR), 1999, 31(4es): 5.

Extraction of Power Relationship and Its Corresponding Social Network inTheStoryofStone

CHEN Lei1, HU Yimin1,AI Wei1, HU Junfeng1,2

(1. School of Information Science and Engineering, Peking University, Beijing 100871,China;2. Key Laboratory of Computational Linguistics (Peking University), Ministry of Edncation, Beijing 100871,China)

The study of social status has always been a hot spot in sociolinguistics. In this study, we applied Snowball Algorithm and HITS Algorithm to discover the social relationships in the Chinese novelTheStoryoftheStone. By locating and weighting “Patterns” and “Tuples” iteratively, we construct a relationship network with social class information. Finally, we generate a min-cost arborescence of the social relationships of 192 main characters inTheStoryoftheStonewith Chu-Liu/Edmonds' algorithm. The generated social relationship reflects not only the intimacy and social influences, but also the hierarchical inequality of people. We regard it as a more objective and authentic reflection of social relationship network in class society.

relationship extraction; power relationships; social network analysis; min-cost arborescence

陳蕾(1993—),美國(guó)圣路易斯華盛頓大學(xué)博士研究生,主要研究領(lǐng)域?yàn)樯镄畔W(xué)和統(tǒng)計(jì)遺傳學(xué)。E-mail:1100012154@pku.edu.cn胡亦旻(1994—),本科生,主要研究領(lǐng)域?yàn)橛?jì)算機(jī)科學(xué)與技術(shù)。E-mail:1300011764@pku.edu.cn艾葦(1990—),美國(guó)密歇根大學(xué)博士研究生,主要研究領(lǐng)域?yàn)閿?shù)據(jù)挖掘與推薦系統(tǒng)。E-mail:aiwei@pku.edu.cn

1003-0077(2015)05-0185-09

2015-06-26 定稿日期: 2015-09-10

國(guó)家自然科學(xué)基金(M1321005);國(guó)家自然科學(xué)基金(61472017)

TP

A

猜你喜歡
文本
文本聯(lián)讀學(xué)概括 細(xì)致觀察促寫作
重點(diǎn):論述類文本閱讀
重點(diǎn):實(shí)用類文本閱讀
初中群文閱讀的文本選擇及組織
甘肅教育(2020年8期)2020-06-11 06:10:02
作為“文本鏈”的元電影
在808DA上文本顯示的改善
“文化傳承與理解”離不開(kāi)對(duì)具體文本的解讀與把握
基于doc2vec和TF-IDF的相似文本識(shí)別
電子制作(2018年18期)2018-11-14 01:48:06
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
從背景出發(fā)還是從文本出發(fā)
主站蜘蛛池模板: 黄色不卡视频| 97亚洲色综久久精品| 亚洲动漫h| 亚洲男人的天堂在线观看| 日本免费福利视频| 国产精品欧美在线观看| 精品国产电影久久九九| WWW丫丫国产成人精品| 亚洲第一区欧美国产综合| 欧美中出一区二区| 一边摸一边做爽的视频17国产| 无码一区二区三区视频在线播放| 九色视频一区| 九色在线观看视频| 亚洲国产日韩在线观看| 成人在线亚洲| 日本色综合网| 福利在线一区| 四虎国产精品永久一区| 全部无卡免费的毛片在线看| 久久6免费视频| jizz国产视频| 自拍偷拍一区| A级毛片无码久久精品免费| 青青操视频在线| 国产成人一区在线播放| 亚洲色图欧美| 亚洲一区二区三区香蕉| 91外围女在线观看| 国产精品一线天| 欧洲亚洲一区| 在线观看的黄网| 狠狠色成人综合首页| 国内99精品激情视频精品| 国产高清在线丝袜精品一区| 国产成人免费| 国产全黄a一级毛片| 曰韩人妻一区二区三区| 青青国产成人免费精品视频| 呦女亚洲一区精品| 久99久热只有精品国产15| 狠狠躁天天躁夜夜躁婷婷| 欧美一区精品| yy6080理论大片一级久久| 中文字幕无码av专区久久 | 高h视频在线| 亚洲视频免| 亚洲水蜜桃久久综合网站| 麻豆国产精品一二三在线观看| 日韩在线播放中文字幕| 亚洲欧美在线综合一区二区三区 | 欧美激情第一区| 中国国产一级毛片| 欧美乱妇高清无乱码免费| 成人国产精品网站在线看| 一本大道无码高清| 呦系列视频一区二区三区| 日韩毛片免费观看| 亚洲视频四区| 九九九精品成人免费视频7| 亚洲福利视频网址| 中文字幕1区2区| 欧美三级不卡在线观看视频| 试看120秒男女啪啪免费| 玖玖精品在线| 国产人成网线在线播放va| 91精品情国产情侣高潮对白蜜| 亚洲色图狠狠干| 久热这里只有精品6| 无码一区二区波多野结衣播放搜索| 伊人无码视屏| 高清亚洲欧美在线看| 无遮挡国产高潮视频免费观看| 精品视频一区在线观看| av大片在线无码免费| 99国产在线视频| yjizz视频最新网站在线| 国产午夜精品一区二区三| av在线人妻熟妇| 色综合天天综合| 四虎永久免费地址| 免费女人18毛片a级毛片视频|