999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

你“說”我來“猜”

2015-07-21 15:43:04洪蘊哲
科學家 2015年7期
關鍵詞:文本用戶語言

洪蘊哲

看過美劇《犯罪心理》(Criminal minds)的人經常會為這樣一個情節而感到半信半疑:聯邦探員們僅僅通過罪犯的日記或者書信就能判斷出他們的性別,年齡,社會地位,甚至人格特征與童年經歷。很多時候,我們都把這些當作影視文學作品對于主人公的一種神化和茶余飯后的談資,很少有人會把這些經驗之談當作真正的科學。然而,隨著信息科學的發展,情感詞庫,情感分析工具,文本挖掘技術為心理學領域中研究心理和語言的關系提供了一定的技術支持。

德克薩斯州大學的心理學教授James Pennebaker(2008年)曾說過,人們說話的方式以及詞語可以泄露他們的所思所想,他們與事物之間的關系。近年來,隨著社交網絡的流行,人們會在各種平臺上發表狀態,例如微博,QQ空間,微信朋友圈等等。“死了的人才被掛念,不曾記起,就相忘于江湖吧。”“想找一個地方大聲哭出來。”當我們看到這些狀態時,是否能感受到發起者強烈的負性情緒,是否能感受到他們的無助感?

微博作為一個公開的社交平臺,可以從中獲取大量的文本資源,中科院心理研究所的人員針對中文微博的文本分析與行為預測進行了開創性的研究。

簡體中文版心理語言分析詞典的建立

文本是由特定的人制作的,文本的語義不可避免地會反映人的特定立場、觀點、價值和利益。因此,通過文本內容分析,可以推斷文本提供者的意圖和目的。在許多關于社交媒體的文本分析中,基于計算機的文本分析軟件被普遍使用,語言獲得與詞匯計數系統(LIWC)就是其中一種,該軟件的核心是擁有一個詞庫,分為不同的維度,如“心理過程詞”“語言過程詞”等。對于一段輸入的文本,每個單詞會與詞庫中的詞語進行比對。

英文版的LIWC被廣泛使用。由于中文相對于英文更加復雜,所以很有必要建立一個簡體中文版的LIWC。之前已經有繁體中文版的LIWC詞典,中科院心理研究所的社會與工程研究室的朱延劭團隊(2013年)就基于此建立了一個簡體中文版的LIWC詞典,該詞典不僅有正式常規的詞語,還加入了微博中的高頻詞,因此該詞典既可以用于正式文本的分析,也可以用于微博文本的分析。

首先,研究人員找到了21個中國科學院大學的畢業生,他們的母語都是簡體中文。這21個人被分為3個組,每個組的每個人都獨立地將繁體中文版LIWC詞典里的詞匯一個個過一遍,然后找到最合適的簡體中文詞來代替它。例如用“它們”代替“它們”。對于組內的分歧,所有人進行討論,采取少數服從多數的原則。這樣,每個組都生成了一個詞庫。接著,再請來3個評分者,對這3個組生成的詞庫進行檢驗,如果這3個組的詞庫有分歧,評分者再進行討論,然后繼續采取少數服從多數的原則得出一個更為合理的最終版本的簡體正式中文版LIWC詞典(SCLIWC)。

接下來,為了添加微博中的高頻詞到詞典中,研究人員首先獲取了99925821個新浪微博用戶,并按以下原則來過濾掉一些研究價值不大的用戶:1.在近3個月內沒有發表狀態或者用戶發表總狀態數少于512條的;2.每天發表狀態在40條以上的(廣告用戶)。過濾掉之后,留下了1953485個活躍用戶,將他們發的文本狀態全部下載下來。然后,從所有活躍用戶當中隨機選取20000個用戶,從這20000個用戶發表的狀態中提取詞頻前5000的詞,再將20000個用戶隨機分成兩個組,分別從這兩個組用戶發表的狀態中提取出使用頻率前5000的詞,研究者發現從這幾個樣本中提取的高頻詞重合率是非常高的,說明這些詞確實經常在微博中被使用。最后,剔除了停用詞和SCLIWC中已有的詞匯,獲得了新浪微博中使用率排在前5000的詞,這樣就構成了簡體中文版微博詞典(SCMBLIWC)。

這樣,將SCLIWC和SCMBLIWC這兩個詞典融合到一個應用程序中,就可以同時分析正式文本和微博文本。中科院就基于此開發了一個公開的網絡平臺“文心”(TextMind)http://ccpl.psych.ac.cn/textmind/。通過“文心”,可以便捷地分析文本中使用的不同類別語言的程度、偏好等特點。

自殺者和潛在自殺者的語言風格

中科院的研究者首先將他們開發的簡體中文版詞典應用到了自殺的研究中。量表作為一種傳統自殺可能性評估方法,在時效性上有所欠缺,有自殺可能的人盡管很多不會主動尋求專業幫助,但其在言語中往往存在對于自殺傾向的流露。朱延劭管理等人(2015年)在線招募微博用戶參與問卷調查,根據個體自殺可能性量表中文版得分情況將982名受訪者分為446名高自殺可能組和536名低自殺可能組,分析2組在微博提取的10類行為特征和88類語言特征上的差異。結果發現,高自殺可能組的用戶與其他用戶相比社交活躍度低,夜間更加活躍,關注別人更少,使用更多表達否定、死亡的詞語,使用更少指向未來的詞語。

也許這樣的結果仍然會引起別人的質疑,因為人畢竟沒死,我們有對結果進行自圓其說的嫌疑。其實不然,該團隊(2015年)接下來進行了更直接的研究,他們經新浪微博認證用戶提供的信息,收集31 名網絡識別自殺死亡用戶(自殺死亡組);邀請微博用戶填寫自殺意念相關篩查量表,收集30 名無自殺意念用戶(對照組)。比較兩組用戶在10 種微博行為和88 種語言特征方面的差異。結果發現,自殺死亡用戶的微博互動更少,更加關注自我,更頻繁地使用表達排除意義的詞語,從情感層面上有更多負性表達,使用更多與死亡、宗教相關而更少與工作相關的表達。

我們可以看到,無論是潛在的高自殺可能性用戶,還是已經自殺的用戶,他們在語言特點上都更多使用負面,與死亡有關的詞,并且不會提及他們的工作和未來,在行為層面上更加關注自我,較少與別人互動。

如果我們哪一天看到自己身邊的人喜歡在夜晚發類似這樣的狀態:“呵呵,真落寞,永遠只是一個人”,并且開始頻繁散播負能量,他的狀態也沒人點贊和評論,他也幾乎不會給被人點贊和評論,那么我們應該意識到問題的嚴重性。如果我們在平常的生活中能及時給予這些人關愛與支持,而不是一味地指責他們矯情,那么也許會防止一條生命的隕落。

猜你喜歡
文本用戶語言
語言是刀
文苑(2020年4期)2020-05-30 12:35:30
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
讓語言描寫搖曳多姿
關注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
累積動態分析下的同聲傳譯語言壓縮
關注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
關注用戶
商用汽車(2016年4期)2016-05-09 01:23:12
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
我有我語言
主站蜘蛛池模板: 女人毛片a级大学毛片免费| 欧美另类一区| 高清欧美性猛交XXXX黑人猛交| 五月天综合网亚洲综合天堂网| 一级高清毛片免费a级高清毛片| 日韩AV无码一区| 91蜜芽尤物福利在线观看| 日韩第一页在线| 谁有在线观看日韩亚洲最新视频| 天堂久久久久久中文字幕| 亚洲第一精品福利| 国产成年无码AⅤ片在线| 无码日韩视频| 54pao国产成人免费视频 | 久久国产精品国产自线拍| 国产a在视频线精品视频下载| 亚洲人成亚洲精品| 国产精品太粉嫩高中在线观看| 综合色区亚洲熟妇在线| 日韩精品一区二区三区大桥未久 | 亚洲综合国产一区二区三区| 波多野结衣在线一区二区| 国产又粗又猛又爽| 免费毛片视频| 国产成人8x视频一区二区| 中文字幕亚洲乱码熟女1区2区| 一级成人a做片免费| 91av国产在线| 欧美成人看片一区二区三区 | 久久伊伊香蕉综合精品| 亚洲国语自产一区第二页| 国产福利小视频高清在线观看| 伊人色综合久久天天| 欧美天堂久久| v天堂中文在线| 国产无码高清视频不卡| 国产欧美日韩va| 亚洲人成网站日本片| 欧美激情伊人| 91丝袜在线观看| 手机在线免费毛片| 潮喷在线无码白浆| 亚洲无码高清免费视频亚洲| 无码AV日韩一二三区| 青青青视频蜜桃一区二区| 免费观看国产小粉嫩喷水 | 久久国产精品嫖妓| 日日拍夜夜操| 国产女人综合久久精品视| 午夜啪啪福利| 国产亚洲欧美在线中文bt天堂| 香蕉在线视频网站| 国产免费怡红院视频| 97免费在线观看视频| 日韩毛片免费观看| 国产在线观看91精品亚瑟| 91亚洲免费| 久久一本精品久久久ー99| 国产精品伦视频观看免费| 免费看美女自慰的网站| 中文字幕中文字字幕码一二区| 白浆免费视频国产精品视频 | 亚洲国产亚综合在线区| 亚洲三级色| 亚洲国产成人精品一二区| 国产91在线|中文| 亚洲天堂视频在线观看| 72种姿势欧美久久久大黄蕉| 少妇高潮惨叫久久久久久| 日韩激情成人| 2021国产v亚洲v天堂无码| 综合亚洲网| 青草视频久久| 波多野结衣在线se| 色偷偷男人的天堂亚洲av| 精品天海翼一区二区| 四虎永久在线精品影院| 久久6免费视频| 国产无码制服丝袜| 国产18在线| 小说 亚洲 无码 精品| 国产在线视频导航|