999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于社交文本的人格研究綜述

2017-12-28 10:03:12朱宇
現代計算機 2017年9期
關鍵詞:文本分析模型

朱宇

(四川大學計算機學院,成都 610065)

基于社交文本的人格研究綜述

朱宇

(四川大學計算機學院,成都 610065)

隨著計算機網絡技術的飛速發展和社交媒體工具的普及,人們越來越頻繁地在社交網絡上利用文本信息進行自我表達和展現,這些信息對人們的人格分析有著很大的研究價值。通過這種研究,可以更好地促進人們對自己心理健康的認識和維護,也可以促進服務商為人們提供更準確、個性化的服務。故從相關的研究基礎、主流方法、研究現狀及不足三個方面對基于社交文本的人格分析研究進行綜合闡述和總結。

社交網絡;文本分析;人格分析;分類模型

0 引言

社交網絡已成為人們生活的一部分,并且在和人們相互影響的基礎上飛速發展,因此,探求人和社交網絡之間的聯系,越來越受到業界的關注?!叭烁瘛北闶锹撓等撕蜕缃痪W絡的重要因素之一,因為人格對于一個人來說,是相比于商品喜好、個人信息更為深入的認知,例如,我們可以通過一個人在社交網絡上體現的人格,推斷出這個人的根本的喜好范圍、與他人的個性相似度,從而給出更為精確的推薦。

人格不能被直接觀測到,而要通過有效、明確的行為指示器(如行為樣本)來測量。所以,人格測試的結果由與人格相關的行為指示器的測量方法確定。自我陳述技術是目前最廣泛使用的方法,然而它有著明顯的參與者召集問題和資源的消耗問題。而由于社交網絡的巨大普及性,人們在社交網絡平臺上進行大量的自我展現,我們便可以通過獲取用戶的社交網絡平臺上展現出的各種文本信息去研究他們的人格特質。

1 研究基礎

1.1 人格與人格特質

人格心理學是為心理學的分支之一,它可以被簡

單定義為:是一門研究一個人特有行為模式的心理學。人格譯自于“Personality”一詞,也被譯作“性格”,心理學界把它譯作“人格”。不過“人格”卻不單包括傳統意義上的性格,它還包括價值觀、態度、個人記憶、社會關系、習慣和技能等。準確來說,“人格”可定義為一個人擁有一致性的行為特征的集合。人格的組成特征因人而異,因此每個人都有其帶來的獨特性,正是獨特性使不同人面對同一情況下可能有不同的反應。人格可以用人格特質理論進行描述和分析。術語“人格特質”,代表了個體和個體之間表現出的差異,這種差異又反映了個體間人格的差異。人格特質是以連續性的度量出現的,例如,每個人都擁有著真誠的人格特質(本質相同),但在該特質上體現的程度卻因人而異(在量上有差異)[1]。

1.2 人格與文本的關系

大多數的人格特質名稱都會被編碼到自然語言中去,這是從自然語言中尋找人格特質的基本設想。具體講,自然語言中包含了這一語言使用者的人格維度[2]。美國心理學家Alloport和Odbert[3]從1926年版的《韋氏國際字典》中挑出了17953個“能區分人類行為差異”的術語。他們把所選出的詞分為:能清楚表示真正人格特質的術語,對人格特點進行評價的詞,描述人目前活動、心理和心境暫時狀態的術語,以及不能歸為上述三組的詞。此后Norman[4]也進行了類似工作,并將挑出的詞分為三組:描述穩定特質的,描述暫時狀態的,以及描述社會角色、社會關系和社會效應的術語。此后近40年中,眾多心理學家采用上述兩個詞表對人格特質維度進行了研究,并引發了“人格心理學中的一場靜悄悄的革命”[5]。Tupes和Christal[6]在這之后提出了“大五”人格維度模型,并得到很多心理學家的驗證。研究者發現,該模型中的五個人格特質,可以涵蓋人格描述的所有方面。具體來說,這五種人格特質可以分別用以下五對形容詞描述:外向的-內向的、隨和的-強硬的、自律的-散漫的、神經質的-情緒穩定的、思想開放的-保守的。“大五”人格模型經過眾多學者的研究發展和使用,已被認為是最可靠、最主流的人格模型[7]。

2 分析方法

傳統文本人格分析方法為,在人格特質模型的基礎上,使用傳統的自然語言處理方法并結合文本分類算法進行研究,本節主要介紹目前主流研究的方法流程。

2.1 文本預處理

文本預處理主要是為了從文本樣本數據中提取出規范、有價值的內容,避免不相關或者屬于噪聲的信息對分析結果帶來的負面影響。與文本人格分析相關的文本預處理的方法主要有:分詞處理——將那些語言中沒有分隔符(如英語中的空格)的文本(如中文、日文和韓文)中的文字和標點按照相應的語法和特定語義規則進行切分,得到一些單詞或詞組作為句子的基本特征用于人格分析;停用詞(Stopword)處理——過濾掉那些語言中出現頻率很高,但同其他詞語而言,幾乎沒有實際含義的功能詞(例如英語中的“is”、“a”、“the”,漢語中的 “的”、“那個”);文本的規范化——刪去文本數據中可能含有的與內容無關的字符 (如html標記),規范化一些語言中可能存在的半角、全角的編碼不一致問題。

2.2 文本表示

用于分析處理的文本數據都是非結構化的,所以需要通過一些文本的表示方法,將這種非結構化的數據轉化為結構化數據,讓計算機能夠直接處理。目前,與本文相關的常用的文本方式有兩種:

(1)布爾模型。假設有文本D,由詞語t1t2t3…tn組成。按照布爾模型[8],文本D可由1×n維向量表示,dJ=(t1j,t2j,t3j,…,tnj),其中,若第 i個詞語 ti在文本 dj中出現,則tij的值為1,否則為0。然而,這種表示方法只能提供一些文本中最基本的語義信息,它只能表示詞語在文本中是否出現,但無法提供出現次數甚至詞語的語義權重等信息。

(2)向量空間模型。向量空間模型解決了布爾模型的問題,在向量空間模型中,上述文本D的向量與布爾向量相似,可表示為 dJ=(w1j,w2j,w3j,…,wnj),其中,wij的值為實數,表示對應的詞語ti在文本dj中的權重。權重的計算方式有多種方式:布爾法、詞頻法和TF-IDF法等[8-10]。向量空間模型由Salton等人[9]提出,讓文本和詞語之間的關系遵循基于語法、上下文信息等設計出的權重規則。這樣,根據文本向量之間的距離來獲得文本的相似性,就可以得到文本特征之間的相關性,從而提高語義分析的準確度。

2.3 特征提取和選擇

經過文本預處理、文本結構化等步驟后,我們會得到一個含有大量與語義相關和不相關的文本表示,這是一個高維稀疏的特征空間,若不作處理,它將為文本分析在訓練、分類或預測過程中帶來巨大的計算量。而且在這些特征中,有很多特征往往與人格分析沒有太多相關性,甚至會帶來噪聲、對模型的分類預測性能造成嚴重影響。特征提取和選擇則能從這些高維的特征集合中,選取與人格分析目標高相關的一部分特征作為分類特征,作為最能代表文本所體現人格特質的特征子集合。目前主流的特征提取和選擇方式有兩種:結合人工構造的人格詞典,采用DF(文檔頻率)、TF-IDF等方法[13-16];通過 N-Gram語言模型獲得適合進行下一步分類學習所需要的特征集合[17-19]。

2.4 常用分類模型

(1)樸素貝葉斯分類。樸素貝葉斯分類方法(Na?ve Bayes Classifier)[11]基于這種獨立假設:文本中每個特征都是獨立的,與其他特征都不相關。在這種假設的基礎上,算法通過貝葉斯公式計算出文本中每個特征屬于該類別的概率。模型參數估計使用最大似然估計。其優勢在于只需要少量訓練文本就可以估計出必要的參數,且訓練速度較快,現實應用的準確率和效率都不差。其缺點在于,由于其特征獨立的假設,忽略了文本特征之間的相似度。

(2)支持向量機。支持向量機(Support Vector Machine,SVM)[12]的核心思想是,利用核函數將特征向量從低維空間映射到高維空間,然后根據概率統計構造一個或多個超平面,用于分類任務。這些超平面會被放置在使接近該超平面的兩類向量的距離最遠的位置,完成分類過程,而這些向量被稱為支持向量。一般來說,支持向量與該超平面距離越遠,分類的效果越好。支持向量機方法主要用于解決二分類問題,后來被改進用于解決多分類問題。

3 研究現狀及不足

目前,利用文本分析人格特質的研究,主要分為基于詞典和基于語言模型兩種方法。

3.1 基于詞典的研究

基于詞典的研究主要借助人工構建的詞典進行。文獻[13][14]主要使用的詞典為LIWC(語言查詢和詞語計數工具)詞典和MRC(醫學研究委員會)所提供的詞典對文本進行人格相關的特征提取。其采用的人格量表是NEO-FFI(一種60題的大五人格量表)。該研究將詞語按語法分為功能詞、聚合詞、評估詞、評價詞四種類別,并將文本用不同類別的詞語在相應集合組中出現的相對頻率組成的向量來表示,并用SVM進行預測分類。文獻[15]采用了兩種方法進行研究及比較:方法一為關鍵詞匯預測法,首先獲取相關研究中總結的人格詞典并利用WordNet擴充該詞典,然后用TF-IDF結合詞袋模型進行文本的分析;方法二為變型的貝葉斯方法,結合由問卷得到的用戶實際人格得分進行機器學習進行分析,并將學習過程中獲得的高相關性詞匯作為方法一詞典的擴充。文獻[16]的方法為結合大五模型理論獲取詞典SC-LIWC中每個詞項對應的性格因素值,通過查詢獲取微博文本中詞項對應的性格因素值,并基于LDA模型分析微博文本中蘊含的用戶性格。

這類研究的不足之處在于,對文本的語義研究建立在人工所構建詞典的基礎上,通過對文本中詞語的類型決定該詞語對不同人格特質的貢獻。這樣在分析中,僅僅對文中的詞語以割裂的方式單獨進行分析,忽略了詞語在句子中與前后詞語的聯系。這種聯系不僅僅會造成語義分析的偏差,甚至起到相反的分析效果。例如,在文本表達中,“我有信心”和“我很有信心”所表達的意思雖相近,但程度由明顯差別,而“我有信心”和“我沒有信心”則完全是相反的意思。然而,這兩種情況在上述分析中,因為只考慮“信心”在句中的出現次數,模型在分析時無法體現這三個句子意思的差別,造成很大的誤差。

3.2 基于語言模型的研究

基于語言模型的研究則主要是基于N-Gram語言模型。文獻[17][18]在用N-Gram方法建立語言模型、獲得特征后,通過頻率、實際人格得分區分度、離群程度、置信度四個標準對特征進行篩選。然后使用SVM和貝葉斯模型分別進行了建模和相互比較,此外還比較了對人格得分不同的群體區分方法下的分類準確率。文獻[19]則在當時相關研究的基礎上,側重于從文本的句法特征入手研究作者的人格。研究使用N-Gram語言模型,抽取了文本句子中的名詞短語、主語、賓語以及其它語法關系作為句法特征進行建模。

這類研究的不足之處在于,由于N-Gram語言模型是根據相互之間沒有任何遺傳屬性的離散單元詞而構建,從而不具備連續空間中的語義記錄,當系統模型針對某一詞語或詞序列調整參數時,相似意義的詞語和詞序列也會發生改變,這就一定程度上造成了上述研究中模型的不可重復性和不精確性。另外,這一方法在需要相當規模的已標注數據的同時,對比傳統語義分析的方法而言準確率也沒有顯著優勢。

4 結語

人格作為一個表示個體根本差異的重要心理學概念,具有對個體特質的全面描述和對個體行為很強的預測作用。人格有著很大的研究價值,可以讓人們更好地了解自我、心理醫生更好地了解病人、服務商能夠為客戶提供更為個性化、高效的服務等。由于人格特質是研究人格的重要工具,而人格特質在語言中的表現非常明顯,研究者們越來越傾向于使用人們在社交網絡中發布的文本信息進行對人格的研究分析。本文從相關研究基礎、主流方法、研究現狀及不足三個方面對這類研究進行了綜合闡述??梢钥吹?,隨著社交網絡和機器學習技術的飛速發展,基于社交網絡文本的人格分析盡管有著很多問題和挑戰,但同時也有著巨大的價值和廣闊的前景。

參考文獻:

[1]許燕.人格心理學[M].開明出版社,2012.

[2]王登峰,方林,左衍濤.中國人人格的詞匯研究[J].心理學報,1995,24(4):400-406.

[3]Allport G W,Odbert H S.Trait Names:A Psycho-Lexical Study[J].Psychological Monographs,1936,41(1,whole No.211).

[4]Norman W T.2800 Personality Trait Descriptors:Normative Operating Characteristics for A University Population[R].Ann Arbor:Department Of Psychology,University of Michigan,1967.

[5]Goldberg L R.The Development of Markers for the Big-Five Factor Structure[J].Psychological Assessment,1992,4(1):26-42.

[6]Tupes E C,Christal R C.Recurrent Personality Factors Based on Trait Ratings[M].(Tech.Rep.No.ASDTR-61-97).Lackland Air Force Base,TX,U.S.Air Force,1961.

[7]張磊,陳貞翔,楊波.社交網絡用戶的人格分析與預測[J].計算機學報,2014,37(8):1877-1894.

[8]Chang K C,Garcia-Molina H,Paepcke A.Boolean Query Mapping Across Heterogeneous Information Sources[J].Knowledge and Data Engineering,IEEE Transactions on,1996,8(4):515-521.

[9]Salton G,Fox E A,Wu H.Extended Boolean Information Retrieval[J].Communications of the ACM,1983,26(11):1022-1036.

[10]Lee J H.Properties of Extended Boolean Models in Information Retrieval[C].Proceedings of the 17th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval.Springer-Verlag New York,Inc.1994:182-190.

[11]Rish I.An Empirical Study of the Naive Bayes Classifier[C].IJCAI 2001 Workshop on Empirical Methods In Artificial Intelligence. Vol 3.2001:41-46.

[12]Suykens J A,Vandewalle J.Least Squares Support Vector Machine Classifiers[J].Neural Processing Letters,1999,9(3):293-300.

[13]S.Argamon,S.Dhawle,M.Koppel,J.Pennbaker.Lexical Predictors Of Personality Type.In Proc.Joint Annu.Meeting Interface Classification Soc.North Amer.,2005.

[14]F.Mairesse,M.A.Walker,M.R.Mehl,R.K.Moore.Using Linguistic Cues for the Automatic Recognition of Personality In Conversation And Text.J.Artif.Intell.Res.,Vol.30,pp.457-500,2007.

[15]張曉珍,運用文字探勘技術在社群行為上之人格預測,臺灣國立交通大學,2013.

[16]湯文清,微博用戶的興趣及性格分析,上海大學,2015.

[17]J.Oberlander,S.Nowson.Whose Thumb Is It Anyway?Classifying Author Personality from Weblog Text.In Proc.Annu.Meeting Assoc.Comput.Linguistics,2006,pp.627-634.288 IEEE Transactions On Affective Computing,VOL.5,NO.3,July-September 2014

[18]S.Nowson,J.Oberlander.Identifying More Bloggers:Towards Large-Scale.In Proc.Int.Conf.Weblogs Social Media,2007.

[19]K.Luyckx,W.Daelemans.Using Syntactic Features To Predict Author Personality From Text.In Proc.Digit.Humanities,2008,pp. 146-149.

Survey of Personality Research Based on Social Text

ZHU Yu
(College of Computer Science,Sichuan University,Chengdu 610065)

With the rapid development of computer network technology and the popularization of social media tools,more and more people use the text information to express themselves on social network.This information has great value in the research on personality analysis.This research can better promote people′s understanding and maintenance of their mental health and can promote service providers to provide more accurate,personalized service.Therefore,carries out a summary of the social text based on the personality analysis with the three aspects,related research foundation,mainstream methods,research status and the problems.

Social Network;Text Analysis;Personality Analysis;Classification Model

1007-1423(2017)09-0061-04

10.3969/j.issn.1007-1423.2017.09.016

朱宇(1988-),男,四川簡陽人,碩士,研究方向為人機交互

2017-02-15

2017-03-20

猜你喜歡
文本分析模型
一半模型
隱蔽失效適航要求符合性驗證分析
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
在808DA上文本顯示的改善
電力系統不平衡分析
電子制作(2018年18期)2018-11-14 01:48:24
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
電力系統及其自動化發展趨勢分析
3D打印中的模型分割與打包
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
主站蜘蛛池模板: 99热这里只有精品5| 日韩二区三区| 伊人天堂网| 亚洲视频免费播放| a欧美在线| 国产浮力第一页永久地址| 色噜噜狠狠狠综合曰曰曰| 国产精品永久免费嫩草研究院| 亚洲无码A视频在线| 国产亚洲成AⅤ人片在线观看| 精品视频第一页| 国产精品冒白浆免费视频| 成人在线不卡视频| 国产一级在线观看www色| 国产三级毛片| 91无码人妻精品一区| 国产爽妇精品| 久久国产精品77777| 亚洲国产成人麻豆精品| 亚洲人成色77777在线观看| 亚洲激情99| 真人高潮娇喘嗯啊在线观看| 日本www色视频| 中文字幕中文字字幕码一二区| 日本不卡在线播放| 亚洲欧美日韩天堂| 91福利国产成人精品导航| 精品视频一区在线观看| 在线永久免费观看的毛片| 一边摸一边做爽的视频17国产| 欧美成一级| 好久久免费视频高清| 国产成人91精品免费网址在线| 中国一级特黄视频| 国产自在线播放| 精品日韩亚洲欧美高清a| a亚洲天堂| 欧美成人午夜影院| 波多野结衣视频网站| 五月丁香伊人啪啪手机免费观看| 国产成人综合日韩精品无码首页| 国产导航在线| 免费AV在线播放观看18禁强制| 波多野结衣一二三| 亚洲an第二区国产精品| 国产在线无码一区二区三区| 欧美一级特黄aaaaaa在线看片| 97精品久久久大香线焦| 凹凸国产熟女精品视频| 国产成人亚洲欧美激情| 日韩一区精品视频一区二区| 青青草原国产免费av观看| 91精品情国产情侣高潮对白蜜| 国内a级毛片| 亚洲日本精品一区二区| 欧美日韩北条麻妃一区二区| 国产熟睡乱子伦视频网站| 国产精品深爱在线| 亚洲AV无码久久天堂| 午夜影院a级片| 欧美黄色网站在线看| 国产成人a毛片在线| 成色7777精品在线| 国产不卡网| 伊人久久大香线蕉影院| 欧美日韩成人在线观看| 国产精女同一区二区三区久| 国产自在线播放| 五月丁香伊人啪啪手机免费观看| 免费中文字幕一级毛片| 丝袜亚洲综合| 亚洲性视频网站| 免费播放毛片| 欧美日本在线| 亚洲欧美不卡中文字幕| 四虎影视8848永久精品| 99精品这里只有精品高清视频| 青草精品视频| 国产福利不卡视频| 亚洲成人高清无码| 97se亚洲综合在线天天| 永久免费无码日韩视频|