999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于TF-IDF方法的文本人物群體人格分析方法

2019-05-16 08:22:12蔡天鴻史國陽懷麗波
關(guān)鍵詞:人格類型分類文本

蔡天鴻 鄧 金 史國陽 朱 晉 懷麗波

(延邊大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院智能信息處理研究室 吉林 延吉 133002)

0 引 言

個(gè)體人格與個(gè)人發(fā)展息息相關(guān),人格研究可以幫助人們達(dá)到美好的人生和成功的事業(yè)。在群體生活中,群體成員心理存在社會(huì)標(biāo)準(zhǔn)化傾向,對于外界事物的認(rèn)知和判斷會(huì)發(fā)生類化,彼此互相影響,如流行于群體中的歌曲、衣著、飲食等在內(nèi)的習(xí)俗化表現(xiàn)。群體人格研究能夠讓人們從更多角度理解某群體的語言,包括一些獨(dú)特的想法、習(xí)慣、情感在內(nèi)的群體文化和群體人格,增強(qiáng)對某群體的理解和認(rèn)識(shí)。

本文從特定模擬情境入手,記錄大學(xué)生群體在該條件下的文本語言表達(dá),采用多種自然語言處理技術(shù)相結(jié)合的方法獲得該群體的人格分布。依據(jù)實(shí)驗(yàn)所得到的結(jié)果了解學(xué)生的性格,可以因地制宜地教學(xué),對改善學(xué)習(xí)效果、提高教學(xué)質(zhì)量等研究提供一定的參考價(jià)值。

1 相關(guān)工作

1.1 情景模擬法

美國心理學(xué)家茨霍恩最早提出情景模擬法。隨著人類社會(huì)的進(jìn)步和發(fā)展,管理、教學(xué)等領(lǐng)域?qū)θ瞬诺男枨髽O大,將情景模擬測試運(yùn)用到各個(gè)領(lǐng)域可以更有效地選拔人才。目前把情景測試法歸納為以下五種:公文處理、無領(lǐng)導(dǎo)的小組討論、角色扮演、起草公文、案例分析。情景模擬法具備趣味性濃、真實(shí)感強(qiáng)的優(yōu)勢,特別是在教學(xué)和人力資源管理方面運(yùn)用得非常廣泛[1]。

隨著對情景模擬的了解越來越深,近年來,合理運(yùn)用情景模擬法已經(jīng)逐漸成為很多領(lǐng)域不可缺少的一部分。如根據(jù)對突發(fā)性事件的應(yīng)急場景的模擬,可以測試相關(guān)人員的合格程度[2];根據(jù)對急診搶救場景進(jìn)行模擬,讓實(shí)習(xí)護(hù)士學(xué)會(huì)將理論知識(shí)應(yīng)用于實(shí)際操作;將情景模擬教學(xué)與財(cái)務(wù)會(huì)計(jì)相結(jié)合,提高學(xué)生學(xué)習(xí)興趣和實(shí)踐操作能力[3]。情景模擬的應(yīng)用還在不斷擴(kuò)展中,本文將情景模擬應(yīng)用進(jìn)行拓展,用于大學(xué)生群體人物人格分析。

1.2 九型人格

九型人格從古中亞開始發(fā)展,距今已有近兩千五百多年的歷史,在Naranjo、Hudson、David Daniels等來自不同國家的心理學(xué)研究學(xué)者的廣泛推廣下,九型人格逐漸走入現(xiàn)代心理學(xué)體系[4]。作為人格研究工具,RHETI量表是到目前為止九型人格領(lǐng)域使用最多、傳播最廣、影響力最大的量表,該量表被認(rèn)定了充分的信度和效度,以及內(nèi)部的高度一致性[5]。近年來涉及九型人格的領(lǐng)域愈加廣泛,如醫(yī)療、教育、企業(yè)、人才培養(yǎng)等[6]。如2012年柴佳就給出了大學(xué)生教育中個(gè)體人格的分析對教育的影響[7],但涉及大學(xué)生群體性格研究的文獻(xiàn)相對較少。本文則采用機(jī)器學(xué)習(xí)分析群體人格,具有一定的研究意義。

1.3 文本技術(shù)

文本表示如今普遍采用Salton等提出的向量空間模型。在這個(gè)模型中不必考慮文本中語義單元的順序,而是將文本簡化為一個(gè)BOW(Bag-of-Word),并表示為特征權(quán)重的向量。向量空間模型主要以詞作為特征,以詞頻矩陣為基礎(chǔ)計(jì)算權(quán)重[8]。常用的特征提取方法有文檔頻率、信息增益、互信息、卡方檢驗(yàn)、期望交叉熵、TF-IDF方法和特征降維[9]。現(xiàn)有的特征降維技術(shù)有PCA等,此外小波變換壓縮數(shù)字信號的特點(diǎn)也能用來進(jìn)行特征提取[10]。

文本分類是基于內(nèi)容的文本信息挖掘的基本技術(shù)之一,目前常用的文本分類方法主要有樸素貝葉斯分類算法、決策樹分類算法、神經(jīng)網(wǎng)絡(luò)分類算法、K-最近鄰(KNN)分類算法、支持向量機(jī)(SVM)分類算法等。其中SVM算法分類器訓(xùn)練時(shí)間長,而決策樹算法的效率也會(huì)因?yàn)閿?shù)據(jù)量的增大而降低。而KNN算法在準(zhǔn)確率和穩(wěn)定性方面均有優(yōu)勢,它不需要預(yù)先訓(xùn)練模型,同時(shí)具有很好的魯棒性。

2 基本理論

2.1 人格分析

情景模擬方法具有一定的情境特征,是一種行為測試手段。情境模擬規(guī)則是模擬特定的情境,并在一定的情境壓力下對其進(jìn)行評估。此外,由于許多人參與測評,可以為評價(jià)者提供條件的比較,使評價(jià)結(jié)果更加準(zhǔn)確。情景模擬是在動(dòng)態(tài)中考核,在動(dòng)態(tài)評價(jià)中可以提高評價(jià)的真實(shí)性、有效性。

九型人格也被稱為人格型態(tài)學(xué)。在眾多的人格測試和劃分方法中,與其他人格分類法不同,九型人格揭示了人們內(nèi)在最深層的價(jià)值觀和注意力焦點(diǎn),它不受外在行為的變化影響。按照一個(gè)人的核心焦點(diǎn)和深層的動(dòng)機(jī)的不同,將人的人格劃分為九類:1號完美型、2號助人型、3號成就型、4號自我型、5號理智型、6號疑惑型、7號活躍型、8號領(lǐng)袖型、9號和平型[11]。2000年后九型人格作為一門理論,開始逐漸在企業(yè)管理、教育、精神治療等領(lǐng)域發(fā)揮作用。另外,機(jī)器學(xué)習(xí)技術(shù)不斷發(fā)展成熟,將九型人格理論和機(jī)器學(xué)習(xí)相結(jié)合將成為可預(yù)見的事實(shí)。

2.2 文本處理

在VSM模型中,單詞權(quán)重計(jì)算最為有效的實(shí)現(xiàn)方法是TF-IDF。它的計(jì)算公式如下:

W(ti,dj)=tf(ti,dj)×idf(ti,d)

(1)

式中:W(ti,dj)是特征項(xiàng)ti在文本dj的權(quán)重取值;tf(ti,dj)是特征項(xiàng)ti在文本dj中出現(xiàn)的頻率,用于計(jì)算該詞描述文檔內(nèi)容的能力;idf(ti,d)是特征項(xiàng)ti在文本集d中出現(xiàn)文本頻率數(shù)的反比,稱為反文檔頻率,用于計(jì)算該詞區(qū)分文檔的能力[12]。

PCA降維方法將高維的詞語特征-文檔空間轉(zhuǎn)換為一個(gè)低維度的正交矩陣,從中選擇最有辨別能力的特征。Wavelet是時(shí)間(空間)頻率的局部化分析,它通過伸縮平移運(yùn)算對信號(函數(shù))逐步進(jìn)行多尺度細(xì)化,最終達(dá)到高頻處時(shí)間細(xì)分,低頻處頻率細(xì)分,能自動(dòng)適應(yīng)時(shí)頻信號分析的要求,從而可聚焦到信號的任意細(xì)節(jié)。

KNN分類算法能夠確定待分類樣本與訓(xùn)練樣本之間的相似程度,從而確定與待分類樣本距離最近的K個(gè)訓(xùn)練樣本。其最關(guān)鍵的因素是相似性度量方法,最常采用的相似性度量方法是余弦距離,如下所示:

(2)

式中:X,Y代表兩個(gè)文檔表示向量。對于一個(gè)待分類文本,根據(jù)相似性度量函數(shù)從整個(gè)訓(xùn)練集中找到與文本最相似的K(K是預(yù)先設(shè)定的一個(gè)整數(shù))個(gè)文本,然后根據(jù)K個(gè)近鄰文本所屬的類別給的候選類別評分。

2.3 方法設(shè)計(jì)

本文以情景模擬法入手,利用文本分析方法對大學(xué)生群體人物性格進(jìn)行群體人格判別,具體流程如圖1所示。

圖1 分析方法整體框架圖

首先需要得到有效的訓(xùn)練樣本。讓100位志愿者登錄官網(wǎng)進(jìn)行專業(yè)的九型人格測試,然后按志愿者人格類型分為九個(gè)小組,并讓每個(gè)小組內(nèi)的志愿者回答設(shè)定的情景模擬題,進(jìn)而得到100個(gè)已經(jīng)標(biāo)定好人格類型的文本樣本。

讀取100個(gè)模板文本樣本,去掉特殊符號和停頓詞等,剩余詞語為關(guān)鍵詞。為了減少計(jì)算量,本文利用TF-IDF特征提取方法對關(guān)鍵詞進(jìn)行排序,選取TF-IDF值較大的詞作為類別關(guān)鍵詞,之后根據(jù)篩選好的類別關(guān)鍵詞構(gòu)建向量空間模型a。

逆向文件頻率(IDF)本質(zhì)上是對噪聲數(shù)據(jù)的加權(quán),本文中如果單純認(rèn)為文本詞頻越小越有用、頻數(shù)越大越無用是片面的,需要加入其他算法對類別關(guān)鍵詞進(jìn)行優(yōu)化。分別利用PCA特征提取方法和Wavelet特征提取方法對文本語言表達(dá)集進(jìn)行特征提取,得到PCA空間b、Wavelet空間c。

分別對提取到的空間a、b、c使用KNN算法進(jìn)行分類,測試時(shí)選取3×K個(gè)候選項(xiàng),以3×K個(gè)候選項(xiàng)中出現(xiàn)次數(shù)最多的人格類型作為最終判別人格。

3 實(shí)驗(yàn)結(jié)果與分析

本文以“假如去一孤島只能帶三樣?xùn)|西并闡述理由”作為情景模擬,共收集500位大學(xué)生志愿者的回答文本。選取100位志愿者,讓其在九型人格官方測試網(wǎng)站選取180題的測試選項(xiàng)進(jìn)行測試,選取準(zhǔn)確率較高的180題測試網(wǎng)站作為標(biāo)準(zhǔn),且假定測試結(jié)果準(zhǔn)確。

3.1 分類模型訓(xùn)練

為了獲得較好的分類器,從最初獲得的100個(gè)樣本中隨機(jī)選取一定比例的訓(xùn)練樣本和測試樣本進(jìn)行實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表1和表2所示。

表1 實(shí)驗(yàn)樣本個(gè)數(shù)為100時(shí)分類器的準(zhǔn)確率

表2 訓(xùn)練樣本數(shù)/測試樣本數(shù)為4/1時(shí)分類器的準(zhǔn)確率

計(jì)算出分類器的準(zhǔn)確率約在72.3%,該結(jié)果是在假定模板為絕對正確的前提下進(jìn)行的,所以是相對結(jié)果。而180題測試的準(zhǔn)確率約為75%,故實(shí)際準(zhǔn)確率約為0.75×72.3%=54.2%,而常見的測評網(wǎng)站例如144題、80題、36題等準(zhǔn)確率一般在50%左右[4]。本文方法與常規(guī)測評準(zhǔn)確率接近,可以作為人格測評的依據(jù)。前100個(gè)標(biāo)定樣本的分布圖如圖2所示。可以看出:除了3型人格,其他八類人格在訓(xùn)練樣本中分布差別不大,這能有效地縮小分類誤差。

圖2 100個(gè)標(biāo)記樣本群體人格類型分布

3.2 群體性格預(yù)測

1) 在參數(shù)已設(shè)定好的情況下對其余400個(gè)未標(biāo)定的文本話語進(jìn)行了人格分類,人格分類結(jié)果如圖3所示。可以看出,在整體中九種人格所占比例分別為:1型占3%,2型占9%,3型占45%,4型占17%,5型占6%,6型占4%,7型占8%,8型占4%,9型占4%。其中:所占比例最高的為3型人格,幾乎占到整體的一半;所占比例最低的為1型人格,僅僅只占整體的3%。

圖3 未標(biāo)定的400樣本對應(yīng)群體人格類型分布

2) 500個(gè)數(shù)據(jù)樣本總分布圖如圖4所示。可以看出,在整體中九種人格所占比例分別為:1型占4%,2型占9%,3型占40%,4型占17%,5型占7%,6型占5%,7型占8%,8型占5%,9型占5%。其中:所占比例最高人格類型為3型(成就型)人格;所占比例最低的為1型(完美型)人格。由此可以發(fā)現(xiàn),這一群體的主流人格為成就型人格。成就型人格的主要特征是在擁有強(qiáng)烈的好奇心,同時(shí)喜歡與人比較,將成就作為衡量自己價(jià)值高低的媒介。不僅如此,擁有該人格的人物自信、積極進(jìn)取、具有接受挑戰(zhàn)的欲望。上述特質(zhì)和實(shí)驗(yàn)研究群體即當(dāng)代大學(xué)生的積極、向上的主流思想特點(diǎn)相吻合,基于TF-IDF方法的文本人物群體人格分析方法是可行且合理的。

圖4 500個(gè)樣本對應(yīng)群體人格類型分布

4 結(jié) 語

針對日益增長的人物群體人格分析的需求,本文提出了一種基于TF-IDF方法的文本人物群體人格分析的方法。實(shí)驗(yàn)表明,該方法不但能極大地縮短了預(yù)測人格的時(shí)間,而且具有相當(dāng)大的可信度。本文提出的文本人物群體人格分析則能在短時(shí)間內(nèi)高效地獲取學(xué)生人格分析結(jié)果,真正做到因材施教。下一步需做的工作有如何進(jìn)一步提高分類器可信度以及引入人物的動(dòng)作神態(tài)指標(biāo)等。

猜你喜歡
人格類型分類文本
分類算一算
大學(xué)生職業(yè)人格類型的相關(guān)因素
——以A學(xué)院為例
教育觀察(2020年6期)2020-06-01 07:45:00
在808DA上文本顯示的改善
分類討論求坐標(biāo)
基于doc2vec和TF-IDF的相似文本識(shí)別
電子制作(2018年18期)2018-11-14 01:48:06
數(shù)據(jù)分析中的分類討論
教你一招:數(shù)的分類
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
六種人格類型
健康管理(2015年3期)2015-11-20 17:03:39
MBTI的軍校學(xué)員人格類型調(diào)查及性別因素分析
主站蜘蛛池模板: 伊人成色综合网| 久久成人免费| 福利视频一区| 91国内视频在线观看| 国产91久久久久久| 亚洲天堂777| 无码在线激情片| 2048国产精品原创综合在线| 九九九久久国产精品| 午夜福利免费视频| 四虎影视国产精品| 国产亚洲精久久久久久久91| 国产人在线成免费视频| 国产精品大尺度尺度视频| 成人免费黄色小视频| 秋霞午夜国产精品成人片| 97se亚洲综合在线韩国专区福利| 国产人成乱码视频免费观看| 欧美亚洲国产一区| 午夜小视频在线| 欧美成人午夜视频免看| 无码内射在线| 欧美一级视频免费| 黄色网站不卡无码| 少妇人妻无码首页| 老司国产精品视频| 久久久国产精品无码专区| 久久免费视频播放| 亚洲第一色网站| 欧美午夜精品| 中文国产成人精品久久| 免费看美女毛片| 一级片免费网站| 欧美一级大片在线观看| 国产欧美日韩综合一区在线播放| jizz国产视频| 一级片免费网站| 久久精品国产亚洲AV忘忧草18| 亚洲侵犯无码网址在线观看| 亚洲天堂高清| 97精品国产高清久久久久蜜芽| 日本午夜精品一本在线观看| 亚洲一级无毛片无码在线免费视频| 国产一区二区网站| 中文字幕乱妇无码AV在线| 8090午夜无码专区| 亚洲综合第一区| 一级毛片无毒不卡直接观看 | 亚洲午夜天堂| 欧美 亚洲 日韩 国产| 伊大人香蕉久久网欧美| 欧美怡红院视频一区二区三区| 久久精品亚洲专区| 九月婷婷亚洲综合在线| 国产高清免费午夜在线视频| 无码国产偷倩在线播放老年人| 国产一区二区人大臿蕉香蕉| 国产伦精品一区二区三区视频优播 | 91小视频在线播放| 中文字幕久久精品波多野结| 久久99久久无码毛片一区二区 | 精品中文字幕一区在线| 97在线碰| 国产乱人伦AV在线A| 高清码无在线看| 中文字幕 欧美日韩| 国产成人资源| 久久精品中文字幕免费| 久久综合伊人 六十路| 国产精品黄色片| 又粗又硬又大又爽免费视频播放| 手机在线免费不卡一区二| 久久人人爽人人爽人人片aV东京热 | 欧美三级日韩三级| 精品欧美视频| 国内精品视频在线| a级毛片免费看| 伊人久久久大香线蕉综合直播| 激情综合图区| 亚洲精品自拍区在线观看| 日韩国产亚洲一区二区在线观看| 一级毛片免费高清视频|