999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于社交網絡隱私信息挖掘的情緒智力畫像方法研究

2019-07-08 07:09:26劉禹辰王偉
網絡空間安全 2019年2期

劉禹辰 王偉

摘? ?要:在當今的大數據時代, 隱私挖掘和用戶畫像已經成為分析目標特征的一項重要技術。文章通過對傳統情緒智力模型進行改進,提出了一種情緒智力水平的量化方法。該方法對目標用戶在不同社交網絡下產生的自然數據進行提取、分詞和情感分析后,使用模型內各指數的生成規則量化目標用戶的情緒智力,構建情緒智力模型并生成情緒智力值。最后分析了模型量化結果的具體案例和群體得分分布,并證明了通過隱私信息挖掘量化目標用戶情緒智力方法的可行性、可量化、可解釋等特點。

關鍵詞:情緒智力;隱私挖掘;用戶畫像;情感分析

中圖分類號:TP391.1? ? ? ? ? 文獻標識碼:A

Privacy mining and emotional intelligence portrait in social networks

Liu Yuchen, Wang Wei

(Beijing Key Laboratory of Security and Privacy in Intelligent Transportation, Beijing Jiaotong University, Beijing, 100044)

Abstract: Privacy mining and user portraits have already become an important technology for target feature analysis in the big data era. This paper improves the traditional emotional intelligence model and proposes a quantitative method for the level of emotional intelligence. This method extracts, segments and emotional analyzes the natural data generated by the target users in different social networks, and then quantitates the target users' emotional intelligence ability by generating rules of indices in the model, constructs emotional intelligence model and generates the emotional intelligence number. Finally, this paper analyses the specific cases of quantitative results and the distribution of group scores, and proves that the method of quantifying the emotional intelligence of target users through privacy information mining is measurable and feasible.

Key words: emotional intelligence; privacy mining; user portrait; emotional analysis

1 引言

隨著互聯網的飛速發展,人們越來越依靠網絡進行日常活動,這些行為在網絡上留下的痕跡經過數據挖掘就可以生成用戶畫像。雖然該技術已經有了較為成熟的理論和商業應用,但大多局限于生成目標在某個特征上的畫像,很少有涉及其本身性質的。為了能夠通過目標用戶在社交網絡中產生的自然數據獲取其人性方面的畫像,本文以傳統的情緒智力模型為基礎,提出了一個構建用戶情緒智力畫像的方法,以反映目標的情緒控制能力、壓力應對能力、人際關系能力等多種內在特質。

2 隱私數據挖掘

數據挖掘[1]作為一種通過相關算法在大量的數據中搜索并找出隱藏信息的技術,已被廣泛應用到科學、醫學和商業領域[2]。隨著信息安全與數據挖掘的融合,對含有用戶隱私信息的數據進行隱私挖掘變得備受青睞。該技術將目標用戶的隱私數據進行適當的自然語言處理后,通過某些特定的算法和規則生成其在某些特質方面的畫像,從而分析并獲得目標用戶的個人隱私。

社交網絡上的數據可以按照數據的公開性分為媒體數據和聊天數據。本文使用網絡爬蟲采集了微博、豆瓣和美團點評三個分別在各自領域具有代表性的網絡社交媒體數據。這類數據獲取方便、數據量足夠大,但由于社交平臺是公開的,目標在發表言論時勢必有所保留,這會導致在后續分析過程中存在一定偏差。

網絡社交聊天數據能夠更準確地分析目標的內在特質,本文通過手機聊天軟件獲取用戶的聊天數據。微信是人們當前使用最廣的一款即時通訊軟件,含有足夠的隱私數據。由于微信的聊天記錄都是儲存在本地的,因此只要掌握數據庫密碼的生成算法,就可以很方便地采集到用戶的聊天數據。

3 中文分詞與情感分析

3.1 中文文本分詞

在獲取到足夠的數據后,就需要進行自然語言處理,本文采用基于統計的分詞方法進行中文文本分詞[3]。該方法與傳統的基于詞典的分詞方法相比,能夠很好地處理歧義問題和未登錄詞識別問題[4]。

首先使用全切分法[5]對文本進行所有形式的切分,然后從右向左依次計算各分詞的出現頻率,最終得到該情況下整句的出現頻率,而所有情況中句頻最大的情況即為近似最優解。對于未登錄詞的處理則使用隱馬爾科夫模型[6],將一個句子以“BEMS”組成的序列串作為輸出,通過調用維特比算法計算出這個句子關于“BEMS”狀態的最大可能輸出序列,從而完成整個句子的分詞。

3.2 中文情感分析

情感分析是對帶有情感色彩的主觀性文本進行分析處理的過程[7]。本文采用一種基于詞典和統計相結合的方法進行情感分析,對于詞典中收錄的詞使用查詢的方法計算情感值,對于未登錄詞通過相似度匹配算法判斷其是否為情感詞,并計算近似情感值。

3.2.1 情感詞的情感值

情感詞典是對情感詞進行極性分類、情感分類和強度分析的詞典,本文選取大連理工大學信息檢索研究室的情感詞匯本體庫[8]作為情感詞典。該庫將情感分為樂、怒、哀、懼等七個大類,每個情感詞具有強度和極性兩個屬性。

對于一個存在于情感詞典中的詞語,設為該詞的情感值得分,為情感詞強度,為修正后的情感詞極性,則其情感值為。當該詞的情感屬性與極性相同時,;相反時,;當該詞的情感極性為中性或褒貶兼有時,。

3.2.2 未登錄詞的情感值

對于情感詞典中未收錄的詞語,首先要進行情感詞的判斷。判斷方法為選取一些情感詞作為詞原,然后計算該詞與詞原的相似度,若相似度足夠大則判斷其為情感詞并計算情感值。

知網提供的語義層次樹是當前覆蓋范圍最廣的中文語義關系網絡[9],可以用于相似度的計算。由于該網絡以詞義為單元,故需將詞原分解為更小的義原。對于詞語和詞原,其詞語相似度即為各義原相似度的最大值,義原間的相似度為:

其中,為兩個義原在語義層次樹中的距離,為可調節參數,取[10]。

將情感詞典中所有詞語作為詞原,計算未登錄詞與所有詞原的相似度,相似度最大的即為未登錄詞的近似詞原。設近似度閾值,為近似詞原的情感值,則該詞的最終情感值為:

3.2.3 副詞的情感值修正

除情感詞外,副詞也會很大程度上影響句子的情感值。本文綜合了知網的程度和否定副詞表,使用影響因子來量化影響程度,如表1所示。

對于被副詞修飾的情感詞,其情感值修正為原情感值依次乘以所有修飾副詞的影響因子。此外,當否定詞在程度副詞之前時會降低修飾程度,此時修正其影響因子為原來的一半。

3.2.4 句子的情感值

將全句中所有情感詞依次相加,即可得到該句的情感值 ,然后通過引入反正切函數保證其在低分數段區分度放大且整體收斂。此外,若句中存在遞進或轉折關聯詞,則做出如下修正。

(1)遞進,即后句擁有比前句更強的情感。設前句情感值為e1,后句為e2,則e=e1+1.5e2

(2)轉折,即后句擁有與前句完全相反的情感,此時e=-e1+e2

4 構建情緒智力畫像

4.1 情緒智力

情商[11]這一概念由以色列心理學家巴昂首創,美國心理學家薩羅維首次提出情緒智力這一概念,定義為“監控自己和他人的情感和情緒,對其加以識別并用這些信息指導自己的思維和行為的能力”[12]。此后,巴昂聯合多名學者出版了《情緒智力手冊》,提出了標準的情緒智力測量方法,即巴昂情緒智力模型。該模型是當今最受認可的情緒智力模型,包括個體內部、人際、適應性、壓力管理和一般心境五個指數[13]。

然而隨著這一模型的普及,其在量化過程中存在的問題也暴露出來[14]。一是情緒智力的善變性,即與接受測試時相比,目標的情緒智力水平會發生改變。二是測試結果的真實性,即目標在受測時的積極程度和主動性。若目標的心情是快樂,就會下意識地作出樂觀的判斷,導致整體結果偏向于高分,反之亦然。此外,目標是否主動配合測試也影響結果的真實性,目標或許會對于某些方面的問題避而不談,甚至弄虛作假,導致最終結果不準確。

4.2 模型改進

隨著隱私挖掘技術的介入,上述兩個問題都得到了很好的解決。傳統的巴昂情緒智力模型試圖用一般心境指數來修正目標受測時的積極程度,但由于人為干預的可能性無法排除,因此仍存在很大的偏差。隱私挖掘方法能夠在目標不知情的情況下獲取數據,具有很高的真實性。對于量化過程中的另一個缺陷,由于獲取的是用戶在所有時間段的社交數據,便可以從整體上計算用戶的情緒智力能力,無需拘泥于某一時刻的改變。

為使傳統的情緒智力模型能更好地反映目標的情緒智力水平,本文在不影響原模型結構的前提下做出了一些改進。首先,取消了一般心境指數,因為在當前技術背景下已無需對數據的真實性進行修正。其次,將個體內部指數分為認知和管理兩個指數,以便從宏觀和微觀分別量化目標的情緒控制能力。改進后模型的結構如下。

(1)認知指數,衡量目標是否能在大多數情況下,擁有對情緒的自我意識。

(2)管理指數,衡量目標是否能在各種情況下,維持情緒狀態穩定不變。

(3)壓力指數,衡量目標是否能在情緒因突發事件而受到巨大影響時,迅速調整其回到常態。

(4)感染指數,衡量目標能否快速理解他人情緒,并使得自我情緒被帶入。

(5)人際指數,衡量目標在日常人際交往過程中受到的認可程度和接納程度。

4.3 模型量化

將情感值與情緒智力模型聯系起來,就可以通過句子情感值來量化各指數的大小,從而計算總情緒智力值。首先,使用窗口將文本數據進行分塊,規定若窗口值為,則每個窗口內含有個被測目標的句子。此時在各窗口內被測目標的情感值為該窗口下各句的平均情感值,方差為各句情感值得分的方差,情緒變化值為前后兩窗口平均情感值的差。此外,由于部分文本中含有對話,故數據中還存在與被測目標交流的陪測目標,陪測目標擁有與被測目標類似的平均情感值、方差和情緒變化值。

在選擇了合適的窗口大小后,通過每次后移一個句子的方式可計算每個窗口內的數據值,然后根據模型要求進行判斷和計算。下面分別給出情緒智力模型中五個指數的量化方法。

4.3.1 認知指數

認知指數評價目標對自我情緒的認知能力,主要體現在各窗口情感值的方差上,即認為擁有低方差值的目標能夠維持一個較為穩定的平均情感值,擁有較強的情感認知能力。此外,該指數也受文本的總情感值影響。若目標數據文本的總句數為,總窗口數,則其認知指數為。

4.3.2 管理指數

管理指數評價目標的情緒管理能力,判斷規則:當某窗口內目標的情感值方差超過0.1時,說明此時其情感值發生了較大波動,標記該窗口為波動窗口。然后評估目標到情緒穩定且情感值為正值所需的時間,即出現一個方差值不超過0.1且平均情感值為正值的窗口所需的時間。

設波動窗口出現后,下一個滿足條件的窗口首句與波動窗口首句間相差個句子,則該窗口的管理指數為。目標的管理指數為所有波動窗口管理指數的平均值。

4.3.3 壓力指數

壓力指數評價目標在壓力下調整自我情緒的能力。首先規定當某窗口內目標的平均情感值小于0時,為目標受壓情況,標記該窗口為受壓窗口,然后評估目標在受壓后將情感值首次調整為正值所需的時間。

設受壓窗口出現后,下一個平均情感值為正值的窗口首句與受壓窗口首句間相差個句子,則該窗口的壓力指數為。目標的壓力指數為所有受壓窗口壓力指數的平均值。

4.3.4 感染指數

感染指數評價目標情緒受他人影響的程度,判斷規則:當某窗口內陪測目標的情感值方差超過0.1時,說明陪測目標的情感值發生了較大波動,標記該窗口為被感染窗口。在該類窗口內,被測目標的情感值方差和情緒變化值為計算感染指數的重要指標。同時,用相似參數表示該窗口內被測目標與陪測目標平均情感值的相似程度,取。則該窗口的感染指數為,目標的感染指數為所有被感染窗口感染指數的平均值。

4.3.5 人際指數

人際指數評價目標影響他人情緒的能力,與感染指數的量化方式大致相同。當某窗口內被測目標的情感值方差超過0.1時,說明被測目標的情感值發生了較大波動,標記該窗口為影響性窗口。則該窗口的人際指數為,目標的人際指數為所有影響性窗口人際指數的平均值。

5 情緒智力量化結果與分析

5.1 結果分析

5.1.1 目標量化結果分析

根據上述量化方法,將獲取到的用戶數據先后通過文本分詞、情感分析和模型構建處理,就可以量化出目標用戶的各項指數及最終情緒智力值。

現任選幾組目標數據進行實驗,首先進行數據清理和文本分詞,分詞結果如圖1所示。

分詞結果中,詞語使用單斜線分隔,句子使用雙斜線分隔。在分詞完成之后,就通過情感分析,計算每個句子的情感值,計算結果如圖2所示。

根據上文中的情緒智力量化方法,通過句子情感值計算出五個指數的具體數值。由于各指數間的量化方法是相互獨立的,故在生成目標用戶的總情緒智力值時需要對各指數分別進行加權,保證各級指數的評分模式處于同一水平下,然后將各加權后的指數得分取平均值,即為用戶的總情緒智力值,結果如表2所示。

其中,第1、3、5組為點評數據,第2、4、6組為影評數據,第7、8組為聊天數據,表中選取的均為在相應方面內比較有代表性的數據結果。由各組的數據得分可以看出, 社交網絡數據的分數與用戶的手動評分級別基本成正相關趨勢,隱私聊天數據由于其對話信息較為密集,故其人際指數得分普遍較高。

表中的各項指數代表著目標用戶在該項上的具體能力水平,分值越高表明其在該項上的能力越強。例如,第2組數據的各項指數均較高,說明該目標的各項情緒智力能力都很優秀,而觀察上圖中的用戶文本也可以發現,該目標的確做出了積極的評價,情感分析結果中的句子情感值也基本保持正值,且部分句子情感值得分較高;而第3組數據中的管理指數得分較低,說明該目標在情緒控制方面的能力較差,而觀察其用戶文本發現,該目標的確在評價中對于其不喜愛的方面給予了較低的評價,且在后文中持續對這些方面進行評論和抱怨;第7組數據中的壓力指數較低,說明該目標的壓力應對能力較差,這也在其用戶文本中得到了體現。

5.1.2 群體分布情況分析

將所有數據集的量化結果按一定的各分數段進行數量統計,通過各分數段的用戶頻數值,就可以生成目標群體在各指數下的得分分布情況及其回歸曲線,具體分布結果如圖3和圖4所示。

圖3和圖4分別為對80萬條社交網絡數據和100組微信聊天記錄數據進行量化,得到的認知和管理指數得分分布圖和回歸曲線。由圖中數據可以看出,大多數用戶的得分都處在一個中等的分數段內,只有少數用戶的得分極高或極低。將五個指數以相應的權重加和,得到目標用戶的總情緒智力值分布圖,如圖5所示。

由上述結果可以看出,在本情緒智力模型中,大多數目標的情緒智力值集中在80~130分范圍內,占總數的65.28%,屬于正常情緒智力水平;低于80分的占21.96%,為較低情緒智力水平;高于130分的占12.76%,為較高情緒智力水平。各指數結果和總體結果趨于正態分布,符合基本的統計規律,也符合人們日常對于情緒智力值的理解和認知。

此外,在社交網絡數據中存在著一些具有評分屬性的點評類數據,這些數據本身就包含目標的情感信息,能夠對情緒智力值的準確性起到驗證作用。圖6為所有點評數據中,各級評分的人數和該評分群體所有目標用戶的平均情緒智力值。

由圖6的結果可以看出,評分低的用戶群體其平均情緒智力值也較低,反之亦然。而各評分用戶的分布走勢也與情緒智力值分布結果大致相同。

5.2 窗口值選取

窗口寬度值會很大程度上影響情緒智力模型的量化結果。當窗口值較小時,會導致用方差進行窗口判斷的管理、感染和人際指數出現漏報情況,使量化結果整體偏小;當窗口值較大時,由于目標用戶很少會長時間保持較低情感,故會導致受壓窗口的漏報,使結果整體偏大。窗口值為三種不同情況時,目標群體的情緒智力得分分布如圖7、圖8和圖9所示。

由上述結果可以看出,過小的窗口值會嚴重影響最終結果,而過大則會使得情緒智力值結果的區分度不夠明顯。因此,選取最合適的窗口值就需要在保證窗口能夠完整反映大多數負向情感的前提下,使窗口值盡量大。建議在選取窗口值時優先選取一個中等大小的數值范圍,然后分別以該范圍內所有整數為窗口值對數據進行模型構建,最終選取能夠使量化結果區分度較大的數值作為窗口值。按照這一規則選取的窗口值既能確保受壓窗口的判斷不受影響,又能夠使其他指數的結果更加準確可靠。

5.3 結論

通過以上隱私數據分析和情緒智力畫像方法,可得到四個結論。

(1)本文的方法能夠通過目標用戶在社交網絡上留下的行為數據,分析得到屬于個人隱私的情緒智力能力,包括目標的自我認知、情緒管理、壓力應對、社交感染和人際交往能力,以及總的情緒智力值。這些結果反映出目標所具有的各項能力水平,并且能夠在其社交文本內容上得到很好的解釋和印證。

(2)由目標用戶群體量化結果可以看出,各項指數的得分分布基本都呈現“中間多,兩端少”的狀態,與正態回歸曲線有著較高的契合度;同時,各級評分的用戶平均情緒智力值折線走勢也與總情緒智力值得分分布大體相同。這些現象證明了本文提出的情緒智力模型量化方法的確能夠在一定程度上區分不同目標用戶的情緒智力水平,在情緒智力能力方面也能夠給出較為準確的評價。

(3)本文所有實驗數據全部來自社交網絡,實驗結果也均為目標用戶在社交網絡下的情緒智力畫像結果。由于本文是通過用戶的文本數據進行分析的,因此對于任何能夠提供用戶文本信息的數據源,均可使用本文的方法進行情緒智力量化,即該方法在一定程度上具有普適性。

(4)本文的情緒智力模型的五項指數經巴昂傳統情緒智力定義,受窗口值等參數影響,由文本分詞、情感分析情況和模型量化方式共同決定最終結果。因此,只要準確應用本文的情緒智力模型量化方法,任何能夠完成文本分詞且能夠分析并計算出句子情感值的方法都可被用于情緒智力模型的量化與構建。

6 結束語

本文從數據挖掘和用戶畫像的角度出發,通過用戶在社交網絡下的行為數據,分析其情緒智力能力。在通過網絡爬蟲、密碼破譯、文本分詞等手段采集并處理數據后,使用基于詞典和統計的中文情感分析方法計算情感值。該方法通過情感詞典查詢和相似度比對分別對不同的詞語進行情感值計算,并從詞語極性、強度、修飾、關聯詞等方面進行修正,降低了語法規則造成的誤差,提高了最終結果的精確性。

為使情感值能夠反映目標的情緒智力水平,本文分析了巴昂情緒智力模型的各項重要指標,提出了一個包含認知、管理、壓力、感染、人際五項指數的改進型模型,并給出了量化規則。該規則以窗口為基本單位,通過特定數值情況判斷特殊窗口,計算目標在各情況下的情感變化程度與情緒智力能力,并生成情緒智力值。隨著人工智能的不斷普及,情緒智力分析在對人性探索方面有著越來越重要的意義,在對目標進行分析和預測上也發揮著越來越重要的作用。

基金項目

1.國家重點研發計劃重點專項(項目編號:2017YFB0802805);

2.國家自然科學基金(項目編號:U1736114)。

參考文獻

[1] 吳超超,李偉春.基于隱私保護的數據挖掘技術與研究[J].科技資訊, 2015(15): 20.

[2] 張海濤,黃慧慧,徐亮,高莎莎.隱私保護數據挖掘研究進展[J].計算機應用研究, 2013,12(15):3529-3535.

[3] 吳熠瀟.中文分詞相關算法研究[J].科技經濟導刊, 2017(27):122-123.

[4] 陳開昌.自然語言處理技術中的中文分詞研究[J].信息與電腦(理論版), 2016(19):61-63.

[5] 常朝穩,魏進.基于全切分算法的歧義識別與處理[J].計算機工程與應用, 2008,44(15): 145-147.

[6] 岑詠華,韓哲,季培培.基于隱馬爾科夫模型的中文術語識別研究[J].現代圖書情報技術, 2008(12):54-58.

[7] Liu B. Sentiment analysis and subjectivity[A]. N. Indurkhya, F. J. Damerau. Handbook of Natural Language Processing[M]. Second Edition, Florida:CRC Press, 2010,627-661.

[8] 徐琳宏,林鴻飛,潘宇.情感詞匯本體的構造[J].情報學報,2008,27(2):180-185.

[9] 閆紅,李付學,周云.基于HowNet句子相似度的計算[J].計算機技術與發展, 2015(11):53-57.

[10] 劉群,李素建.基于《知網》的詞匯語義相似度計算[J].中文計算語言學, 2002,7(2): 59-76.

[11] Bar-On R. BarOn Emotional Quotient Inventory:Technical Manaual[M]. Toronto: Multi-Health Systems Ins, 1997,1-8.

[12] Mayer JD, Salovey P. The Intelligence of Emotional Intelligence[J]. Intelligence, 1993,17(4):433-442.

[13] Bar-On R. The Handbook of Emotional Intelligence[M]. San Francisco: Jossey-Bass, 2000,1-10.

[14] Bar-On R. BarOn Emotional Quotient Inventory: Youth Version Technical Manaual[M]. Toronto:Multi-Health Systems Ins, 2000,6-7.

主站蜘蛛池模板: 中文字幕亚洲专区第19页| 狠狠亚洲婷婷综合色香| 亚洲va在线∨a天堂va欧美va| 精品一區二區久久久久久久網站| 亚洲精品制服丝袜二区| 尤物特级无码毛片免费| 激情网址在线观看| 美女一区二区在线观看| 伊伊人成亚洲综合人网7777| 中文字幕无码av专区久久| 中文字幕有乳无码| 国产精品综合色区在线观看| 成人精品午夜福利在线播放| 韩日无码在线不卡| 啊嗯不日本网站| 亚洲一区二区无码视频| 国产在线第二页| 午夜三级在线| 国产一区二区免费播放| 国产欧美日韩综合一区在线播放| 91久久大香线蕉| 色男人的天堂久久综合| 日韩欧美在线观看| 蝴蝶伊人久久中文娱乐网| 九九九九热精品视频| 一级毛片在线播放免费观看 | 欧美三级视频网站| 国产精品手机视频| 中文字幕乱码中文乱码51精品| 国产精品妖精视频| 女人一级毛片| 四虎AV麻豆| 91无码视频在线观看| 亚洲无码精彩视频在线观看| 亚洲愉拍一区二区精品| 2020精品极品国产色在线观看| 91亚洲精品第一| 99re在线免费视频| 婷婷久久综合九色综合88| 久久久久国产精品嫩草影院| 性视频一区| 欧美笫一页| 欧美精品1区2区| 色综合久久综合网| 九色综合视频网| 欧美成人影院亚洲综合图| 五月婷婷伊人网| 久久99蜜桃精品久久久久小说| 久久久久国色AV免费观看性色| 男女性色大片免费网站| 国产无遮挡裸体免费视频| 久久久久中文字幕精品视频| 在线国产你懂的| 亚洲精品第1页| 国产一级片网址| a欧美在线| 天堂在线www网亚洲| 啪啪啪亚洲无码| 日韩国产另类| 欧美日韩综合网| 青草免费在线观看| 国产理论最新国产精品视频| 91视频99| 中文字幕在线播放不卡| 国产精品美女免费视频大全| 国产超碰在线观看| 香蕉在线视频网站| 国产欧美日韩资源在线观看| 好紧好深好大乳无码中文字幕| 亚洲一区二区精品无码久久久| 日韩欧美中文字幕在线精品| 香港一级毛片免费看| 色综合久久88色综合天天提莫| 国产成人一二三| 日韩精品高清自在线| 国产xx在线观看| 国产肉感大码AV无码| 久久免费观看视频| 亚洲乱码在线播放| 色天堂无毒不卡| 亚洲免费播放| 老司机精品久久|