999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

融合文本和表情符號特征的社交網絡用戶性別識別

2023-01-11 00:44:14許小可
復雜系統與復雜性科學 2022年4期
關鍵詞:特征文本情感

王 浩,許小可

(大連民族大學信息與通信工程學院,遼寧 大連 116600)

0 引言

近幾年來,隨著社交網絡的迅猛發展,越來越多的用戶通過微博、微信等社交軟件進行信息交流。社交網絡涵蓋以用戶社交為核心的所有網絡服務形式,互聯網是一個能夠讓用戶相互交流、相互參與的互動平臺[1]。截止到2020年,全球社交網絡用戶規模達到32.3億人,在互聯網用戶的比例達到80.7%,用戶平均每天在社交網絡和即時通訊應用上花費2小時24分鐘。因此,社交網絡數據引起了大量研究者的研究興趣[2]。

在社交網絡的數據挖掘中,用戶性別識別是受到關注的研究方向之一。研究用戶屬性,準確進行用戶性別識別可以更好地進行智能營銷、個性化預測及虛假信息識別等研究[3-4]。用戶性別信息在個性化服務,定向廣告,推薦系統等方面具有巨大的價值。但是,用戶性別是一種個人隱私信息,部分用戶不愿意公開自己的真實性別,在注冊性別信息時故意使用假信息或者不填寫。在無法通過直接手段獲得用戶真實性別的情況下,通過特征工程結合機器學習方法對用戶的性別進行識別就很有必要。性別識別的主流方法是分析用戶文本中體現出的語言特征,如習慣使用的詞語類別,使用詞語的頻次統計以及文本中隱含的情感特征等[5-8]。目前,宋巍等[1]根據用戶興趣偏好和文本詞特征對微博用戶性別識別準確率為84%,劉寶芹等[9]利用微博情感特征和文本詞特征對用戶性別進行識別的準確率為82.8%,用戶性別識別準確率還有待提升。

主流的性別識別方法主要是基于單個用戶的文本內容,忽略了用戶使用的表情符號以及多用戶之間的交互信息。目前表情符號已經成為各種社交媒體中必不可少的元素,與傳統的文字相比,表情符號更加生動形象,可以更加直觀地表現出高興、悲傷、憤怒等情感[10-12]。研究表明,男性用戶和女性用戶在社交媒體中使用表情符號的喜好上存在差異,且不同性別用戶往往使用不同情感種類的表情符號[13]。此外,社交網絡最大的特點是多用戶之間可以進行交互,多用戶之間的交互信息可以用來識別用戶性別。例如,某條微博的評論中使用了“美女”,“漂亮”等詞語,可以判斷出發布微博的用戶為女性用戶。因此,基于用戶文本特征,融合表情符號和交互特征能否提升用戶性別識別準確性是有價值的研究問題。

目前,關于社交網絡用戶的性別識別工作主要是在臉書、推特、博客等平臺上進行研究。大多數性別識別研究工作是借助用戶信息以及用戶發表的博客文本。例如,Mukherjee等[14]根據不同性別用戶的博客文本在寫作風格上的差異,對用戶的性別進行識別;Mcgee等[15]從用戶發表的博客文本中,挖掘出用戶的情感信息,利用情感特征對用戶進行性別識別。其他的研究者通過用戶的用戶名等個人信息識別用戶的性別。例如,Burger等[16]利用Twitter的用戶賬戶名、用戶全名以及用戶個人描述三項資料來識別用戶的性別。由于微博等社交網絡媒體的迅速發展,國內研究者開始將目光轉向中文微博用戶的性別識別。宋巍等[1]根據用戶興趣偏好對微博用戶性別進行識別。劉寶芹等[9]針對兩性用戶中文微博文本情緒上的差異,提取情緒詞特征和情緒相關的語言風格特征識別用戶性別。王晶晶等[17]分別利用用戶名特征和文本特征對用戶性別進行識別,然后將用戶名和文本特征進行融合識別用戶的性別。

表情符號的研究大多是關于表情符號在用戶交流中的作用以及表情符號的情感傾向性分析,Mcshane等[18]研究表情符號對用戶的影響力,發現表情符號的出現會增加用戶對話題的參與度;Kelly等[19]研究表情符號如何影響朋友之間的人際關系。此外,Butterworth等[13]關注不同性別的用戶在表情符號使用習慣上的不同;Prada[20]也通過實驗證明,女性使用表情符號的頻率更高,對表情符號的使用態度也更積極。

本文的創新和主要貢獻包括兩個方面: 1)提出了利用表情符號特征識別用戶性別的新思路,并融合文本和表情符號特征對用戶性別進行識別。實驗表明利用表情符號特征進行用戶性別識別是一種有效的方法,且融合表情符號特征后用戶性別識別的性能得到提升。2)提取交互信息中的文本和表情符號作為交互特征識別用戶性別,并在單個用戶特征基礎上融合交互特征識別用戶性別。實驗結果表明融合交互特征提高了用戶性別識別的精度。

1 數據描述

本實驗使用新浪微博微熱點大數據研究院提供的單個用戶微博數據集和用戶交互數據集。單個用戶微博數據集的用戶多為明星用戶以及粉絲量多的大V用戶,如黃渤、何炅等,微博內容大多是對生活的分享,用戶交互數據集中的用戶基本是粉絲較少的普通用戶,且微博內容多是某些話題的討論。單個用戶微博數據集共有226.3萬條微博數據。為了保證實驗的準確性,去除原始數據中的重復微博內容以及使用表情數量較少的用戶,最終選取男性用戶和女性用戶各550個,每個用戶的微博數量為1 000條,單個用戶數據中包含用戶姓名、認證類型、用戶性別、微博內容等屬性。用戶交互數據集共有174.7萬條數據,過濾后選取19 000個男性用戶和19 000個女性用戶,用戶交互數據包括原創微博用戶名、用戶認證類型、原創微博用戶性別、微博轉發評論內容以及評論用戶的性別等。新浪微博將用戶分為“普通用戶”、“橙V用戶”、“藍V用戶”、“達人用戶”和“金V用戶”,“普通用戶”是指沒有經過認證的個人用戶和企業用戶。為保證實驗結果的可靠性,本實驗數據中使用的所有微博用戶數據都是經過新浪微博官方認證的個人用戶數據。

2 用戶性別識別

2.1 單個用戶文本和表情符號特征的性別識別

2.1.1 基于文本特征的用戶性別識別

目前通過文本識別用戶性別的主流方法有兩種,一種是通過文本中詞語的使用頻率來識別用戶性別,另一種挖掘文本中的情感信息進行用戶性別識別,本文通過文本識別用戶性別也使用了這兩種常用方法。

分析用戶的微博文本,發現文本中有高性別區分性的詞語可以用來識別用戶性別,例如“兄弟”、“女朋友”、“足球”等詞語往往來自于男性用戶,“丈夫”、“姐妹”、“高跟鞋”等詞語更可能被女性用戶使用。因此,本文計算微博文本中每個詞的使用頻次作為特征識別用戶性別。

不同性別用戶在微博中表達的情感存在著差異,女性用戶使用情緒詞的數量以及表達正向情緒的頻率都高于男性用戶,且女性比男性表達某種情感更加強烈[14]。因此,本文使用大連理工大學的情感詞匯本體庫和情感詞典統計用戶微博文本中使用的情感詞種類個數以及樂、好、哀、怒、懼、惡、驚七類情感每類情感詞的個數作為特征,并把七類情感詞分為積極情感和負面情感兩大類,按照文獻[15]提到的公式計算微博文本的情感詞多樣性。

TTR=V/N

(1)

(2)

(3)

其中,V和N分別代表一個用戶微博文本中出現的情緒詞種類個數和情緒詞總個數,x.Aggvalue表示某類情感詞相對頻率,xWords表示文本中某類情感詞的個數,aWords表示微博文本單詞總長度,PosToAllRatio代表文本中積極情緒與所有情緒的比率,pos.Aggvalue和neg.Aggvalue由公式(2)給出。

本文采用的單個用戶的性別識別文本特征如表1所示。其中,文本詞特征指的是利用信息增益的特征選擇方法計算文本中每個一元詞的IG值,IG值反映了一個特征對整個分類的重要程度,詞特征IG值越大表示這個詞特征越重要[21],本文選取IG值最高的前1 000個一元詞作為文本詞特征。

表1 單個用戶文本特征Tab 1 Single user text features

2.1.2 基于表情符號特征的用戶性別識別

與文本相同,本文通過表情符號識別用戶使用了兩種方法,一種是微博中表情符號的使用頻率來識別用戶性別,另一種是利用表情符號的情感特征識別用戶性別。

表2 使用頻率前十的表情符號Tab.2 The top 10 most frequently used emojis

計算數據中不同性別用戶中使用頻率前十的表情符號,如表2所示,可以發現女性用戶和男性用戶在使用表情符號的喜好上有所不同,男性用戶更喜歡使用和等表情符號,女性用戶喜歡在微博中使用和等表情符號。因此,通過不同性別用戶使用表情符號的差異可以識別用戶性別,本文計算每個表情符號的使用頻率作為特征識別用戶性別。

從用戶微博所表達的情感方面考慮,表情符號能生動形象地表達用戶的情緒,用戶在表達自己積極的情緒時,往往使用和等表示積極意義的表情符號。目前學界普遍將表情符號情緒劃分為正面(高興、喜愛、驚訝)、負面(悲傷、憤怒、恐懼、厭惡)、中性和其他情緒,如表3所示。本文統計了單個用戶數據中不同性別用戶每類情感的表情符號使用數量,如表4所示,可以看出女性用戶比男性用戶使用積極表情符號數量多,男性用戶使用消極、中性和其他三類表情符號的數量比女性用戶多。圖1表明男性用戶使用的表情符號中積極表情占58.5%,消極表情、中性表情和其他表情分別占了26.2%,8.6%和6.7%,而女性用戶使用積極表情占比達到81.1%,遠遠超過其他三類表情的使用率。因此,本文計算每個用戶微博中使用的表情符號種類個數以及積極、消極、中性、其他四類表情每類表情符號的個數作為特征。根據文本情感詞豐富性的計算公式,計算TTR.Emoji,x.EmojiAggvalue來表示表情符號情感豐富性,計算公式如式(4),(5)所示。

(4)

(5)

其中,VEmoji和NEmoji分別代表一個用戶微博中出現的表情符號種類個數和表情符號總個數,xEmojis表示微博中某類表情符號的個數,aWEMojis表示微博中使用的表情符號總個數,x.EmojiAggvalue表示某類表情符號的相對頻率。

表3 表情分類[22]Tab.3 Emoji classification[22]

表4 不同性別用戶表情符號使用情況Tab.4 Emoji usage among users of different genders

圖1 不同性別用戶表情使用數量比例Fig.1 The proportion of emojis used by different genders

本文采用的單個用戶的表情符號特征如表5所示。其中,表情詞特征指的是利用信息增益的特征選擇方法計算微博中每個表情符號的IG值,選取IG值最高的前100個表情符號作為表情詞特征。

表5 單個用戶表情符號特征Tab.5 Single user emoji features

2.2 多用戶交互特征的性別識別

由于用戶在社交網絡中不是單個存在的,交互是社交最本質的核心。因此,微博提供了轉發、評論和@等機制讓用戶之間進行交流溝通。多個用戶在交互時會產生交互文本,這些交互文本會提供一些重要信息來識別用戶的性別。例如,一名女性用戶說:“周末快樂,準備出去看電影了”,一名男性用戶評論:“一起去呀,美女”。僅通過單個用戶微博并不容易判斷發博用戶的性別,而通過評論中的“美女”則可以判斷出發博用戶性別為女性。因此,本文將提取交互文本的詞特征對用戶性別進行識別。

多用戶的交互文本形成了簡短的對話,F-measure特征已經被證實可以應用于區分兩性在上下文表達中的差異[16]。因此,在交互中對男性用戶和女性用戶具有較好的區分度,本文將F-measure特征加入交互特征空間。該特征可以根據式(6)來獲得:

F-measure=0.5*[(freq.noun+freq.adj+freq.prep+freq.art)-
(fre.pron+fre.verb+freq.adv+freq.int)+100]

(6)

其中,freq.noun,freq.adj,freq.prep,freq.art,freq.pron,freq.verb,freq.adv,freq.int分別表示文本中名詞、形容詞、介詞、冠詞、代詞、動詞、副詞和感嘆詞的頻率。

表情符號是用戶交互中常用的符號,對于人際交流有重要的作用。研究表明,用戶與不同性別的用戶交互中使用的表情符號存在差異[23]。例如,男性用戶在交互時經常使用和等表情符號,而女性用戶在交互時更喜歡使用和等表情符號。此外,評論用戶的性別也是幫助我們識別用戶性別的重要信息,為了更好地挖掘不同性別用戶交互中表情符號使用的差異,提高用戶性別識別的性能,本文將提取用戶交互信息中的表情符號和評論用戶的性別進行組合作為特征來識別用戶性別。表6給出了提取表情符號和性別進行組合作為特征的例子。

本文采用的多用戶之間的交互特征如表7所示。交互文本特征指的是利用信息增益的特征選擇方法計算交互文本中每個一元詞的IG值,選取IG值最高的前1 000個一元詞作為交互文本特征,表情符號+性別特征指的是利用信息增益的特征選擇方法計算每個表情符號與性別組合的IG值,選取IG值最高的前100個組合作為表情符號+性別特征。

表6 表情符號和性別組合特征樣例Tab.6 Examples of emoticons and gender combination features

表7 多用戶交互特征Tab.7 Multiple users interaction features

3 實驗設置與結果分析

3.1 實驗設置

本實驗使用XGBoost算法對中文微博用戶進行性別識別,XGBoost在傳統的GBDT基礎上加以改進,具有可容錯、可移植、性能好等優點。采用Jieba分詞工具對文本進行分詞處理,并根據停用詞典去除文本中的停用詞,使用正則表達式對微博中的表情符號進行提取。從篩選后的數據中,選取數據的80%為訓練數據集,20%為測試數據集,然后基于XGboost算法訓練模型,通過訓練的模型在測試集識別用戶性別。實驗結果的評測指標選用準確率、精準率、召回率、F-score。

3.2 實驗結果與分析

3.2.1 基于單個用戶文本和表情符號特征的性別識別結果分析

表8中給出了使用文本特征和表情符號特征識別用戶性別的結果,可以看出文本詞特征的用戶性別識別準確率為81.0%,而文本情感特征的性別識別準確率為77.1%,比文本詞特征低了3.9個百分點,一方面因為情感特征的維數比較少,情感詞典無法包含所有的情感詞。另一方面中文有其自己的特殊性,不同情感詞在不同的中文語境里有不同的含義,進而影響了用戶性別識別的準確率。文本的情感特征+詞特征的準確率達到82.1%,比只使用文本詞特征提高了1.1個百分點。

表情符號情感特征+詞特征的準確率達到了79.7%,僅比使用文本特征低了2.4個百分點,說明根據表情符號特征識別用戶性別是一種有效的方法。在融合表情符號特征后,用戶性別識別準確率達到了85.5%,比只使用文本特征提升了3.4個百分點,精確率上升了3個百分點,召回率和F-score分別上升了3.3和3.4個百分點,這說明表情符號特征對用戶性別識別性能是有較大幫助的。

3.2.2 基于多用戶交互信息的性別識別結果分析

表9中給出了通過交互特征識別用戶性別的結果,可以看出利用交互文本特征識別用戶性別的準確率為65.9%,交互表情符號特征的性別識別準確率為69.5%,交互文本特征+交互情感特征識別用戶性別的準確率為74.5%,用戶性別識別效果比單獨使用交互文本特征或者交互情感特征好,再次證明融合表情符號特征能提高用戶性別識別的準確性。在單個用戶特征的基礎上,融合交互特征后用戶性別識別的各項評價指標都有提高,準確率提高了4.2個百分點,說明融合多用戶的交互特征能有效提升用戶性別識別的準確性。

表8 單個用戶數據融合文本和表情符號特征的用戶性別識別效果Tab.8 The gender recognition effect of combined with text and emoji features in single user data

表9 交互數據融合交互特征的用戶性別識別效果Tab.9 The gender recognition effect of combined with interactive features in interactive data

3.2.3 文本和表情符號特征分析

為了進一步探究文本和表情符號特征在用戶性別識別中的具體作用,本文通過T-SNE特征降維方法將文本詞特征和表情詞特征分別降到3維,將文本情感特征和表情情感特征分別降到2維,然后對各類別特征進行特征相關性分析和特征重要性分析,結果如圖2所示。

圖2a為各類別特征相關性分析結果,可以發現文本詞特征text_freq2和表情符號詞特征emoji_freq1之間具有一定的相關性,主要由于某些文本詞常和固定表情符號連用。表情符號詞特征emoji_freq2和表情符號情感特征emoji_emotion1之間也有一定的相關性,是因為用戶通常使用表情符號來表達自己的某種情感。總的來說,文本特征和表情符號特征之間相關性較小,說明這些特征之間幾乎是相互獨立的。

圖2b為各類別特征的重要性分數排序結果,橫坐標為特征的重要性分數,可以發現文本詞特征得分最多,對用戶性別識別影響力最大,主要是由于文本詞特征維度較大,對用戶性別識別的效果最好。表情符號詞特征和表情符號情感特征影響力相對較小,主要是由于表情符號個數較少,導致不同性別用戶使用某些表情符號的差異較小。此外,文本情感特征的影響力最小,主要是因為某些詞語在不同語境中表達不同的情感,導致與情感詞典中標注的情感不同,從而降低用戶性別識別的效果。

圖2 特征相關性和重要性分析Fig.2 Feature correlation and importance analysis

4 結論和展望

本文針對提升社交網絡的用戶性別識別準確性進行研究。首先,提出利用表情符號識別用戶性別,并融合文本和表情符號特征對用戶性別進行識別。其次,提取交互信息中的文本和表情符號特征作為交互特征,在單個用戶特征基礎上融合交互特征識別用戶性別。實驗結果表明: 1)表情符號特征對用戶性別識別有比較好的效果,準確率達到79.7%;2)融合表情符號和交互特征能提高用戶性別識別性能,準確率提升了6.8%,性能優于單獨使用文本特征,說明表情符號和交互特征對用戶性別識別是有效的。

在社交網絡中還有其他信息對用戶性別識別有幫助,例如用戶名、用戶興趣標簽以及用戶關注網絡等。在下一步工作中,將考慮基于更多用戶信息進行社交網絡用戶性別識別,提高識別的準確性和魯棒性。

猜你喜歡
特征文本情感
如何在情感中自我成長,保持獨立
失落的情感
北極光(2019年12期)2020-01-18 06:22:10
如何表達“特征”
情感
在808DA上文本顯示的改善
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
如何在情感中自我成長,保持獨立
抓住特征巧觀察
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
主站蜘蛛池模板: 丰满人妻一区二区三区视频| 亚洲免费人成影院| 一级成人欧美一区在线观看| 亚洲网综合| 色综合五月婷婷| 免费又黄又爽又猛大片午夜| 成人午夜免费视频| 国产国产人成免费视频77777| аⅴ资源中文在线天堂| 国产福利小视频在线播放观看| 亚洲日韩第九十九页| 久久综合丝袜长腿丝袜| 久久99热这里只有精品免费看| 一级在线毛片| 在线国产资源| 伊伊人成亚洲综合人网7777| 中文国产成人精品久久| 老色鬼欧美精品| 人妻免费无码不卡视频| 91精品人妻互换| 一区二区日韩国产精久久| 找国产毛片看| 亚洲性日韩精品一区二区| 国产91九色在线播放| 免费观看男人免费桶女人视频| 日韩天堂在线观看| 国产九九精品视频| 久久久久无码精品国产免费| 国产清纯在线一区二区WWW| 亚洲欧美国产五月天综合| 国产精品99久久久| 欧美第一页在线| 18禁不卡免费网站| 国产成人亚洲精品蜜芽影院| 狠狠色香婷婷久久亚洲精品| 欧美日韩精品综合在线一区| 欧美亚洲欧美| 尤物在线观看乱码| 国精品91人妻无码一区二区三区| 欧美在线精品怡红院| 亚洲成人手机在线| jizz国产视频| 伊人激情综合网| 欧美人人干| 日韩视频福利| 亚洲国产精品VA在线看黑人| 国内精品小视频福利网址| 国产成人喷潮在线观看| 国产视频 第一页| 亚洲精品另类| 亚洲人人视频| 日韩欧美综合在线制服| 久久国产精品麻豆系列| 成人一区专区在线观看| 国模视频一区二区| 国产美女视频黄a视频全免费网站| 中美日韩在线网免费毛片视频| 有专无码视频| 免费看的一级毛片| 亚洲视频在线观看免费视频| 成人免费网站久久久| 制服无码网站| 久久亚洲国产最新网站| 成人在线观看一区| 在线中文字幕网| 99国产精品一区二区| 在线免费无码视频| 欧美人与动牲交a欧美精品| 超碰aⅴ人人做人人爽欧美 | 欧美午夜网| 99久久国产自偷自偷免费一区| 亚洲午夜福利精品无码不卡| 国产亚洲精品97在线观看| 日韩美一区二区| 尤物亚洲最大AV无码网站| 日本a∨在线观看| 免费观看精品视频999| 国产一区二区网站| 欧洲亚洲一区| 97在线碰| 精品第一国产综合精品Aⅴ| 中文字幕在线欧美|