胡龍茂
(安徽財貿職業學院,安徽合肥230601)
中文在線評論的用戶性別判定研究*
胡龍茂
(安徽財貿職業學院,安徽合肥230601)
該文旨在研究中文在線評論的用戶性別判定問題,即根據用戶的商品評論識別用戶的性別.首先研究了在線評論中對用戶性別起指示作用的信息,然后從用戶名、商品描述和評論文本中抽取特征,分別采取獨立特征、疊加特征及融合特征的方式構建最大熵分類器進行實驗.實驗結果表明,用戶名+商品描述+評論文本的分類器準確率最高.
性別判定;中文在線評論;最大熵分類器
近年來,隨著電子商務的飛速發展,越來越多的用戶選擇從網上購物,截止到2016年6月,我國網絡購物用戶規模達到4.48億[1].在使用商品后,部分網購用戶會在購物網站上發表評論信息,淘寶、京東和亞馬遜上隨之產生了海量的在線評論,這些評論包含了用戶對商品或商品某些屬性的意見,而不同類別的用戶對商品及其屬性的關注點也不相同,如果能夠從評論中挖掘出用戶的性別、年齡及職業等信息,則會對產品定制及差異化營銷產生積極的影響.
文獻[2]利用不同人群的博客用戶在寫作風格和內容上的顯著差異,來確定一個未知用戶的年齡和性別.文獻[3]利用用戶的tweet文本內容和用戶資料中的全名、用戶名及個人描述三個字段作為特征來判定用戶的性別.文獻[4]研究了美國的58 466 名Facebook用戶的Facebook Likes數據,精確預測了一系列高度敏感的個人特征,包括:性取向、種族、宗教和政治觀點、父母離異、年齡和性別等.文獻[5]以用戶名和微博文本作為特征,采用分類器融合的方法對中文微博用戶的性別進行了判定.
除了對博客、微博用戶進行信息提取研究外,也有少數學者對在線評論的用戶信息提取展開了研究.文獻[6]利用規則從Web評論中提取用戶的性別.
本文研究了中文在線評論中對用戶性別起指示作用的信息,在此基礎上提出了從用戶名、商品描述和評論文本抽取特征,采用最大熵模型判斷用戶性別的方法.實驗結果表明,特征疊加的分類器有較高的準確率.
最大熵模型就是符合已知事實的情況下,對未知事實不作概率上的假設,即未知的分布應該是均勻的.例如,假設用戶的年齡分為四個階段,已知所購商品中出現“美寶蓮”的70%屬于青年,而“美寶蓮”在其余三個年齡段中的分布未知,則根據最大熵原則,各有10%的可能性屬于其他三個年齡段.如果商品中沒有出現“美寶蓮”,則此用戶都以相同的、25%的概率屬于四個年齡段.
在自然語言處理任務中,通常使用條件最大熵模型.每個訓練樣例由實例x和其對應的類別y組成,fi(x,y)為表征訓練樣例的特征函數,則最大熵模型的公式如下:


C為約束,要求所有特征的模型期望等于經驗期望,即要求模型符合已知事實.通過拉格朗日乘法求解帶約束的最優值,得到:

其中λi是特征權重,Zλ(x)為歸一化因子,用于保證x屬于各類別的概率和為1.
一般無法求出λi的解析解,可以采用GIS或IIS算法獲得近似解.
最大熵模型的主要優點是能夠在同一個框架中使用不同的特征,這些特征之間無需獨立性假設,這顯然比貝葉斯方法更符合事實.
本文從亞馬遜網站上抓取了某國產手機的評論共1068條,根據這些評論的用戶URL繼續抓取這些用戶的所有評論,每個用戶的評論由用戶名、所購商品的描述和評論文本組成.由4人人工標注出這些評論用戶的性別,只有3人及以上同時標注為男(或女),此用戶才能確定為男(或女),不符合這個條件的評論被丟棄.最終得到可以確定性別的用戶評論886個,其中男性658個,女性228個.
通過對評論語料的觀察,可以從用戶名、商品描述和評論文本中發現與性別相關的特征.
2.1 用戶名特征分析
用戶名有一定的性別指示作用.男性用戶名的末尾往往有偏男性化的字,例如:楊海濤、孫旭輝、潘宇等.女性用戶名的末尾也有類似的現象,如:劉婷婷、陳珍玫等.評論中也有部分用戶名沒有性別特征,如亞馬遜賣家、sdu等.
2.2 商品描述特征分析
男女性用戶對不同類別的商品感興趣程度是不同的.男性往往對電子、電器感興趣,而女性對服裝、包、食品、化妝品更感興趣.
例1:某男性用戶所購商品,文本中每行代表一樣商品(C52-m6.txt).
“榮耀暢玩4X Che1-CL20雙卡雙待全網通版4G智能手機移動/聯通/電信4G/3G/2G(白色)...
Kindle Paperwhite電子書閱讀器:300 ppi電子墨水觸控屏、內置閱讀燈、超長續航...
NuPro輕薄保護套(適用于第6代以及第7代Kindle Paperwhite電子書閱讀器),經典黑...”
例2:某女性用戶所購商品,文本中每行代表一樣商品(C51-m566.txt).
“Greenleaf綠葉隔離防曬補水組合套裝(防曬隔離乳冰肌露SPF 30PA+++60ml+復活草深層補水面膜貼25ml 6片)裸妝遮瑕防輻射補水(新老包裝隨機發貨)...
Cetaphil絲塔芙潔面乳118m l(特賣)...
XSHOW圣雪蘭洋甘菊花瓣初露150ml★韓國熱賣溫和爽膚水曬后修護...
榮耀暢玩4X Che2-UL00(2G RAM)聯通高配版4G智能手機(白色)雙卡雙待...”
有些用戶不但為自己購買商品,同時也給家人朋友購買商品,此時,所購商品中可能男、女性用品都存在.
例3:所購商品中同時包括男、女性用品.(C52 -m1124.txt)
“榮耀暢玩4X Che1-CL10雙卡雙待電信4G智能手機(白色)電信定制版FDD-LTE/TD-LTE/CDMA2000/GSM...
Braun德國博朗cruZer Z20電動剃須刀...
Donlim東菱全自動面包機XBM1028GP...
PUMA彪馬 優雅時尚系列 女式 單肩包/斜挎包 黑 -黑70749010100...”
2.3 評論文本分析
男、女性評論的用詞會有所區別,女性用詞會有更多的語氣詞、感嘆號等.
例4:某女性用戶的評論文本.
“用了一年,內存總是不夠,一般般咯
這個眼線筆一點也不好,真心的,暈妝,千萬別買,后悔死了”
也有極少數評論文本中會明顯地有指示性別的詞語出現.
例5:某男性用戶的某條評論,其中“老婆”指示了用戶性別為男性.
“剛剛使用過,配置很方便,速度還不錯,65Mb.有了這個,老婆就不再和我搶網絡了.”
3.1 特征函數的選擇
(1)用戶名特征函數.微博用戶的中文昵稱大都與中文人名相似[7],而中文人名有較強的性別區分性[8].網購用戶同微博用戶一樣,使用的都是網名,有一定的相似性,故對于中文用戶名而言,可以使用名字的尾字作為特征進行區分.對于英文用戶名而言,尾字的元、輔音對性別也有較強的區分性.特征模板如表1所示.
例如,由特征模板3可以得到一個特征函數:



表1 用戶名特征模板
(2)商品描述及評論文本的特征函數.根據用戶所購商品的描述或評論文本來判定用戶性別,實際上就是文本分類問題.定義D=(d1,d2,…,dn)是訓練文檔集,類別G=(g1,g2)為性別集合,W={w1,w2,…,wk}是訓練文檔集中特征詞.最大熵模型的特征函數用如下公式表示[9]:

上式中num(wi,d)表示文檔d中詞wi出現的次數.
3.2 用戶性別判定
用戶性別判定的過程如圖1所示.對于利用商品描述和評論文本判定性別,首先要進行文本預處理(文本分詞、特征詞選取),然后利用式(7)獲得特征函數,最后用最大熵模型進行訓練和判定.對于利用用戶名判定性別而言,只需根據表1所示特征模型獲得特征函數,然后用最大熵模型進行訓練和判定.

圖1 中文在線評論的用戶性別判定過程
4.1 實驗設置
實驗采用Python開發環境.本文借鑒墨爾本大學Steven Bird開發的自然語言工具包NLTK,用python語言實現了最大熵分類器.分詞工具采用北京理工大學張華平博士開發的NLPIR漢語分詞系統.從人工標注過的886篇評論語料中隨機抽取80%作為訓練集,其余20%作為測試集,使用準確率評價分類效果.
4.2 實驗結果
分別采用用戶名、商品描述、評論文本、用戶名+商品描述、用戶名+商品描述+評論文本構建分類器以及使用用戶名、商品描述、評論文本三個基分類器的組合分類器,組合分類器采用貝葉斯積的方式融合基分類器.對于每種分類器,均進行五次實驗,結果取五次實驗的平均值.實驗結果如表2所示.

表2 不同分類器的分類準確率
從表2的實驗結果看,①僅使用用戶名進行判定的準確率最低,這是由于用戶的取名有很大的隨意性,有些名字是數字,還有些注冊時沒取名,系統默認設為“亞馬遜用戶”,導致用戶名的分辨效果較差.②僅使用商品描述進行判定的準確率接近最高準確率,比僅使用用戶名高了10.3個百分點,說明商品描述有較強的性別分辨能力.③使用用戶名+商品描述+評論文本疊加特征進行判定的準確率最高,達到了85.06%,可能是由于評論文本的一些性別指示詞、男女性不同的用詞習慣起了作用.④用戶名、商品描述、評論文本的分類器組合的判定能力比較差,甚至不如單獨的商品評論分類器,可能是因為準確率較低的用戶名基分類器中的一些錯誤被傳導到組合分類器.

圖2 不同特征數目下的分類準確率
圖2給出了不同特征數目下的分類準確率.為方便統計,同時使用兩種文本特征的分類器的特征數目取值是相同的,例如,特征數目為500的用戶名+商品描述+評論文本分類器,指的是商品描述和評論文本的特征數目各取500.
從圖2中可以看出:①各分類器的準確率在特征數為200到500之間取得最大值,超過500時,準確率逐漸降低.②評論文本分類器的準確率始終是最低的,組合分類器的準確率略高于評論文本分類器,用戶名+商品描述+評論文本的準確率始終是最高的.
[1]中國互聯網絡信息中心.中國互聯網絡發展狀況統計報告(2016年7月)[EB/OL].http://www.cnnic.cn/gy wm/xwzx/rdxw/ 2016/201608/W020160803204144417902.pdf.
[2]Schler J,Koppel M,Argamon S,et al.Effects of Age and Gender on Blogging[C]//Proceddings of A AAI 06,2006.
[3]Burger J,Henderson J,Kim G,et al.Discriminating Gender on Twitter[C]//Proceddings of EMNLP 11,2011,1301-1309.
[4]Kosinskia M,Stillwella D,Graepelb T.Private traits and attributes are predictable from digital records of human behavior[J].Proceedings of the National Academy of Sciences,2010(15),5802-5805.
[5]王晶晶,李壽山,黃磊.中文微博用戶性別分類方法研究[J].中文信息學報,2014,28(6):150-155.
[6]邱云飛,王雪,劉大有,等.基于Web評論的用戶個人信息提取方法研究[J].計算機應用與軟件,2012,29(5):44-47.
[7]安軍輝.基于微博數據的微博用戶性別判斷研究[D].武漢:華中師范大學,2015.
[8]于江德,趙紅丹,鄭勃舉,等.基于中文人名用字特征的性別判定方法[J].山東大學學報:工學版,2014(1):13-18.
[9]李榮陸,王建會,陳曉云,等.使用最大熵模型進行中文文本分類[J].計算機研究與發展,2005,42(1):94-101.
(責任編輯:王前)
TP18
A
1008-7974(2016)06-0069-04
10.13877/j.cnki.cn22-1284.2016.12.022
2016-09-08
安徽省高校自然科學研究重點項目(KJ2016A009)
胡龍茂,男,安徽太湖人,講師.