池雪花,張穎怡,高 星,盧 超,章成志
不同學科領域的用戶標簽標注行為差異研究
——以新浪微博用戶的標簽為例*
池雪花,張穎怡,高 星,盧 超,章成志
文章以新浪微博中用戶標簽作為研究對象,從微博中收集用戶基本信息與用戶標簽信息,依據用戶標簽分類體系對用戶標簽進行人工分類;然后分析標簽類型、標簽類型分布熵、用戶平均標簽個數、用戶平均標簽長度等標簽標注行為指標在不同學科領域中的差異,以及從高頻和不同標簽個數分組兩個角度分析上述行為指標在不同學科領域的差異。研究表明,標簽類型、平均標簽個數在不同學科領域中有顯著性差異;不同學科領域高頻標簽中,標簽類型存在較大差異;在不同標簽個數分組下,用戶標簽類型在不同學科領域下無明顯差異,用戶的平均標簽長度隨著個數的增多呈遞減趨勢。
用戶標簽 標簽分類 標注行為 用戶信息行為
隨著互聯網發展,越來越多的Web2.0網站采用標簽標注功能,用戶針對網絡資源進行標注,從而產生大量的標簽。一些社交網站允許用戶在維護個人文檔時,用關鍵詞標注自己的興趣或愛好,這種類型的關鍵詞通常稱為用戶標簽(UserTag),圖1為新浪微博博主孫茂松的用戶標簽(http://weibo.com/p/1005051970879995/ info?mod=pedit_more)。

圖1 孫茂松的用戶標簽
規范的用戶標簽可以對社交網站上的用戶進行有效分類,并為用戶興趣建模、好友推薦、專家檢索等應用提供依據。然而目前微博用戶標簽存在標注隨意、標簽無序化、標簽間缺乏語義關系等問題,這限制了用戶標簽的實際應用效果。現有的社會化標簽研究主要對象為用戶生成內容對應的標簽,而學術界對用戶標簽的研究還較少,更缺乏對用戶標簽的分類研究。
研究不同領域的社會化標簽的標注行為差異,對標簽標注質量的提高有重要作用。為此,本文通過對用戶標簽進行分類研究,考察不同學科領域的標注差異,從而為今后的用戶標簽標注界面或標注系統的研究與設計提供參考。本文選擇新浪微博作為研究對象,從微博中收集用戶標簽相關信息,設計微博用戶標簽分類體系,依據該體系對用戶標簽進行人工分類;然后分析不同學科領域中用戶標簽的差異。調研結果發現,標簽類型、平均標簽個數在不同學科領域中有顯著性差異;不同學科領域高頻標簽中,標簽類型存在較大差異;在不同標簽個數分組下,用戶標簽類型在不同學科領域下無明顯差異,用戶的平均標簽長度隨著個數的增多呈遞減趨勢。
(1)標簽標注行為研究概述。標注系統中用戶標注行為的研究已引起學者持續關注。2007年FarooqU等從標簽增長、標簽重用、標簽顯隱性、標簽歧視、標簽頻率和標注方式來分析用戶標簽標注行為[1];Mirzaee V等從每個資源的標簽數量、標簽的選擇與使用、標注頻率等角度分析用戶標簽標注動機對標注行為的影響[2];Xufei Wang等以StumleUpon與Delicious為平臺,從用戶標簽數量、用戶標簽共享、高頻率標簽的使用等角度對用戶標注行為進行分析[3];Aedín Guyot從標簽長度、標簽個數、高頻率使用標簽、不同語言標簽、標簽長尾性等角度對LibraryThing中的書籍標簽進行分析[4];章成志等人對騰訊微博用戶標簽與微博內容關鍵詞進行相關度評分,考察不同領域用戶標簽主題表達能力[5]。
(2)標簽類型劃分研究概述。社會化標簽具有不同的類型和功能,區分標簽類型有利于有針對性的應用研究。學者們提出不同的標簽類型劃分方式。Sen S和Lam K等將標簽劃分為客觀標簽、主觀標簽和個人標簽[6];Xu Zhichen和Fu Yun等將標簽劃分為描述內容、提供資源一些額外信息(如時間、地點)、外部屬性(如擁有者類型)、表達對資源評價、用于自我組織的一些個人詞匯等[7];Melenhorst M S和Van S M等將標簽劃分為內容標簽、態度標簽、自我提醒標簽等[8];Bischoff K和Firan C S等將標簽細分為主題、類型、作者或擁有者、評價、目的、自身任務需要、地點、時間等類型[9];Heymann P等等將標簽劃分為客觀和基于內容的、物理屬性、意見、個人、縮寫詞、垃圾標簽等類型[10];Bhnstedt D等將標簽劃分為人物或者組織資源作者或涉及到的人、地點、資源的類型、資源所涉及事件、主題、目標或任務等類型[11];Cantadora I等將標簽劃分為基于內容和基于環境兩大類,基于內容的標簽可再細分為物理實體和非物理實體及組織團體,基于環境下可細分為時間、地點等類型[12]。
綜上,社會化標簽標注行為、標簽類型劃分等相關研究較深入,然而缺乏用戶標簽的類型劃分、不同學科領域的用戶標簽標注行為差異等相關研究。用戶標簽分類研究對于用戶標簽標注界面或系統設計具有參考價值,因此,本文結合用戶模型,引入標簽分類體系,對用戶標簽進行分類,并進行標簽類型、標簽類型分布熵、標簽個數、標簽長度這四個方面的計算,通過四個指標分析用戶在不同分類角度下的標注行為差異。
2.1 調研流程
如圖2所示,本文調研流程為:首先利用新浪微博平臺,采集不同學科領域下的用戶標簽數據;其次制定用戶標簽分類體系,邀請3名志愿者參與用戶標簽分類任務,得到用戶標簽分類數據集;然后根據標簽分類數據集進行結果分析,即利用分類結果獲得標簽類型比率、標簽類型分布熵以及標簽的平均長度、平均個數;最后進行不同學科領域、高頻標簽、不同標簽個數用戶等三個角度下的比較分析。
2.2 標簽分類體系的構建
本文結合用戶建模思想構建用戶標簽分類體系。本文通過前期的用戶標簽數據調研結果,參考GolematiM等關于個人本體構建的研究成果[13],結合對部分用戶標簽類型的考察,在GolematiM等人成果的基礎上,增加狀態、行業領域、身份或職位、工作經歷和其他這5個用戶相關屬性,最終得到用戶標簽分類體系,如表1所示(說明:部分標簽由于用戶個人經歷不同可劃分成多種類型,如標簽“音樂”可劃分成專業或興趣愛好。對于上述情況,本文參考用戶主頁,結合用戶實際情況進行標簽類型劃分)。

圖2 用戶標簽類別的調查分析流程圖

表1 微博用戶標簽分類體系說明與舉例

表2 用戶標注行為量化指標說明
2.3 用戶標注行為量化指標構建
為全面考察用戶標簽在不同學科領域的差異,本文從標簽類型比率、類型分布熵、平均標簽個數與長度等角度進行考察,見表2。
(1)標簽類型比率。選擇類型比率指標的原因:在微博中,用戶可以標注不同類型的標簽;某一類型的標簽數越多,說明用戶標注此類型標簽的積極性越高。因此,通過類型比率,可以對用戶使用不同標簽類型的積極性的差異進行分析。為計算類型比率,本文對每位用戶的標簽按照事先構建好的標簽分類體系進行分類,并對用戶標簽數量進行統計,從而計算出每個學科領域用戶標簽的類型比率。
(2)標簽類型分布熵。選擇標簽類型分布熵的原因:信息熵是信息論中用于度量信息量的概念;一個系統的信息熵越低表明該系統越有序,信息熵越高表明該系統越混亂。計算標簽類型分布熵可描述出標簽類型的離散程度。因此,通過計算標簽類型分布熵的大小,可對不同學科領域用戶的整體標簽類型分布的差異進行分析。
(3)平均標簽個數。選擇平均標簽個數指標的原因:用戶可以為自己標注不同數量的標簽,因此不同用戶的標簽數量有差異;之前學者通過對不同網站中用戶的平均標簽個數,以及不同資源的平均標簽個數進行調研來分析用戶的標簽標注行為[2][3-4][13]。因此,通過平均標簽個數可以對不同學科領域用戶的平均標簽個數的差異進行分析。
新浪微博的標簽分為中英文兩種語言。對中文標簽,本文將空格符號作為標簽分割符,如“旅游校園生活”計算為2個標簽。對英文的標簽,以一個單詞為標準,如“IT”計算為1個標簽。由此得到每位用戶的標簽總數,計算用戶標簽總數與用戶數量的比率,得到平均標簽個數。
(4)平均標簽長度。選擇平均標簽長度指標的原因:用戶標注行為研究中,學者開始對標簽長度予以重視[4];標簽長度的研究數量占所有用戶標注行為的研究仍較少。因此,通過平均標簽長度指標,可對不同學科領域用戶標簽的平均標簽長度的差異進行分析,從而為標簽長度的研究提供參考。本文采用計算字節數的方式,將1個中文計算為2個字節,如“旅游”為4個字節長度;將一個英文字母計算為1個字節,如“IT”為2個字節長度。通過上述方式,統計得到標簽總長度,并計算標簽總長度與總個數的比率,得到平均標簽長度。
3.1 實驗數據準備
(1)實驗數據采集概述。在采集實驗數據時,本文對以下幾點進行控制:數據來源:本文以新浪微博為研究平臺,采集用戶信息及用戶標簽數據;采集時間:數據采集的時間段為2014年12月20日至2015年4月20日;采集對象:選擇檔案學、圖書館學、情報學、新聞學、機器學習、人工智能6個學科領域作為采集對象;采集方法:在新浪微博網絡平臺上,根據事先選擇的學科領域,以學科名作為關鍵詞,在微博搜人欄目中手動檢索出用戶,去除認證的微博用戶,記錄用戶名,用戶URL及用戶標簽;通過上述途徑共采集2673個微博用戶,不同學科領域的調研用戶分布見表3。

表3 不同學科領域的調查用戶數
標簽分類數據集的構建。根據2.2小節提供的標簽分類體系,邀請2名志愿者對6個學科領域微博用戶的標簽進行分類,然后邀請第3名志愿者對不一致結果給予確認,作為該標簽的最終分類結果。為刻畫兩名志愿者的標注是否一致,采用比較簡單的標注差異度量化指標來度量,差異度計算公式如下:

兩名志愿者的標注差異如表4所示。結果顯示:6個領域中兩名志愿者的標注差異度為0.13~0.28,均值為0.1570,說明兩名志愿者在對用戶標簽進行分類時,有較好的標注一致性。

表4 志愿者標注的差異度
3.2 不同學科領域用戶標簽類別差異分析
選取6個不同學科領域的新浪微博用戶,通過標簽類型比率、標簽類型分布熵、平均標簽個數、平均標簽長度來分析不同領域用戶標簽類別差異。對不同學科領域用戶標簽類型進行差異性分析,結果如圖3所示:(1)在各個學科領域下,標簽主要集中在P、H、D類型,說明大部分用戶習慣選用自己的專業、所屬領域、興趣愛好來描述自己;(2)情報學、機器學習、人工智能P類的標簽比率總體較高,都在0.4以上,其他三個學科領域的P類標簽比率較低,說明情報學、機器學習、人工智能用戶使用微博主要用于學術交流,專業屬性較強,其他三個學科領域用戶比較傾向綜合發展;(3)H類型標簽比率普遍較高,說明用戶的興趣愛好比較廣泛,其中新聞學的比率最高,達到0.40左右,情報學、人工智能相對較低,機器學習最低,為0.20左右;(4)圖書館學的L類比率尤為高,體現出圖書館學用戶喜歡使用表示生活經歷的標簽。對不同領域微博用戶標簽類型分布熵進行差異性分析,結果如表5所示。

圖3 不同學科領域用戶標簽類型分布

表5 不同學科領域標簽類型分布熵
從標簽類型分布熵看,值從大到小依次的領域是:圖書館學、新聞學、檔案學、情報學、人工智能、機器學習。圖書館學的熵值最大為2.7258,說明在圖書館學的用戶標簽類型最多,差異較大。機器學習的熵值最小為1.9848,人工智能、情報學的熵值也相對較小分別為2.0422、2.5305。說明自然科學領域用戶標簽類型差異幅度較小,社會科學領域用戶標簽類型差異幅度大,標簽呈現多樣化。對不同學科領域微博用戶平均標簽個數、長度進行差異分析,結果如表6所示。

表6 不同學科領域用戶平均標簽個數、長度
微博用戶的平均標簽個數為6個左右,圖書館學用戶的平均標簽個數最少為3.67個,人工智能的用戶平均標簽個數最多為7.89個,新聞學和機器學習的平均標簽個數也較多,大約為6-7個,檔案學用戶的平均標簽個數為5.13。說明機器學習、人工智能、情報學、新聞學用戶標簽標注積極性較高,檔案學和圖書館學用戶標注積極性較低,其中圖書館學用戶積極性最低。
用戶的平均標簽長度為7.14字節,不同學科領域下用戶平均標簽長度無明顯差異,即用戶趨向于使用3-4個字的詞語用來標注。其中檔案學平均標簽長度最短為6.54字節。機器學習的平均標簽長度最長為7.82字節,原因可能是由于其專業名詞較長。從整體看,自然科學領域的用戶的平均標簽長度較長,社會科學領域的用戶的平均標簽長度較短。
3.3 高頻用戶標簽類別差異分析
微博用戶標簽在一定程度上揭示了用戶自身信息,如愛好、專業、觀點、感想。由于具有相同文化、知識或社會背景的用戶對某些事物存在一致的認識,因此他們會不約而同地使用相同的標簽。本文對這些相同的標簽進行統計,試圖對高頻次的用戶標簽類別在不同領域進行差異分析。
首先,通過標簽比率從眾多標簽中挑取出高頻用戶標簽,計算公式為:
標簽比率=標簽出現的次數/所有標簽個數
然后通過對比率從大到小排序,得到每個領域的高頻用戶標簽。表7為不同領域的頻次最高的前10個用戶標簽。

表7 不同學科領域TOP-10高頻標簽一覽表
由表7可知:(1)每個領域中(除圖書館學)標簽比率最大的標簽皆為本領域的名稱,圖書館學標簽比率最大的是“教育就業”,說明圖書館學用戶比較關注教育就業方面。(2)出現次數較多的共同標簽有“旅游”“美食”“文藝”“音樂”“電影”,說明這些為用戶的普遍愛好和共同特點,也有可能是因為微博為用戶給自己打標簽時提供的標簽自動推薦功能導致該類標簽比率上升。(3)多個領域出現了“80后”“90后”標簽,揭示了微博用戶主要為80后、90后群體。(4)情報學、機器學習、人工智能相對于其他三個領域出現較多的標簽為專業名詞。(5)檔案學領域出現了“情報學”,情報學領域下出現“圖書館學”“檔案學”等,體現了領域之間的交叉,在交叉領域下又出現了很多共同的高頻標簽,如“互聯網”“IT”“大數據”等,體現了交叉領域間的共同背景。(6)情報學中出現“武漢大學”,新聞學中出現了“中國傳媒大學”,其都為本學科領域實力頂尖的高校。
本文對微博用戶高頻標簽進行標簽類型差異性分析,將標簽按照標引的頻次選擇Top5、Top10、Top20,并按分類體系進行類型分布統計,結果如圖4(a)-(f)所示。

圖4 微博用戶高頻標簽類型分布比較
由圖4(a)可看出,檔案學領域微博用戶高頻標簽以H、P為主,說明微博用戶在表達自己的興趣愛好之外傾向于表達專業技能。從圖4(b)、4(c)、4(d)看出,圖書館學、情報學、新聞學領域的標簽類型較多,但以H為主。說明微博用戶并非只關注單方面的知識,而更多偏向于綜合、全面和廣泛的學習交流。從圖4(e)、4(f)可見人工智能和機器學習的標簽類型集中在P和D類,在前20個標簽中只有4種類型,且只有一個標簽是B類,表明這兩個學科的標簽類型相對單一。
從整體高頻標簽類型分布情況來看,用戶偏向選擇興趣愛好和專業的標簽。社會學科用戶標簽類型相對自然科學用戶較多,體現社會學科用戶的表達方式的多樣化。
對高頻用戶標簽進行平均標簽長度的差異分析,結果見表8。取前5個高頻標簽進行考察時,計算出所有領域的平均標簽長度為6.6字節,前10個高頻標簽的平均長度為6.2字節,前20個高頻標簽的平均長度為6.15字節。在這三個分組中標簽長度無明顯差異。而表6顯示不同學科領域用戶平均標簽長度為7.14字節。對比可見,高頻標簽一般長度較短的,為3個字左右。在TOP5,TOP10,TOP20不同分組下,機器學習的平均標簽長度始終為最長,檔案學的平均標簽長度始終為最短。從整體看,自然科學用戶平均標簽長度普遍比社會科學用戶平均標簽長度長。

表8 平均標簽長度(單位:字節)
3.4 不同標簽個數用戶對應的用戶標簽類別差異
微博用戶可以為自己選擇1個或多個標簽來描述自己,從標簽個數在一定程度上可以看出用戶使用標簽的積極程度。因此根據用戶的標簽個數對用戶進行分組研究顯得有意義。本文已剔除無標簽用戶,根據統計發現用戶標簽個數最少為1個,最多有13個。所以把用戶按照標簽個數分組為:標簽個數1-3個、標簽個數4-6個、標簽個數7-9個、標簽個數10個以上。
對不同標簽個數用戶的標簽類型進行差異性分析。通過按不同標簽個數對用戶進行分組,然后在統計了每個分組下標簽的類型比率,得到的結果如圖5所示。

圖5 不同標簽個數用戶分組下的標簽類型比率
從圖5可知:(1)標簽類型為專業和行業領域的標簽在用戶標簽個數增多的情況下成下降趨勢,這是由于描述用戶專業的標簽個數有限,當基數增大時,比率減小。(2)標簽類型為興趣愛好的標簽隨個數的增多比率上升,說明用戶在標簽個數增多時偏向選用類型為興趣愛好的標簽,同時也說明用戶廣泛的興趣愛好。(3)標簽類型為性格特征的標簽,在個數為1-3個和10-13個時比率較大。(4)標簽類型為狀態和自然屬性的標簽,隨著標簽個數增多類型比率增大。(5)類型為教育經歷的標簽,在標簽個數為1-3個的用戶組內較少使用,在標簽個數為4-13個的用戶中無明顯差異。(6)類型為身份、工作經歷的標簽在不同分組內也無明顯差異。
對微博用戶高頻標簽進行平均標簽長度差異分析,結果如表9所示。由表9可知,標簽長度一般為6-8字節,即平均每個標簽為3-4個字。當用戶標簽個數為1-3個時,平均標簽長度為7.5字節;當用戶標簽個數為4-6個時,平均標簽長度為7.06字節;當用戶標簽個數為7-9個時,平均標簽長度為7.14字節;當用戶標簽個數為10個以上時,平均標簽長度為6.94字節。可以看出用戶的平均標簽長度隨著個數的增多而減短,即標簽個數越多,平均標簽長度越短,標簽個數越少,平均標簽長度越長。

表9 平均標簽長度(單位:字節)
本文從用戶建模的角度區分標簽類型,研究不同學科領域高頻用戶標簽,不同標簽個數用戶下的標簽類型的差異,結果表明:不同學科領域用戶的標簽類型主要集中在專業、興趣愛好和行業領域。社會科學領域的用戶標簽類型多且差異較大,其中標簽類型為興趣愛好的最多,自然科學領域的用戶標簽類型相對較少,集中的標簽類型為專業。自然科學領域的平均標簽個數比社會科學領域多。從平均標簽長度看,皆在3-4個字左右,這是由于用戶一般使用3-4字的詞語使用習慣造成的。但高頻用戶標簽的長度較短。在標簽個數逐漸增多下,用戶的平均標簽長度減短,且在使用標簽類型為專業的標簽后會偏向選擇表示興趣愛好的標簽,體現了用戶廣泛的興趣。
本文研究不足之處主要包括:人工分類的形式,由于每個人的認知程度,知識面限制等原因,所以不可避免地給分類帶來了判斷誤差;數據采集在學科領域覆蓋面上有待提高;此外,在采集用戶信息時僅用單一的查詢詞且僅通過網站采集數據,并不能結合用戶的實際真實信息以得到更加可靠的結果。下一步可以根據用戶發微博,關注好友等行為來對用戶進行動態建模,以便于更準確實時地分析用戶的行為。
[1]FarooqU,KannampallilTG,SongY,et al.Evaluating tagging behavior in socialbookmarking systems:metrics and design heuristics[C]//Proceedingsofthe 2007 InternationalACM Conference on Supporting Group Work,2007:351-360.
[2]Mirzaee V,Iverson L.Tagging:Behaviour and motivations[J].ProceedingsoftheAmerican SocietyforInformationScience&Technology,2009,46(1):1-5.
[3]Wang X,Kumar S,Liu H.A Study of Tagging BehavioracrossSocialMedia[C]//Proceedingofthe2011 SIGIR Workshop on Social Web Search and Mining. Beijing:2011.
[4]Guyot A.Understanding Booksonomies-How and why are book taggerstagging[D].Aberystwyth:University of Wales,2013.
[5]章成志,何陸林,丁培紅.不同領域的用戶標簽主題表達能力差異研究——以中文微博為例[J].情報理論與實踐,2013(4):68-71.
[6]SenS,LamSK,RashidAM,etal.tagging,communities,vocabulary,evolution[C]//Proceedings of the conference on Computer supported cooperative work. USA:ACM,2006:181-190.
[7]Xu Z,Fu Y,Mao J,et al.Towardsthe semantic web: Collaborativetag suggestions[C]//Proceedings of Collaborativewebtaggingworkshop at WWW 2006.Edinburgh,Scotland:2006.
[8]Melenhorst M S,Van SM.Usefulnessoftagsin providingaccessto large information systems[C]//Proceedings of IEEE International Professional Communication Conference.Scattle:IPCC,2007:1-9.
[9]Bischoff K,Firan C S,Kadar C,et al.Automatically identifying tag types[M]//Advanced Date Mining and Applications.Berlin:Springer,2009:31-42.
[10]Heymann P,Paepcke A.Garcia-Molina H.Tagging human knowledge[C]//Proceedings of the Third ACM International Conference on Web Search and Data Mining.New York:ACM,2010:51-60.
[11]BhnstedtD,LehmannL,RensingC,etal.Automantic identification of tag types in a resource-based learning scenario[M]//Towards Ubiquitous Learning.Berlin:Springer,2011:57-70.
[12]CantadoraI,Konstasb I,Joemon M J.Categorisingsocialtagsto improvefolksonomy-based recommendations [J].WebSemantics:Science,ServicesandAgentson the WorldWideWeb,2011,9(19):1-15.
[13]GolematiM,KatiforiA,VassilakisC,etal.Creatingan Ontologyfor the User Profile:Method and Applications [C]//ProceedingsoftheFirstInternationalConferenceon Research Challenges Information Science.Ouarzazate:2007:23-26.
(責任編輯:鄺玥)
Different Tagging Behavior of Microblog Users in Different Domains——A Case Study of User Tagging of Sina Weibo
CHIXue-hua,ZHANGYing-yi,GAOXing,LUChao,ZHANGCheng-zhi
This paper studies user tags of Sina Weibo.By collecting users’profiles and their tagging information,tags are classified manually according to tags classification system;then analysis is made of the differences in tag types,the distribution entropy of tag types,the average number of user tags,and the average length of tags in different domains.Tagging behavioral indicators are also compared according to high frequency and tag number. The study finds that there are significant differences in tag types and average tag number in different domains;and there are large differences in types of high-frequency words.Grouped by the numbers of different tag types,no obvious differences are showed in user tag types of different domain sand the average length of user-generated tags decreases with an increase in the number of tags.
user tags;tag classification;tagging behavior;user information behavior
格式 池雪花,張穎怡,高星,等.不同學科領域的用戶標簽標注行為差異研究——以新浪微博用戶的標簽為例[J].圖書館論壇,2016(9):112-120.
池雪花,女,南京理工大學經濟管理學院碩士生;張穎怡,女,南京理工大學經濟管理學院博士生;高星,女,南京理工大學經濟管理學院碩士生;盧超,男,南京理工大學經濟管理學院博士生;章成志,男,博士生導師,南京理工大學經濟管理學院教授,通訊作者,E-mail:zcz51@126.com。
2015-08-03
*本文系國家社會科學基金重大項目“面向突發事件應急決策的快速響應情報體系研究”(項目編號:13&ZD174)、國家社會科學基金項目“在線社交網絡中基于用戶的知識組織模式研究”(項目編號:14BTQ033)和中央高?;究蒲袠I務費專項資金項目(項目編號:30915011323)研究成果之一