余廣艷

摘? 要:根據基于標簽的用戶標注行為研究,在各數據庫中進行了調研,并從研究的對象、方向以及研究特點等方面進行了梳理分類,歸納出了用戶標注動機研究,用戶標注行為研究,標注結果及其與受控詞表的比較研究以及其擴展方向的國內外研究現狀與發展的前景,側重從研究現狀上發現研究的優勢以及不足之處,同時結合豆瓣網等圖書分享網站的標簽模式進行總結,并且進一步挖掘基于標簽的用戶標注行為模式研究的發展前景,展望下一步研究方向。
關鍵詞:標簽? 用戶標注行為? 大眾標注? 標注行為模式
進入計算機時代,數字形式的標注隨之出現,使得標注的功能已經不僅僅局限于滿足閱讀者個人的需求[1]。于是,在很多分享網站上都增添了標簽這一功能。
該文在于對各數據庫的與標簽標注相關的文獻進行調研,從研究的對象、方向以及研究特點等方面進行了梳理分類,歸納出了基于標簽的用戶標注行為模式研究以及其擴展方向的國內外研究現狀以及發展的前景,側重從研究現狀上發現研究的優勢以及不足之處,同時結合豆瓣網等圖書分享網站的標簽模式進行總結,并展望下一步的研究方向。
1? 文獻調研概述
筆者以“用戶標簽”“用戶標注”“大眾標注行為”“大眾分類”等為主題詞在CNKI數據庫中進行了調研。從CNKI中,筆者發現用“用戶標簽”為主題詞查找到的有274條文獻檢索結果,“用戶標注”為主題詞有222條檢索結果,“大眾標注行為”為主題詞有46條,“大眾分類”為主題詞有143條檢索結果。初步確定了文獻的大致范圍后,筆者粗讀這些篇名符合要求的文獻,進行了簡單的分類,然后精讀,確定了文獻的大致分類,這時共有31篇文獻。
根據這樣獲得的文獻,筆者分析出,現有的研究大多著重于用戶標注行為、標注行為動機、大眾標注、標簽質量、標簽應用、標簽推薦、發展預測等。
2? 用戶標注動機研究
關于用戶標注的動機,國內外的研究者們展開了不同角度的分析研究。目前主要有下列幾種研究模式。
一是基于理論模型開展的,如馮齊利用MOA模型(動機—機會—能力模型),對用戶的社會化標注行為的動機、機會、能力進行了分析,闡釋了由于標注動機以及標注者能力的差異造成的標注結果的差異。
二是基于內容分析法開展的實證分析,如王娜等[2]對網絡用戶大眾標注行為的動機進行抽樣調查與分析,發現網絡用戶標注行為的動機多種多樣;用戶標注動機會受網站類型、資源類型、標簽便利性、用戶素養等因素的影響,其中標簽便利性對標注動機的影響最為顯著。
三是基于理論研究分析開展的總結分類研究分析,如Shilad 指出標注行為普遍來說可以支持5種任務:自我表達、組織行為、學習、尋找與決策支持。此外,Golder等確定了標簽的7種功能。
3? 用戶標注行為研究
同樣,對于用戶標注這一具體行為,研究者們也展開了豐富的試驗和探索。主要在以下兩個方向進行研究。
一是基于社會網絡對標注過程進行研究。章成志等以騰訊微博為研究對象,得到微博用戶標簽和用戶所發微博內容具有一定程度的關聯。在基于Flickr(圖片分享網站)的研究中,Cameron Marlow隨機挑選了10名用戶,對其標簽集容量的增長進行分析,同時,也研究了用戶之間的標簽詞匯的重疊問題。
二是研究用戶標注的影響因素。Binkowski認為,用戶在標注具有復雜內容的網站時,社會認同的效果非常顯著。Shilad發現新MovieLens用戶比老用戶(推出標注服務之前的用戶)更愿意共享標注成果,并且標簽數量在持續增長。
4? 標注結果及其與受控詞表的比較研究
在標簽標注逐漸發展的現實中,其標注的結果與質量研究隨著發展越來越多。目前主要有以下幾種研究模式。
一是研究現狀調查的綜述評價性研究。如吳方枝[3]針對flickr網站用戶標簽的不規范問題,提出了質量控制對策,國外學者圍繞大眾標注中標簽的研究主要集中研究在標簽的概念、優缺點、可視化、相關度處理以及標注性能的改進措施等方面。此外,熊回香等[4]總結了標簽與本體相結合的相關研究,對利用在線詞表對標簽進行規范控制和推薦標簽與本體間的映射、構建標簽本體等方面對兩者的結合進行了概述。
二是基于實證調查開展的。如Cameron Marlow的研究。David R Millen在研究Dogear系統時發現超過80%的書簽只含有3個以下的標簽,同時,通過調查訪問發現用戶對于該系統的基于標簽的資源導航功能持正面態度。Lund[5]研究Connotea發現用戶的標簽集容量分布服從冪律分布。
三是基于理論方法體系開展的研究。如Farooq在總結了早前的研究成果后發現提出了一個具有6種衡量指標的體系去描述CiteULike系統中的用戶標注行為。
四是基于發展探索性研究。如邱君瑞研究表示,在網絡環境下,受控詞表的功能將發生很大的變化,未來的受控詞表將更多地用于檢索,較少用于標引。
與標注相比,受控詞表作為一種對知識加以組織整理,以便后續進行檢索的手段,隨著情報檢索由手工檢索發展到計算機檢索和Inetrnet的普及帶來的終端用戶的大量增加,受控主題詞表的弊端日益暴露出來,自然語言(如相關詞)的優勢正在漸漸地顯現。
5? 豆瓣圖書標簽研究現狀
我的研究方向是基于標簽的用戶標注行為模式研究—以豆瓣圖書標簽為例。同樣的我對關于豆瓣網的標簽研究進行了調研研究。
一是基于現狀問題的探索性研究,如熊回香等結合豆瓣網這一典型的Web2.0網站,簡要介紹了豆瓣網的信息組織模式。此外,羌麗等對豆瓣網圖書的大眾標注進行調查和分析,在此基礎上結合實例,將豆瓣網圖書的大眾標注與傳統的主題標引進行比較,并有針對性地提出一些規范性意見和措施。
二是基于算法的研究,如熊回香還通過選取豆瓣讀書上的實例數據,在對標簽進行層次聚類的基礎上,以中文語義詞典“知網”為語料資源,探討了標簽概念空間與領域本體間的映射機制。
6? 分析評價
6.1 存在問題
在研究時,存在著很多考慮問題不全面的問題。
如用戶標注行為方面,標簽使用“零門檻”,激發了用戶的廣泛參與,促使了標簽的流行。而用戶文化層次、知識背景上的差異必然導致標簽質量的優劣混雜。
由標簽形成的系統本質上是一個自然語言檢索系統。作為一種完全非受控的自然語言標引,自由標簽必然存在著自然語言固有的語義模糊、同音異義、一義多詞、同義詞等弊病必然會導致查準率和查全率的普遍低下,大大削弱了標簽系統的優勢和潛能。
有關標簽的所有問題,究其根源歸于:標注行為過于自由,標簽的質量不高,標簽的組織方式平面化。有研究表明,標簽用戶容易受已有標簽的影響,因此,用戶有被推薦和引導的可能。
此外,從目前的研究可以看出標簽質量的評估還存在缺乏系統化的研究等問題,目前的標簽質量評估研究僅是基于標簽本身,尚未針對不同的應用場合、不同的標簽類型、不同的標注對象類型不同用戶標注動機等情況進行相應的研究。在進行標簽質量評估時應根據以上不同情形,進行有針對性的評估研究,以適應不同應用的需求。
6.2 發展前景
通過文獻調研,對基于標簽的用戶標注行為以及擴展方向的研究進行分析之后,我發現,越來越多的研究開始著重于用戶標注行為、大眾行為、組織模式、標簽的應用等方向,這讓我感受到用戶標注的研究將更多地放在標簽于人的應用上,這也符合了人本社會,信息管理作用于人并服務于人的這一特點。相信,更多的研究在原有研究的經驗教訓之上,會有更好的研究成果。
7? 結語
通過回顧國內外相關研究工作可以看到,至今,基于標簽的用戶標注行為研究正在不斷地完善,從用戶標注行為,到用戶標注動機研究,用戶標注行為研究,標注結果及其與受控詞表的比較研究等,越來越多的學者對此進行著探索研究,而基于標簽的用戶標注行為模式研究依舊處于空缺狀態。為了更好地研究用戶標注行為,為標簽提供更合適的使用保障,越來越多的學者將繼續對用戶標注行為進行研究探索,以便標簽為用戶提供更好的服務。
參考文獻
[1] 孟連生,黃國彬,常唯.標注及其演化研究[J].圖書情報工作,2008,52(1):5-8,76.
[2] 王娜,馬云飛.網絡環境下大眾標注行為動機的調查與分析[J].圖書情報工作,2013,57(23):100-107.
[3] 吳方枝.Flickr網站用戶標簽的質量控制對策[J].圖書館學研究,2012(11):26-28.
[4] 熊回香,鄧敏,郭思源.國外社會化標注系統中標簽與本體結合研究綜述[J].情報雜志,2013,32(8):136-141.
[5] Lund B,Hammond T,Flack M,et al.Social bookmarking tools (II)[J].D-Lib magazine,2005,11(4):1.