邱均平,柴 雯
我國社會標簽研究進展內容分析*
邱均平,柴 雯
社會標簽是一種交互式Web2.0應用,能夠實現對網絡信息資源的有效分類和組織。文章利用內容分析法從時間、學科和關鍵詞三個維度對CNKI數據庫2006年至2012年國內社會標簽領域相關論文進行分析,探討了當前社會標簽領域的研究主題和研究進展。
社會標簽 內容分析 進展研究
社會標簽(Social Tag)起源于2003年Delicious網站的上線,該網站旨在使用標簽的形式幫助用戶管理、共享和利用網絡資源,公眾可隨意對收藏的網絡資源進行標注,“貼”上標簽。這種自由靈活的標注方法很快受到用戶的關注。隨著用戶數量和標簽數量的累積,社會標簽在網絡資源聚合中的優勢逐漸顯現,用戶可以通過標簽來迅速有效地查找、聚合與共享網絡資源。當前國外關于社會標簽的研究與討論很多,有學者將國外相關研究分為存在價值的研究、基于Tag的定量分析、基于用戶的定量分析、系統的設計及應用研究、缺陷解決措施研究以及檢索問題等六方面[1]。國內相關研究起步晚,學界一般認為從2006年開始[2]。本文以研究社會標簽的相關論文為對象,力圖通過時間分析、高頻詞分析和共詞分析等內容分析方法了解近年社會標簽的研究狀況與新進展,為數字資源語義化聚合研究提供借鑒。
本文選取CNKI作為數據來源,以關鍵詞進行檢索,關鍵詞包括社會標簽、社會分類法、社會化標簽、社會標注、大眾分類、分眾分類、協同標注、公眾分類和民俗分類共九個中文詞及Folksonomy一個英文詞。論文發表時間為2006-2012年。然后對檢索結果進行查重過濾,最終得到學術論文221篇。
本文采用內容分析法進行研究。內容分析法是一種對具有明確特性的傳播內容進行的客觀定量且系統化描述的研究方法[3-4]。在進行關鍵詞分析時,本文輔助采用了共詞分析法。由于主題詞匯共同出現的頻次可以用來代表主題之間的親疏關系,該方法利用文獻集中詞匯對或名詞短語共同出現的情況,來確定該文獻集所代表學科中各主題之間的關系[5]。本文選擇論文的“篇”以及其關鍵詞的“頻次”作為分析單位,依次通過論文的時間分布、學科分布、關鍵詞分析等三個層面來進行社會標簽研究現狀的分析,進而探討社會標簽研究的新進展。
2.1 論文的時間分布
圖1顯示了2006-2012年論文數量的時間分布情況,總體上看論文累積量呈現逐年增加的趨勢。國內最早的專業網摘站點是2004年上線的365key,當時社會標簽的應用在我國還不普遍,關于這一領域的研究非常少。2006年開始,國內出現了相關學術研究成果,并呈快速發展趨勢。中國互聯網協會發布的《2005-2006中國Web2.0現狀與趨勢調查報告》顯示:2005年到2006年用戶使用網摘收藏文章比較頻繁,其中每周1次的占22.3%,每周2-3次的占22.8%,每周4-6次的占10.7%;此外,每天都使用網摘服務的用戶也有14.5%[6]。門戶網摘迅速崛起,專業網摘站點數量大幅增加,這些都使得社會標簽逐漸成為Web2.0中的重要角色,并引起了學者對該領域的研究興趣,反映到學術成果上則表現為2006年起論文數量的快速增加。結合論文的逐年累積情況進行趨勢分析發現,2006年至2012年的論文累計數量呈指數增長(圖1中虛線)。根據文獻信息增長規律[7]可知,當前國內社會標簽領域的研究正處于誕生和發展時期。

圖1 論文數量及增長趨勢
2.2 學科分布情況
221篇論文共刊載于59種學術期刊,根據RCCSE分類,論文的學科分布見圖2。從圖2中可以看出,社會標簽研究論文主要集中于圖書館學、情報學與文獻學,共162篇,占全部論文的73.3%。此外,計算機科學技術領域也在社會標簽研究中占據了相對重要的位置,共發表21篇論文,所占比例為9.5%。

圖2 學科分布
社會標簽是一種通過用戶參與創建和管理,從而對內容進行標注和分類的方法與應用,它向用戶提供一種協同組織與分享網絡資源的開放式平臺。因此,作為新型的信息組織方式,它是圖書館學、情報學與文獻學的重要研究方向。該領域的專家主要從社會標簽本身、知識組織、知識創新與知識共享、資源聚類與檢索、語義化以及社會標簽在不同領域尤其是在圖書館的應用研究等角度來探索社會標簽的理論、技術與應用。從學科分布情況看出,圖書情報專家是社會標簽研究的主要參與者。
2006-2009年,國內僅有4篇文獻發表于計算機科學與技術類期刊,分別研究協同標注的技術與模型、檢索技術(語義檢索、圖像檢索、個性化檢索)和網頁挖掘技術。2009年以后,隨著圖書情報理論研究的深入,技術研究開始細化,主要體現在4個研究方面:(1)標簽推薦,包括模糊標簽和冗余標簽的處理、推薦算法、推薦系統研究;(2)用戶,包括用戶特征描述和用戶模型構建;(3)標簽語義化和規范化,包括標簽層次關系提取、本體研究和概念格在提升標簽概念結構方面的應用;(4)信息檢索,包括標簽排序、標簽云和查詢詞擴展研究。
少數論文分布在其余12個學科領域,在交叉學科和綜合領域,社會標簽的理論研究和技術研究占據主要地位;在教育、航空航天、政治、農學等學科領域,學者們主要研究社會標簽的具體應用,主要目的是為了提升知識組織效果,優化檢索結果,促進知識共享。
2.3 關鍵詞分析
2.3.1 關鍵詞統計分析
表1是2006-2012年熱點詞匯按照詞頻進行排列生成。在關鍵詞處理過程中,筆者發現,盡管業界學者對社會標簽的定義是比較統一的,基本上都滿足公眾參與、無嚴格分類體系、自由易用等特點,但是國內學者在這一概念的稱呼上各持一詞,約有十余種。因此在關鍵詞排序結果中,為了突出研究熱點與特點,筆者去除了標簽、社會標簽、分眾分類、社會分類、Tag、Folksonomy等十余個高頻同義詞。
2006年文獻數量較少,僅有“信息組織”的詞頻大于1,其余關鍵詞詞頻均為1。學者們分別從元數據、網絡信息組織方法、知識組織等角度來探討這一新型信息組織方法,認識其優缺點、模式和應用前景。除了理論上的一些探索,還有學者已經認識到了Tag在教育技術中的可行性和優越性[8]。2007年的關鍵詞排名與2006年相比,除去排名第一的“信息組織”,情形幾乎完全不同。這一年的研究不僅僅再從宏觀角度來認知社會標簽,主要關注Web2.0環境下社會標簽作為一種獨特的網絡分類法在具體的應用中如何進行信息組織。2008年,“本體”和“信息檢索”成為了熱點詞匯,學者開始認識到社會標簽包含了潛在的語義信息,可以用來快速構建本體,優化本體構建方法。同時,從信息檢索的角度重點關注如何利用社會標簽來優化檢索效果,提高查準率和查全率。2009年出現了“無標度”“小世界”“復雜網絡”等詞匯,這表明對社會標簽的研究逐漸從定性的認知發展到定量研究。2010年首次出現了“凝聚子群分析”詞匯,在對資源、標簽、用戶三者關系進行定量化分析的基礎上,學者們開始了標簽的聚類研究,為信息資源聚類和本體研究提供良好的參考。2011年“個性化”和“用戶分類”首次成為高頻詞,對標簽的理論和應用研究最終開始歸結于如何給用戶提供更好的服務,社會標簽的出現為用戶興趣研究、個性化信息推送和個人知識管理提供了新的思路和方法。2012年也出現了與用戶相關的一系列詞語,如“個人知識管理”“推薦系統”等,同時“數據挖掘”也成為了熱點詞匯。這幾年來,高頻詞的變化體現了社會標簽研究內容的變化,社會標簽的研究重點逐漸從特點、性質、數學模型等基本理論的研究轉入圖書館、用戶、關鍵技術等應用性研究。

表1 2006~2012年高頻詞列表
總體來看,當前我國社會標簽的研究體現出兩個較明顯的趨勢:(1)從以定性為主的理論研究轉入了結合計算機技術和數學模型的定量研究;(2)從以意義與特性為主的理論研究轉入以功能和用戶為主的應用研究。與此同時,社會標簽的研究還出現了不同的分支,研究方法也逐漸與新興技術相結合。
2.3.2 關鍵詞聚類分析
提取221篇論文的關鍵詞后進行規范,統一同義詞,去掉其中包含的檢索詞和不具有實際意義的詞匯,如概述、發展研究,得到326個關鍵詞。本文選取詞頻大于2、詞頻占全部詞頻65%[9]的45個詞匯作為分析對象。
由于共詞矩陣中的元素均為絕對詞頻,難以反映詞語對之間真正的依賴關系,因此進一步對共詞矩陣進行包容化處理。目前包容化處理的算法[10]主要有三種:包容指數法、臨近指數法和相互包容系數法。相互包容系數法可以用來計算共詞對中的每一個詞匯在對方詞匯集合中的頻次,也稱為等價系數法。該方法的計算公式為:

其中,Eij表示共詞矩陣中第i個詞與第j個詞的相互包容系數,Cij表示詞匯i與詞匯j的絕對共詞詞頻,Ci表示詞匯i在文獻集中出現的絕對頻次,Cj表示詞匯j在文獻集中出現的絕對頻次。本文選取相互包容系數計算得到共詞矩陣,并繪制系統聚類圖如圖3。在聚類分析過程中,本文選用夾角余弦距離計算個體距離,組內平均鏈接距離計算個體與小類或者小類與小類之間的距離。在聚類的前5步中,僅有7組共14詞分別聚成小類,占到高頻詞的31%左右。大部分詞匯因為相關性較低,距離較遠而不能聚集在一起。這種情況至第15步才有所改善。說明在社會標簽領域中,研究者在使用關鍵詞時并沒有達成一致,主題相對分散,相關性較低。
從圖3可以看出,關鍵詞可以大致分為7類。結合詞匯的中心度以及文獻內容進行分析,可以確定7大類主題。
(1)社會分類法的比較與改進。作為新興的網絡分類法,研究者們常常通過與傳統分類法的比較來了解和認識社會標簽。研究指出,由于社會標簽的標注過程伴隨著強烈的個人主觀性,使得這一分類法帶有很大程度的隨意性和自由性。雖然這種隨意性和自由性降低了元數據的門檻,使得社會標簽能夠通過扁平的信息架構以利于知識的組織和發現,但是這種不受控的標引過程中常常會出現一詞多義、同義詞[11]等不規范詞匯,為知識組織與管理埋下隱患。
(2)社會標簽在數字圖書館中的應用。以分眾分類模式運營的Web2.0網站的成功,顯現出社會標簽能夠體現用戶價值、迎合用戶需求的優點。學科導航數據庫、數字圖書館等紛紛借鑒,用以彌補自身缺點,以適應新的信息組織和檢索特點。鐘遠薪、張春曉[12]探討在圖書館2.0中引入社會標簽的意義,認為Tag是一種通過用戶參與共享從而構建交互平臺的方式,只有通過應用Tag,圖書館才能真正做到對用戶開放,對網絡開放;只有將Tag引入圖書館2.0,圖書館才能更加契合用戶的需要。
(3)知識管理與知識組織。作為一種新興的信息組織方式,社會標簽自誕生之初便受到的廣泛的關注。知識時代的大背景結合社會分類法對網絡資源組織的高效性,引導人們關注社會標簽在知識組織和知識管理方面的應用。信息資源的內容控制主要是通過信息的描述來進行[13],通過描述來揭示信息的實質和中心,從而達到良好的組織和應用的目的。社會分類法相較于其他網絡分類法具有更強的語義特性,使得信息的描述和知識的揭示變得更加準確和豐富。此外,社會標簽還可以用于個性化服務,在詞頻分析中已經得知,2012年個人知識管理成為了熱點關鍵詞。這些都說明知識管理和知識組織是社會標簽研究領域中相當重要的一部分。
(4)知識創新。社會標簽能夠進行知識創新與知識發現這一觀點是近兩年才興起的。社會性網站(如WIKI、BLOG、社會書簽網站)提供了用戶交流、共享、發布知識的平臺,這種群體內的互動使得個體和群體的知識相互“供養”[14],從而達到知識創新和知識發現的目的。
(5)數學模型與數字特征。在關于社會標簽領域的研究中,除了定性的描述以外,還有很多定量的描述,這些定量的描述主要從兩個角度出發:一是從標簽、用戶和網絡信息資源所構成的網絡本身出發來研究網絡的特性,包括小世界、無標度等特性;二是從社會標簽的應用角度出發,利用數據挖掘、支持向量機和向量空間模型等方法和技術研究其語義挖掘、自動信息分類和檢索效率的提升等方面的應用。
(6)標簽推薦與聚類。根據Fabian M.Suchanek[15]等人的研究,標簽推薦的主要目的是為了便利和規范用戶標注行為,但是推薦系統往往在一定程度上會使得標注結果帶有“偏見”,因此合理的標簽推薦算法成為人們研究與關注的重點。同時,通過對標簽、用戶和網絡信息資源所構成的三方網絡的研究,研究者們發現,以往關于兩方網絡的算法并不適用對三方網絡進行的研究,他們希望通過對三方網絡的研究來達到網絡信息資源利用標簽聚類的目的。
(7)標簽本體與語義網。社會標簽和本體在其構成上具有一致性,都是概念和概念關系的集合。社會標簽在概念上具有自由性,在結構上具有單一性,因此可將之視為本體的一種自由簡化的形式。相較于本體,社會標簽更加的自由易用,這使得人工智能不再僅僅局限于結構和邏輯嚴密的本體。本體與社會標簽的融合成為新一代互聯網技術的發展趨勢之一[16]。
社會標簽是一種全新的分類思想和互聯網應用方式。目前社會標簽的研究正處于快速發展階段,涉及學科面廣,但是由于受到理論研究和技術的限制,其成果數量并不多。通過對2006年至2012年的期刊文獻進行時間、學科、關鍵詞和主題聚類分析,我們可以對社會標簽的研究進展做進一步分析和討論。

圖3 樹狀聚類圖
第一,社會標簽這一新的信息組織方法為越來越多的學科研究領域提供了借鑒。社會標簽最早流行于門戶網摘、博客、豆瓣網等Web2.0應用之中,很快,其良好的易用性、自由性和有效的信息組織能力使得人們開始將它引入不同的環境和功能中,包括個性化服務、圖書館2.0、教育領域、企業2.0、博物館2.0、學習型組織和電子商務等,進而達到提升知識管理能力、促進知識共享交流、構建關系網絡[17]、改善服務質量等目的。
第二,從主題分析的結論不難看出,社會標簽對信息內容的良好揭示效果為語義關聯提供了新的思路。社會標簽本身就是一種資源的語義標示,標簽、用戶和資源的關系為信息的語義組織、語義挖掘和語義檢索提供了良好的數據基礎,標簽的語義特性可以優化知識組織的方法和效果、對資源和用戶進行語義聚類、提升搜索引擎檢索效率并改善排序、簡化圖像與音頻數據檢索的難度、為語義網和本體研究提供思路與借鑒。
第三,社會標簽推動了用戶研究的技術、方法和形式的進展。不同于博客、微博等Web2.0應用,標簽不是長博文或者微博客,也不是難以揭示主題的文本信息。用戶的興趣挖掘不再需要繁瑣的算法和過程,高頻標簽在一定程度上就可以代表用戶所關注的信息,通過個人的標簽圖可以很方便的觀察到用戶興趣所在,進而對相同興趣的用戶進行聚類和分析。在社會標簽這種新的信息組織過程和模式下還誕生了標簽推薦這樣一種新的用戶服務方式,研究者們致力于研究最優的標簽推薦策略和算法,從而提升用戶服務質量。不僅如此,將社會標簽引入知識管理,還為個人知識管理和群體知識共享提供了靈活的方式,達到了更好的知識管理效果。
[1]余金香.Folksonomy及其國外研究進展[J].圖書情報工作,2007,51(7):38-40.
[2]官鳳婷.基于文獻計量的國內Folksonomy研究現狀分析[J].圖書館論壇,2012,32(4):94-100.
[3]鄒菲.內容分析法的理論與實踐研究[D].武漢:武漢大學,2004.
[4]邱均平,樓雯.基于內容分析法的索引研究論文主題分析[J].圖書館工作與研究,2012(10):62-66.
[5]馮璐,冷伏海.共詞分析方法理論進展[J].中國圖書館學報,2006(2):88-92.
[6]Inter-Asia Internet Research Institute.2005-2006中國Web2.0現狀與趨勢調查報告[R].北京,中國互聯網協會,2006.
[7]邱均平.文獻計量學[M].北京:科學技術文獻出版社,1988.
[8]夏天,楊瑛霞,田愛奎,等.Tag和現代教育技術[J].中國電化教育,2006(9):89-92.
[9]馬費成,望俊成,陳金霞,等.我國數字信息資源研究的熱點領域:共詞分析透視[J].情報理論與實踐,2007,30(4):438-443.
[10]鐘偉金,李佳.共詞分析法研究(一)——共詞分析的過程與方式[J].情報雜志,2008(5):70-72.
[11]梁桂英,李記旭.Folksonomy初探[J].圖書館雜志,2006,25(4):46-49
[12]鐘遠薪,張春曉.基于Ajax的嵌入式Tag系統初步研究[J].圖書館雜志,2007,26(8):40-43.
[13][14]張敏,鄧勝利.基于內容揭示的信息資源控制的演進[J].圖書情報工作,2009,53(2):117-120.
[15]Fabian M.Suchanek,Milan Vojnovi'c and Dinan Gunawardena.Social Tags:Meaning and Suggestions [J].Microsoft Research,2008:223-232.
[16]李學慶.淺議Web2.0環境下基于本體論的Folksonomy[J].情報探索,2011(8):4-6.
[17]賈君枝,張寧.社會標簽的應用功能分析[J].情報理論與實踐,2012,35(11):112-116.
Content Analysis as a Tool for Folksonomy Research in China
QIUJun-ping,CHAI Wen
As a Web2.0 application,Folksonomy can organize internet information effectively.From the perspective of time,discipline and keywords,this paper gives an analysis of the articles on Folksonomy from CNKI database between 2006 and 2012 with content analysis method;and discusses the current topics and advances of Folksonomy research in China.
Folksonomy;content analysis;research advances
格式 邱均平,柴雯.我國社會標簽研究進展內容分析[J].圖書館論壇,2014(7):8-14.
邱均平(1947-),男,武漢大學中國科學評價研究中心主任;柴雯,女,武漢大學信息管理學院在讀碩士研究生。
2013-10-31
*本文系國家社會科學基金重大項目“基于語義的館藏資源深度聚合與可視化展示研究”(項目編號:11&ZD152)研究成果之一