徐 雯,徐宜浩
(1.南京農業大學,江蘇南京210095;2.南京大學,江蘇南京210023)
傳統文獻分類法主要揭示的是印刷型文獻,一般以學科為中心建立分類體系。它是一種按照事先規定好的體系范疇或學科,依照一定的屬性將文獻分門別類地組織起來以便查驗的方法[1]。目前國內外的傳統文獻分類法主要有《中國科學院圖書館圖書分類法》《中國圖書館分類法》《杜威十進分類法》《冒號分類法》等。
然而,隨著計算機網絡和信息技術的發展,網絡信息量增長迅速,信息來源廣,繁雜無序,難以查詢。傳統的分類法很難解決這一問題。在這種情況下,各網站更加注重對網絡信息的整理歸納,并借鑒傳統的文獻分類法,推出各自的信息分類法,方便用戶的查找。其中最為常見的一種是以用戶為中心的大眾分類法。大眾分類法也叫自由分類法、社會分類法、分眾分類法、通俗分類法等,是一種由用戶參與和主導的信息資源組織控制方式。目前,大眾分類法還沒有統一的定義。
本文以知乎話題結構和《中國圖書館分類法》(以下簡稱《中圖法》)為例,分析大眾分類法與傳統文獻分類法之間的區別,揭示大眾分類法相對于傳統文獻分類法的優勢和不足,為大眾分類法的進一步發展提供可行性的建議。
大眾分類法是對網絡信息分類的一種嘗試,旨在通過用戶自己給感興趣的信息設置標簽,對網絡信息進行分類,方便用戶檢索。它突破了傳統網絡分類法事先規定的類目以及用戶不能自己定義和修改的類名。2004年8月美國信息構建專家Thomas Vander Wal和Gene Smith首先提出了大眾分類法,隨后在各網站上得到了廣泛的應用[2],如社會化書簽、分享類網站、網絡社區等。社會化書簽是大眾分類法最早的應用,如美味書簽、Google書簽、和訊網摘等。分享類網站主要是指圖片及視頻分享網站,用戶對其上傳的圖片及視頻賦予關鍵詞,即標簽,就可以實現網民的共享,如土豆、YouTube等。網絡社區是指通過網上交流的方式,包括在線聊天、群組討論、論壇、空間動態、通知公告欄等,使具有共同興趣的網民聚集在同一主題的社區內,根據用戶提交的標簽,為他們尋找趣味相同的朋友。豆瓣便是應用大眾分類法最成功的中文社區之一。
大眾分類法適用于現在錯綜復雜的網絡發展環境,在科研、商業及電子政務等領域已經存在對它的基本探索及應用。它最早被使用的領域便是數字圖書館,通過貼標簽、收藏、共享3個步驟,讀者能管理自己所喜歡的網頁。學科門戶也是大眾分類法在科研領域的應用之一。對企業來說,員工對專業知識的了解至關重要,但常因為專業知識無法及時流通而導致人力物力的大量浪費。如果用大眾分類法對專業知識進行標引,便可加強員工之間的溝通,提高企業的工作效率。政府門戶網站,也可以建立政務信息書簽。
大眾分類法是Web3.0的一種主要組織形式,與傳統文獻分類法相比具有獨有的特征,具體表現在以下幾個方面。
2.1.1 非受控詞匯
與傳統文獻分類法相比,大眾分類法最大的不同之處就是它的類目完全由用戶制定,采用的是非受控的自然語言。大眾分類法主要以主題和學科相結合的方式建立分類體系;傳統文獻分類法則采用受控詞匯,類目由專家制定,具有權威性。例如:知乎的同一個問題會被用戶貼上不同的標簽(話題),標簽之間存在著等級的關系,這樣就形成類似于主題詞表的話題結構,標簽之間的關系均由用戶創造[3]。知乎話題廣場,除了有自然科學、經濟學、物理學等以學科為主的分類,還有游戲、運動、美食等以主題為主的分類。而中圖法將全部知識門類分為5大部類:馬列主義、毛澤東思想、鄧小平理論;哲學、宗教;自然科學;社會科學;綜合性圖書。主要按照學科知識門類層次劃分,以高度規范化的代碼和語詞為標志來揭示和組織信息。
2.1.2 共享性
大眾分類法的標簽分類公開共享,任何人都能看到。用戶既可以自己建立一個標簽來標引所感興趣的信息,也可使用別人已經定義過的標簽進行標引。任何人進行標引后,其他人便能立刻看到這些標簽。如果覺得標簽不是特別合適,還可以對標簽進行增刪改。而傳統分類法是專業人員利用復雜的標引技術、遵循嚴格的分類規定進行分類標引工作的。例如中圖法的類目都是預先規定好的,用戶只能使用,不能隨意更改。
2.1.3 動態性
大眾分類法極具動態性,類目設置是及時更新的。網絡用戶的關注點會隨著時間的變化而變化,這就使其定義的標簽也在變化著,新的標簽不斷進入系統。使用頻率低的標簽會慢慢淡出視野,而使用頻率高的標簽則會逐漸顯現,這便能體現用戶在某一時間段的愛好習慣,在一定程度上也可以反映社會熱點的變化。傳統分類法只能在分類體系中對已設定好的類目進行對號入座,對于新事物新學科只能靠類或歸入上位類,不能增加新的類目。例如:南京大屠殺這一話題,在平時的關注度不是很高,但是在12月13日國家公祭日這一天,南京大屠殺霸占了知乎熱搜一整天。而在中圖法中并沒有“南京大屠殺”這一類目,只能把它歸類到“抗日戰爭時期歷史事件”。
2.1.4 自下而上的分類
在大眾分類法中,用戶可以自由對感興趣的內容進行標注,不同的用戶可能有不同的標注方式,最后由網絡系統對同一內容的標簽進行統計,使用頻率最高的標簽就是該內容的分類,所以大眾分類法是一個自下而上的分類過程。而傳統分類法正好與之相反,它是一個自上而下的分類過程,用戶在使用時從所屬上位類開始一級一級地往下找信息所屬的類目。
大眾分類法相對于傳統文獻分類法有以上諸多優勢,但由于大眾分類法標簽過度自由化,導致了大眾分類中標簽的專指度不夠、標簽的多樣性、標簽垃圾、系統間交互性低等缺陷。
2.2.1 標簽的專指度不夠
由于大部分用戶沒有要標引內容的專業知識,所以其設置的標簽可能并不能準確表達信息內容。例如知乎中搜尋“筆記本”相關話題,網絡系統不能很好地識別出,這里的“筆記本”可能指的是個人筆記本電腦,也可能是普通的日記本,最終會把兩個話題都搜索出來,導致檢索結果的不準確性。
2.2.2 標簽的多樣性
由于網絡用戶的知識層次不盡相同,對同一內容的理解程度也不一樣,便導致了對同一內容進行標引時使用了不同的標簽。以知乎為例,同一個問題會被貼上不同的標簽。例如“互聯網”,又名“網際網絡”“因特網”“英特網”,甚至還有英文名稱“Interet”,不同的用戶,可能用不同的名稱標引相關內容。這就導致了當用戶輸入“因特網”時,系統不會認為“因特網”與“互聯網”“網際網絡”等含義相同,繼而不能檢索出“互聯網”“網際網絡”等的相關信息,極大降低了系統的檢全率。造成標簽多樣性的原因主要是語言的多樣性,例如同義詞、簡稱、縮略語等[4]。
2.2.3 標簽垃圾
由于用戶設置標簽的隨意性和網絡系統的開放性,有的用戶會給某一網絡信息標注一些引人注目的標簽,從而提高點擊率,盡管這些標簽跟該信息內容完全不匹配。在一些高頻標簽中,會出現一些毫無關系的垃圾資源,從而影響用戶的檢索效率,大大降低檢準率。
2.2.4 系統間交互性低
由于網絡信息資源的日益增加,傳統的信息資源管理已經很難滿足用戶的需要,大眾分類法從某種程度上解決了一些問題[5]。不少網絡系統都可以標注和分享標簽,但它們在格式規范和語義表達等方面并不一樣。例如有的系統區分大小寫,有的卻不區分,這就導致了檢索方面的問題。
2.2.5 分類的片面性
大眾分類的目的是建立一個內容更加廣闊的網絡平臺,供用戶在比較大的知識范圍或信息內查詢瀏覽。大眾分類法可對熱點信息做出及時反應,吸納更多的用戶。同時,大眾分類法建立在大眾參與分類體系建構的基礎上,對同一內容只有存在大量不同的標簽,系統才可能通過同義詞控制等方式得出最優化的分類結構。一旦參與人數不足,就很容易暴露出分類的片面性[6],這樣得出的分類結果不具有代表性,影響用戶體驗感。
2.2.6 類目體系混亂
在大眾分類法中,由于沒有嚴格的規定,其類目體系混亂。在知乎中,“機器學習”話題可以通過多種途徑找到。比如某技術領域有3個父話題——計算機科學、統計學、人工智能;23個子話題——深度學習、圖像識別、自然語言處理、強化學習等。“機器學習”的結構較混亂,不適合用戶的查找。而在傳統文獻分類法中,每一個類目都是固定的。在中圖法中,“機器學習”只能在T工業技術——TP自動化技術、計算機技術——TP18人工智能理論——TP181自動推理、機器學習中找到。
網絡系統可以通過強化用戶的網絡角色和參與程度,來提高標簽的質量。例如:可以根據用戶添加的標簽被其他用戶使用的程度,設置知乎用戶等級,不同級別的用戶享有不同的話語權,從而提高用戶的自律意識和標簽質量[7]。同時,可以設計一個用戶小界面,讓用戶對標簽進行打分,從而發現高質量的標簽。
用戶在遇到標簽濫用時,可以進行投訴。系統根據其他用戶對該標簽的評價等因素,確定該標簽是否存在濫用,如果是,可以限定濫用用戶標簽的呈現范圍,比如把它限定為自己查看,不允許其進入公共標簽層面或者由系統提醒用戶該標簽存在濫用情況,建議修改標簽內容,否則該標簽將被刪除。
標簽是大眾分類法在圖書館信息組織的典型應用。信息組織者圖書館可構建敘詞表對標簽進行優化,解決自然語言標引造成的語義模糊問題[8]。同理,對網絡信息資源,可以構建用戶的敘詞表和搜索者的敘詞表,涉及同義詞、近義詞的規范。比如:搜索者要檢索A,用戶標簽的是B,他們可能用不同的語詞表達了同一個意思;或者他們可能都書寫B,表示的卻是不同的內容。這時就可以用這兩個敘詞表進行相互對照,使用更規范的術語來控制同義詞的出現[9]。
本文通過調查,研究了大眾分類法的應用現狀,發現它適用于現在錯綜復雜的網絡發展環境,但仍然存在著些許不足之處。并以知乎話題結構和《中圖法》為例,將其與傳統文獻分類法進行比較,深度揭示大眾分類法的優勢與劣勢。大眾分類法采用非受控詞匯進行標引,使用戶直接參與到網絡信息分類中,打破了傳統分類法不能增刪改類目的不足。同時,大眾分類法具有共享性和動態性,類目設置可以及時更新,是一個自下而上的分類過程。但由于大眾分類法標簽過度自由化,導致了大眾分類中標簽的專指度不夠、標簽的多樣性、標簽垃圾、系統間交互性低等缺陷。針對這些不足,本文提供了一些可行性的建議,例如:通過強化用戶的網絡角色和參與度,來提高標簽的質量;通過人工控制,可以很好地減少標簽垃圾的產生;構建基于大眾分類體系的敘詞表,控制同義詞的出現等。