用戶協同構建的知識社區分類體系質量評價*
——以知乎話題分類為例

2021-10-15 07:12:24武秀枝薛春香

圖書館論壇 2021年9期

武秀枝，薛春香，朱蕾

0 引言

Web 2.0發展帶來了知識社區的繁榮，社區中知識創造和知識傳播的速度在加快，為用戶提供了豐富的知識供給，但海量用戶生成內容(User-Generated Content，UGC)也導致信息爆炸和信息過載，真正有價值的知識淹沒在龐雜的信息中。因此，在信息爆炸的客觀環境和用戶高品質知識需求增長的主觀條件影響下，社區信息組織是用戶和知識社區雙方的共同需求[1]。分類是最基本且有效的信息組織手段，良好的分類體系具有展示和導航的功能，能提高知識社區中信息資源的利用率，推動知識社區的發展。當前知識社區的分類多依賴于用戶參與生成，典型的如豆瓣網的標簽、科學網博客的“個人分類”、知乎的話題分類體系等。相較于傳統分類法，這些知識社區分類體系的構建融入了用戶參與行為，在一定程度上也反映了用戶的關注熱點和信息需求，是群體意識和群體智慧的體現。

1 相關研究

1.1 用戶協同構建的分類體系

協同構建分類體系是用戶協同信息行為的一種[2]，是用戶基于一定規則和協作行為共同構建分類體系以實現對平臺中信息資源管理的信息行為。這種基于用戶協同構建的分類體系與基于專家知識自頂向下構建的傳統分類法不同，近年來受到學者關注，相關研究主要集中在以下幾個方面：一是針對用戶協同構建分類體系的方法、模式和機制的研究，如Qassimi等[3]提出了一種將大眾分類標簽與本體語義相結合的信息資源分類方法；Besseny[4]研究用戶利用大眾分類法對音樂流媒體網站的音樂進行組織和呈現的行為；李雅靜[5]對網絡信息組織中的用戶參與機制進行了研究。二是對協同構建分類體系過程中的用戶行為研究，如Qin C等[6]研究了知識社區中用戶采用混合標簽的標注行為；張鵬翼等[7]研究了用戶協同構建知乎話題分類體系過程中的沖突和協作行為；莊倩等[8]研究了社會標注系統質量對用戶標注意愿的影響。三是對用戶協同構建分類體系的質量研究，如馮蘭萍等[9]對用戶協同構建知識本體的可信度問題進行了探索；張鵬翼等[10]對用戶構建的社會化等級標簽進行了評價。

此外，業界也有一些典型的應用和實踐。例如，豆瓣網和美味書簽(Delicious)提供用戶資源標注功能，由用戶群體自發對各種資源添加標簽(Tag)，從而自底向上構建平面、非結構化大眾分類(Folksonomy)；知乎話題分類、維基百科等是由用戶基于一定知識背景和規則來協同構建等級式分類目錄；學術社交平臺Mendeley則利用用戶閱讀行為，基于用戶學科背景和共讀行為(Coread)實現對文獻資源的分類組織[11]。總之，用戶協同構建分類體系實現了資源分類組織，是Web2.0 環境下信息組織的一種方法，在擁有海量UGC資源的知識社區信息組織中發揮重要作用。

1.2 分類體系質量評價

類目是分類體系的基本單元，一切對分類體系的質量評價均需要建立在一定數量的類目集合基礎上[12]。傳統分類法的評價體系包含清晰度、參照度、完備性和交替度等測量指標[13]，對類目的數量和質量進行綜合評價。

網絡環境中，網絡分類體系的編制者和使用者都發生了變化，傳統分類法評價指標的適用性有待商榷。學者在對網絡信息分類體系質量評價過程中借鑒網絡信息質量評價的思路和方法。Wang 等[14]提出的信息質量評價指標被廣泛借鑒，該指標體系包括完備性、簡明性、聲譽度、無錯性、客觀性、可信性、適量性、易理解、及時性、一致性、可解釋、相關性、增值性、可訪問性、訪問安全等15個指標。他在后續研究中補充了一個指標：易操作[15]，并將“無錯性”和“易理解”改為“正確性”和“可理解”[16-17]。吳勝等[18]在該信息質量評價框架基礎上提出網站信息分類體系質量評價體系，從有用性、易用性和可比性3個維度對林業政務網站的信息分類體系進行質量評估。李華[12]等基于適量性、可理解性、相關性、易操作性、及時性5個指標對生活服務類網站商戶信息分類體系進行測評。

調研發現，國內外已有研究對于用戶協同構建的分類體系的方法、模式、機制、用戶行為、質量等方面都有涉及，但多維度、系統性地構建指標體系對用戶協同構建的知識社區分類體系質量進行評價的研究相對缺乏。因此，本研究從類目體系、類目、類目與資源的關系3 個維度出發，設計了用戶協同構建的知識社區分類體系質量評價指標體系，并以知乎為對象進行了實證研究，旨在為知識社區的資源組織提供參考。

2 研究設計

2.1 分類體系質量評價模型構建

分類體系作為一種特殊的信息，其質量也是一種具體的信息質量[19]。因此，本文在傳統分類法評價指標的基礎上，借鑒網絡信息質量評價指標，結合用戶協同構建的特點，設計了用戶協同構建的知識社區分類體系質量評價體系。該體系從類目體系、類目、類目與資源3個評價維度出發，包含8個指標(見表1)。其中，類目體系從類目的數量、結構、類間關系等方面出發，從宏觀的角度對分類體系進行測度；類目本身則立足于類目命名、類目更新等微觀的角度對類目的規范性和及時性進行評價；類目與資源的關系側重考察類目對資源的管理效果。下面以知乎話題分類為例，對這一指標體系進行實際應用。

表1 用戶協同構建的分類體系質量評價指標

2.2 數據采集

張鵬翼等[10]提出作為一種社會化問答知識社區，知乎的話題結構等級與傳統的文獻分類法具有一定相似之處，都用于組織知識資源。為便于分析，本研究以知乎的話題分類體系作為研究對象，采集了知乎的“物理學”“歷史學”“文學”3個學科的完整話題類目(數據采集于2018年9月13日)，共計15，716條類目數據。伴隨著搜索引擎技術的發展，用戶檢索的習慣逐漸養成，周紅雁[28]指出，在類目體系中，三四級以下的更深層次的類目，幾乎形同虛設。考慮到知乎的話題結構樹較深，類目數量龐大，本文在對知乎話題分類體系質量進行評價的過程中，將1～3級類目作為研究重點，綜合開展定量和定性評估。

3 數據分析

3.1 適量性

適量性反映了分類體系中類目數量的適合程度[12]。在一個分類體系中，劃分粒度過細、類目劃分過多會導致類目層級偏深，用戶在使用過程中通過多次點擊才能找到目標類；反之，如果劃分粒度過粗、類目過少則可能導致大量信息集中分布在同一類目下，無法實現類目導航功能。表2 展示了知乎3 個學科的話題等級和數量分布情況。

表2 知乎3個學科的話題類目數量統計

3.2 均衡性

均衡性體現了分類體系中子類目的分布情況。類目的均衡性是分類體系設置合理與否，能否有效管理資源的重要體現[20]。傳統分類法對均衡性有一定的要求，類目分布不均衡容易導致某些類目過于概括而某些類目展開過細，造成有的資源無類可歸，或是有的類目過于匱乏的現象，不利于分類體系對新出現資源實現有效管。參照用戶的使用習慣，以及知乎話題樹首頁最先展示的類目，本文對所選3個學科二級類目的子類目分布數量進行了統計。由圖1可看出，3個學科分類體系的子類目數量分布差別較大，話題分類體系的類目分布不均衡。這一結果并不表明知識社區分類體系質量更差，而是該分類體系本身要兼顧科學性以及用戶的關注熱點和信息需求，某些用戶關注較多的細分類目會跨越層級限制直接出現在大類下面，便于用戶查找。

圖1 二級類目的子類目分布情況

3.3 易操作性

易操作性是指類目層級設置合理，方便用戶找到自己所需信息，主要測度用戶使用該類目的方便程度，這既是分類體系導航功能效率的體現，也是提高用戶滿意度的關鍵[14]。為了對3個學科的易操作性進行研究，本文采用易操作效率計算公式[19]，即公式(1)，對3個所選學科的易操作性進行度量。其中，OE代表易操作效率，O代表理想條件下的操作步數；S代表實際查找信息的步數。

根據Zeldman[29]書中提到的3 次點擊法則，理想條件下的操作步數O可定為3，把實際查找信息步數S定為所求得的平均類目路徑長度，用公式(2)計算。

其中，L表示每一條類目路徑的長度，N表示總的類目條數，S即為求得的平均類目長度。由此，可以得到3個學科的易操作效率，如表3所示。由表3可知，3個學科分類體系的實際查找信息步數均大于5，其中，以文學分類體系的平均獲取步數最高，將近8，易操作率最低。相對而言，歷史學分類體系的易操作率較高，但也是理想狀態下信息查找步數的兩倍。由此可見，3個學科分類體系的易操作性總體較低。針對這種信息查找步數過大的情況，需通過調整類目結構、建立橫向聯系、探索用戶分類認知路徑等措施來降低用戶查找負擔[30]。

表3 知乎3個學科的易操作效率統計

3.4 可理解性

可理解性指類目反映主題概念的清晰度，以及層級結構劃分的標準程度[12]。通常，類目體系中不會直接顯示類目注釋信息，類名的文字描述就成為用戶理解其涵義的重要途徑。因此，涵義明確的類名可使用戶更快地找到目標信息；相反，存在歧義的類名可能因與用戶的理解不同而誤導用戶。在類目結構劃分方面，知乎的分類體系以突出顯示熱門話題、實現多元劃分為目的，通常不拘泥于傳統分類法“同位排斥”及“層次逐級隸屬”的原則，但總體上應做到等級關系清晰準確。

一個理解性好的類目應滿足以下條件[12]：一是符合大眾理解方式，字面表述可準確體現其內涵；二是同位類目之間有明顯界限，最大限度減少用戶判斷難度；三是類名代表的概念范圍應與其下位類所代表概念的合集相當。為了對3個學科的類目可理解性進行評估，本研究邀請了有對應學科背景的研究者進行合作，對3個學科的二級類目中存在問題的類目進行了討論。由表4可知，3個學科類名的可理解性存在問題。二級類目的主要問題在于同位類之間的層次關系不清、類名與涵義不符、類名有歧義等。在用戶協同構建的分類體系中，對于類目命名可理解性的提升不應僅僅依賴于用戶本身的知識水平，而應在協同構建過程中通過平臺的引導以及提供的命名規范對用戶進行指導。

表4 類目可理解性分析舉例

3.5 類列相關性

類列相關性反映了同位類之間存在邏輯相關，具體表現在進行類目排序時，關系緊密的類目位置相鄰。同位類之間的邏輯性，方便用戶快速找到所需信息。根據李華[12]的研究，當前廣泛使用的網絡分類體系的同位類排序方式有兩種：一是按熱門程度和點擊率排序；二是按字順排序。點擊率排序的優點在于可突出熱門主題；缺陷在于點擊率的統計具有滯后性；而按照字順排序多見于西方分類體系，該方式符合西方人使用習慣。

不同于以上同位類排列方式，知乎話題的同位類排序以加入同一父話題的時間先后排列，突出新加入的話題。話題下面的資源則可按照更新時間或熱度進行排序。為進一步探尋知乎話題分類的相關性，本文對3個學科類目的劃分標準、橫向關系，以及同位類關系進行了比較，見表5。物理學分類體系局部有明確的劃分標準，如話題“核反應”下設置兩個子話題“核裂變”和“核聚變”。可見局部有劃分標準的話題仍是用戶所熟知、出現率比較高的劃分，并不能體現用戶有明確、系統的分類意識。特別是歷史學和文學的分類目錄，基本沒有明確的劃分標準。此外，其橫向關系通過類目的交替出現來體現；同位類則根據加入同一父話題的時間排序。

表5 知乎3個學科的類列相關性對比

3.6 一致性

一致性衡量類目命名特征一致性、用詞的標準化[18]。類目命名的一致性是類目規范化的體現。從知乎話題的添加規范看出[31]，為了保證類目命名的一致性，從“字符規范”“信息完整”“避免歧義”“保持中立”4個方面對用戶添加話題提出規范和要求。其中，針對類名使用自然語言存在歧義問題，往往采用限定詞的方法，如“我的前半生(電視劇)”“我的前半生(愛新覺羅·溥儀著)(書籍)”“我的前半生(亦舒著)(書籍)”，通過加注作者、類型等方式來區分。為評估知乎話題類目命名的一致性，本研究從詞長和高頻類目兩方面對3個類別的類目命名特征進行統計分析。

(1)詞長統計。采用Python編碼完成對類名詞長的統計，將類名的字數作為詞長，含有英文字符或數字字符的類目，以空格作為分隔標記。例如，類目“核物理”，詞長為3；類目“2008金融危機”，詞長為5。統計結果所制成的類名詞長分布圖如圖2所示，歷史學和物理學類目名稱字數多集中在2～6之間，而文學類目名稱字數在2～5、5～13、13～15的字數區間中均出現不同程度的峰值。經考察，發現歷史學和物理學類目名稱多取自該學科領域的術語，符合漢語短語2～6字詞的特征；而文學領域類名，尤其是最細類目的名稱多來自具體的文學作品名稱、中外作家名等，所以類名詞長呈現多波段特征。

圖2 知乎3個學科的類名詞長分布

(2)高頻類目展示。通過高頻類目可以探究出分類體系中反復出現的主題，發現用戶關注的話題和用戶在描述類目時的用詞習慣。為此，本研究利用Python工具包“wordcloud”對3個學科的類目名稱進行統計和可視化展示，最終顯示3 個學科出現頻次最高的前100個類目。從圖3可知，物理學中最熱門的是與“氣候”“環境”“核能”等相關的話題，這類話題在類目樹中反復出現；歷史學中“抗日戰爭”階段的相關歷史、人物、事件以及影視作品等受到關注較多；而文學中關注度較高的是當前比較受歡迎的書籍，以及針對其改編的影視作品，如“三生三世十里桃花”“誅仙”“斗破蒼穹”，還包括小說中主要人物的名字等。從類名詞云圖中看出，物理學命名用詞相對專業化，基本采用學科內的專有名詞；而歷史學和文學則主要采用書名、事件名、作品名、人名等具體的實體名稱。

圖3 知乎3個學科的類名詞云圖

由類名詞長統計結果和熱門類名可知，不同于傳統分類法以學科分類為主，知乎這類社群知識的分類以主題為中心，往往采用貼近社會、貼近時代、貼近網民、可隨時增補的自然語言來表達類名。但自然語言缺乏控制，其內涵和外延有時難以判斷和界定，容易產生同義和多義現象的類名。

3.7 及時性

及時性指類目體系更新的及時程度以及類目命名的時代性[19]。網絡信息分類體系相較于傳統分類體系的優勢之一，即具有動態性和及時性。一個好的分類體系能夠及時反映時代熱點變化，這種及時性可從兩方面衡量：一是類目數量動態變化；二是類目命名的時代性。為了對知乎話題分類體系的及時性進行評價，本研究在時隔兩個月之后對所選3個學科的三級類目的數量進行了統計，得出了其三級類目在兩個月時間內的增長率。同時，也進一步觀察了3個學科的命名，列舉出類目中出現的熱門詞匯。

(1)類目數量動態變化。類目數量的更新是類目動態性和及時性的重要體現。本研究在2020年9月13日先期完成了對物理學、歷史學和文學類目的初步統計，在時隔兩個月之后的11月13日，再對3個學科的三級類目數量進行統計，利用公式(3)計算出類目更新率。

其中，U表示更新率，G1表示初次統計值，G2表示再次統計值，經過計算得到如下結果，如表6所示。由此可知，兩個月內3個學科的類目都有不同程度的更新，更新率與用戶參與度密切相關，也與學科資源具有密切相關性。

表6 知乎3個學科的類目更新率統計

(2)類目命名的時代性。類目命名體現時代性，及時吸收新生事物，是類目及時性的重要反映。本研究對3個學科能夠體現時代性的類目進行列舉。如表7所示，物理學的類目涵蓋21世紀物理學的新動態和新成果，歷史學和文學則包含當下熱度較高的歷史學和文學作品，反映了用戶的關注熱點。由此可知，知乎話題分類體系的及時性較好，能快速吸收學科中的新概念，反映用戶的關注點和當下熱點。分類體系的動態性和及時性是用戶協同構建分類體系的一大優勢。

表7 知乎3個學科的類目命名列舉

3.8 匹配性

匹配性反映了類目與資源的匹配程度[27]，是類目能夠有效管理資源的體現。資源與類目的匹配程度是衡量分類體系質量的重要指標。由于知乎的問答資源數量龐大，實現精準的類目與資源的匹配效果的判斷難度較大。因此，本研究采用多輪隨機無放回抽樣的方法，抽取相關話題，邀請3個學科對應的兩位專家交叉驗證資源與類目的匹配性，并利用公式(4)和(5)計算出3個類目相應話題下類目與資源的匹配程度。

其中，Mi表示第i個話題的匹配率，Ri表示第i個話題與類目相匹配的資源數，Ni表示第i個話題下的資源總數。Q為隨機抽取的X個話題的匹配率的平均值。經計算得出了表8的結果，物理學和歷史學話題下資源與類目的匹配度較高，文學的匹配率也達到60%。表明知乎的資源與類目的匹配情況基本良好，但有提升空間。

4 結論與建議

通過上述指標對知乎話題分類體系的測評，可以發現：用戶協同構建的知識社區分類體系具有明顯的網絡信息組織特征，類目具有動態性和靈活性，能夠展現用戶的關注點和需求點；類目命名以自然語言為主，以主題為中心，能夠較清晰地揭示類目下資源的主題；類列排序邏輯性不強，存在多重列類、交叉列類現象；類目層級較深、橫向聯系較多，但易操作性不高。究其原因，雖然知識社區提供了用戶參與話題分類的規范指南，但因為站點缺乏對于社區用戶參與話題分類活動的規范控制機制，導致類目偏多、層級較深、子類目分布不均衡。本文針對用戶協同構建的知識社區分類體系質量的優化與提升，建議應從參與者、協同機制、構建平臺、協同過程4個角度做好工作。

(1)從參與構建的用戶角度出發，要重視核心用戶的參與行為，擴大核心用戶的編輯權限，對不同用戶的參與行為進行權限分級；進一步完善激勵機制，激發用戶持續參與分類體系構建的興趣。

(2)從協同機制的角度出發，要建立良好的協同機制，可從類目命名詞長、命名字符規范等角度對用戶進行合理的引導和限制，提高類目命名的準確性和可理解性。

(3)從協同構建平臺的角度出發，要提升用戶參與過程的良好體驗，做好平臺優化，如提升界面設計的可理解性，改善系統易用性；豐富用戶構建過程中的系統功能，提高可用性等。

(4)從協同過程的角度出發，要優化交互，鼓勵用戶在產生分歧的時候進行溝通協商，更好地解決分類體系構建過程中的沖突，充分發揮用戶協作的自組織性。

隨著知識社區用戶生成內容的激增、用戶對高質量資源和信息精準獲取要求的變化，知識社區信息組織面臨挑戰。無論是知識資源、管理平臺還是用戶群體，用戶參與生成的知識社區都不同于傳統的文獻機構，知識社區的資源組織具有自發性、協作性、草根化特征，因此，提高用戶參與的信息組織的質量以實現對知識社區資源的有效管理是一個需要持續關注的研究。

用戶協同構建的知識社區分類體系質量評價*——以知乎話題分類為例