摘 要:文章從立類、歸類、序類、大綱、類名等5個方面分析了網絡信息分類法存在的缺陷,又從知識覆蓋、體系結構、類目組織、基本類目、類目名稱、用戶界而、檢索功能等7個方面提出了完善的措施及其標準化問題。
關鍵詞:網絡信息;分類法;標準化;研究
據不完全統計,目前已開發的中文網絡信息分類法已有282種之多,而各種自編的網絡信息分類法都存在著這樣或那樣的問題。分析存在的缺陷,提出完善的措施,是網絡信息分類法標準化研究的重要內容。而研究網絡信息分類法的標準化,對于提高各種自編網絡信息分類法的質量,進而編制全國統一的網絡信息分類法,優化網絡信息分類組織,實現網絡信息資源的共建共享,是會大有補益的。
一、網絡信息分類法的缺陷
1.知識覆蓋不全
幾乎所有的網絡信息分類法的分類體系都存在著知識殘缺不全、體系設計粗略的通病。就拿全球百強中文網站前5名的新浪(www.sina.com.cn)、Yahoo中文(cn.yahoo.com)、網易(www.yeah.net)、搜狐(www.sohu.com)、TOM·COM(search.tom.com)的分類體系來說,不是未列自然科學,就是未設社會科學。又如中華網(search.china.com)、263在線(search.263.net)名捕(www.mingbu.com)、搜星(www.soseen.com)等的分類體系,也是既未列自然科學,也未列社會科學。
2.歸類不夠科學
許多網絡信息分類法的分類體系,未能嚴格地按照類目的內涵和外延進行科學地歸屬類目。如搜狐的分類體系把“圖書館”歸入“教育”大類,又在“文學”大類中作為交替類目列出,把“文革”歸入“藝術”大類等。再如搜豹(www.sobao.com)的分類體系把“農業”、“教育”、“地理學”、“歷史”、“圖書館”、“理工院校”等歸入“自然科學”。總之,歸類不當的現象在網絡信息分類法系統中比比皆是。
在網絡信息分類體系中,劃分失誤的現象也是很多的,主要表現為:①劃分過寬。如雅虎分類體系的“科學”大類,劃分出的“地理學”、“教育”、“歷史”、“圖書館”、“心理學”等。②劃分過窄。如聯合搜索(www.365a.com)“社會科學”大類,只列舉了“哲學”、“政治學”和“法學”,未列“經濟學”、“歷史”、“地理”、“軍事”等。③劃分出子類的級別過高或過低。如智星酷搜(search.501.com)的分類體系把“三個代表”、“周易”等與“哲學”等類并列,同屬“社會科學”大類之下的二級類目,前兩者則屬級別過高之類。④劃分出的子類相互包容。如上兩例中的“哲學”包括“周易”、“三個代表”,“自然科學”包含“物理學”、“化學”和“數學”。
3.類目排列隨意
幾乎所有的網絡信息分類法的分類體系都存在著類目排列混亂的通病。如新浪、網易、中華網、木子網(中文)、263在線等的分類體系,都把“文學”與“藝術”、“電腦網絡”與“科學技術”、“經濟”與“文化”及“政治”等原本密切的大類,卻人為地分割開來。
有的網絡信息分類法的分類類目之間界限模糊。如網易分類體系中新增的“行業分類”大類與原有的“公司企業”大類,外延多有交叉重疊,因為后者也是按行業劃分的。
4.大綱缺乏穩定
有的網絡信息分類法的分類大綱改變太大,使人難以把握。如亦凡搜索分類體系,原有大類10個,后又增補2個,共計12個;搜狐分類體系的大類數目及類名雖未改變,但首頁與分類搜索界面上的大類排序卻大相徑庭;特別是木子網(中文)的分類體系,首頁分類大綱的類名與點擊后界面上的類名迥然不同;如把“娛樂與明星”改為“娛樂與影視”、把“藝術與表演”改為“藝術與建筑”、把“社會與歷史”改為“社會與人物”、把“科學與技術”改為“科學與研究”、等。5.類名有失規范
網絡信息分類法在其分類體系中采用了廣大網民所喜聞樂見的俗稱、簡稱、慣稱等自然語言,諸如媒體、影視、環保、婚戀、高校、求職、文革、黑客、電腦、IT業等,這是無可厚非的。但有些類名缺乏范化處理,類下又無必要的注釋,容易增加網民的知識負擔,如名捕分類體系中的“說天說地”、“美眉寫真”,天網搜索分類體系中的“嗜好”、“殘障”、“討論話題”,百度(ix.baidu.com)分類體系中的“一見鐘情”等。
二、網絡信息分類法的完善
1.知識覆蓋的全面性
知識覆蓋面全是標準化的網絡信息分類法的至關重要條件。它要求在其分類大綱及其層次展開的設計上都要體現出知識的全面性,其知識范圍要涵蓋所有的主題、學科、行業、產品等,即人類的全部知識領域和各種知識需求;其信息類型要包括所有的政府信息、事業信息、企業信息、社會信息等,即人類的全部活動所產生的文本、圖形、圖像、音頻、視頻等信息。一般來說,收集網站信息越多,概括出的類目就越多,分類體系的知識覆蓋就越全面,所以說,盡可能地收集網站信息,是編制高質量的網絡信息分類法的關鍵。目前的人工智能技術、自然語言理解技術、自動索引技術、數據庫技術等,能夠快速地把網絡信息進行過濾、篩選、整序、建庫,把新數據加入到自己的索引庫中。
2.體系結構的完備性
標準化的網絡信息分類法,體系結構應包括分類大綱、主類表、從類表、類目注釋、類目索引、后控制詞表、使用指南等。分類大綱是網絡信息分類法進一步劃分的基礎,也是廣大網民查詢網上信息的起點,它直接影響著網絡信息分類法的性能和質量,因此說,編制好分類大綱是至關重要的。分類大綱的一級類目以20-30個為宜。分類大綱中的類目數太少會造成覆蓋不全,很多網站信息無類可歸;太多會造成主題分散,也容易產生空頭類目。主類目是由分類大綱展開的全部類目組成的網絡信息分類法的主體。分類大綱展開的層次以4-6