王東海 張紹麒
(魯東大學文學院 山東 264025)
辭書出版目前已經成為重要的文化產業。在海外已形成規模經濟。以六大家族為核心的英語詞典出版社借ESL(英語作為第二語言教學)推廣之勢,在全球搶占市場(牛津的英漢雙語詞典甚至在中國內地占統治地位),規模迅速壯大,很多詞典出版社已經成為上市公司。
辭書是一個朝陽文化產業,近些年我們也認識到其重要性,自上而下地重視起來。我們延續了重視辭書編纂、出版的傳統,在辭書數量方面,繼續保持著大國的位置。但也存在一些制度化、結構化的問題,如:很多時候我們并沒有把辭書上升到經濟產業的高度,而僅將其當成普通出版物來對待,對辭書產業未來的發展方向和布局缺少超前性認識,缺少有針對性的辭書規劃;辭書編纂出版的現狀中還存在某種無序性,很多編者和出版者在做低層次的重復工作,相應的辭書政策滯后及缺位;我們對辭書編纂出版的具體管理有時也不太到位,多是跟在辭書編纂出版實踐的背后,出現問題解決問題,缺少預先干預機制,比較被動;在辭書研究方面,我們還多停留在對傳統經驗的繼承上,缺乏推出滿足現代用戶使用需求的創新性操作理論的能力……
這些問題在我國目前的辭書產業中不同程度的存在,已引起相關部門及很多學者的高度關注。新聞出版總署正針對辭書出版問題進行第三次辭書規劃;教育部、國家語委針對辭書編纂及語言文字內容規劃的管理,專門成立“漢語辭書研究中心”,在成立大會上,李宇明司長(2008)針對上述問題提出促進辭書研究與管理的新思路。另外,王鐵琨先生(2007)也在多年前就提出“辭書強國夢”,張志毅先生(2010)在《人民日報》撰文呼吁“建設辭書強國”,并就辭書理論創新問題提出建議。
問題的癥結在哪里?如果只是把上述具體問題歸口相關行政部門進行解決,只是治標的行為。辭書畢竟不只是一項產品和商品,其編修研究都體現著典型的專業性,專業問題需要專業人士去解決,這樣才能找到治本之法。
在我們的研究中,我們關注到影響辭書產業發展的根本因素之一——辭書隊伍。辭書產業中各項工作的推進、各個問題的解決,都需要有特定素質和能力的人員,因此從辭書人才、辭書隊伍建設的角度加強辭書產業研究至關重要。但我國目前還缺少對辭書隊伍的現狀、結構所進行的研究,僅見汪耀楠先生(1996)的一篇倡議性文章,讓我們充分認識到辭書隊伍建設的必要性和緊迫性,但還缺少實態的描寫、問題的分析與解決方法的設計。
鑒于此,“漢語辭書研究中心”專門立項,對我國漢語辭書隊伍的情況進行專項研究:在服務于辭書規劃、辭書政策的目標下,調查分析辭書相關從業人員的基本情況和素質,描寫辭書隊伍的結構及存在問題,探討辭書人才建設在辭書規劃、編纂、出版、管理、研究等方面的作用,進一步提出辭書人才隊伍建設的原則與方法,以促進我國辭書產業的健康快速發展。
為形成全面、新穎的結論,我們建設了基于網絡的“辭書隊伍資源庫及信息挖掘系統”(以下簡稱“隊伍庫”),全面收集隊伍成員豐富的學術、社會屬性資料,并基于語義網絡和信息挖掘技術,以個體為基本細胞單元,動態展示他們之間復雜的線性和非線性聯系,發現其中的規律,以期讓我國的辭書隊伍從目前的自組織狀態走向一種有引導、有組織的整合狀態,最后為辭書規劃和辭書政策提供理論和實踐支持。
隊伍庫的建設要基于全面的需求分析,庫的服務對象及應用目標決定了庫信息結構及數據利用模型的建立。隊伍庫的建設不宜求全求大,而應以國家的辭書規劃與辭書政策為首要服務目標,兼顧辭書編纂出版與辭書研究兩大次要服務目標,我們稱其為“2+2”服務目標。
辭書產業的發展不能盲目,要有明確的規劃與布局。辭書規劃是根據辭書研究、編纂、出版、發行、營銷、使用、管理等方面的發展現狀,在繼承傳統、借鑒海外經驗的基礎上,深入研究辭書類型分布,找準辭書產業核心重點及發展盲點,制訂一個在較長時間段內重點攻關的辭書編修以及出版任務。成功的規劃必須植根于成熟的辭書功能學、類型學理論以及編纂工藝。這些都對辭書隊伍提出了很高的要求。
1949年以來,我們成功地實施了兩次辭書規劃。新中國成立后,初等及中等文化程度的民眾掃盲及學習文化知識的需求特別迫切,但我國卻面臨著“大國小字典”(《新華字典》)的尷尬局面,“文革”十年甚至出現了 “辭書荒漠化”現象,辭書出版主陣地之一——商務印書館(1997)的“百年大事記”中,“文革”十年一片空白,《現代漢語詞典》也因此一直拖到1978年才正式推出。
1975年,中外語文詞典編寫出版規劃座談會在廣州召開,會議討論擬定了1975-1985年編寫出版160種中外語文詞典的規劃(草案),獲批準后馬上進入具體實施階段。這次辭書規劃非常成功,在短短十年時間內,集中編纂并陸續出版了《漢語大字典》《漢語大詞典》等古今兼收語文辭書中的扛鼎之作,還有一大批填補類型空白的語文辭書,成功實現了經典辭書的更新換代,滿足了廣大群眾利用辭書學習文化知識的需要,一改我國“辭書荒漠”的局面。
從辭書隊伍建設的角度看,這次辭書規劃最成功之處在于相關部門充分發揮四方面的力量:一是專家力量,大范圍動員全國知名語言文字學家和辭書學家參與辭書的編纂與修訂;二是出版社力量,調動了全國各大有辭書出版實力的出版社的所有資源,出版了大量辭書,甚至成立了專門針對某一部辭書的出版社(如“漢語大詞典出版社”);三是辭書管理部門力量,這次辭書規劃的成功也在于政府的切實參與,自國家領導人到具體管理部門,全力推動,以國家行政力的權威性、剛性、強制性主導了本次規劃;四是蓬勃興起的辭書研究熱潮為辭書規劃提供了理論支持,辭書學的兩個主要研究陣地《辭書研究》以及《詞典學研究叢刊》就是在這個時間段創刊并蓬勃發展的。事實證明,在特殊情況下,只有政府有能力主導辭書規劃,整合辭書隊伍,在短時間內編修一些大型的服務于民眾而又傳世的經典之作。因此,“盛世修典”是以政府的強有力支持與引導為保障的。
1988年,新聞出版管理部門在成都召開了第二次全國辭書編纂出版規劃會議。這次辭書規劃以專科詞典(社會科學專科詞典、科技詞典)和少數民族詞典為主,兼顧中外語文辭書、百科全書。這次規劃最成功之處是相關部門對出版社力量的整合:協調了全國一百多家出版社提交的2500多個辭書出版選題,抓重點,調結構,力避重復出版同類型的辭書。沒有政府力量的強勢介入,出版社各自為政,必定會出現大量質量低下的辭書,而真正需要填補空白的辭書卻無法保障質量。事實證明,這一次辭書規劃成果顯著,成功地完善了漢語辭書的類型布局。
進入21世紀,辭書業的發展更加日新月異,一日千里,同時也出現了很多前兩次辭書規劃時沒有出現和關注的現象和問題,相應的規劃必須馬上跟上。目前,相關部門正準備開展第三次辭書規劃。
辭書規劃要依靠各層次、各類型的人員來完成,辭書產業的健康發展需要做規劃時“量力而行”,這個“力”就是人力資本,一些人力支持達不到的,可以先小后大,甚至可暫時擱置,留待以后規劃。所以,辭書規劃要先摸清近幾年我國辭書隊伍的家底,對人力資本的情況有全面了解,時間安排、步驟進度都能根據人力資本做好計劃,從而保證制訂的規劃是切實可行的。我們的隊伍庫可為相關部門的辭書規劃提供人力信息報告。要實現這一目標,應圍繞七個在當前和未來辭書發展中的熱點問題(辭書理論創新、學習詞典編纂、電子詞典、辭書知識產權、辭書編纂現代化、辭書評論與使用研究、辭書隊伍建設——這七個問題將另文研究)展開有針對性的建設。
要完成這方面的工作,要求隊伍庫提供以下信息:目前我國辭書研究隊伍支持最多的辭書類型地圖;各種辭書類型研究和編纂的一線、二線專家地圖;出版社掌握的合作專家地圖;辭書隊伍后備力量調研報告;出版社責編人員情況報告;辭書用戶情報報告。
在我們的研究中,辭書規劃是對辭書發展藍圖的宏觀勾勒,辭書政策則是解決中長期辭書產業發展具體問題的對策和規定。廣義的辭書規劃包括辭書政策。必要的辭書政策是政府對辭書產業實施有效管理的手段。
辭書政策體現在國家的法律、法規及政策規定層面。法律法規的最大作用是面向全國,而且具有剛性、權威性和貫徹性。但我國目前的辭書政策的制訂還不是很全面,除了宏觀支持鼓勵,在很多具體問題上缺少具體的政策。
我們在新中國成立后從中央到地方的各類法規庫[1]中進行檢索,關于辭書管理的文件 (文件正文內提及“辭書”或“詞典”、“工具書”等概念)數量很少。從文件標題上看,僅發現一份文件是與工具書相關的——《關于對工具類圖書進行質量檢查的通知》(新聞出版署1997年3月20日),而其他在正文中提及辭書的文件不超過20份,多是涉及圖書評獎、知識產權、用字規范、出版物開本、盜版、稿酬等細節問題。在這些文件中,辭書多與其他出版物并列提及,很少獲得單獨的規范,能為辭書單獨立條加以規定的僅見四例,涉及辭書中的異形詞(教育部等部門關于在新聞出版、廣播影視系統和信息產業、廣告業試行《第一批異形詞整理表》的通知)、蒙古語辭書(國務院關于八省、自治區蒙古語文工作協作會議情況報告的批復)、稿酬(國家版權局關于頒發《出版文字作品報酬規定》的通知)以及推薦常備工具書[關于印發《常備圖書目錄》(第一批)及《關于常備圖書出版、印刷、發行管理的暫行規定》的通知]。可以看出,我們國家法律政策管理中對辭書的相關規定相對薄弱。
制訂辭書政策的核心問題是什么?是以管理為本,而管理的對象則是辭書隊伍。從已有研究成果庫、已出版辭書庫的相關評論報道等信息中進行全面的知識挖掘與數據類聚,隊伍庫建設至少能為制訂辭書政策提供以下信息:目前辭書研究、編修、出版、市場四大方面存在的核心問題是什么?已有的針對辭書發展中存在問題的可行建議是什么?辭書評獎、辭書質量監測、辭書基金項目這三大政府工作的措施、效果如何?作為辭書政策制訂者的管理部門的素質結構、能力結構是什么?制訂者如何避免“外行領導內行”的弊端?……只有掌握這些核心信息,我們的辭書政策建設才會系列化和常態化。
辭書出版基于一個強有力的編纂隊伍。在漢語辭書編纂歷史上,已經成功實現了編纂隊伍由個體向團隊的過渡。但目前我們還沒有對辭書編纂者個體、辭書編纂團隊進行相關研究和了解。特別是以下幾個核心問題:辭書團隊中的編者個體需要什么樣的學術背景,什么樣的能力結構和知識結構?辭書團隊如何組織編者進行有效的工作,才能將編者個人的知識共享為編纂團隊組織的知識,再固化為全社會共享的詞典知識?……
另外,辭書產業的調整和健康發展還要關注辭書編纂出版人才的培訓提高以及后備人才的培養。未來的辭書編纂出版管理需要專業的辭書人才。但目前僅有新聞出版部門每年舉辦一次辭書人才培訓班,培訓對象主要為出版社辭書編輯、擬申請辭書出版業務范圍的圖書出版單位的編輯人員、具有辭書出版業務范圍的圖書出版單位未接受過辭書編輯專項培訓的編輯出版人員;培訓內容為黨和國家的出版方針政策、法律法規,第三次辭書出版規劃,辭書編纂與修訂業務,辭書質量控制,語言學、詞匯學以及數字辭書等知識。
但這種培訓只是針對出版隊伍,缺少對作者隊伍的系統培訓,遠遠適應不了辭書發展的需要。人才培養必須是有計劃、有針對性的,利用我們的隊伍庫可研究目前高校及各辭書研究中心的辭書后備人才培養工作經驗及教訓,同時探討高校、辭書研究中心和基地、出版社如何聯動培養后備人才的問題。
漢語辭書的經驗總結與理論創新都依靠辭書研究。首先要求能從隊伍庫中捕捉辭書研究人員的全面情況,清楚展示從事辭書研究人員的數量、層次、研究方向、研究背景,根據不同的信息屬性進行類聚,建立研究者人際網絡系統,發現其中的隱含規律和聯系(如學術背景與學術經歷對辭書研究的影響等)。
其次,通過對辭書研究者學術成果的知識挖掘,抓住當前辭書研究中的傾向性問題,分清辭書領域的強勢研究與弱勢研究,類聚共同研究觀點、研究方法或研究思路,最終能形成辭書研究的小流派。
再次,還要利用隊伍庫對以下幾個核心問題做出集中的研究:如何繼承傳統的辭書編纂理論和經驗?如何借鑒西方先進的編纂理念與技術?如何創新我國的辭書學理論?通過對已有成果的挖掘,找出這三個辭書研究中的根本問題的研究進展、研究差距,并對其進行客觀描寫與分析。
例如,從庫中可挖掘出目前辭書編纂前沿的語料庫技術、語義網絡技術,新的辭書編排體例,創新性的釋義操作理論如釋義元語言、義項索引、整句釋義等在我國的研究情況,揭示出已經引進了哪些先進的技術與理論,哪些在辭書編纂中進行了應用,哪些結合我們的實際情況進行了改造,哪些屬于漢語辭書獨創的理論等。摸清這些信息,對于引導學者的辭書學研究方向會有很大幫助,能為辭書研究者提供一個標明研究方向中的優勢點、重復點以及弱點、盲點、空白點的主題知識地圖,引導研究者更有針對性地選擇自己的辭書研究方向以及確定具體的研究選題。
最后,隊伍庫還要能提供辭書研究與辭書編纂之間的關系信息,回答以下幾個問題:辭書編纂與辭書研究的關系,如何互相發明、互相支撐?有過編纂實踐的人的辭書研究特點是什么?有過辭書本體理論研究的人的編纂特點是什么?有過相關學科交叉研究的人的辭書編纂行為有什么特點?
總之,隊伍庫在服務于辭書研究方面要能做到對辭書研究隊伍分流派、分方向,對當前辭書研究找問題、明不足、立優勢,達到服務辭書研究和編纂的目的。
根據我們的研究,把辭書隊伍分為生成性二級結構,底層是能關聯所有個人信息的個體錨點,個體錨點又可關聯生成二級結構——團隊錨點和組織錨點。
汪耀楠(1996)認為辭書學需要三種個體人才:一種是規劃、組織、編輯人才,一種是編纂人才,一種是理論研究人才。這三者有聯系也有區別。根據當前分工細致化的特點,我們隊伍庫包括以下五種個體人才:
(1)研究者:高校、研究中心、科研院所、學會、民間研究團體和研究個體。研究者個體是隊伍庫的核心成員、原型成員,是我們關注的焦點。屬性群主要分為兩類。
① 基本屬性群:自然屬性,如年齡屬性、性別屬性等,主要用于描寫辭書隊伍的年齡梯隊和性別結構;社會屬性中的民族屬性,主要用于描寫民族語言辭書與研究者民族身份的關系;地域屬性用于描寫研究隊伍的地域分布特征;工作屬性群主要用于描寫辭書隊伍的工作單位分布,以便相關部門設立研究機構、進行課題投放。
② 學術屬性群:考察研究者個體成員的知識背景與辭書工作的關系。學歷名稱、學位名稱、導師、碩博論文、訪學經歷、留學經歷、研究背景、研究領域、研究方向等屬性,主要看研究者所學專業、學術經歷與辭書研究的關系。研究方向和領域是核心屬性。
(2)編纂者:編纂者個體、編纂團隊(固定團隊和臨時團隊)。
編纂者個體很多時候與研究者個體身份兼屬,具備這兩方面屬性信息的,當為理論與實踐兼具的全才型人才。而編纂者個體更多以其編纂的辭書為核心,設置辭書名稱、出版社、用戶反響、獲獎、再版與修訂等編纂方面的屬性。
(3)出版者:負責出版規劃的出版社總編、負責單部辭書的責編以及發行營銷人員、用戶調查人員等。
出版社個體成員是辭書工作中的中介、橋梁,其工作包括市場調研、選題、編纂外稿、責編、出版印刷、修訂、再版的管理等,既是辭書研究者與辭書應用交流的樞紐,又是辭書與用戶溝通的平臺。出版社個體的屬性群的設置主要包括責編辭書、辭書選題、辭書市場、用戶調查等方面的信息。
(4)管理者:把辭書作為出版物管理的出版管理部門人員、把辭書作為語言文字準規范的語言文字管理部門人員。
管理者個體既是辭書隊伍的一員,同時也是辭書隊伍的管理者,隊伍庫主要是依據其工作性質設置屬性,主要包括學歷背景、學術背景、研究背景、分管工作、工作績效等。
(5)后備人才:從事辭書研究與編纂的在校研究生,兼及編輯、出版專業的本科生。
學生個體是后備人才的主體,主要屬性設置包括學習經歷、學術經歷、辭書相關課程和培訓,并追蹤其學習經歷與日后參與辭書工作的相關度。
個體錨點可類聚成團隊錨點。團隊包括領軍人物和團隊成員,隊伍庫主要設置團隊的研究方向、研究成果等屬性。個體成員可以根據不同的屬性類聚成不同類型的團隊。
(1)研究團隊
一個研究成果突出、研究方向集中、研究方法互相支持的團隊的形成往往意味著一個研究流派的相對成型,形成研究流派是辭書學研究成熟化的重要標志。研究團隊和流派中的領軍人物和代表人物在某種程度上決定了一個辭書團隊在國內外的影響力;團隊研究成果的水平標志著一個研究團隊所能達到的高度;團隊成員的研究方向是否一致,決定了是否具備在短時間內集中攻關的能力,以及承擔某些重大辭書研究、編纂、調研等任務的能力。目前采用的衡量研究高度的核心權重指標主要是“三高”成果(高引用率論文、高層次項目支持、高檔次獲獎),這些可在隊伍庫的成果分庫中體現得非常清楚。這方面的研究團隊主要集中在高校、科研院所、出版社等有組織的部門,人員相對穩定、集中。
研究團隊還包括圍繞學術期刊等研究陣地而形成的松散的團體,這些團隊是自組織類聚的,其研究方向和特色往往與學術期刊等研究陣地的宗旨與追求相關。上世紀80年代以來,漢語辭書研究主要有兩個陣地:一是《詞典研究叢刊》陣地,出版12期后停刊,但在其中發表文章的作者大都成長為目前重要的漢語辭書理論研究者和辭書編纂者;二是《辭書研究》陣地,自1979年創刊后,已經被打造成中國辭書學科最重要的科研平臺以及辭書隊伍的最重要的培養平臺,三十多年來,其作者匯聚成一個龐大的辭書研究團隊。另外,其他相關的重要刊物也會類聚一些松散的團體,如《中國語文》等核心期刊也都有自己的辭書研究者隊伍庫,其研究特色主要是把辭書和語言文字研究相結合,很多有分量的辭書學本體研究的論文都出自這些期刊。這些期刊登載的很多有分量的辭書學論文,在我國辭書理論的發展過程中起到了重要的奠基作用。
(2)編纂團隊
目前的辭書編纂已經實現了由個人編纂向團隊編纂的轉型。編纂團隊可分為三類:
一是自組織型團隊。編者多為專家,多憑興趣在主編的召集和領導下共同編纂一部辭書,帶有一定的民間行為的特點。
二是出版社編纂團隊。商務印書館、上海辭書出版社等許多以辭書出版為特色的出版社多設有辭書編輯室;一些老牌出版社,如人民教育出版社、高等教育出版社、中華書局都已設或準備設置專門的辭書室。辭書編輯們一方面責編外來辭書稿件,另一方面還以團隊合作的方式自編辭書,編纂的辭書更加嚴謹和規范,且多能抓住市場脈搏,反響不錯,但編輯的語言文字功底參差不齊,所出版的辭書質量差異較大。
三是有組織型專家團隊。這類團隊以編纂辭書為主要工作內容,組合穩定,編纂行為持久。有的帶有科研院所背景,以中國社會科學院詞典室為代表,這是一個歷史悠久、經驗豐富的編纂團隊,背后有強大的語言文字研究力量來支持,其代表作《現代漢語詞典》是公認的國內最權威的規范性語文詞典;有的屬于專家固定組合團隊,以《現代漢語規范詞典》的李行健團隊為代表,編者隊伍多由辭書學和語言文字學專家組成,擁有豐富的辭書編纂經驗,背后一般有相關大型出版社的大力支持。
組織與團隊不同。團隊多是專業性、業務性的,有時具有民間性和自由性,團隊成員有時會因為研究方向和編纂方向的不同隨機組合變化,而組織有相應的規章制度和嚴格的行政管理體制,帶有行政性、管理性,人員相對穩定。辭書組織主要分為以下三種:
(1)辭書學會
“中國辭書學會”掛靠在教育部語信司,其學術活動等的開展固定、有序,且受國家相關部門的統一管理。辭書學會成員來源復雜,有高校科研院所的研究者、出版社人員、政府部門管理者等,也有印刷廠、書店等和辭書工作相關的人員;辭書學會服務于成員成果發表和交流,設有語文詞典專業委員會、雙語詞典專業委員會、專科詞典專業委員會等九個分委會,方便會員進行有針對性的集中交流與溝通,學術活動空前活躍。這種集中交流也易于類聚不同的專業隊伍,集中承擔某項專業辭書任務,或集中突破某項科研難關。另外,在辭書事業較發達的地區還擁有當地自己的辭書學會,如上海市辭書學會,福建省、安徽省辭書學會等。
(2)管理部門
相關部門設有和辭書相關的管理組織。從辭書產業的角度看,主要分為語言文字內容管理組織(國家語委)、出版管理組織(新聞出版署)、知識產權管理組織(國家版權局)等。
(3)出版社
辭書出版社有正規的建制,直接受新聞出版部門的行政管理。出版社的辭書工作主要是對辭書的市場調研、選題策劃、審稿、編輯加工、出版印刷、修訂、再版等工作的管理。出版社既要打造研究者、編者、管理者溝通的平臺,又要打造與辭書用戶溝通的平臺,是辭書隊伍各類成員溝通的組織焦點,因此其樞紐地位非常突出。
組織和團隊之間是緊密聯系的。例如:各大辭書出版社要體現自己的競爭優勢,體現差別化經營的理念,多擁有與本社辭書業務相關的、分類明晰的專家咨詢團隊,如商務印書館的語文辭書專家團隊、上海辭書出版社的辭書研究專家團隊和專科辭書專家團隊、外語教學與研究出版社的雙語辭書專家團隊等。這些組織中的專家團隊是直接針對本出版社辭書工作中的具體問題而組織類聚的,因此研究力、見解力、執行力、解決問題的能力都很強。如果國家層面的辭書規劃和辭書政策能將其整合,就可匯總為能切實為國家辭書產業出謀劃策的真正的權威咨詢團隊。
總之,在了解了辭書隊伍的二級結構的基礎上,以個體錨點的信息建構為基礎工作,利用計算機數據挖掘技術類聚不同的團隊和組織,將使我們對整個辭書隊伍現狀把握得更全面、更準確。
辭書學科的交叉性帶來辭書隊伍成員身份兼屬的復雜性,其中辭書隊伍與語言學研究隊伍的糾葛最深。辭書學是一門非常特殊的學科,傳統認為辭書學只是一門工藝,由于其收錄對象主要為詞語,解釋的也是詞義、用法,所以一直被系于語言學的詞匯學門下,古今兼收的詞典的編纂和研究有時也被系于訓詁學門下,例如,對《漢語大詞典》選詞、釋義的糾誤研究,既可以看作訓詁學、詞匯史的研究,也可看作辭書修訂的研究。當前隨著社會科學各子學科研究的細化和豐化,辭書學憑獨特的編纂理論獲得與詞匯學相駢驪的地位,辭書界一直呼吁將辭書學作為一門獨立的學科來研究,但詞匯學的各種研究還一直把辭書看作詞匯存儲、詞義描寫和詞匯應用的工具,屬于應用詞匯學的范疇。這導致目前語言學研究隊伍與辭書學隊伍的嚴重交叉和重合,隊伍庫中有95%左右的成員都具有語言學研究背景。
但這種交叉有其優勢所在。例如黎錦熙和呂叔湘等語言文字、語言理論、詞典學等方面的權威專家主編的《國語辭典》《現代漢語詞典》能分別成為代表民國和新中國詞典最高水平的辭書,主編、編者的學科身份交叉兼屬是重要的條件,這是辭書的語言文字內容本體決定的。因此,在辭書學后備人才的培養中,語言學課程應該占有相當的比重,單純從編輯、出版專業的角度培養人才是難見成效的。
另外,辭書隊伍中還存在著管理人員、研究人員與編纂人員,編纂人員與管理人員、出版人員等身份兼屬的情況,其個體屬性之間必然會發生復雜的非線性聯系,這給辭書隊伍庫的建設提出了難題,但這種復雜混沌的狀態卻最具研究價值,可探討左右辭書產業的隱含因素。例如,身份交叉必然會發生互動影響,以辭書研究隊伍為例:純理論派的研究,多體現的是與語言學的交叉性,對西方理論的借鑒、譯介特點,以及內省、構擬的編纂方法;有編纂經驗的人員的辭書研究,更多出于經驗,但可能存在不同程度輕視交叉理論的情況;出版人員對辭書的關注點更能體現市場性與可行性,體現與用戶需求的妥協與折中,能更好反映市場當前熱點或預見即將出現的熱點;辭書管理者的辭書研究更理性,著眼于辭書的各種研究如何與語言文字規范一致,與辭書規劃、辭書政策的制訂相一致。所以,當這些人員的身份出現兼屬時,意味著具有了復合型的全學科知識與經驗,其研究更具高度和前瞻性,提出的理論既具新穎性,又具現實性與可行性。未來漢語辭書的創新式發展需要越來越多的身份兼屬者來從事深度辭書研究。因此,辭書隊伍庫的建構要正視和重視這一難題,從技術上加以解決。
從隊伍庫建設的角度,要提高隊伍庫的價值,必須從辭書本體、語言學、出版學、文獻學、編輯學、教育學、圖書情報學、管理學等學科采集隊伍信息和研究成果,否則很難全面反映辭書學的研究全貌以及辭書隊伍的概況。當每個成員作為一個錨點入庫后,附著其上的將是全面的個人學術經歷、科研經歷、成果等二十多種屬性信息,而身份的兼屬又使這些信息呈現出復雜的非線性聯系。為充分利用這種復雜性的價值,我們采用語義網絡技術來主導隊伍庫的建設,動態展示這一人際非線性聯系,最大限度發現其中的規律性結論。
傳統的信息管理系統是基于二維數據表模式,用線性的、邏輯的方式將一條記錄的所有屬性信息錄入相應字段,形成的數據是規范數據,使用時利用關鍵詞檢索方式進行同字段的精確或模糊檢索,各字段之間的數據聯系只能通過布爾運算方式進行組合檢索,體現出最初級的相關性,也就是說這是一種有預設的檢索,需要數據庫使用者對整個數據庫的數據有一定程度的預先了解。這種技術無法滿足復雜的非線性數據挖掘。
第二代信息管理系統是基于語義網技術的。這是一種語義裂變網絡,最適合于非規范數據或半規范數據的檢索與挖掘。例如,互聯網上的信息有圖片、文本、音頻、視頻等不同類型,形態各異,即使同是文本數據,其在網頁上的存在方式也沒有統一的格式,無規律可言,要高效利用這樣的數據,唯一的辦法是在文本內容之間建立起網絡狀的語義聯系,由計算機自動發現它們之間的關聯,并將關聯結果推送到用戶桌面。
要確立這種主題之間的語義聯系,首先需要建立概念層面的知識本體(ontology)。知識本體的建構不但要類聚一個領域或多個領域的概念,還要對這些概念進行定域、定類、定層、定關系等處理,還要注意跨類、跨層的非線性聯系,體現出概念之間復雜的語義關系(王東海2007:197-216)。海外已有的知識本體中,WordNet建立了十六種語義關系(王東海,張志毅,王麗英2007),而俄羅斯詞匯函數理論中的詞匯本體中建立的關系達到七十多種(張家驊等2003)。利用概念之間的語義關系可計算文本內容或媒體標簽之間的語義相似度,從而將不同的非規范文本進行自動關聯,最后動態呈現關聯結果。
這種語義網技術不同于語料庫全文檢索技術,它可大大提高檢索與系聯的準確率和效率,避免傳統全文檢索過程中經常出現的海量冗余信息。另外與傳統二維數據庫技術相比,基于語義網的數據系聯與挖掘不需要用戶對數據庫內容有預先的了解,系聯是計算機通過語義推理而動態、自動生成的。
語義網挖掘技術目前在Google、百度等搜索引擎,在“新浪”新聞頻道的影視明星關系自動生成方面得到了較好的應用。與我們的隊伍庫開發思路相類似的工程是“人立方”網站[2]。人立方關系搜索是微軟亞洲研究院發布的一款新型社會化搜索引擎,它能夠從超過十億的中文網頁中自動抽取出人名、地名、機構名以及中文短語等,并根據搜索關鍵詞和與其相關的人名之間的關聯度強弱,自動地計算每一個人名與關鍵詞直接的距離、數據大小以及具體的擺放位置等等,并通過一條標明了人際關系的細線連接他們并使其發生社會化關系[3]。簡單說,就是在所有的海量網頁中找到相同的姓名,然后系聯文本上下文中同現的其他人的姓名,根據文本內容判斷人物之間的社會關系,動態生成一個人際關系網絡圖。這是一種裂變語義網絡,網絡圖上的任何一個節點都可以以自己為中心進行擴展。
但“人立方”等網站的應用因為是面向整個無定網絡,面對的是隨機變化的不可控的數據,所以挖掘難度大,準確度低,特別是存在的同名不同人問題難以解決。例如“人立方”網站會自動挖掘出一些“姚明的妹妹是李宇春”這樣荒謬的關系。
我們的隊伍庫采用的語義網信息挖掘技術,是要將內容的有定性和無定性相結合,這樣既能保證數據挖掘的智能性,又能保證挖掘結果的準確度。目前“百度百科”和“互動百科”的一些做法可以借鑒,這些網站設置了一些人物百科平臺,由網友大規模創建人物詞條,進而進行詳細的屬性信息標注,對同姓名的人,則厘清職業界限,這種大范圍發動網民建立人物庫的方式,是一種先進的互動思路,我們曾經討論過辭書編纂的網絡共享與互動模式(王東海2008),與此相類。借鑒此種互動百科的方式建設和擴充我們的隊伍庫基本信息,則可解決庫中同名人的系聯錯誤問題。
根據有定、無定數據相結合的思路,我們隊伍庫的建設建立了三級挖掘體系:
一級挖掘的對象是規則數據庫。在基礎數據的建構方面,雖然辭書隊伍人員經常調整,數據有更新,研究成果也有發展,但基本屬于規則的關系數據庫范疇。規則數據庫是有定的,是二級、三級挖掘的基礎和核心,后續的挖掘都要依靠它提供的基本信息來計算語義相似度,沒有這一數據庫,動態網絡無法生成。
二級挖掘對象是有定辭書成果文本庫,這是數據挖掘的重點。對辭書成果的數據挖掘可以系聯出目前主要研究方向、研究課題、研究優勢、研究空白甚至研究流派等數據束,進而在這些主題下類聚出不同的成員個體組合。這些挖掘操作中發現的新現象、新情況將極大提高我們對辭書隊伍情況的認識,為辭書政策和規劃提供活生生的數據。
三級挖掘是面向無定開放網絡的挖掘。隊伍庫支持面向無定網絡信息的系聯,主要目的是信息補遺和信息校驗。當有定規則數據和全文本辭書成果數據提供出初步結論后,通過預留的網絡挖掘接口進行校驗,同類型的網絡信息將為結論提供更多支持,而矛盾的信息將提供質疑點。通過這一挖掘模塊,可最大限度保證隊伍庫的擴展性能。
我們從語言學人名辭典、出版辭典、文獻學辭典、工具書辭典等類型的辭書中提取人名、辭書名、出版社等關鍵信息,又從辭書研究文獻中建構出有六千多條記錄的研究者數據庫,再加上網絡在線注冊的各類型的辭書成員,共同構成了辭書隊伍庫的基礎錨點集,然后擴展標注完整的基本信息集,構成隊伍庫的核心規范內容。規范信息的利用主要針對個體錨點,使用關鍵詞檢索技術進行定向類聚,可以檢索到個人記錄,也可以根據不同學歷、不同研究方向、不同期刊等屬性類聚成不同的成員小組合。
“知網”以及人大復印資料中心也曾開發過針對學科研究成果進行知識挖掘的系統,但因其要面對的學科太多,目前還缺少一套具有普適性的學科知識本體與推理機制,所以效能不明顯。辭書隊伍挖掘基于一個小型學科,具有一定的封閉性,知識本體的規模小,語義推理機制明確性高,挖掘結論的可靠性也相應較高。
要做好非規范信息的數據挖掘,應先依據三類基本文獻建立一個辭書學科本體(ontology):已出版的辭書學詞典(西方的《詞典學詞典》(Hartmann,James 1998)及相關語言學詞典;各種研究文獻的關鍵詞;國家標準——辭書編纂基本術語(GB/T 15238-2000)、辭書編纂常用漢語縮略語(GB/T 15933-2005)、辭書編纂符號(GB/T 11617-2000),這三類文獻中提取的術語或學科詞匯構成了辭書本體的核心詞匯集。
在核心詞匯集的基礎上,還要繼續補充完善辭書本體。我們對研究文獻及相關辭書報道進行分詞標注,提取文獻詞表,剔除行文表述詞匯后,再篩選出名詞表。這些名詞多能在一定程度上表示辭書概念,指稱辭書領域的事物。但這種依據分詞提詞的方式僅是搜集本體詞匯的參考,因為已有的分詞標注系統主要是依據自己所帶的適合全語域的停分詞表,并不完全適合某一學科,常出現把整體術語進行二次切分、消解術語的獨立性為普通詞的問題,從而出現遺漏。例如“整句釋義”是一個辭書釋義專業術語,但往往被切詞系統切成“整句”和“釋義”兩個詞,“整句”是沒有資格進入本體的,被強制過濾掉,但“整句釋義”也同時被遺漏了。這方面需要用語塊和新詞發現技術軟件擴展測查文獻中的常用搭配和字符串,配合手工干預,以補充完善辭書本體。
有了辭書本體詞表,第二步要對詞表中的詞語進行定域、定詞、定層、定關系的四定操作(王東海2007),進而形成主題分類知識樹的拓撲結構,這是生成語義推理機制的基礎工作之一。進行這一步辭書本體知識樹建構,我們利用支持中文編碼的本體制作軟件protégé,將辭書本體規范化、形式化,形成學科——子學科——方向——子方向——類問題——具體問題——研究對象——研究角度的金字塔層次圖,然后將不同的研究人員像葉子一樣掛在本體樹的“枝丫”上,再根據語義關系建立基本的推理機制。通過以上這些工作流程,就可完成最重要的辭書本體建設。
辭書本體和推理機制建設完成后,即可建立對辭書研究文本進行全面的封閉式數據挖掘的模型,然后由計算機根據不同屬性的語義相似度、語義推理機制串聯起人際網絡,并采用動態結構圖的方式進行展示。如果將研究文本的挖掘方式與規范數據的系聯方式結合起來,就會生成更具準確性與針對性的動態系聯網絡,從中可以看出以人員個體為出發點的辭書隊伍在辭書研究、編纂、管理、出版等方面的顯性和隱性聯系。這種網絡上的每一個人名節點都可以打開,從而進入到以其為中心的另一個局部網絡域,網絡中的每個節點的擴展不是點對點、點對面,而是裂變式的廣泛延展,隨著個體節點的增刪調整,整個網絡也在動態變化。理論上,這是一個沒有終點的網絡。
數據內容的全面性和適時更新性是衡量一個資源庫價值的重要標準。隊伍庫預留了面向無定網絡的挖掘接口。為提高挖掘數據的集中性,我們對因特網資源建有一個網站優先序列表,把個人簡介、人物百科等網頁列為最高優先級,對于分散的網頁信息則建立辭書工作者身份鑒別機制,排除同名的情況,然后進行有針對性的提取與采集。
我們把因特網上隨機采集的動態信息根據時間屬性類聚在每一個個體錨點之下,然后將其與庫中舊內容進行比對、審核,最后,新信息將入庫覆蓋替換舊有信息,保證庫中信息的適時更新性。
隊伍庫以人員管理為核心,人是社會性的,辭書工作離不開深度的交流,只有交流才能實現知識共享。隊伍庫除了資源管理及數據挖掘功能,還傾力打造一個開放的知識交流社區,提供了必要的溝通方式,在線人員可通過電郵、微博、BBS論壇、QQ、MSN等方式溝通。成員在這個知識社區中可以發表最新看法,討論相關具體問題,還可招募課題研究團隊等;出版社也可就辭書選題在社區中調研,招募辭書編纂團隊;管理者可就辭書規劃及辭書政策在社區內全面征求意見,或進行廣泛宣傳,最大限度獲得專家層面的支持。
隊伍庫提供的知識社區也是辭書隊伍個體成員自我宣傳和獲得機會的平臺與陣地。一方面個體在社區交流中,可隨時推介自己的研究成果,便于提升成果的認可度;另一方面個體有機會參與各種高層次交流,參與政府的辭書咨詢工作,還可與其他研究者展開廣泛的合作,方便地獲得科研與辭書編纂的機會。
知識社區的這些功能對隊伍庫的建設與完善也有幫助,這些輔助功能可極大吸引辭書工作者入庫積極注冊,提供信息,更新信息,減少隊伍庫的維護成本。隨著信息量的不斷增加,也會大大提高數據挖掘的價值,對國家辭書規劃與辭書政策提供的實態報告也將更真實、更完善、更深入。
附 注
[1]參見北大法寶—中國法律檢索系統,http:∥www.chinalawinfo.com/bdfb/Lib 02.asp,2011年2月27日查詢。
[2]參見人立方關系搜索,http:∥renlifang.msra.cn/,2011年2月27日查詢。
[3]參見互動百科“人立方”條,http:∥hudong.com/wiki/%E4%BA%BA%E7%AB%8B%E6%96%B9,2011年2月27日查詢。
1.李宇明.努力發展我國的辭書事業——在漢語辭書研究中心揭牌儀式上的講話.魯東大學學報,2008(2).
2.商務印書館.商務印書館百年大事記(1897-1997).北京:商務印書館,1997.
3.汪耀楠.我國辭書學隊伍的現狀與建設.辭書研究,1996(6).
4.王東海.古代法律詞匯語義系統研究.北京:中國社會科學出版社,2007:197-216.
5.王東海,王麗英.開放式辭書編纂與共享模式初探.語言文字應用,2008(4).
6.王東海,張志毅,王麗英.電子詞典編纂中的語義網與義鏈研究.長江學術,2007(4).
7.王鐵琨.規范化、現代化與辭書強國——中國辭書事業發展的思考.辭書研究,2007(1).
8.張家驊等.俄羅斯當代語義學.北京:商務印書館,2003:2-212.
9.張志毅.“辭書強國”究竟有多遠.人民日報,2010-10-12.
10.Hartmann R R K,James G.Dictionary of Lexicography.London:Taylor &Francis Limited,1998.