朱婷婷,鄭德俊
(1.寧波職業技術學院圖書館;2.南京農業大學信息管理系)
移動圖書館研究如火如荼,已有研究主要關注服務模式、平臺建設推廣、用戶體驗、用戶需求等方面,尤其重視對用戶的研究,近年來,移動圖書館用戶評論挖掘也成為研究熱點。[1]對于移動圖書館用戶評論挖掘,評論數據的預處理工作尤為重要,預處理將影響到后續的評論數據處理效果,其中,中文分詞是最關鍵的一步。分詞詞典是機械分詞的基礎,通用的分詞詞典主要收集的是日常用語及中華大辭海的詞匯。但是通用詞典不能滿足特定領域語料的分詞要求,且通用詞典中生僻字數量龐大,影響了分詞的準確性、合理性和時間性能。
對移動圖書館用戶評論進行預處理需要用到分詞詞典,但目前國內還沒有一部完善的大規模移動圖書館詞典。移動圖書館詞典是進行移動圖書館用戶評論預處理的前提,如何多渠道獲取移動圖書館相關詞條,構建移動圖書館詞典,并將其應用到分詞中來,已成為移動圖書館研究亟需解決的問題。
目前,有三種構造分詞詞典的方法:① 人工輸入詞條信息為主、機器操作為輔的方式;② 從印刷版的詞典里獲取詞條并手動錄入的方式;③ 對大規模文本采用簡單的語言模型和概率統計,并分析有關詞匯信息的方式。前兩種方法主要是從印刷版文本中獲取信息,利用人工參與的方式去描述詞條信息,已有的很多語言信息庫、語義詞庫和詞典都是利用前兩種方法實現的。但前兩種方法存在明顯缺點:費時、費力、成本高,相較而言,第三種方法更為實用。[2]
在為構建詞典收集詞條時,可以采用基于現有詞庫資源的方法、基于語料庫的方法、兩者結合的方法。[3]①基于現有詞庫資源的方法主要利用現有詞庫資源(如,英文的WordNet、GI,中文的HowNet、同義詞詞林)來進行詞條擴展。Hu 和Liu 選取了一些褒義和貶義的形容詞作為種子集,利用WordNet 的同義詞和反義詞聯系對種子集進行擴展,建立情感詞典;[4]路斌等利用同義詞詞林中的同義詞詞群,根據褒貶義種子詞進行擴展,建立情感詞典;[5]張啟宇等利用網絡詞庫設置了農業詞匯的詞性編碼,以 MySQL 數據庫為例設計了農業領域專用的分詞詞典。[6]②基于語料庫的方法是指通過對相關語料庫進行抽詞獲得詞條信息,從而構建詞典。Huang 等使用句法分析和主觀線索字典抽取情感詞,根據PMI 建立情感詞之間的聯系圖,并以語言學規則以及語料中的并列、轉折關系作為限制條件;[7]孫霞等對領域生語料進行分詞處理,提出了基于切分單元的最大匹配算法得到候選詞串集,并最終生成領域詞典。[8]
經過文獻調研,筆者發現,面向移動圖書館領域的詞典研究幾乎空白。移動圖書館服務既包含傳統圖書館服務的數字化、信息化,又包含信息化、電子化時代用戶新需求所帶來的新型的圖書館服務,不斷更新、不斷拓展是移動圖書館服務的一大特點。移動圖書館用戶在評論語言的表達上具有一定的隨意性,口語化程度高,單一的收集詞條的方法難以保證收詞的全面性與可靠性。因此,本文提出一種移動圖書館詞典構建的收詞方法,并構建了一部移動圖書館詞典,為后續移動圖書館用戶評論的分詞研究提供便利。
本研究以機器操作為主、人工判別為輔的方式構建移動圖書館詞典,旨在為移動圖書館用戶評論分析提供依據和基礎。移動圖書館詞典構建的詞條收集框架見圖1:①對移動圖書館用戶評論進行切分、詞頻統計,構造基礎詞典;②應用CiteSpace 分析中國知網期刊數據庫中與“移動圖書館”相關的文章的摘要與關鍵詞,并將其添加到基礎詞典中;③ 借鑒圖情領域相關詞典擴展詞條;④ 考慮到用戶評論語言口語化特點,融合輸入法詞庫;⑤基于《同義詞詞林》進行同義詞擴展,保證移動圖書館詞典全面而實用。

圖1 詞條收集框架圖
筆者將結巴分詞包導入Python 2.7 平臺,并對移動圖書館用戶評論進行分詞及詞頻統計。詞頻分析法利用關鍵詞或主題詞在領域文獻中出現的頻次來確定該領域的研究熱點和發展動向,其依據的基本理論為齊普夫定律(Zip’s law)。[9]依據關鍵詞頻次的高低排序,筆者去除專指度低、無法反映出具體研究內容的詞(如價值、越來越好等),最終得到符合集中分散“二八定律”的1,431 個關鍵詞,其中頻次top30 的關鍵詞樣例見表1。

表1 詞頻統計結果樣例
本文選擇中國知網的中國學術期刊網絡出版總庫為數據源,檢索時間截至2018 年12 月31 日。為了保證檢索質量,筆者對檢索工作做了要求:① 以“移動圖書館”為中心詞,檢索篇名包括“移動圖書館”“數字圖書館”“移動信息服務”“手機圖書館”“掌上圖書館”的文獻;②選擇核心期刊和CSSCI 來源刊里的文獻作研究,其余的不作考慮;③ 將會議通知、簡訊、稿約、征文通知、編者序等不相關的文獻排除在外。筆者在Note-Express 里建立了題錄,題錄包括年份、標題、作者、刊名、關鍵詞、摘要等字段,題錄里共收錄了4,987 篇相關文獻。
以CiteSpace Ⅱ為分析工具,將文獻數據導入CiteSpaceII 中進行分析,設置相關參數:時間為1998-2018 年;主題詞來源選擇為標題(Title)、摘要(Abstract) 和關鍵詞(Author Keywords),最終得到13,409 個主題詞,其中top20 見表2。

表2 詞頻統計樣例表(部分)
國家圖書館的圖書情報紙本詞典收藏全面,可通過各館館藏目錄或聯合目錄進行檢索。20 世紀90 年代以來,隨著網絡和信息技術的發展,基于互聯網開發的數字化參考源及其檢索系統有了迅速發展,圖書情報詞典也如其他參考工具書一樣有了新的發展平臺,出現了網絡版,如《圖書情報詞典》(1990 年)、《英漢-漢英文獻信息詞典》(1996 年)、《英漢圖書館學情報學詞匯》(2006 年)等。[10]本文借鑒已有的圖書情報相關詞典和圖書館詞典,在人工大致判別后將其加入基礎詞庫,共收集到18,416 個關鍵詞。
移動圖書館的用戶評論屬于在線評論,用戶輸入多采用拼音輸入法。考慮到詞條收集的完整性與全面性,筆者借助網絡上的詞庫進行詞條擴展。輸入法提供的詞庫都有其固定格式,筆者下載搜狗拼音輸入法、百度輸入法、紫光輸入法等相關詞庫,并利用深藍詞庫轉換工具將其轉換成無拼音格式的txt 文件。通過借鑒各輸入法的相關詞庫,整理合并得到7,152個關鍵詞,將其加入基礎詞庫。
漢語言博大精深,一詞多義、一義多詞,把名稱不同但表達意思相同的詞條叫做同義詞。哈爾濱工業大學信息檢索研究中心同義詞詞林擴展版[HIT-CIR Tongyici Cilin(Extended)] 是一部比較完善的同義詞的參考詞典,共收錄了77,343 條詞語,不僅包括同義詞,還包括同類詞,即廣義的相關詞。《同義詞詞林》為了明顯區分每個詞的分類,在每行詞的前邊用編碼標記(見圖3)。編碼的第八位有3 種不同的表示符號,分別是:“=”“#”“@”,其中,“=”代表相等且同義,“#”代表不等但同類,“@”代表自我獨立、封閉(該類詞在詞典中既沒有同義詞也沒有相關詞)。

圖3 《同義詞詞林》樣例
本文中用到的只有同義詞,因此要先對《同義詞詞林》進行篩選整理。從《同義詞詞林》的編碼規則可以判斷出,只有末尾是“=”組詞是同義詞。
Step1:把整個《同義詞詞林》讀入list,循環對每個編碼的第八位進行識別,選出第八位為“=”的編碼組放在list_U 中,即list_U 中存放的就是同義詞;
Step2:按空格對list_U 中每個元素進行分詞,存入s_Word[]中,再比對s_Word[]中的詞匯與詞典中已有的詞匯;
Step3:把 Step2 中找到的情感詞與詞典進行比對,除了詞典中已經有的詞之外的所有的詞按照:“詞” “屬性” “值”的形式寫入到詞典中。
通過以上流程,筆者篩選出《同義詞詞林(擴展版)》中符合條件的擴展詞匯17,632 個。
最終,在對基礎詞典中的關鍵詞進行去重處理后,共得到51,930 個關鍵詞。至此,已完成了移動圖書館詞典的構建工作。
目前,國內移動圖書館主要有兩種形式,一是購買商業公司的移動圖書館App 服務,二是自建移動圖書館服務平臺。受限于圖書館自有的技術團隊和后期維護水平,國內絕大多數圖書館的移動圖書館服務以購買為主,因此,用戶評論數據也在商業公司服務器上,一般很難被公開查詢。2017 年以來,在國內某著名商業公司移動圖書館服務平臺的支持下,本研究獲取了26,976 條數據,筆者隨機抽取1,850 條有效評論作為實驗數據進行分詞,分詞結果的部分樣例見表3。

表3 分詞結果樣例(部分)
評判分詞效果的指標主要包括分詞的正確率和分詞速度。[11,12]移動圖書館詞典和結巴自帶詞典的分詞效果對比見表4。本文以P 為分詞正確率,N 為參與實驗的用戶評論數,n 為分詞錯誤的評論數,定義P=(N-n)/N;人工判別分詞結果,發現有17 條用戶評論分詞錯誤,分詞準確率為P=94.08%。在時間性能上,使用結巴自帶詞典耗時6 秒01,使用自定義專屬詞典耗時1 秒77,顯然使用自定義專屬詞典更高效。

表4 分詞效果對比
在分詞合理性上,使用自定義專屬詞典明顯優于結巴自帶詞典。由表5 可以看出,結巴自帶詞典分詞對于很多雙字詞識別不了,如“連接”“平臺”“及時”“字體”“改進”等,所以只能拆分成單字詞,而使用自定義專屬詞典則可大大減少此類分詞錯誤。

表5 分詞合理性對比(部分)
自定義詞典并不能實現100%的正確率。人工判別分詞結果時,發現有一些詞結巴自帶詞典和自定義詞典均不能識別,一共有17 條用戶評論出現錯誤(見表6),如“學號”“予人方便”“觸控系統”“越辦越好”“音量鍵”等。可見,自定義詞典還有很大的改進完善空間。

表6 分詞錯誤樣例(部分)
綜上,將自定義的移動圖書館詞典運用到移動圖書館用戶評論分詞中,其準確率、合理性和時間性能得到了明顯提升,可見本文一系列收集詞條的方法構建出的移動圖書館詞典具有較高的可靠性與有效性。