劉羽豐 王進福



摘要:詞典電子書的格式繁多,從pdf到mobi格式再到epub格式等,但它們都不利于單詞的查詢,而對于現有詞典軟件或應用,它們只能在線使用,創新型電子詞典的制作與應用便完美地解決了上述問題,既可以當作離線數據庫供使用者使用,又支持全索引查詢單詞,并且支持聯合查詢,使用起來簡單方便,并且可以隨時根據自己所需,制作相應全索引反查詞典等,從而達到全文搜索的目的,并且省時省力。
關鍵詞:電子書;詞典
中圖分類號:TP311文獻標識碼:A
文章編號:1009-3044(2020)19-0033-03
開放科學(資源服務)標識碼(OSID):
1 簡介
電子詞典是外語學習者必備的工具,而隨著數字媒體技術的發展,更多的外語習得者因為紙質詞典的厚重的體積以及不便于攜帶性,更偏向使用電子詞典而非紙質詞典,而現在市面上出現的電子詞典都各自有各自的缺點。電子詞典有許多種樣式,有的是詞典電子書,比如pdf,mobi或者epub格式,它們作為電子書,是用來為使用者翻閱瀏覽每一頁的,而要實現對于某個單詞的定位查詢這一點,卻是又費時又費力,因為它不像詞典軟件,有查詢單詞的輸入框,需要使用者像使用紙質詞典一樣一點點翻閱每一頁,然后才能找到想要查詢的單詞的頁碼,從而找到所查詢的單詞。而創新型電子詞典卻正好彌補了這一缺點,實現與電子詞典軟件一樣的輸入查詢模式,只要詞典收錄了該詞條,便可以通過輸入該單詞,查詢到相關的解釋。對于電子詞典軟件或者應用比如有道詞典或者金山詞霸等,它們雖然可以實現查詢欄輸入功能,但是必須在線使用,也就是不能離線狀態下查詢單詞,這就大大降低了使用者的使用范圍,并且里面的權威品牌詞典多數都需要收費才可以使用,多種限制條件也對于使用者不是很友好,并且不能實現聯合查詢,而這些缺點再創新型電子詞典上,都可以得到解決,也即是創新型電子詞典的優勢所在。對于在線詞典網站,道理也是一樣,只能在線使用,不能離線使用,而創新型電子詞典,可以作為外語習得者的離線數據庫,無論是后期美化還是提取相關文本,都是可以實現的,并且可以根據自己所需,進一步處理詞典文本,比如制作反查詞典或者提取詞組等以及拓展單詞曲折庫,達到全文檢索的目的,從而大大提升離線數據庫的檢索可查詢功能,省時省力。
2 創新型電子詞典的制作
創新型電子詞典包括兩種類型:圖片版電子詞典和文字版電子詞典。關于制作創新型電子詞典,無論哪種類型的創新型電子詞典的制作,都需要借助正則表達式,Excel函數以及py-thon來編輯制作。
2.1 圖片版創新型電子詞典的制作
圖片版創新型電子詞典與文字版創新型電子詞典相比,最大的優勢就是數據準確無誤,數據值得信賴。因為它是詞典編纂者的第一手資料,沒有經過后期的處理,所以不會有任何處理上的錯誤。以《牛津高階英語學習者詞典英漢雙解》第9版的圖片版詞典制作為例,首先需要買到紙質版詞典,然后拆書掃描或者上網找到該電子書的pdf格式,之后將pdf格式的該電子書拆分為單頁圖片格式,拆分之后就需要我們對所有頁碼上的所有單詞進行索引化處理。
2.1.1 索引化處理
索引化處理有幾種方式,比如制作pdf格式的圖解詞典,詞典最后的頁碼上有該書所有單詞和相關的頁碼,即可ocr獲取、校對,之后用正則表達式批處理到我們需要的格式即可,或者有些dk圖解的pdf電子書可以直接復制下來所有的索引,即復制下來所有的索引和頁碼之后用正則表達式處理為所需格式的文本即可(見圖1)。
如果pdf格式的電子詞典開頭或者最后沒有索引頁,這時就需要用python上網上抓取對應的全部索引,《牛津高階英語學習者詞典英漢雙解》第9版的pdf圖片版詞典就沒有相關索引頁,這時需要上到對應的在線詞典網站:OxfordAd-vancedLearner's Dictionary來寫python腳本根據網頁的動態變化找規律來抓取該詞典的所有的索引(見圖2)。
抓好之后下一步是將單詞的所有索引跟索引對應的頁碼聯系起來。
2.1.2單詞與頁碼對應的方式
單詞與頁碼對應的方式有很多,但是都需要提前將所有的詞典頁碼的右上角的尾詞(或者左上角的首詞)先切片,之后ocr得到文本。這一步的目的是通過詞典每一頁的最后一個詞(尾詞),來分割單詞的所有索引,之后需要做的是調用Excel的vlookup函數,從而達到每一個單詞都能對應到相應的頁碼的目的(見圖3)。
具體步驟是:首先將ocr校對后的全部尾詞復制到Excel的sheetl中,然后選中B,C,D三列,到名稱管理員取名叫index-2,之后切換到sheet2將所有的單詞索引復制到其中,再調用Excel的vlookup函數,模糊匹配,就得到了所有單詞以及對應的頁碼。用if函數進行校對,因為有些是一個單詞占一頁,所以需要if函數校對下。其他方法比如寫pyhon腳本通過尾詞分割所有單詞索引也是可行的,但是效果沒有vlookup好。
將所有單詞的索引與頁碼對應好之后,通過正則表達式即可轉換為相應格式:詞頭,即單詞索引,內容,即該單詞對應的頁碼圖片,以及分割符號,表示該詞頭和內容已經完整。后期的美化可以通過插入css樣式來更改,以及添加高亮索引定位,手機用戶端分欄顯示等。
制作高亮全索引定位的創新型圖片電子詞典同樣需要用到Excel的if和vlookup等函數,為此我用公式制作了Excel模板,可以直接下拉套用,見圖4。
套用好之后,通過正則表達式批量轉換成相應的創新型電子詞典格式。替換之后打包,即可得到離線圖片版詞典,這時需要考慮根據屏幕大小提供自適應分屏模式,即圖片詞典有的一頁有左右兩欄,有的一頁有左中右三欄,對于電腦端,可以直接顯示,對于手機端,最好分欄切屏顯示。
該分屏功能即可通過css來實現。點擊上方藍色單詞橫杠,即可跳轉到單詞在該頁碼的對應位置,從而實現瞄跳功能,方便使用。其實原理就是在text文本中加入id屬性,因為創新型電子詞典是支持htm15語言的。手機端的顯示見圖5:
點擊上方藍色的箭頭aback即可跳轉到下方aback詞條。
2.2 文字版創新型電子詞典的制作
文字版創新型電子詞典的制作的來源主要是文字版本的電子詞典格式比如mobi格式或者epub格式等,通過解壓得到txt文檔,之后cmd命令合并所有html文本到一個總文本,之后用正則表達式提取出詞頭和索引的內容,添加分隔符號并且添加css和js引用,打包即可制作得到創新型文字版電子詞典。并且之后寫正則表達式和pyhon腳本達到全文正查及反查,所以該創新型文字版電子詞典是一部真正意義上的全索引級別正查反查詞典。什么是全索引正查反查詞典?就是詞典內的任何內容全部可反查,不管是短語詞頭(完整短語提取)、中文解釋(中文反查)、英文解釋(通過英文解釋找英文對應詞頭,即英文反查)、英文例句(可用于檢驗自己在英文寫作里使用的單詞或短語用法是否地道)、中文例句整句以及中文例句中所有關鍵詞查詢(即從中文例句里反查對應關鍵詞一例句反查)。下圖是下圖是由mobi格式的Merriam-Webster' sThird New In-ternational Unabridged Dictionary電子書轉換制作為全索引文字版創新型電子詞典的手機端以及電腦端見圖6:
2.3 關于全索引正查反查系列詞典的優勢
第一,所有的反查內容帶全部context上下文,即無需對反查的內容跳轉回原詞典進行進一步的研究,所有的相關內容直接顯示(例句、例句對應的詞頭、例句前的中英文解釋)。第二,有音標的,反查也會帶音標;有發音的,反查也會帶發音(包括例句發音,也無需跳轉回原詞典查看);一句話,所有原詞典的內容都可以反查的同時,相關內容直接顯示到位,無需跳轉回原詞典,節約寶貴的英語學習時間;第三,如果實在想跳回原詞條,查看原詞條內容,可以跳轉回原詞條內容的準確位置(無需手動翻頁到反查內容處;當然前提是原詞典內容本身是帶錨點的)。第四,全索引例句反查系列詞典全部自帶了原詞典(正查),即原詞典中的英文詞頭可以在本系列詞典直接查詢,效果等同原詞典。
3 英漢類詞典的反查制作優勢遠超過現有所有品牌漢英詞典
何為英漢類反查詞典?英漢類反查詞典是基于英漢雙解詞典制作。通過輸入英漢雙解自帶的漢語解釋詞匯,快速查詢到權威詞典里地道英語怎么說的查詢方式,反查詞典類似于漢英詞典,但是地道性遠超過所有品牌的漢英類詞典。反查詞典相比漢英品牌詞典,地道性、全面性都遠遠超越傳統漢英詞典。它的優勢有以下幾點:
1)權威詞典反制而來,英文最地道,不會出現中式英文。
2)中文釋義整句保留,語境清晰可見。
3)按詞性分類,查找迅速。
4)全部按詞頻排序,明確告訴你該選用哪個詞(常規語境選靠上的,特殊語境找靠下的)。
5)提供同義詞群組查找(僅作參考)。
6)極速查詢,換行縮進統一規劃,讓您一目十行。
7)各元素全面提取,各種括號內的說明文字區分一目了然。
8)專業詞匯適用語境清晰標出.
9)支持點擊跳轉,如和原詞典在同一群組使用更加如虎添翼,輕輕點擊,即可深入原詞典學習。
10)數百行代碼打造,在你寫作、練習口語、翻譯等輸出的時刻給予強力支持。
11)提取自帶漢語詞匯相關聯的權威品牌詞典英文釋義與全部漢語釋義,更進一步加強對于該詞的英文用法的理解。
12)權威品牌詞典的例句在釋義之后,提供語境,便于學習者理解該詞如何使用。
創新型反查類英漢詞典的誕生,遠遠超越了所有的品牌漢英類詞典,并且通過檢索即可達到全文搜索,功效性、便利性、實用性和權威性都大大提升,并且通過了地道表達,不會出現中式英語,因為是基于英漢雙解品牌詞典反查制作而成。通過簡單的查詢幾個詞條,如:不擇手段,即可看出英漢類反查詞典的表達遠遠超過品牌類漢英詞典。不擇手段在新時代漢英詞典中的解釋如下:use unscrupulous divisive tactics,中式英文的翻譯痕跡十分明顯,再看根據上述方式制作的創新型英漢類反查詞典的解釋:來自韋氏高階英漢雙解的反查詞典給出的對應漢語翻譯為stop at nothing: used to say that someone will do any-thing to achieve a goal or purpose不擇手段;無所顧忌。緊跟著例句she will stop at nothing to get what she wants她為了得到自己想要的會不擇手段。反查詞典的翻譯沒有翻譯腔,并且匹配英文解釋和例句情景表達,為讀者提供語境式參考。相比之下創新型英漢類反查詞典的優勢清晰可見。
4 結論
本文對創新型電子詞典進行了研究探索,將傳統的詞典電子書制作成了可檢索的全索引電子詞典,并進一步加工,制作成類似全文索引式的詞典以及根據英漢品牌類詞典做了對應的反查詞典,并且對比并發現了反查詞典與現有的漢英類詞典的優勢所在。
參考文獻:
[1] Han,Yong.多詞庫聚合類詞典外殼App比較研究[J].辭書研究,2017(6).
[2] Lindemann, David.Bilingual Lexicography and Corpus Meth-ods.The Example of German-Basque as Language Pair[M].So-cial and BehavioraL Sciences,20 13.
[3] Lu。Guohua.網絡詞典詞庫配置的主體間性思考——以有道詞典為例[J]. China Academic Journal Electronic PublishingHouse.2014.
【通聯編輯:朱寶貴】
基金項目:全國大學生創新創業優秀項目成果
作者簡介:劉羽豐(1998-),本科在讀;王進福(1977-),男,講師,碩士,通訊作者,畢業于山東大學、挪威奧斯陸大學,青島大學外國語學院英語教育系副主任,全國大學生創新創業優秀項目指導教師。