賈曉晶
(北京四維圖新科技股份有限公司, 北京 100094)
隨著導航電子地圖的普及和國際化的推進,越來越多的外國人也逐步使用導航電子地圖出行,因此車廠客戶開始重點關注英文版導航電子地圖產品,隨著對英文版地圖關注度的提高,結伴而來的是數據問題不斷被發現。全面分析后,發現英文版數據問題主要由以下幾方面原因導致:①標準不完善,沒有統一的制作參考規范;②工藝煩冗,生產交互復雜,導致作業反復;③翻譯程序邏輯不合理,造成預翻譯結果錯誤;④關鍵詞庫分16張表存放,并且在庫外存儲,沒有系統維護機制,導致詞庫不能隨平臺元數據庫的更新節奏進行維護;⑤生產人員經驗不足,作業不熟練,造成品質不理想。
英文版導航電子地圖是為了實現跨語言應用。如何制作高質量的英文版電子地圖,已成為迫切需要攻關的技術難題。因此,本文設計了一套英文版地圖系統性的改進方法,重新梳理英文地圖制作標準及工藝、優化翻譯程序、提升作業水平,系統地改善了英文數據品質。
導航電子地圖數據庫由點要素、道路、背景3個主題構成,凡是有名稱的要素均配置了英文名。點要素包括興趣點(point of interest,POI)、點門牌、顯示文字、地名;道路包括復雜道路要素對象(composite road feature object,CRFO)、路口、收費站等;背景包括行政區劃、土地覆蓋、經濟開發區、感興趣區域(area of interest,AOI)等。需要詳細制作英文名的要素見圖1。
圖1 導航地圖英文要素示意圖
英文版導航電子地圖按照數據存儲和翻譯特點,可分為4類。
常規英文名包括:POI名稱、顯示文字、地名、路口、收費站、分歧、CRFO、出口編號、土地覆蓋、土地利用、經濟開發區、AOI、建筑物、鐵路。此類數據區分專名和通名[1],遵循從左往右,“專名分詞(英文/拼音)+通名分詞(英文)”[2]的基本翻譯原則。翻譯示例見表1。
表1 常規英文名翻譯示例
POI中文地址參考導航電子地圖框架[3]以及數據制作標準順序拆分為14個字段存儲:鄉鎮街道辦、地名小區名、街巷名、前綴、門牌、類型、子號、后綴、附屬設施名、樓棟號、樓門號、樓層、房間號、附加信息。
POI英文地址則參考中文地址的拆分結果從小到大進行倒序翻譯:附加信息+房間號+樓層+樓門號+樓棟號+附屬設施名+后綴+[門牌+類型+子號]+前綴+街巷名+地名小區名+鄉鎮街道辦。其中,“門牌+類型+子號”作為整體。
點門牌與POI地址不同,POI地址是POI的一個屬性,主要用于POI檢索。點門牌是獨立的要素,形式與POI地址類似,但是在導航電子地圖中應用不同,主要結合道路進行路徑導航。點門牌的中文名稱按導航圖制作標準拆分為11個字段存儲:鄉鎮街道辦、地名小區名、街巷名、前綴、門牌、類型、子號、后綴、附屬設施名、樓棟號、樓門號。
英文按照編譯要求將11個中文字段組合成5個字段翻譯。“鄉鎮街道辦+地名小區名+街巷名”組合一起翻譯;“前綴+門牌+類型+子號+后綴”組合一起翻譯,附屬設施單獨翻譯,樓棟號單獨翻譯,樓門號單獨翻譯。
道路名稱的中文按編譯需求分5個字段存儲:前綴、基本名、中綴、類型、后綴。道路名英文則按相應字段進行翻譯。如表2所示。
表2 道路名英文名翻譯示例
英文版導航電子地圖數據非實采作業,而是依據現場中文進行室內人工翻譯,需要完善的翻譯規范和成熟的生產工藝才能準確表達現場情況,進而向外國導航電子地圖使用者提供準確的地理信息。針對引言提到的英文版導航電子地圖生產中的問題,通過全面的分析,從標準、工藝、程序、詞庫、人員進行系統性的改進。
以現有生產標準為基礎,結合英文版導航電子地圖制作要素,參考漢語拼音正詞法基本規則[4]、行政區劃代碼[5]、地名庫[6],補充缺失要素的翻譯規范,增加了12個要素的制作標準。
英文版導航電子地圖是全要素地圖,各要素之間的翻譯要保持內容及邏輯統一,本次標準改善中尤其強調這一點。
(1)行政區劃要素是導航電子地圖的基本骨架,由國家權威機構發布,所以各要素名稱中出現行政區劃的內容均應翻譯一致。例如,哈爾濱,行政區劃代碼[5]中翻譯為Harbin,當POI名稱、POI地址等其他要素出現該詞且表示行政區劃含義時都應做Harbin翻譯。
(2)數字“一二三”以及“1,2,3”的翻譯,程思聰[7],童杉姍[8]在雙語地圖注記中建議放在名稱之后翻譯或拼音翻譯。導航電子地圖不同于紙質地圖,導航電子地圖除查看外,更重要的作用在于檢索和導航。而數字的拼音翻譯不便于手機端或PC端的輸入。此次標準改善中明確了這點,如“北京三零六醫院”翻譯為Beijing 306 Hospital。
(3)參考道路現場掛牌,統一了道路類型名的翻譯規范,凡涉及的道路類型內容有簡寫詞,均翻譯為簡寫內容,且不帶點(.),若無簡寫詞,則原樣翻譯。例如,“路”翻譯為Rd,“巷”翻譯為Ln,“胡同”翻譯為“HuTong”。POI名稱、POI地址、顯示文字或其他道路要素中如果有道路名,統一遵循上述翻譯原則。
(4)POI地址、點門牌有共性的內容,在英文翻譯時也應保持相同的翻譯邏輯。中文的“門牌”“類型”“子號”,這3個字段作為整體進行翻譯,而不能機械倒序翻譯。例如,“北清路3號1號”,門牌號:3,類型:號,子號:1號,翻譯為No.3-1。這樣可以從翻譯結果清晰地區分主門牌和子號。
點要素數據的英文制作工藝相對簡單順暢,外業現場采集數據之后返回內業,內業進行中文名稱制作和檢查,然后數據流轉到英文作業環節,作業完成之后數據流入質檢環節,對數據品質進行檢驗。
道路和背景的英文制作工藝比較煩瑣,交互復雜。本文分析了13個道路背景要素,對其中8項提出工藝優化。
2.2.1減少作業交互
通過明確數據制作原則,取消技術參與,減少作業交互,提高作業效率。涉及要素有CRFO、收費站、路口,如圖2所示。
(a)改善前 (b)改善后
2.2.2采用程序翻譯
改善前,英文翻譯采用線下人工庫外執行;改善后,采用平臺程序進行英文翻譯,減少人工作業,涉及要素:鐵路。如圖3所示。
(a)改善前 (b)改善后
2.2.3取消元數據庫記錄
改善前,英文的成果數據同步記錄在元數據庫,重復作業;改善后,利用翻譯原則對數據進行檢查,不需要重復記錄數據,涉及的要素:AOI、經濟開發區、土地利用,如圖4所示。
(a)改善前 (b)改善后
2.2.4實現程序自動化
改善前,人工庫外差分,差分效率低,且工作量大;改善后,采用平臺自動差分,減少了庫外人工操作,涉及的要素:分歧。如圖5所示。
(a)改善前 (b)改善后
改善前,英文翻譯程序調用的關鍵詞庫以大分類存儲在16張配置表,總詞庫7.3萬,詞庫重復度高,一個詞在多個表中反復出現;詞庫設計不合理,例如,1號、2號這類不勝枚舉的數列詞,影響數據分詞[9]結果。另外,關鍵詞庫沒有集成在元數據庫管理系統,不便于管理和維護。
改善后,將關鍵詞庫整合為1張表,見圖6,并對關鍵詞條做去重處理,同時刪除不合理的關鍵詞。另外,參考拼音詞庫、道路名庫、品牌詞庫,以及從POI名稱中提取的高頻詞[10],擴充關鍵詞量,使關鍵詞條達到43萬。最后將關鍵詞庫集成到元數據庫管理系統,按照元數據庫定義規范設計配置表結構,見表3。納入元數據庫管理系統后可隨著元數據庫的更新頻次進行管理和維護。詞庫中增加了“分類”列,可參考分類對數據在不同場景進行不同翻譯。
(a)改善前 (b)改善后
表3中,“中文關鍵詞”用來分詞;“英文翻譯”是中文對應的結果;“優先級”表明,同一個名稱含有多個關鍵詞時,取詞的先后順序;“分類”說明只有在該分類時,名稱才會被該關鍵詞劃分;“關鍵詞來源”和“備注”記錄補充說明性信息。
表3 SC_POINT_CHI2ENG_KEYWORD結構
改善前,英文的翻譯只是按詞庫采用正向最大匹配[11]機械分詞,并沒有加入相應原則的處理,翻譯結果的優劣只能依賴關鍵詞庫。
改善后,不僅補充合理的翻譯詞庫,而且引入特定的場景判斷,可根據不同的場景設定不同的翻譯邏輯。通過讀取關鍵詞庫,對名稱進行分詞,程序優先從關鍵詞庫中采用正向最大匹配算法,對于劃分后的詞,若詞庫有對應英文翻譯,則按照詞庫內容翻譯。沒有對應英文翻譯,則判讀是否符合設定的翻譯邏輯場景,例如,第XX號、第XX小等這種情況,若符合則按照特定邏輯翻譯,“第XX號”翻譯為“No.XX”,“第XX小”翻譯為“No.XX primary school”。如果不符合設定的翻譯邏輯,則參考中文拼音進行直譯,若直譯的詞為3個及3個以下,則拼音連寫且首字母大寫;若直譯的詞在4個及4個以上,則每個詞分開寫,并且首字母大寫。
抽取2745條數據新舊設計程序翻譯結果,進行人工對比分析,程序翻譯品質提升了49%,翻譯結果對比示例見表4。
表4 程序預翻譯結果對比示例
英文版導航電子地圖要向外國使用者提供準確信息,英文的翻譯不僅要真實科學,能準確反映實際地理信息,還要確保漢語的文化意義,合理恰當的翻譯決定了英文版導航電子地圖的適用性以及市場競爭力。
英文版數據最后的關卡還是人工確認,作業員的水平對數據品質有很大的影響,因此在制作英文版導航電子地圖的過程中要加強作業員的翻譯和理解能力,為了提升作業能力,開展了以下改進工作。
2.5.1建立作業機制
(1)作業前:培訓與考核,并對薄弱點重點加強培訓。
(2)作業中:加強反饋與監控力度,結合作業情況,進行再考核。
(3)作業后:總結問題,構建案例集。
2.5.2營造英文學習氛圍
創建微信公眾號知識分享活動,定期上傳每周的問題分析與培訓,讓大家利用碎片化時間學習英文。
從2017春版本開始監測,連續5個版本作業員水平一直在提高,到2018春版時品質率達到94.47%,如圖7所示。
圖7 英文數據翻譯品質監測圖
通過對英文版地圖的標準改善補充,最終形成了一套完整的生產作業指導規范;通過優化8個道路背景要素的制作工藝,釋放了生產作業中的技術資源;對關鍵詞詞庫的補充完善,提高了程序名稱分詞的準確性;對英文翻譯程序的改善,使英文預翻譯品質提升了49%;通過構建的作業機制和碎片化的學習,提升了作業員的作業水平。目前的英文改進方法成果被新平臺繼承,并指導新平臺英文版地圖數據常規生產。
英文名的改善不是一蹴而就的事情,而是持續性的工作,關鍵詞庫也需要持續擴充詞庫源才能源源不斷地匹配到新增數據中。正文中提到的英文翻譯程序設定的特殊場景也需隨數據的變化以及語意場景的變化迭代維護,只有這樣,英文名的數據品質才能趨于更好。