林雅雯 潘思行 韋柳 陳歡
摘 ?要:中國語言資源保護工程接下來要進行的重要工作就是將調查成果結集出版。1500多個語言點材料的處理,如果僅僅依靠人工去操作,無疑是一項龐大的工程。同時,每年有不少語言學專著和論文也可能涉及到字音和詞匯對照表的排版編輯。基于此,采用計算機相關技術設計自動排版系統,將最大限度地提高工作效率。
關鍵詞:C++技術;中國語言資源集;自動排版系統
教育部、國家語委自2015年啟動中國語言資源保護工程以來,到現在已經進入到第二期。這些年來,工程進展順利,取得了一系列的重大成果,社會反響良好。按照預定的計劃,,接下來面臨的是各個材料的結集出版等問題。不管今后的語言材料最終如何出版,其中,字音對照表、詞匯對照表和語法例句對照表是成果中必不可少的內容。而這部分工作是最耗費時間和精力的工作。
語保工程在頂層設計中就充分考慮了成果的內容和形式,因此在調查者提交結項材料的格式中已經做了嚴格的規定,1500多個語言點的材料格式完全一致,這也就為我們利用計算機技術來處理相關數據提供了便利條件。
由于漢語方言1的調查主要是分為單字、詞匯、語法和長篇語料等幾個部分來進行的,因此在結集出版的時候,會分為語音卷、詞匯卷、語法卷分別出版,因此對于這些材料的處理,我們也是分不同的模塊2來進行。本系統中的單字、詞匯、和語法三個模塊分別對應出版成果中的字音對照表、詞匯對照表和語法例句對照表。本文以漢語方言中的單字材料處理為例,簡單的介紹我們所開發的這一自動排版系統。本文所涉及的材料樣本為廣西漢語方言調查點材料的原始調查數據,一共六十個方言點。
1、自動規范方言點文件名
根據語保工程的相關要求,我們需要將幾十或上百個EXCEL材料進行統一匯編。那么,計算機要處理的第一步是:自動規范文件名。文件名的格式可以根據用戶需求自定義。比如,可以按照縣級行政區劃的名稱命名,也可以按照語言系屬_縣級行政區劃來命名,還可以按照省_市/州_縣/縣級市_鄉/鎮_村等多種方式來設定,具體的命名方式由用戶自己確定,因此系統中設定的是“用戶自定義”方式。
2、數據材料的預處理
按照語保工程的統一要求,通過計算機自動遍歷所有的語言數據材料,對音標數據進行規范,完成數據材料的預處理。需要讓計算機自動分析判斷以下兩個方面的問題:
第一個方面,是對材料數據的規整和規范處理。這其中包括五項內容:第一音標一律用IPAPanNew字體;第二就是調值一律采用宋體上標;第三是送氣符號一律采用[?],不用[h]第四,零聲母符號不標;第五同音符號“=”一律采用上標。第二個方面,是對所有語言材料中一字多讀的數據進行統計分析,以便于后面對單頁能夠排版的方言點數量進行預處理。
3、多列數據的合并處理
語保項目要求提交的數據是一個聲韻調分開的三列數據,但是最終出版物則要求將D、E、F三列中的數據合并在一起,寫入到新的word文檔對應的表格里。同時,如果在H、I、J列中有數據的話,需要將這三列也合并,再換行寫入到上文提及的D、E、F列數據合并寫入后的單元格中去。這就要求在這一步驟中需要做兩個方面的處理,一是三列合并,二是需要判斷在H、I、J三列和L、M、N三列中是否有數據,如果有,那么需要合并后再換行寫入。
4、跨表格的數據讀取和寫入處理
跨表格的數據寫入處理是本程序的最核心部分。首先是確定表頭,前文已經提到,從第二行開始,第一列中的數據內容為文件名(即方言點名稱)。第一行中的每列數據內容則是調查條目及其所對應的中古音韻地位,即在同一單元格中分兩行實現,第一行為序號和單字,第二行為單字所對應的中古音韻地位。在確定好表格的表頭之后,接下來最重要的任務就是將前面處理好的數據寫入到新文件中對應的表格。
打開系統進入單字處理模塊后,我們可以根據操作界面來選擇相應的出版頁面大小,如下圖四,版面大小可以由用戶自己定義,或者按出版社指定的版面大小。這將涉及到單頁能夠排下的數據量,且本系統在設計時已經考慮數據溢出報錯的相關問題。
再選擇單頁表格中的列數,即單頁表格中寫入的單字數,每頁表格數和對齊模式按照默認方式即可。然后選定語料在計算機中存儲的文件夾即可。
最后選擇寫入的WORD文件保存的位置,然后點擊生成。當出現了圖六對話框后,說明已經全部讀取和寫入數據,也就是說語料數據自動合并寫入到規定表格的工作已經完成。
除此之外,還有版面設計的相關問題,比如資源集出版的時候如果是按照行政區劃來發行,可能會出現單本書涉及60個以上語言點的情況。這個時候可以考慮采用單個蝴蝶頁或是多個蝴蝶頁來排版,這也可以讓系統通過對材料的遍歷進行自動設置。
6、結語
總之,如果充分利用計算機技術對語言材料數據進行處理,能夠極大地減輕人工手動工作量,同時避免大量的手工操作失誤。我們運用本系統來處理120個語言點字音對照表的匯編工作,所耗費的時間不會超過5秒。應用在語言保護工程的工具軟件已經十分豐富,我們從語言資源數據的采集、校驗再到最終材料的處理,都充分利用了計算機這一工具。也只有如此,才能使我們的語言保護工程進展順利。
參考文獻:
1、Bruce Eckel,thinking in java ,機械工業出版社,2007.4
2、伍高遠,Excel VBA編程實戰寶典,清華大學出版社,2014.8
3、教語信司函,教育部語信司 關于啟動中國語言資源集(分省)編寫出版試點工作的通知,2018,27號
作者簡介:林雅雯(2000.10-),女,漢族,廣西合浦人,本科生在讀,主要從事東亞語言研究;
潘思行(2000.04-)男,漢族,廣西扶綏人,本科生在讀,主要從事漢語方言研究;
(基金項目:廣西職業師范學院2021年大學生創新創業訓練計劃國家級立項項目:南寧白話語言文化材料調查與整理,編號:202114684007)
(基金項目:廣西職業師范學院2021年大學生創新創業訓練計劃國家級立項項目:基于數據庫的東亞語言音系整理研究,編號:202114684002;)