999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

中國語言資源集自動排版系統的設計與實現

2022-05-31 16:54:53林雅雯潘思行韋柳陳歡
科學與財富 2022年1期
關鍵詞:技術

林雅雯 潘思行 韋柳 陳歡

摘 ?要:中國語言資源保護工程接下來要進行的重要工作就是將調查成果結集出版。1500多個語言點材料的處理,如果僅僅依靠人工去操作,無疑是一項龐大的工程。同時,每年有不少語言學專著和論文也可能涉及到字音和詞匯對照表的排版編輯。基于此,采用計算機相關技術設計自動排版系統,將最大限度地提高工作效率。

關鍵詞:C++技術;中國語言資源集;自動排版系統

教育部、國家語委自2015年啟動中國語言資源保護工程以來,到現在已經進入到第二期。這些年來,工程進展順利,取得了一系列的重大成果,社會反響良好。按照預定的計劃,,接下來面臨的是各個材料的結集出版等問題。不管今后的語言材料最終如何出版,其中,字音對照表、詞匯對照表和語法例句對照表是成果中必不可少的內容。而這部分工作是最耗費時間和精力的工作。

語保工程在頂層設計中就充分考慮了成果的內容和形式,因此在調查者提交結項材料的格式中已經做了嚴格的規定,1500多個語言點的材料格式完全一致,這也就為我們利用計算機技術來處理相關數據提供了便利條件。

由于漢語方言1的調查主要是分為單字、詞匯、語法和長篇語料等幾個部分來進行的,因此在結集出版的時候,會分為語音卷、詞匯卷、語法卷分別出版,因此對于這些材料的處理,我們也是分不同的模塊2來進行。本系統中的單字、詞匯、和語法三個模塊分別對應出版成果中的字音對照表、詞匯對照表和語法例句對照表。本文以漢語方言中的單字材料處理為例,簡單的介紹我們所開發的這一自動排版系統。本文所涉及的材料樣本為廣西漢語方言調查點材料的原始調查數據,一共六十個方言點。

1、自動規范方言點文件名

根據語保工程的相關要求,我們需要將幾十或上百個EXCEL材料進行統一匯編。那么,計算機要處理的第一步是:自動規范文件名。文件名的格式可以根據用戶需求自定義。比如,可以按照縣級行政區劃的名稱命名,也可以按照語言系屬_縣級行政區劃來命名,還可以按照省_市/州_縣/縣級市_鄉/鎮_村等多種方式來設定,具體的命名方式由用戶自己確定,因此系統中設定的是“用戶自定義”方式。

2、數據材料的預處理

按照語保工程的統一要求,通過計算機自動遍歷所有的語言數據材料,對音標數據進行規范,完成數據材料的預處理。需要讓計算機自動分析判斷以下兩個方面的問題:

第一個方面,是對材料數據的規整和規范處理。這其中包括五項內容:第一音標一律用IPAPanNew字體;第二就是調值一律采用宋體上標;第三是送氣符號一律采用[?],不用[h]第四,零聲母符號不標;第五同音符號“=”一律采用上標。第二個方面,是對所有語言材料中一字多讀的數據進行統計分析,以便于后面對單頁能夠排版的方言點數量進行預處理。

3、多列數據的合并處理

語保項目要求提交的數據是一個聲韻調分開的三列數據,但是最終出版物則要求將D、E、F三列中的數據合并在一起,寫入到新的word文檔對應的表格里。同時,如果在H、I、J列中有數據的話,需要將這三列也合并,再換行寫入到上文提及的D、E、F列數據合并寫入后的單元格中去。這就要求在這一步驟中需要做兩個方面的處理,一是三列合并,二是需要判斷在H、I、J三列和L、M、N三列中是否有數據,如果有,那么需要合并后再換行寫入。

4、跨表格的數據讀取和寫入處理

跨表格的數據寫入處理是本程序的最核心部分。首先是確定表頭,前文已經提到,從第二行開始,第一列中的數據內容為文件名(即方言點名稱)。第一行中的每列數據內容則是調查條目及其所對應的中古音韻地位,即在同一單元格中分兩行實現,第一行為序號和單字,第二行為單字所對應的中古音韻地位。在確定好表格的表頭之后,接下來最重要的任務就是將前面處理好的數據寫入到新文件中對應的表格。

打開系統進入單字處理模塊后,我們可以根據操作界面來選擇相應的出版頁面大小,如下圖四,版面大小可以由用戶自己定義,或者按出版社指定的版面大小。這將涉及到單頁能夠排下的數據量,且本系統在設計時已經考慮數據溢出報錯的相關問題。

再選擇單頁表格中的列數,即單頁表格中寫入的單字數,每頁表格數和對齊模式按照默認方式即可。然后選定語料在計算機中存儲的文件夾即可。

最后選擇寫入的WORD文件保存的位置,然后點擊生成。當出現了圖六對話框后,說明已經全部讀取和寫入數據,也就是說語料數據自動合并寫入到規定表格的工作已經完成。

除此之外,還有版面設計的相關問題,比如資源集出版的時候如果是按照行政區劃來發行,可能會出現單本書涉及60個以上語言點的情況。這個時候可以考慮采用單個蝴蝶頁或是多個蝴蝶頁來排版,這也可以讓系統通過對材料的遍歷進行自動設置。

6、結語

總之,如果充分利用計算機技術對語言材料數據進行處理,能夠極大地減輕人工手動工作量,同時避免大量的手工操作失誤。我們運用本系統來處理120個語言點字音對照表的匯編工作,所耗費的時間不會超過5秒。應用在語言保護工程的工具軟件已經十分豐富,我們從語言資源數據的采集、校驗再到最終材料的處理,都充分利用了計算機這一工具。也只有如此,才能使我們的語言保護工程進展順利。

參考文獻:

1、Bruce Eckel,thinking in java ,機械工業出版社,2007.4

2、伍高遠,Excel VBA編程實戰寶典,清華大學出版社,2014.8

3、教語信司函,教育部語信司 關于啟動中國語言資源集(分省)編寫出版試點工作的通知,2018,27號

作者簡介:林雅雯(2000.10-),女,漢族,廣西合浦人,本科生在讀,主要從事東亞語言研究;

潘思行(2000.04-)男,漢族,廣西扶綏人,本科生在讀,主要從事漢語方言研究;

(基金項目:廣西職業師范學院2021年大學生創新創業訓練計劃國家級立項項目:南寧白話語言文化材料調查與整理,編號:202114684007)

(基金項目:廣西職業師范學院2021年大學生創新創業訓練計劃國家級立項項目:基于數據庫的東亞語言音系整理研究,編號:202114684002;)

猜你喜歡
技術
探究電力信息和電力通信技術的融合
紅松嫁接方法和技術要點探析
淺析無機房電梯相關技術要點
遼西干旱山區山杏育苗及造林技術分析
大采高綜采工作面初采期間瓦斯綜合治理技術
電力配電柜的應用技術
有關計算機網絡安全問題的分析與探討
淺析建筑物鋼筋砼與砌體結構抗震加固的技術方法
淺談鋼筋混凝土結構建筑應用外包粘鋼加固技術
探討電力系統中配網自動化技術
科技視界(2016年21期)2016-10-17 20:00:58
主站蜘蛛池模板: 国产免费观看av大片的网站| 日韩欧美国产另类| 日韩av电影一区二区三区四区| 国产成人乱码一区二区三区在线| 国产激情国语对白普通话| 91无码人妻精品一区二区蜜桃| 尤物特级无码毛片免费| 日韩欧美国产精品| 亚洲国模精品一区| 国产精品观看视频免费完整版| 欧美日韩午夜| 狠狠干欧美| 亚洲天堂网在线观看视频| 高清乱码精品福利在线视频| 成人综合网址| 亚洲欧美另类中文字幕| AV无码国产在线看岛国岛| 91午夜福利在线观看| 欧美中文字幕在线视频| 日本欧美视频在线观看| a免费毛片在线播放| 一本色道久久88亚洲综合| 国产精品原创不卡在线| 成年人免费国产视频| 亚洲天堂伊人| 日本成人一区| 国产视频入口| 国产精品亚洲欧美日韩久久| 欧美日韩亚洲国产主播第一区| 久久99热这里只有精品免费看| 国产最爽的乱婬视频国语对白| 国产成人调教在线视频| 伊人无码视屏| 国产精品lululu在线观看| 91蜜芽尤物福利在线观看| 久草视频中文| 九色91在线视频| 91原创视频在线| 看国产毛片| 成色7777精品在线| 国产精品永久免费嫩草研究院| 成人在线亚洲| 欧美成人第一页| 亚洲欧洲自拍拍偷午夜色| www欧美在线观看| 91久久偷偷做嫩草影院| 人妻熟妇日韩AV在线播放| 国产另类视频| 四虎国产在线观看| 911亚洲精品| www亚洲天堂| 国产成人综合亚洲网址| 九九视频免费看| 亚洲综合亚洲国产尤物| 四虎国产永久在线观看| 亚洲综合中文字幕国产精品欧美| 国产精品任我爽爆在线播放6080| 成人国产一区二区三区| 国产无码网站在线观看| 久久这里只有精品23| 日韩二区三区| 欧美成人亚洲综合精品欧美激情| 一级一级特黄女人精品毛片| 中文字幕无码中文字幕有码在线| 国产成本人片免费a∨短片| 国产香蕉在线| 青青草国产在线视频| 国产 日韩 欧美 第二页| WWW丫丫国产成人精品| 自拍偷拍欧美日韩| 视频一区亚洲| 亚洲第一黄片大全| 综合社区亚洲熟妇p| 国产日产欧美精品| lhav亚洲精品| 欧美成人国产| 韩日免费小视频| 8090成人午夜精品| 免费人成又黄又爽的视频网站| 久久香蕉国产线看精品| 欧美精品v欧洲精品| 國產尤物AV尤物在線觀看|