999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

文獻語料管理系統設計分析

2024-09-21 00:00:00張超
科技創新與應用 2024年27期

摘 要:不少語言學科研項目需要建設文獻語料庫,對文獻語料的管理需求越來越強烈,開發一套面向語言學者的文獻語料管理系統非常必要。該文以清末民初西南文人白話作品和傳教士文獻的語料處理需求為出發點,對系統功能需求、系統流程、系統數據等進行分析、設計和實現,有效解決文獻語料庫建設中的語料管理問題。

關鍵詞:文獻語料庫;語料管理;系統設計與分析;語言學者;管理系統

中圖分類號:TN912 文獻標志碼:A 文章編號:2095-2945(2024)27-0143-04

Abstract: Many linguistic research projects require the construction of a literature corpus, and the demand for managing literature corpus is becoming increasingly strong. It is necessary to develop a literature corpus management system for linguists. This paper takes the processing requirements of the vernacular works of literati and missionary literature in the late Qing Dynasty and early Republic of China as the starting point, analyzes, designs, and implements the system functional requirements, system processes, system data, etc., effectively solving the problem of corpus management in the construction of literature corpus.

Keywords: literature corpus; corpus management; system design and analysis; linguists; management system

近年來立項的國家和地方各級社科課題中,有不少項目涉及文獻語料庫建設,早期北京話文獻、客家方言文獻、粵語文獻、閩語文獻、吳語文獻和西南官話文獻等,在不少課題中或多或少被涉及,如莊初升《海內外客家方言的語料庫建設和綜合比較研究》、李藍《中國方志語言資料數據平臺建設及詞典編纂》、林華勇《清末民國漢語五大方言比較研究及數據庫建設》、盛益民《基于文獻考證與歷史比較的吳語語法史研究》等。語料管理系統就是語料庫的后端數據管理系統,用以管理語料庫的后端數據內容。如何規范高效且準確地錄入文獻語料,使文獻語料庫有效地精確地服務于學術界,是語言學者普遍關心的問題。因此,開發一套面向語言學者的文獻語料管理系統非常必要。本文參考于娜娜[1]、王松[2]、李仁均[3]等,以清末民初西南文人白話作品和傳教士文獻的語料處理需求為出發點,結合語言學界對語料庫的應用需求,探析文獻語料庫管理系統的設計。

1 系統功能需求

參考孟克代力格日《托忒文文獻語料庫及其管理程序設計》[4]提供的經驗,基于清末民初西南文人白話作品和傳教士文獻處理的需要,本文確定文獻語料管理系統最基本的功能需求包括文獻管理、語料管理、生僻字管理、用戶管理和系統管理等5項,以下分別進行介紹。

1.1 文獻管理

文獻語料管理系統是為文獻語料庫的建設服務的,文獻語料庫中需要呈現文獻的有關信息,故文獻管理是文獻管理系統中重要的功能模塊之一。該模塊下包括文獻分類管理、文獻對象管理、文獻目錄管理等。

文獻分類管理。允許用戶根據研究需要建立自定義的文獻分類,可編輯的信息包括分類名稱、類別備注、排序號等。

文獻對象管理。可編的信息項目包括編號、名稱、分類、著者、出版者、出版時間、內容簡介和封面圖片等。

文獻目錄管理。是針對特定文獻對象目錄內容而進行的增刪查改操作,可編輯的信息項目包括目錄名稱、上級目錄、所在頁碼范圍等。考慮到實際文獻可能有多級目錄的現象,文獻目錄管理模塊要具備按層級建立目錄的功能。

1.2 語料管理

語料管理是對文獻語句進行的增刪查改操作,基本功能包括新增語料、修改語料、刪除語料及檢索語料等。可編輯的語料信息包括文獻語句、文獻釋義(可空)、簡體對照(可空)、繁體對照(可空)、外文對照(可空)、普通話對譯(可空)、所在文獻、所在頁碼和所在目錄等。

文獻的語料都要明確歸屬于特定文獻,為避免錯置歸屬,宜將語料管理作為文獻對象管理的子功能模塊來設計,即在文獻對象操作區內加“文獻語料管理”功能按鈕作為文獻語料管理入口,這樣可以省去選擇語料對應文獻的操作,并且有效避免錯置文獻。

1.3 生僻字管理

生僻字是指當前主流輸入法在啟用大字符集的情況下仍不能輸入的漢字。比如,清末傳教士西南官話文獻《華西官話漢法詞典》中的“”(西南官話中形容小孩愛搗亂且不聽招呼),“”(西南官話中指鋪床的動作),“”(‘搊’的簡化,指用手從側面對人或物體提供支撐的動作)等漢字,在當前主流鍵盤輸入法(比如搜狗輸入法)啟用大字符集或“生僻字”選項情況下仍無法輸出,用逍遙筆手寫輸入法也無法輸出,就宜把它們定為生僻字。對這類生僻字,寇冠等[5]《基于字符集編碼擴展的通用生僻字解決方案探索與實踐》處理思路可以借鑒參考,但考慮到數據庫字符集支持等問題,于本文討論的文獻語料庫中暫時難以適用。本文討論的文獻語料庫需要考慮到后端和前端對字符的支持情況,要盡量滿足大部分學者的檢索應用需求,宜盡量用通用字符集解決問題。綜合考慮后,本文確定對生僻字的處理策略為:在數據庫中存儲其圖像,建立具有唯一性的編號,文獻語料中該字的位置用其編號占位,用戶在前端檢索時,可以用其編號作為關鍵詞。為了讓用戶較方便地查檢到生僻字的編號,需要允許用戶在生僻字表中多維度地檢索生僻字,為此,生僻字管理模塊需要編輯生僻字的編碼、讀音、構造部件、圖片、來源文獻與備注等信息,以方便用戶選擇不同的字段信息進行檢索。

1.4 用戶管理

用戶管理是指對語料庫用戶的增刪查改操作。根據系統模塊功能特點,需要對用戶進行權限管控。用戶數據模型預置系統管理權、用戶管理權、文獻管理權、語料管理權和生僻字管理權等,在添加或修改用戶過程中,根據實際需要對用戶合理賦權。具有這些管理權之一的用戶都是管理員,可以進入文獻語料管理系統;不具備這些權限的為語料庫普通用戶,不能進入文獻語料管理系統,只能在前端查檢應用數據。

1.5 系統管理

系統管理是對系統基礎信息的設置操作,所設置的信息項目包括語料庫所有權人及其基本信息、語料網網站名稱、語料庫網站工信部備案號、網站網安備案號及語料庫平臺簡介等。

2 系統流程分析

2.1 系統外部數據流圖

文獻語料管理系統的外部數據流表現為系統管理員、文獻管理員、語料錄入員、語料審核員和生僻字管理員等角色與文獻語料管理系統之間的關系,如圖1所示。各角色分別與文獻管理系統發生數據交互。

系統管理員:主要負責系統設置、用戶增刪及權限設置等操作。文獻管理員:主要負責文獻分類、文獻對象、文獻頁面和文獻目錄等的管理操作。語料錄入員:主要負責文獻語料的錄入保存操作。語料審核員:主要負責語料內容的復核和審核操作。只有審核通過的語料才向前端開放查檢權限。生僻字管理員:主要負責文獻生僻字的統一編號和錄入操作。

2.2 文獻管理系統核心數據工作流

文獻管理系統核心數據是文獻語料,相應地,核心操作就是語料的錄入和審核。系統處理流程圖如圖2所示。流程中包括語料錄入員和語料審核員2個角色。語料錄入員錄入語料,提交審核。語料審核員執行審核,判斷是否通過,不通過的語料退回語料錄入員界面,語料錄入員修改后重新提交審核。審核通過的語料則入庫待用,可以進入前端查詢應用范圍或作進一步研究處理。

圖2 系統處理流程圖

3 數據分析

3.1 文獻基礎數據

文獻基礎數據包括文獻分類、文獻對象、文獻頁面和文獻目錄等,由文獻管理員錄入處理。由于這類數據不復雜,前端應用精確度需求并不高,故這類數據的處理不需設置審核流程。

3.2 文獻語料數據

文獻語料數據是文獻語料庫的核心數據,是供用戶查檢應用的具有科研價值的數據,有精確度的需求,故語料錄入后需要經過一次審核操作才能正式進入待查檢應用狀態。為確保語料有應用價值,語料盡量以意義相對完整的句子為基本錄入和存儲單元。由于文獻語料都是以文字形態存在的,一般沒有對應的音頻和視頻,所以都是以文本方式存入數據庫。

4 系統實現與應用

文獻語料管理系統采用Python服務器編程語言,基于Django框架而設計,在張超教育部社科課題“基于百年前西南文人白話作品和傳教士文獻的清末民初西南官話語法研究”、莊初升國家社科課題“海內外客家方言的語料庫建設和綜合比較研究”、林華勇國家社科課題“清末民國漢語五大方言比較研究及數據庫建設”等項目研究中進行了應用,系統運轉正常,極大地提升了文獻語料錄入處理的效率,并確保了語料的精確度,進而確保了文獻語料的學術價值。

以下展示文獻語料管理系統在處理清末民初西南文人白話作品和傳教士文獻的語料過程中的部分界面。圖3為文獻類別列表界面,用戶可以在該界面進行文獻類別的增刪查改操作。

圖4是文獻對象列表界面,用戶在該界面除了進行基本的增刪查改操作之外,還可以對文獻進行目錄、頁面和語料的管理。

圖5展示了《華英捷徑》這部傳教士西南官話文獻后臺目錄管理界面,用戶在此界面可以針對這個文獻進行目錄的增刪查改操作。文獻對象和目錄之間構成主子關系。

圖6展示了《西語譯漢入門》這部文獻的頁面對象管理界面,用戶在該界面可以進行文獻頁面的增刪查改操作,還能看到各頁面下的語料數量。

圖7為《華西初級官話課程》這部傳教士西南官話的語料管理界面,用戶在該界面可以進行語料的增刪查改操作,也能查看語料對應的頁面圖像,方便用戶在處理語料過程中進行數據核對。該頁面也支持數據導出操作。

5 結束語

文獻語料庫通常是文獻整理研究類課題項目配套的重要成果之一,而文獻語料管理系統是文獻語料庫的后端管理平臺,是確保文獻語料快速準確錄入和為前端提供數據格式的處理工具。本文以清末民初西南文人白話作品和傳教士文獻的語料處理需求為例,分析了文獻語料管理系統的基本功能需求、系統處理流程、系統數據等,并采用Python服務器編程語言,基于Django框架進行了設計實踐,有效滿足了文獻語料庫建設中的語料管理的實際需求。

參考文獻:

[1] 于娜娜.基于B/S架構的語料庫管理系統[D].哈爾濱:哈爾濱理工大學,2018.

[2] 王松.基于Spark的會話語料庫管理系統[D].石家莊:河北師范大學,2020.

[3] 李仁均.抑郁語料采集與管理系統的研究[D].蘭州:西北師范大學,2023.

[4] 孟克代力格日.托忒文文獻語料庫及其管理程序設計[D].呼和浩特:內蒙古大學,2011.

[5] 寇冠,劉良俊,徐曉劍,等.基于字符集編碼擴展的通用生僻字解決方案探索與實踐[Z].北京市:中信銀行股份有限公司,2021-09-11.

主站蜘蛛池模板: 欧亚日韩Av| 日韩av资源在线| 国产又粗又爽视频| 99re这里只有国产中文精品国产精品 | 精品福利网| 欧美成人看片一区二区三区| 国产成本人片免费a∨短片| 国产精品亚欧美一区二区| 久久精品人人做人人综合试看| 中国特黄美女一级视频| 四虎亚洲国产成人久久精品| 久久精品视频一| 精品国产成人三级在线观看| 国产精品亚洲一区二区三区z| 免费看a级毛片| 国产精品视屏| 亚洲中文字幕在线精品一区| 欧美亚洲激情| 一级毛片免费的| 九九这里只有精品视频| www.youjizz.com久久| 无码啪啪精品天堂浪潮av| 五月婷婷亚洲综合| 亚洲乱码视频| 五月婷婷亚洲综合| 在线国产资源| 日本不卡在线播放| 欧美伦理一区| 色婷婷亚洲综合五月| 国产99免费视频| 91po国产在线精品免费观看| 无码AV高清毛片中国一级毛片| 国产爽爽视频| 久久精品国产91久久综合麻豆自制| 中文字幕天无码久久精品视频免费| 欧美性精品| Aⅴ无码专区在线观看| 国产免费人成视频网| 免费观看成人久久网免费观看| 97在线免费| 日韩毛片免费观看| 97视频在线观看免费视频| 国产精品视频系列专区| 亚洲无线一二三四区男男| 国精品91人妻无码一区二区三区| 精品综合久久久久久97| 国产亚洲视频在线观看| 国产精品永久在线| 免费全部高H视频无码无遮掩| 久久久精品国产亚洲AV日韩| 中文字幕日韩视频欧美一区| 重口调教一区二区视频| 亚洲丝袜第一页| 国产色婷婷| 老司机久久99久久精品播放 | 99精品视频在线观看免费播放| 蜜臀AV在线播放| 成人在线观看一区| 亚洲欧美成aⅴ人在线观看| 亚洲第七页| 无码一区二区三区视频在线播放| 亚洲天堂区| 制服丝袜亚洲| 亚洲天堂成人| 欧洲一区二区三区无码| 欧美成人h精品网站| 亚洲欧美日韩色图| 欧美在线国产| 特级毛片8级毛片免费观看| 高清精品美女在线播放| 一本大道东京热无码av| 久久久91人妻无码精品蜜桃HD| 9999在线视频| 亚洲精品视频免费观看| 久久国产乱子| 国产福利在线观看精品| 国产香蕉在线视频| 天天综合色网| 91网站国产| 91无码人妻精品一区二区蜜桃| 精品欧美视频| 在线观看国产黄色|