【摘要】小學語文教學語料庫主要是借助前人提出的建設原則和檢索功能,使用ASP程序設計語言,SQL SEKVER2000數據庫服務器來采集、加工語料以及開發語料庫檢索功能等,并規定小學語文語料庫的建設目的和樣本大小等,來解決小學語文擴展閱讀資源中的篇章檢索、句子檢索和詞語檢索中存在的問題。這個語料庫資料豐富,包括各種各類的文章、小學語文閱讀材料中的兒歌、謎語等內容。在教師的備課和學生的自主學習中應用方便。
【關鍵詞】小學語文教學;語料庫;設計開發
【中圖分類號】G623 【文獻標識碼】A
小學語文教學語料庫的檢索主要是為了在小學語文的教學和研究中能夠高效方便的檢索所需的信息而進行設計研究的,這主要有檢索小學語文整體或者某部分的總字數及字頻、總詞數以及詞頻、按詞類大類和小類提取總清單、特種詞語和語法格式的檢索等。設計合理的檢索系統可以提高小學語文的教學和研究的效率和知識廣闊面。
一、關于小學語文教學語料庫的相關的概念
小學語文的教學語料庫是為了研究和應用于小學教學而搜集的并且用電子的形式保存下來的語言材料,這些內容主要是由書面語或者口語的樣本匯集起來的,它代表著小學語文中的語言。在這一語料庫有了足夠的規模時,能夠反映和記錄小學的語言在實際使用中的情況。這有利于相關人員對于語料庫的把握和研究,借助語料庫可以分析小學學習的語言的系統的規律。它無論對教學還是對研究都是極其有利的。
二、小學語文教學語料庫的建立
小學語料庫的建立有其特定的目的,根據這一目的以及中外專家的觀點,筆者總結了以下語料庫建庫的原則和方法:
首先,明確小學語文教學語料庫建立的目的。我們這里所說的語料庫主要是小學語文的語料庫。小學語文的語料庫就是為小學語文的教學和研究服務的,這屬于專用型語料庫,這就決定了我們所建立的語料庫不必過于廣泛的表現現代漢語的語言事實全貌,這一閱讀資源的語料庫主要有兩個特點,就是突出趣味性和盡量的選擇名家大作。所以筆者這里論述的語料庫所收集的主要是兒童文學作品中的內容,比如說兒歌、謎語、寓言和童話等。當然對于那些政治、經濟、文學等深奧一些的內容可以較少的涉及一些。對于語料庫,因為用于小學的語文所以控制字數在1000萬字左右就可以了,資料庫過大,用戶就會相應的增多,就會影響檢索資料的速度,這樣用戶就沒法正常的使用這一數據庫了。
其次,關于語料庫的容量方面的問題。因為我們所建立的語料庫是小學語文的教學語料庫,所以主要采集的是整個原始文本作為樣本的形式比較合理,可以另外建立數據庫存儲由原始文本分解得來的句子樣本。這樣比采取把原始語料切分為片段的方式要好。
再次,在建立小學語文語料庫的時候要注意語料庫樣本的多樣性。小學語文語料庫屬于文學的門類,這有其自身的教學目的的特性,文學類的樣本的多樣性主要是文學門類下的子門類的多樣性。
最后,做好小學語文教學語料庫的語料樣本的處理。根據小學語文語料庫在教學和研究方面的需求,應該建立比較適于使用的語料庫檢索方式和儲存方式,筆者主要采用的是兩種不同方法的語料庫樣本處理方式:第一,是把每個語料庫的樣本當作一條數據記錄存放在數據表中,這樣有利于查找擴展閱讀所需要的篇章,方式是通過關鍵詞來進行全文的檢索。第二,是把要處理的所有語料劃分成句子,再把每個句子當作數據記錄放在數據表中,這樣做的好處是利用子串、詞語和句子來進行檢索,方式是利用關鍵詞進行句子的檢索。
三、小學語文教學語料庫的開發研究
這個過程主要包括采集語料、加工原料庫和開發語料庫的檢索功能等這些環節,我們就其中的一些環節來進行論述。小學語文教學語料庫主要是采用的ASP語言寫程序,采用SQL SElKVElK2000數據庫服務器做數據存儲服務以及采用IIS6.0 Web服務器發布語料庫檢索網站。
首先,要注意語料的采集。語料的來源可以是在因特網上的眾多的讀書網站,設計人員可以從上面下載小學語文所需要的文章、書籍等,這是這一語料庫的主要來源。也可以從六年跨越式實驗項目實行的過程中積累下來的并且制作完成眾多閱讀文章中進行搜索。
其次,在小學語文教學語料庫的設計時必然會遇到難點。在建設資料庫時需要收集的資料并不是匯集在一起的,需要設計者進行搜集,要把這些結構多樣的資源轉化為結構統一的語料庫并不是一件簡單的事,而且很多資源都是網頁形式的,而語料庫的全文確是文本形式的,這樣就要求設計者進行處理,這也是一項比較困難繁雜的工作。
再次,對于小學語文教學語料庫所遇到問題的解決方法,大多數網站的資源格式基本上都是一樣的。這樣我們就可以利用這些相同點來進行解決,我們可以去發現各個網站的對于文章的標題、作者等的標記的規則,將其轉化為我們需要的文本格式,運用到我們的語料庫中。但是在有些情況下某一個網站的不同的頁面中對文章的同一部分所用的標記也不相同,這些地方我們的解決方法是尋找兩者之間的共性,尤其是在標記部分的共性,利用這些共性對這兩種標記方式進行統一的表達。
最后,注意結果的統計。小學的語料庫中共收集了一萬零六百六十五篇,這些結果的收集對教學和研究是非常有益的。小學語文教學語料庫的加工要注意句子層次的加工和篇章層次的加工,句子層次的加工主要是將篇章分割成若干句子,同時確定每句話的長度,而后將這些句子數據存入句子數據表中。篇章層次的加工在語料采集過程已經部分的完成,包括對標題、作者、體裁和字數等屬性。
四、結語
本文從幾個方面對小學語文教學語料庫的設計和開發進行了簡要的敘述,其主要是以篇章為單位,收集適合小學語文教學的語料庫,目的是為研究和教學提供方便。
參考文獻
[1]何克抗.兒童思維發展新論和語文教育的深化改革——對皮亞杰“兒童認知發展階段論”的質疑[J].教育研究,2009(02).
[2]中華人民共和國教育部.全日制義務教育語文課程標準(實驗稿)[M].北京:北京師范大學出版社,2009(02).
[3]顧益軍,樊孝忠,于江德,李良富.受限領域中文文本主題標引系統研究[I].計算機應用,2009(14).
(責任編輯:龍大為)