999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

大型中國小學生作文語料庫的生成

2008-12-31 00:00:00魏順平楊現民陳良柱
現代教育技術 2008年12期

【摘要】當前,通過收集學生在學習語言時創作的作文來建立學習者語料庫并在語料庫的基礎上開展各種語言研究和教學應用已成為應用語言學的研究熱點。目前我國已建立了近十個學習者語料庫,包括中國學習者英語語料庫和外國學習者漢語語料庫。然而,關于中國學習者漢語語料庫的建設卻關注較少。本研究將憑借北京師范大學現代教育技術研究所在小學長期開展語文教改試驗的良好基礎建立一個大型中國小學生作文語料庫。截至2007年8月,本語料庫已建設成為一個涉及小學五個年級、歷時五年、字數在1100萬以上的大型作文語料庫,在小學語文教學、兒童語言發展研究、小學生思維能力發展研究等三個方面有較高的應用價值。

【關鍵詞】語料庫;小學生;作文

【中圖分類號】G40-057 【文獻標識碼】A 【論文編號】1009—8097 (2008) 12—0045—04

語料庫(corpora) 是應用計算機技術對大量自然語言材料進行處理(包括預處理、語法自動賦碼、自動句法分析、語義分析等)、存儲,以供自動檢索、索引和統計分析的大型資料庫。自二十世紀80 年代末90 年代初開始,各種書面語和口語語料庫、通用型和專門語料庫紛紛建立, 語料庫在語言描述和語言分析中的作用和優勢愈來愈明顯。在語料庫迅速而多元的發展中, 針對外語學習者建立的學習者語料庫( learner corpora) 的發展尤為引人注目。

一研究背景及緣起

學習者語料庫包括學習者書面語語料庫和學習者口語語料庫兩種。無論是學習者書面語語料庫, 還是學習者口語語料庫, 均與一般的語料庫不同, 它們是經過計算機處理的外語學習者的語言產出的文本數據庫,屬于學習者中介語(inter language )范疇。[1]在國外,據不完全統計,已經建成和在建的學習者英語書面語語料庫8個,口語語料庫2個,如比利時的ICLE (International Corpus of Learner English)、瑞典Uppsala大學建立的學習者語料庫USE、美國的英語學習者語料庫MELD、英國的商業性學習者語料庫CLC和LLC等[2]。

我國的學習者語料庫建設與研究開始于上個世紀90年代中期,近年來發展迅速,已處于國際領先水平。這些語料庫主要分為兩類,一類是中國學習者英語語料庫,一類是外國學習者漢語中介語料庫。在中國學習者英語語料庫方面,已經建成或在建的語料庫有6個,如由廣東外語外貿大學等學校研制開發的中國英語學習者語料庫(CLEC),由華南師大外語系負責建設《中學生書面語語料庫》(MSSW),由香港科技大學的約翰#8226;彌爾頓教授主持開發的香港高中生英語語料庫(HKUST),等等。[2] 在外國學習者漢語中介語料庫方面,有已建成的北京語言大學的漢語中介語語料庫[3]和正在建設的HSK動態作文語料庫等[4]。

然而,針對以漢語為母語的學習者建立的語料庫的發展卻不是那么樂觀,語料庫類型比較單一,主要為口語語料庫。已有的以漢語為母語的學習者口語語料庫包括:大型兒童口語研究課題“十省市研究”項目收集了2062名三至六歲城鎮兒童的語料[5];2007年建成、包含600名兒童的口語語料的新加坡華族學前兒童口語語料庫[6];已囊括了包括漢語普通話和廣州話在內的二十五種語言的數據的兒童語言數據交流系統(Child Language Data Exchange System),簡稱CHILDES[7]。語料類型的單一將會大大限制廣義的兒童語言學的研究。李宇明指出,廣義的兒童語言學,把兒童期的所有語言學習現象作為自己的研究對象,應包括母語口語學習和母語書面語學習等。他還指出,只有全面研究這些語言學習類型,才能建立起具有較強解釋力的兒童語言學習理論,也才能夠對兒童的母語口語發展認識得更全面。[8] 在我國,兒童母語書面語的學習一般始于小學階段,我們要研究兒童書面語的發展就必須從小學生的書面語即小學生創作的作文開始,這就要求我們建立一個大規模的小學生作文語料庫。眾所周知,在建設語料庫過程中,主要存在的困難在于需要投入大量的人力物力去通過電腦錄入收集上來的學生作文,代價極高,而我們所在的北京師范大學現代教育技術研究所在小學里開展的一項語文教改試驗卻能夠幫助省去人工錄入語料的環節,可以大大節省開發中國學習者漢語語料庫的人力物力。

從2000年9月開始,北京師范大學現代教育技術研究所在小學里進行了一項基于Web的、將信息技術與語文教學有效整合的改革試驗。該教改實驗的主持人何克抗教授將其稱作“小學語文跨越式試驗”。本試驗的一個重要創新點在于:不再像傳統教學中那樣將漢字、閱讀、作文三個教學環節孤立和割裂,而是在信息技術環境下使三者有機地結合起來。老師鼓勵小朋友們在閱讀了網上的材料以后,隨時在校園網的班級留言板里(通過電腦打寫)向老師談自己的感受與想法。[9] 迄今,試驗已經開展了七年。在這七年的小學語文教改試驗中,試驗學校積累下了大量的電子化的小學生作文,主要以數據庫形式存儲。這些分布在不同學校的數據庫可以很方便的收集起來,并對來自不同學校的作文數據加以集中,一個小學生作文粗語料庫即可完成。因此,我們將在這一教改試驗的基礎上開展小學生作文語料庫的開發與應用研究,以求加快研究進程,填補國內在中國學習者漢語語料庫研究方面的空白。

二研究方法

本語料庫將建設成為一個涉及小學各個年級、歷時六年、字數在3000萬左右的作文語料庫,每篇作文均有字數、單字數、作者、創作時間、所在年級、所在學校等多種標注。

本語料庫研制開發的工作流程包括小學生作文來源學校選定、語料收集和匯總、語料清理、初級語料加工、語料庫檢索系統開發等五個環節。這五個環節不是一次性完成的,而是循環往復、不斷逼近最佳結果的過程。

1 作文來源學校選定

目前,小學語文跨越式實驗課題組已在全國范圍內建立的13個試驗區(共162所中小學, 包括小學148所, 中學14所),涉及的省、市、地區有北京、河北豐寧、大連、廣州、深圳、廈門、香港。各個學校加入試驗的時間有早有晚,我們主要選取10所左右同年加入且參與時間較長的學校。經調查,在2002年、2003年兩個年份加入的跨越式試驗的學校較多,從中足以選出10所左右作文數據豐富、歷時較長的學校。另外,較早加入的學校主要來自廣州、深圳、北京等地區,于是我們從這三個地區暫時選定了分別在2002年、2003年加入試驗的14所學校作為小學生作文語料的來源學校,其中北京四所,深圳六所,廣州四所,以保持南北方數據來源的多樣性,為后面開展南北方大城市小學生漢語掌握差異進行對比研究提供可能。

2 語料收集和匯總

試驗學校均使用小學語文跨越式試驗教學平臺作為小學生寫作和閱讀環境,小學生所創作的作文均保存在該平臺的數據庫中。于是,該環節通過拷貝小學語文跨越式教學平臺中的數據庫來完成。該工作自2006年9月開始,至今已近一年。我們分別于2006年11月、2007年4月以及2007年7月三個時間點陸續從這14所學??截惲似脚_數據庫。

來自不同學校的作文存儲在不同的數據庫中,于是我們建立了一個中心數據庫來匯集來自各個數據庫中的作文數據表和學生基本信息表。為了后期的統計分析,對比研究,我們不僅要存儲作文信息,還要存儲學生信息和學校信息。其中,作文信息包括作文標題、作文全文、創作時間、字數、作者、學校、創作年級等;學校信息用于描述作文來源學校,包括學校名稱、加入教改試驗的時間、所采用的教材的版本信息等;學生信息包括學生姓名、所在學校、入學年份(即就讀一年級時的年份)等。

然而,由于教學平臺并未提供年級按年度升級的功能,即一個學生四年創作的作文全部標識為一年級所創作。這樣一來便會影響按年級進行小學生書面語言的調查。于是,在收集平臺數據庫的同時,我們還收集了當前學年各個跨越式試驗班的學生名單,并根據每個學生的當前年級推算以往年級以及未來年級所處的時間段,然后重新對每篇作文的創作年級進行標識。下面舉例說明這一過程。

A學校有一名學生張三,2006年9月開始開始上四年級,那么該學生的所有年級及所處時間段如表1所示。

依據表1,以及張三所創作的每篇作文的創作時間,我們便可以對張三的所有作文的創作年級進行重新標識了。

經匯總,截至2007年7月,小學生作文語料庫有作文93293篇,字符數14406192個,涉及學生2205名。

3 語料清理

由于小學生作文直接從學校教學平臺數據庫中轉換得來,從而不可避免存在部分無效的作文,如只包含幾個字符的作文,或者字符數較多而漢字僅有幾個的作文。這些作文必須從語料庫中剔除出去,以保證語料庫的質量。

我們的處理方法是通過T-SQL數據庫查詢語言編寫程序來計算每篇作文中的字符數、漢字數、標點符號數以及非標點符號數,然后將滿足以下條件的作文刪除:字符數為零的文本;標點符號數為零的文本;漢字數為零的文本;在清除作文中的空格后,漢字數少于非漢字字符數的文本;在標點符號數、漢字數不為零的條件下,漢字數與標點符號數之比小于3的文本。

另外,我們在匯總后的作文語料庫中發現,有些作文很長,個別甚至達到26680個字符。經瀏覽這些作文,我們發現,這些作文存在重復內容。于是,我們將這些有重復內容的作文選出來,利用自行開發的一個校對工具,刪除重復的部分。

經清理,小學生作文語料庫有作文79244篇,字符數13328692個,漢字數11456403,涉及學生2164名。

4 初級語料加工

比較初級的語料加工包括自動分詞(part of speech tagging)和詞性標注(grammatical tagging)兩個階段。更深層次的加工則有句法標注、語義標注等。另外,由于語料庫檢索需要有句子檢索這一項功能,于是語料加工還需增加對作文進行分句加工。語料庫的加工不可能一次就做到盡善盡美,本研究把完成語料庫的初級加工即分句、分詞和詞性標注作為主要目標,并完成復句類型標注以及一些特殊句式的標注。

分句是指通過正則表達式將篇章分割成若干個句子,并確定每句話的長度,然后將這些句子存入句子數據表中。

判斷句子的標志是“。”“?”“!”等三種符號,由于來自網上的文章中經常出現以西文標點為句子結束標志的情況如“.”“?”“!”等,并且對話語言中句子的結束標志是在一般的結束標志基礎上加上“””,因此用于匹配句子的正則表達式如下:

[^(。|?|!|\\\\?|!|.)]+(。”|?”|!”|\\\\?”|!”|.”|。|?|!|\\\\?|!|.)

我們通過該正則表達式將篇章中的句子分離并存入句子表中,句子表包括句子、經分詞和詞性標注后的句子、句子類型、句子長度、在文中的出現次序以及所在篇章編號等信息。

在分詞和詞性標注方面,我們將采用中國科學院計算技術研究所漢語詞法分析系統ICTCLAS[10]來輔助完成。這里并不是對作文進行分詞和詞性標注,而是對作文分句后的句子進行分詞和詞形標注,這樣可以提高分詞和詞性標注的效率,也為接下來的復句類型標注和特殊句式標注做準備。

由于小學生作文是發展著的書面語言,無論是詞語運用還是句子結構上,都存在著非規范用法。再有ICTCLAS工具自身的局限性,分詞和詞性標注結果存在一定的錯誤率。對于這些分詞和標注的錯誤一定要采取有效措施進行更正。受技術水平的制約,對誤切分和誤標注的部分,主要采取人工干預的方式進行后期處理。

要進行復句類型標注和特殊句式標注,首先要建立一個復句類型和特殊句式的分類表,并給每種句型標上特征詞。復句類型有并列復句、連貫復句、遞進復句、選擇復句、解說復句、轉折復句、因果復句、假設復句、條件復句、目的復句、連鎖復句等11類。每一類都有一定量的連詞或連詞組合作為其特征詞。以因果復句為例,其特征詞有“因為…所以…”、“由于”、“因此”、“因而”、“從而”、“以致”、“致使”、“既然就”、“可見”等。我們就利用“復句-特征詞”對應表,通過檢查一個經過分詞和詞形標注的句子中是否包含某個連詞或連詞詞組來對判斷該句子是否是復句以及是何種復句。當然,這里標注的復句主要為顯性復句,對于隱性復句我們將采用人工的方法來標注。

本語料庫所要標注的特殊句式主要有把字句、被字句兩種。在這兩種句式中,特征詞主要有“把”和“被”,此時這兩個詞的詞性為介詞(以字母p表示)。于是我們建立了這兩種句式的特征為“把/p”和“被/p”,其中“/p”表示在這兩種句式中“把”和“被”字的分詞和詞性標注的結果。我們通過檢查一個經過分詞和詞形標注的句子中是否包含“把/p”或“被/p”來對判斷該句子是何種句式。

5 語料庫檢索功能的開發

關于語料庫的檢索功能,中外學者多有論述。胡明揚先生提出,語料庫的檢索系統要保證能夠方便地檢索到以下各類信息:總字數及字頻,總詞數及詞頻,單字和單詞的上下文,按詞類大類和小類提取總清單,統計分類總數和分類頻度,特種詞語、語法格式、分類句類或句型的統計和提取,等等[11]。楊惠中(2002)認為,檢索工具的基本功能包括詞表生成、語篇統計、帶語境的關鍵詞(KWIC)索引、搭配詞統計、詞語型式(pattern)統計、主題詞提取(key word list)、詞叢(word cluster)統計、聯想詞統計及重組、詞圖(plot)統計[12]。

考慮到今后要在互聯網上發布語料庫,本語料庫的檢索系統將采用B/S架構。前文述及的語料庫檢索功能太復雜,會影響服務器的響應速度,不適合通過Web來實現。因此,筆者省去了一部分功能,而突出所需的功能,具體如下:

(1)作文檢索功能

檢索項包括作文類型(隨堂作文和測試作文兩種,以隨堂作文為主)、創作年級、作文標題、內容、字數范圍。其中標題、內容等項的檢索提供模糊匹配功能,可輸入多個關鍵詞。并可設置作者信息,限定作者范圍,限定項包括地區、學校、入學年份(特指進入小學一年級時的年份)、作者姓名等,這有助于使用者對小學生作文情況進行分類調查。作文檢索界面如圖1所示。

(2)句子檢索功能

可進行“關鍵詞居中”(KWIC)檢索。關鍵詞為中文(簡體)任意字符串??稍O定句子的創作年級,并可設定首個關鍵詞的詞性,并可通過設定“跨距”(Span)來限定檢索關鍵詞的左右語境范圍,跨距以字符為單位。還可以設置作者信息,限定作者范圍,限定項包括地區、學校、入學年份(特指進入小學一年級時的年份)、作者姓名等,這有助于使用者對小學生句子使用情況進行分類調查。返回的檢索結果以句子為最大話語單位,作為檢索的上下文語境的最大范圍。如果要查看更大范圍的上下文語境可以進一步查看該句子所在的篇章。允許對檢索結果進行復制或保存。句子檢索界面如圖2所示。

三 結語

截至2007年8月,本語料庫已建設成為一個涉及小學五個年級、歷時五年、字數在1100萬以上的大型作文語料庫。本語料庫中的每篇作文均有字數、單字數、作者、創作時間、所在年級、所在學校等多種標注,并且對這些作文進行了分句操作,并對復句、特殊句式進行了類型標注。這些作文不僅蘊涵著當前小學生所寫出的作文的字數的信息,而且還蘊涵著小學生使用單字、詞語、搭配、單句句式、單句句型、復句類型等的現狀的更為豐富的信息。該語料庫有望在小學語文教學、兒童語言發展研究、小學生思維能力發展研究等三個方面發揮其價值。

1 小學語文教學

小學語文教學人員可通過本語料庫查找范例作文,查找字、詞的使用例句,可用于編寫教學材料、練習題以及開發學習軟件,還可用于課堂教學時呈現語言應用實例(包括正例和反例)。

2 兒童語言研究

兒童語言發展研究者可通過本語料庫觀察小學生漢語書面語使用情況(正確使用、過度使用、使用不足、未用和錯用),并利用語料庫的歷時性,發現小學生漢語書面語的習得過程規律如用字、用詞、句式使用等方面的發展規律,制定小學生常用字表、常用詞表等。這有助于完善兒童語言發展研究,讓我們更好地認識兒童在掌握語言(包括口語和書面語)的整個發展過程。

3 小學生思維能力發展研究

馬列主義經典作家指出,“語言是思維的物質外殼”。語言能力的發展和邏輯思維發展、形象思維發展、直覺思維發展之間存在密切聯系。語言(包括文字)和各種語言活動,既是心理學的研究對象之一,又是心理學的重要研究工具之一。許多重大的心理學問題的解決,都需要兒童語言學的參與或驗證。本語料庫具有歷時性,記錄了一大批學生整個小學階段所寫的作文,這些作文蘊含著他們的思維過程,研究者可通過統計分析單個學生的復句使用情況(如因果復句、假設復句、條件復句等)來考察該學生的邏輯思維發展過程,通過調查學生使用可逆句子使用情況(如被字句、雙重否定句等)來考察學生思維的可逆性以及通過分析學生描寫事物的語句來考察該學生的形象思維發展過程。

目前,我們圍繞語料收集、加工深度和數據維護等方面繼續完善中國小學生作文語料庫,預計在2008年9月最終完成,并將在網站(http://www.mclass.cn)發布該語料庫的檢索系統,實現資源共享,為語言工作者提供一種科學便捷的集成環境和先進的技術手段。

參考文獻

[1] 秦旭.學習者語料庫及其在外語教學中的應用價值[J]. 徐州工程學院學報,2006,(11):25-28.

[2] 王立非,孫曉坤. 國內外英語學習者語料庫的發展:現狀與方法[J]. 外語電化教學,2005,(5):19-24.

[3] 北京語言大學科研處. 漢語中介語語料庫系統簡介[EB/OL].

[4] 張寶林,崔希亮,任杰. 關于“HSK動態作文語料庫”的建設構想[DB/OL].

[5] 朱智賢. 中國兒童青少年心理發展與教育 [M]. 北京: 中國卓越出版公司, 1990.

[6] 趙守輝,劉永兵.新加坡華族學前兒童口語語料庫的生成[J].世界漢語教學,2007,(2):98-105+4.

[7] 溫志軍,胡瑰玲.開發利用世界上最大的兒童語料庫——CHILDES[J].外語教學與研究,2001,(5):374-377.

[8] 李宇明.兒童語言的發展[M].武漢:華中師范大學出版社,1998.

[9] 何克抗.兒童思維發展新論和語文教育的深化改革——對皮亞杰“兒童認知發展階段論”的質疑[J].教育研究,2004,(1):55-60.

[10] 中科院計算技術研究所.計算所漢語詞法分析系統ICTCLAS[DB/OL].

[11] 胡明揚.現代漢語通用語料庫的建庫原則和設想[J].語言文字應用,1992,(3):49-56.

[12] 楊惠中.語料庫語言學導論[M].上海:上海外語教育出版社,2002:167.

主站蜘蛛池模板: 日本道中文字幕久久一区| 日本欧美成人免费| 国产尤物jk自慰制服喷水| 午夜福利在线观看成人| 国产91高跟丝袜| 久久一色本道亚洲| 国产aⅴ无码专区亚洲av综合网| 国产成人AV综合久久| 99精品视频在线观看免费播放| 亚洲精品天堂在线观看| AV不卡在线永久免费观看| 国产精品女熟高潮视频| 色男人的天堂久久综合| 天天做天天爱天天爽综合区| 国产人人射| 国产福利观看| 狠狠操夜夜爽| 天堂成人在线视频| 国产导航在线| 欧美亚洲另类在线观看| 久久毛片网| 国产免费怡红院视频| 国产AV毛片| 青青久久91| 日本高清免费不卡视频| 在线欧美a| 欧美一区二区精品久久久| 亚洲欧美自拍中文| 亚洲综合色婷婷| 亚洲AV色香蕉一区二区| 婷婷色在线视频| 最新国产午夜精品视频成人| 欧美日韩中文国产va另类| 亚洲最新地址| 国产无码在线调教| 国产香蕉在线视频| 亚洲欧美成人综合| 国产精品网址你懂的| 日韩乱码免费一区二区三区| 成人日韩精品| 国产亚洲精品无码专| 狠狠v日韩v欧美v| 99国产在线视频| 国产精品视频导航| 色综合久久88| 国产小视频免费观看| 亚洲色图另类| 国产成人AV大片大片在线播放 | 99这里精品| 欧美日韩免费| 中文国产成人久久精品小说| 国产黄在线观看| 久久久久久久97| 免费一级毛片在线观看| 伊人福利视频| 五月激情综合网| 国产微拍一区| 婷婷色一区二区三区| 亚洲中文字幕日产无码2021| 久久精品国产免费观看频道| 最新国产高清在线| 美女免费黄网站| 国产香蕉国产精品偷在线观看| 国产精品区网红主播在线观看| 青青操视频在线| 美女毛片在线| 就去色综合| 成人va亚洲va欧美天堂| 91精品专区| 欧美日本在线观看| 在线国产资源| 中美日韩在线网免费毛片视频| 全午夜免费一级毛片| 亚洲欧洲综合| 色妺妺在线视频喷水| 成人午夜天| 国产男人天堂| 强奷白丝美女在线观看| 国产成人高清在线精品| 激情综合网址| 久久久久九九精品影院| 久久一色本道亚洲|