999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于人工智能的分級(jí)閱讀庫(kù)建設(shè)

2020-10-23 01:24:20
課外語文·上 2020年28期
關(guān)鍵詞:句法詞匯文本

李 妍

(浙江外國(guó)語學(xué)院,浙江 杭州 310023)

針對(duì)以漢語為母語的小學(xué)生,當(dāng)下主流的漢語分級(jí)讀物主要有以下三類:一是借用分級(jí)的概念,將世界名著換個(gè)包裝。其實(shí)只是根據(jù)文章長(zhǎng)短大概歸類,或者是將過長(zhǎng)的原著進(jìn)行了改寫或縮寫,并沒有具體的分級(jí)依據(jù),這種分級(jí)做法是最簡(jiǎn)單隨意的一種。二是將一些知名作家的作品用分級(jí)的概念重新包裝。篇幅短的放到低年級(jí),篇幅長(zhǎng)、難度相對(duì)深一點(diǎn)的放到高年級(jí)。三是由名人編選的分級(jí)讀物。編選者的學(xué)術(shù)水平?jīng)Q定了這類讀物選編質(zhì)量還是不錯(cuò)的,作為課外讀物也是比較理想的選擇,但是作為分級(jí)讀物來說,其分級(jí)方法依據(jù)個(gè)人的學(xué)術(shù)眼光和經(jīng)驗(yàn),比較片面,有些篇目的分級(jí)也不甚合理。

為了彌補(bǔ)此項(xiàng)研究的缺陷,建立面向小學(xué)生漢語讀本的人工智能分級(jí)體系,閱讀分級(jí),應(yīng)包含三方面的內(nèi)容,即“檢定—內(nèi)容—反饋”。“檢定”,即以數(shù)據(jù)庫(kù)為平臺(tái),參照部編版教材各年級(jí)要求和考試內(nèi)容,從聽轉(zhuǎn)寫和文字閱讀兩方面對(duì)于該年級(jí)學(xué)生的閱讀能力進(jìn)行檢測(cè)。目前市面上未有被廣泛使用且準(zhǔn)確有效的檢測(cè)手段,多通過數(shù)個(gè)閱讀題目進(jìn)行檢測(cè)。但兩到三題的閱讀題量有限,無法準(zhǔn)確反映情況;且由于未對(duì)閱讀包含的知識(shí)點(diǎn)進(jìn)行精準(zhǔn)的切分,因而只能給出針對(duì)“詞匯量積累”“信息提取”“文本理解”等區(qū)塊的評(píng)級(jí),粗糙且參考價(jià)值有限;一些體系并不按照年級(jí)劃分,而是將所有水平劃為1000~2000個(gè)級(jí)別,對(duì)于小學(xué)階段各個(gè)年級(jí)的參考性不夠。

為了能準(zhǔn)確反映各年級(jí)小學(xué)生情況,我們?cè)O(shè)計(jì)如下測(cè)評(píng)體系:

一、將每個(gè)年級(jí)分成三檔,從一年級(jí)至六年級(jí),一共十八檔。

二、對(duì)閱讀所需知識(shí)點(diǎn)進(jìn)行切分。語文與其他學(xué)科不同的是知識(shí)點(diǎn)難以有效按年段區(qū)分,其檢測(cè)難度也在于此。參照詞匯學(xué)、語用學(xué)等學(xué)科角度,將具體對(duì)象分為四個(gè),即聽、說、讀、寫四大角度,每個(gè)角度有若干個(gè)對(duì)應(yīng)知識(shí)點(diǎn)。

從聽的角度來說,我們將采用聽寫的形式,根據(jù)每個(gè)層級(jí)不同的學(xué)生具體情況,以小學(xué)一至六年級(jí)課本篇目及適合小學(xué)階段閱讀的名家優(yōu)秀文章為基礎(chǔ),形成一套涵蓋小學(xué)一至六年級(jí)不同層級(jí)學(xué)生的聽力題庫(kù)。聽力題庫(kù)也根據(jù)具體情況由易至難、從一年級(jí)至六年級(jí)劃分六個(gè)等級(jí),每一等級(jí)中也由易至難劃分成三檔,符合每一檔的學(xué)生基本情況。當(dāng)學(xué)生進(jìn)行聽力檢測(cè)時(shí),系統(tǒng)將根據(jù)學(xué)生所在等級(jí),從題庫(kù)中提取適合該等級(jí)的閱讀篇目,在系統(tǒng)朗讀的過程中,學(xué)生須集中注意力捋順文章思路,摸清文章脈絡(luò),了解文章具體內(nèi)容,從而回答系統(tǒng)根據(jù)文章具體內(nèi)容所提出的有關(guān)閱讀寫作的四個(gè)問題。

從說的角度來說,在測(cè)試中測(cè)試系統(tǒng)會(huì)將圖片從簡(jiǎn)單到復(fù)雜,從基礎(chǔ)到有思想深度分成六個(gè)等級(jí)十八個(gè)層級(jí),建立圖片題庫(kù)。系統(tǒng)將根據(jù)學(xué)生所在等級(jí)出示該等級(jí)隨機(jī)圖片,學(xué)生須對(duì)此圖片進(jìn)行看圖說話,通過系統(tǒng)自動(dòng)將語音轉(zhuǎn)換成文本,繼而通過對(duì)文本的檢閱進(jìn)行等級(jí)判定。學(xué)生們須對(duì)圖片所表現(xiàn)的人物、環(huán)境、情節(jié),進(jìn)行口頭表達(dá),自擬題目,通過對(duì)時(shí)間、人物、情節(jié)的具體發(fā)散性描述,由系統(tǒng)轉(zhuǎn)換成文本后進(jìn)行語句通順程度、詞匯運(yùn)用程度以及出現(xiàn)關(guān)鍵詞比例對(duì)文章進(jìn)行檢定。每一等級(jí)學(xué)生對(duì)同一張圖片所描述出的文本檢定要求不同,通過系統(tǒng)對(duì)文本的檢測(cè),將文本劃入符合要求的層級(jí)中,即為該學(xué)生在閱讀寫作“說”這一方面的能力等級(jí)。

從寫的角度來說,測(cè)評(píng)系統(tǒng)將采用看圖寫作方式,通過圖片題庫(kù)根據(jù)學(xué)生所在等級(jí)隨機(jī)選擇符合該等級(jí)的圖片,學(xué)生須對(duì)圖片進(jìn)行描述,從而完成一篇完整的文章,再通過拍下自己所寫的文章,上傳到測(cè)評(píng)系統(tǒng)中,系統(tǒng)會(huì)將圖片轉(zhuǎn)換為文本,通過對(duì)文本的檢閱,進(jìn)行對(duì)學(xué)生寫作能力等級(jí)的判定。學(xué)生所提交的文章的好壞最基礎(chǔ)的在于是否具有圖片中所表現(xiàn)出的關(guān)鍵詞,進(jìn)一步通過對(duì)文章字、詞、句的運(yùn)用是否恰當(dāng),文章結(jié)構(gòu)布局是否合理、文章層次是否清楚、文章中心是否突出、語言是否精練完整、思想是否有深度等等進(jìn)行具體判定,通過對(duì)文章整體的檢閱,從而劃分該學(xué)生在“寫”方面的層次。

從閱讀的角度來說:1.詞匯庫(kù)和句法庫(kù)建設(shè);2.中文文本匯集與自然語言詞匯切分算法應(yīng)用;3.基于詞法和句法的分級(jí)體系;4.針對(duì)讀者的測(cè)試庫(kù)研究和閱讀分級(jí)目錄研究。

為探清上述對(duì)象,本文擬由4大板塊建構(gòu)框架,對(duì)此體系的可行性進(jìn)行討論。

一、詞法判別

一個(gè)詞匯在閱讀當(dāng)中出現(xiàn)的頻率越高,即越常見,讀者就會(huì)越熟悉,相應(yīng)閱讀起來難度就會(huì)越低;相反,讀者在閱讀中遇到的詞匯越不常見,閱讀難度就越高。這是本讀本分級(jí)使用詞匯頻率作為衡量語義難度的基本理念。然而本體系使用的詞匯頻率并不簡(jiǎn)單指某一個(gè)詞出現(xiàn)在某一篇文章中的頻率,而是在參考《漢語分級(jí)詞匯表》的基礎(chǔ)上,結(jié)合大型語料庫(kù)計(jì)算得出的頻率。

具體計(jì)算方式為:在語料庫(kù)中,計(jì)算出某一個(gè)詞匯在每X百萬詞出現(xiàn)次數(shù)的對(duì)數(shù)(log),并以此對(duì)數(shù)作為詞匯頻率。因此,文本中的詞匯頻率越高,本等級(jí)越低,從而越簡(jiǎn)單;詞匯頻率越低,本等級(jí)越高,即文本越難。

在算法檢索的基礎(chǔ)上,輔助漢語言文學(xué)專業(yè)人員進(jìn)行人工過濾,避免詞匯切分方面的錯(cuò)誤。

二、句法判別

自然語言研究表明句子越長(zhǎng),難度越高。因?yàn)闈h語長(zhǎng)句中定語、狀語和補(bǔ)語等修飾成分較多,讀者不僅要接收更多信息,有些長(zhǎng)句還存在雙主語、多謂語和多賓語的情況,這樣還要處理更復(fù)雜的句子關(guān)系,同時(shí)也要擁有更好的短時(shí)間記憶能力。因此,句子越長(zhǎng),等級(jí)越高;相反,句子越短,等級(jí)越低。本體系在計(jì)算一篇文章的句法難度時(shí),會(huì)先將文章按自然句切分,然后進(jìn)行語句平均長(zhǎng)度統(tǒng)計(jì)。由于漢語本身的標(biāo)點(diǎn)符號(hào)特性,依據(jù)逗號(hào)、上引號(hào)、冒號(hào)等第二等級(jí)標(biāo)點(diǎn)進(jìn)行子句長(zhǎng)度統(tǒng)計(jì)。通過代數(shù)公式將子句與長(zhǎng)句比率統(tǒng)計(jì),得出句法等級(jí)。

句法主要依據(jù):1.語句平均長(zhǎng)度統(tǒng)計(jì);2.基于標(biāo)點(diǎn)的子句長(zhǎng)度統(tǒng)計(jì);3.子句與長(zhǎng)句比率統(tǒng)計(jì)。

三、語料分級(jí)

以中外經(jīng)典名著、童話寓言等,如四大名著經(jīng)典章節(jié),《昆蟲記》《尼爾斯騎鵝旅行記》《海底兩萬里》等翻譯外文名著,老舍、林清玄等著名作家短篇小說、散文,《中國(guó)寓言故事》《希臘神話故事》,安徒生、格林等神話寓言作為語料,進(jìn)行如下操作:

(一)對(duì)待分級(jí)原始數(shù)據(jù)進(jìn)行清洗及預(yù)處理

數(shù)據(jù)清洗,即在文本中找到我們感興趣的東西,把不感興趣的、視為噪音的內(nèi)容清洗刪除,包括對(duì)于原始文本提取標(biāo)題、摘要、正文等信息,對(duì)于爬取的網(wǎng)頁內(nèi)容,去除廣告、標(biāo)簽、HTML、JS 等代碼和注釋等。常見的數(shù)據(jù)清洗方式有:人工去重、對(duì)齊、刪除和標(biāo)注等,或者規(guī)則提取內(nèi)容、正則表達(dá)式匹配、根據(jù)詞性和命名實(shí)體提取、編寫腳本或者代碼批處理等。

(二)特征工程于分級(jí)算法模型訓(xùn)練

做完文本預(yù)處理之后,接下來需要把分詞之后的字和詞語表示成計(jì)算機(jī)能夠計(jì)算的類型。兩種常用的表示模型分別是詞袋模型和詞向量。詞袋模型(Bag of Word,BOW),即不考慮詞語原本在句子中的順序,直接將每一個(gè)詞語或者符號(hào)統(tǒng)一放置在一個(gè)集合,然后按照計(jì)數(shù)的方式對(duì)出現(xiàn)的次數(shù)進(jìn)行統(tǒng)計(jì)。詞向量是將字、詞語轉(zhuǎn)換成向量矩陣的計(jì)算模型。目前為止最常用的詞表示方法是One-hot,這種方法把每個(gè)詞表示為一個(gè)很長(zhǎng)的向量。這個(gè)向量的維度是詞表大小,其中絕大多數(shù)元素為0,只有一個(gè)維度的值為1,這個(gè)維度就代表了當(dāng)前的詞。在特征向量選擇好之后,接下來進(jìn)行訓(xùn)練模型,采用有監(jiān)督和無監(jiān)督等機(jī)器學(xué)習(xí)模型,如 KNN、SVM、Naive Bayes、決策樹、GBDT、K-means等模型;深度學(xué)習(xí)模型比如CNN、RNN、LSTM、Seq2Seq、FastText、TextCNN等。

(三)基于標(biāo)準(zhǔn)測(cè)試樣本結(jié)合人工分級(jí)對(duì)分級(jí)算法進(jìn)行優(yōu)化

評(píng)價(jià)指標(biāo)主要有錯(cuò)誤率、精度、準(zhǔn)確率、精確度、召回率等。以錯(cuò)誤率為例,主要衡量分類錯(cuò)誤的樣本數(shù)占樣本總數(shù)的比例。對(duì)樣例集D,分類錯(cuò)誤率計(jì)算公式如下:

隨著時(shí)間和變化,可能需要對(duì)模型做一定的重構(gòu),包括根據(jù)實(shí)際效果對(duì)前面的步驟進(jìn)行調(diào)整,重新訓(xùn)練模型進(jìn)行上線。

四、認(rèn)知分級(jí)

按照兒童的認(rèn)知體系,在文本難度分類的基礎(chǔ)上,按照認(rèn)知語言學(xué)的邏輯進(jìn)行認(rèn)知分級(jí),主要依照“自我-親人—學(xué)校—國(guó)家—人類社會(huì)”的五等級(jí)進(jìn)行細(xì)分。如《手推車大作戰(zhàn)》,在依據(jù)詞頻、句法分類后,發(fā)現(xiàn)其文本難度并不高;但由于內(nèi)容涉及戰(zhàn)爭(zhēng)、談判、條約等“人類社會(huì)”等級(jí)的內(nèi)容,因而在邏輯認(rèn)知分級(jí)上層級(jí)最高,影響整本書的閱讀等級(jí)分級(jí)。

通過以上研究,達(dá)到:1.依據(jù)現(xiàn)當(dāng)代語言語料庫(kù),計(jì)算詞頻并建立詞法、句法數(shù)據(jù)庫(kù);2.從詞匯、句式、思想等角度對(duì)閱讀文本進(jìn)行詞匯窮盡切分和等級(jí)分類;3.構(gòu)建閱讀分級(jí)體系并依據(jù)讀者反饋建立閱讀目標(biāo)和計(jì)劃;4.匹配讀者閱讀目標(biāo)與文本等級(jí),真正實(shí)現(xiàn)有效閱讀,并最終建立面向小學(xué)生漢語讀本的人工智能分級(jí)。

猜你喜歡
句法詞匯文本
句法與句意(外一篇)
中華詩詞(2021年3期)2021-12-31 08:07:22
述謂結(jié)構(gòu)與英語句法配置
本刊可直接用縮寫的常用詞匯
一些常用詞匯可直接用縮寫
在808DA上文本顯示的改善
本刊可直接用縮寫的常用詞匯
基于doc2vec和TF-IDF的相似文本識(shí)別
電子制作(2018年18期)2018-11-14 01:48:06
句法二題
中華詩詞(2018年3期)2018-08-01 06:40:40
詩詞聯(lián)句句法梳理
中華詩詞(2018年11期)2018-03-26 06:41:32
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
主站蜘蛛池模板: 中文字幕欧美日韩| 亚洲永久色| 亚洲天堂777| a天堂视频| 黄色成年视频| 亚洲成a人片7777| 日韩黄色在线| 人妻中文字幕无码久久一区| 国产精品免费露脸视频| 亚洲国产中文综合专区在| 国产区在线观看视频| 国产精品久久久久久久伊一| 激情六月丁香婷婷四房播| 欧美啪啪精品| 日韩视频福利| 美女毛片在线| 成人噜噜噜视频在线观看| 十八禁美女裸体网站| 午夜视频在线观看区二区| 亚洲色欲色欲www网| 国产女人在线观看| 国产精品网曝门免费视频| 夜夜拍夜夜爽| 中文字幕无码中文字幕有码在线| 国产福利免费视频| 国产97色在线| 91蜜芽尤物福利在线观看| 全部免费毛片免费播放 | 在线观看无码a∨| 国产激情无码一区二区APP| 热久久综合这里只有精品电影| 国产一区免费在线观看| 91午夜福利在线观看精品| 成年人免费国产视频| 精品一区二区三区视频免费观看| 91系列在线观看| 亚洲人成网站日本片| 亚洲乱亚洲乱妇24p| 国产美女无遮挡免费视频网站| 亚洲欧美成人综合| 亚洲毛片网站| 91在线播放国产| 亚洲丝袜第一页| 黄色网页在线播放| 免费在线不卡视频| 亚洲国产午夜精华无码福利| 久久久久久久蜜桃| 成年人国产视频| 久久久久国产一级毛片高清板| 欧美午夜视频在线| 国产在线精彩视频二区| AV无码国产在线看岛国岛| 毛片a级毛片免费观看免下载| 亚洲综合第一页| 精品国产毛片| 久久a级片| 国产乱码精品一区二区三区中文 | 亚洲区欧美区| 91久久夜色精品国产网站| 国产白浆在线| 精品国产91爱| 五月天在线网站| 亚洲福利网址| 亚洲AV一二三区无码AV蜜桃| 亚洲av无码成人专区| 永久毛片在线播| 青青草原国产免费av观看| 毛片视频网址| 国产91成人| 欧美天天干| 久久女人网| 久久永久免费人妻精品| 天堂在线视频精品| 中文字幕久久亚洲一区| 婷婷伊人久久| 在线无码九区| 国产日本欧美在线观看| 亚洲人成网站在线观看播放不卡| 国产成人免费高清AⅤ| 国产成人高清精品免费| 91网在线| 91免费在线看|