999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于動態(tài)參考書目推薦的英語創(chuàng)意寫作輔助教學(xué)系統(tǒng)的設(shè)計與實(shí)現(xiàn)

2019-04-01 12:43:52王夢雪賈清源
計算機(jī)應(yīng)用與軟件 2019年2期
關(guān)鍵詞:單詞文本內(nèi)容

王夢雪 李 俊 賈清源 費(fèi) 騰

(武漢大學(xué)資源與環(huán)境科學(xué)學(xué)院 湖北 武漢 430079)

0 引 言

創(chuàng)意寫作是在英美高校非常普遍的一門課程,它以一種具有想象力的、獨(dú)特的又賦有詩意的方式表達(dá)作者的思想情感。近年來,國內(nèi)已有幾所大學(xué)開設(shè)創(chuàng)意寫作課程。在創(chuàng)意寫作學(xué)習(xí)過程中,學(xué)生需要閱讀大量優(yōu)秀的英文作品,因此,合適的參考書目尤為重要。如何滿足不同用戶的需求,在海量參考文獻(xiàn)中為每個用戶提供精準(zhǔn)的、個性化的參考書目,并通過在線推薦系統(tǒng)進(jìn)行實(shí)時推薦,是本文研究的目的所在。

推薦系統(tǒng)是能夠為用戶提供所需產(chǎn)品信息建議的軟件工具和技術(shù)手段[1]。目前各平臺采用的推薦系統(tǒng)算法主要是基于內(nèi)容的推薦算法和基于協(xié)同過濾的推薦算法[2]。基于內(nèi)容的推薦算法的主要思想是為用戶推薦與他們所喜歡的產(chǎn)品內(nèi)容相似度最高的產(chǎn)品[3],對于文本相似性,可以通過提取文本特征來度量,主流的方法是利用TF-IDF詞頻統(tǒng)計算法提取詞頻特征[4]。除此之外,本文提出用易讀性作為文本特征的另一個指標(biāo),其大小用Flesch易讀性公式[5]衡量,Microsoft Word就是應(yīng)用Flesch公式來計算文本易讀性的[6]。基于協(xié)同過濾的推薦算法是使用最廣泛的推薦技術(shù),其中基于物品的協(xié)同過濾被認(rèn)為是相對穩(wěn)定的算法[7-8]。通過計算待推薦產(chǎn)品與用戶已評分過的產(chǎn)品間的相關(guān)性對產(chǎn)品進(jìn)行評分預(yù)測,從而將預(yù)測評分高的產(chǎn)品加入推薦列表。然而,無論是基于內(nèi)容的推薦算法還是協(xié)同過濾,都有自身的優(yōu)點(diǎn)和缺陷,針對這一點(diǎn),許多學(xué)者提出同時使用這兩種方法以解決冷啟動問題,提高精度[9-10]。

本文結(jié)合基于內(nèi)容和基于產(chǎn)品的協(xié)同過濾推薦算法設(shè)計并實(shí)現(xiàn)了一個基于動態(tài)參考書目推薦的英語創(chuàng)意寫作輔助教學(xué)系統(tǒng)。首先利用基于內(nèi)容的推薦實(shí)時向用戶推送相似文體和文風(fēng)的參考文章,并通過多用戶協(xié)同過濾的推薦,不斷提高系統(tǒng)推薦的準(zhǔn)確率。該系統(tǒng)不僅能應(yīng)用于在線創(chuàng)意寫作平臺,還能應(yīng)用于新聞、微博、商品信息、旅游文記、論文期刊等其他個性化文檔推薦的項目中。

1 整體框架

圖1展示了構(gòu)建英語創(chuàng)意寫作動態(tài)參考書目推薦在線系統(tǒng)的研究框架。該系統(tǒng)分三個模塊進(jìn)行構(gòu)建:底層數(shù)據(jù)庫模塊、中層推薦算法模塊和頂層的用戶模塊。數(shù)據(jù)庫模塊存儲有文本特征數(shù)據(jù)和用戶信息數(shù)據(jù);推薦算法模塊進(jìn)行基于內(nèi)容和基于協(xié)同過濾的混合推薦;用戶模塊用于前端交互,主要涉及賬號密碼、用戶文章、推薦文章等的輸入或輸出和其他交互操作。

圖1 創(chuàng)意寫作動態(tài)參考書目推薦系統(tǒng)的研究框架

該推薦系統(tǒng)的運(yùn)行流程如圖2所示。在系統(tǒng)投入使用之前要對文庫文章進(jìn)行預(yù)處理,分析所有文章的詞頻特征和易讀性特征,將特征值存儲在底層數(shù)據(jù)庫中。推薦過程分為兩部分:一是基于文本的內(nèi)容推薦,用戶輸入文章片段后,在線分析該文本的詞頻和易讀性特征并與文庫中文章的特征值比較,計算二者的相似度并將結(jié)果排序,輸出相似度高的文章列表;二是基于物品的協(xié)同過濾推薦,用戶查看推薦的文章后,構(gòu)成瀏覽記錄,對用戶的瀏覽記錄進(jìn)行分析處理,計算文章之間的支持度和置信度,基于此,判斷某些文章的關(guān)聯(lián)度并對關(guān)聯(lián)度進(jìn)行排序,輸出與用戶瀏覽記錄關(guān)聯(lián)度高的文章列表,作為對基于文本內(nèi)容推薦的補(bǔ)充。

圖2 創(chuàng)意寫作動態(tài)參考書目推薦系統(tǒng)的運(yùn)行流程

2 基于內(nèi)容的推薦

基于內(nèi)容的推薦需要計算用戶內(nèi)容和產(chǎn)品內(nèi)容之間的相似度,在大多數(shù)情況下需要對描述內(nèi)容的信息進(jìn)行分析,其中對用戶興趣的描述來自用戶自己提供的信息[11]。本文在基于內(nèi)容的推薦中,從特征詞頻相似性方面判斷用戶提供的片段與文庫文章是否相似,并輔佐以易讀性差異計算進(jìn)一步衡量相似度。本文先用TF-IDF算法計算輸入片段的詞頻特征,然后計算輸入片段和文庫文章排名較高的前100個詞的TF-IDF值的余弦相似度,再計算輸入片段的易讀性,將它與文庫文章的易讀性進(jìn)行差值計算,最后對二者的計算結(jié)果加權(quán),得到最終的結(jié)果。

2.1 相似度計算

根據(jù)空間向量模型,一個文件空間中的文件可以看作一組特征值的集合,統(tǒng)計每個特征詞的出現(xiàn)頻率。將詞頻信息表示成向量模式,該向量就是文本的特征向量,進(jìn)而可以利用向量間的余弦相似度計算或者Jaccard公式得到文本相似度。

選取特征詞最常用的方法是TF-IDF算法。TF-IDF通過統(tǒng)計文件中每個單詞在該文件的出現(xiàn)頻率和在所有文件中的出現(xiàn)頻率,給該文件中每個單詞賦權(quán)值,TF指詞頻,IDF指逆向文件頻率[12]。TF-IDF衡量的是給定單詞與一篇特定文件的相關(guān)性,若一個單詞的TF-IDF值高,那么該單詞在一個特定文件中出現(xiàn)頻率高而在該文件集中出現(xiàn)頻率相對低,說明該單詞具有很好的類別區(qū)分能力[13],將它們作為標(biāo)識該文件的特征詞。這樣做的目的是找到衡量文章內(nèi)容相似性的可靠依據(jù),一篇英語文章中無意義的介詞出現(xiàn)頻率一般會比具有實(shí)際含義的動詞或名詞高。如果單純按一篇文章的最高詞頻計算,那么所有文章的特征詞都會充斥著大量的介詞、冠詞、連詞,甚至是無意義的名詞和動詞。而TF-IDF算法的作用則能降低停止詞的權(quán)值,提高實(shí)義詞的權(quán)值,篩選出一篇文章中獨(dú)有且出現(xiàn)次數(shù)多的單詞,提高相似性計算的準(zhǔn)確率。

TF-IDF算法計算過程如下:設(shè)一個文件集中有N個文本文件,fij為標(biāo)識為i的單詞在文件j中的出現(xiàn)頻次,那么詞頻TFij定義如下:

(1)

TFij是fij標(biāo)準(zhǔn)化得到的結(jié)果,標(biāo)準(zhǔn)化過程是fij除以一個文本文件中所有單詞的最大頻率值。所以,文件j中出現(xiàn)次數(shù)最多的單詞的TF值為1,其他單詞的TF值都小于1。

設(shè)單詞i在ni個文件中出現(xiàn)過,那么IDFi定義如下:

(2)

若一個文件j有m個不同的項,那么該文件的內(nèi)容可以表示為m維向量:

dj=(w1j,w2j,…,wmj)

(3)

式中:

(4)

dj即為文件的特征向量,用這個值來計算文件之間的相似度。在基于內(nèi)容的推薦系統(tǒng)中,用ContentBasedProfile(c)表示用戶特征,用Content(s)表示產(chǎn)品特征[14],有如下所示計算該相似性的函數(shù):

u(c,s)=score(ContentBasedProfile(c),Content(s))

(5)

其中score的計算方式有很多,本文使用夾角余弦相似法,因為該方法計算簡便,且能夠得到較為精確的結(jié)果。該方法是用向量空間中兩個向量夾角的余弦值衡量兩個對象之間的相似度,計算方法如下:

(6)

兩個特征向量的夾角余弦值越大,向量之間的夾角就越小,說明兩個文本文件越相似。

本文先統(tǒng)計文章的單詞詞頻,取頻次最高的若干個單詞,然后用TF-IDF算法從中篩選出100個能標(biāo)識該文章的特征單詞。將這些單詞的TF-IDF值作為文章的特征向量,計算出文庫文章和輸入語句特征向量的夾角余弦值,得到的結(jié)果即為二者的詞頻相似度,作為評價文檔相似性的一個指標(biāo)。

2.2 易讀性差異計算

易讀性用來衡量文章難度,本文將它作為另一個文本特征,使用Flesch公式計算文本的易讀性。該公式用單詞音節(jié)數(shù)衡量單詞難度,用文本的平均句長衡量句子的難度。

Flesch易讀性公式形式如下:

ReadingEase(RE)=206.835-0.846wl-1.015sl

(7)

式中:wl為每100個單詞的平均音節(jié)數(shù);sl為句子的平均單詞數(shù);RE代表易讀性指數(shù),范圍為0~100。RE值越大,文本越容易,RE值在0~30被認(rèn)為很難,是美國大學(xué)生水平,60~70被定義為標(biāo)準(zhǔn)難度,相當(dāng)于初中生水平。

本文對文庫文章和輸入語句的單詞平均音節(jié)數(shù)和句子平均單詞數(shù)進(jìn)行統(tǒng)計,用Flesch公式計算出用戶輸入和文庫文章的易讀性差值,作為評價文檔相似性的另一個指標(biāo)。

2.3 基于文本內(nèi)容的推薦

通過對文本信息的分析計算,得到詞頻相似度和文章易讀性兩個指標(biāo)。本文在決定最終的計算公式時,采用熵權(quán)法[15]確定這兩個指標(biāo)的權(quán)重系數(shù)。

設(shè)詞頻特征相似度結(jié)果的權(quán)重系數(shù)為a,易讀性差異計算結(jié)果的權(quán)重系數(shù)為b,可得到用戶輸入片段和文庫文章的相似度的計算公式:

sim(c,s)=a×u(c,s)+b×|REc-REs|=

(8)

式中:sim(c,s)表示用戶輸入片段與文庫文章的相似度,將相似度結(jié)果從大到小排序,優(yōu)先推薦相似度高的文章。

3 基于協(xié)同過濾的推薦

在基于物品的協(xié)同過濾推薦中,分析每次推薦后產(chǎn)生的用戶喜好數(shù)據(jù),如果多個用戶同時看了某些文章,可以判斷這些文章存在著隱含的聯(lián)系。據(jù)此將與用戶閱讀過的文章關(guān)聯(lián)性強(qiáng)的文章推薦給該用戶,幫助其當(dāng)前的寫作,作為對基于內(nèi)容推薦結(jié)果的補(bǔ)充。基于物品的協(xié)同過濾的理論之一是數(shù)據(jù)挖掘中的關(guān)聯(lián)規(guī)則,用支持度(support)和置信度(confidence)來反映兩個物品之間的關(guān)聯(lián)度,支持度表示兩個物品同時出現(xiàn)的概率。

本文采用隱式評分[16],即不需要用戶顯式輸入評分?jǐn)?shù)值,僅通過用戶在瀏覽推薦結(jié)果片段后是否點(diǎn)擊“閱讀全文”來判斷用戶是否對該文章感興趣。若判斷為是,則將該文章加入到該用戶的閱讀列表,文庫列表中的每一篇文章和其他文章的關(guān)聯(lián)性都要在閱讀列表中進(jìn)行統(tǒng)計計算。對于任意兩篇屬于文庫列表的文章A和B,它們之間的支持度為:

(9)

A對B的置信度表示如果用戶閱讀過A,他也會喜歡B的概率,公式為:

(10)

給支持度和置信度設(shè)置閾值,若A對B的支持度和A對B的置信度分別大于這兩個閾值,則判斷B是A的強(qiáng)相關(guān)性文章,將B添加到A的相關(guān)文章列表中。遍歷文庫中的所有文章,為每篇文章都建立對應(yīng)的相關(guān)文章列表。若用戶閱讀文章A,則從列表中篩選出用戶沒有讀過的文章B,按照關(guān)聯(lián)度從大到小排序,將排序結(jié)果推送給用戶。

4 測試分析及改進(jìn)

本文設(shè)計了一種個性化在線推薦系統(tǒng)平臺,系統(tǒng)界面如圖3所示。用戶在左側(cè)文本框輸入寫作片段,系統(tǒng)根據(jù)目前的內(nèi)容在左下角實(shí)時呈現(xiàn)5篇推薦書目的標(biāo)題,當(dāng)輸入文字較多后推薦列表會趨于穩(wěn)定。用戶點(diǎn)擊后以片段方式呈現(xiàn)在右側(cè)文本框供用戶試閱,當(dāng)用戶對此文章感興趣可以點(diǎn)擊“full text”閱讀全文。此時,系統(tǒng)會在右下角會列出與該文章相關(guān)度最高的5篇文章,并將瀏覽行為記錄下來,用于計算更新各文章的相關(guān)文章列表。

圖3 創(chuàng)意寫作動態(tài)參考書目推薦系統(tǒng)界面

本文從各網(wǎng)站采集了580短篇英文小說作為實(shí)驗測試數(shù)據(jù),測試平臺中設(shè)計了評分系統(tǒng),選擇100名學(xué)生作為用戶分別從內(nèi)容和主題、表達(dá)和情感、用詞和句長三個方面進(jìn)行評價,每個方面評分為1~5分。用戶綜合推薦的5篇文章對結(jié)果進(jìn)行評分,對評分結(jié)果求平均值并進(jìn)行歸一化,得到用戶對推薦結(jié)果的滿意程度,結(jié)果如表1所示。

表1 用戶滿意程度及評分標(biāo)準(zhǔn)

由用戶的反饋可以看出,本系統(tǒng)能夠較好地滿足用戶的需求。雖然在情感表達(dá)和主題內(nèi)容上稍有欠缺,但是在詞匯和句子難度方面系統(tǒng)能提供較為精準(zhǔn)的推薦。

本系統(tǒng)與已有的教學(xué)資源推薦系統(tǒng)相比[17-18],優(yōu)勢在于使用基于內(nèi)容和基于物品的混合式推薦系統(tǒng),發(fā)揮了兩種推薦方法各自的優(yōu)點(diǎn)。在基于內(nèi)容的推薦中,分別從文章相似度和易讀性兩個角度出發(fā)進(jìn)行相似計算,從而提高了推薦的準(zhǔn)確性。

5 結(jié) 語

本文提出了一個基于動態(tài)參考書目推薦的英語創(chuàng)意寫作輔助教學(xué)系統(tǒng)。該系統(tǒng)能根據(jù)用戶在線輸入的英文寫作內(nèi)容,提取多維寫作風(fēng)格特征,進(jìn)行實(shí)時動態(tài)相關(guān)參考讀物推薦。此外,作為一個多用戶系統(tǒng),還基于協(xié)同過濾算法,將其他用戶的接受推薦行為也納入推薦考慮范圍,利用用戶貢獻(xiàn)內(nèi)容(UGC)對系統(tǒng)的貢獻(xiàn),對其基于寫作風(fēng)格的推薦進(jìn)行補(bǔ)充和修正。該系統(tǒng)在使用中,反應(yīng)迅速、推薦準(zhǔn)確,深受測試用戶的好評。可以作為創(chuàng)意寫作課程教學(xué)與課后輔導(dǎo)信息化的有利工具。

在之后的改進(jìn)中可以考慮更多方面,如利用自然語言處理進(jìn)行情感分析,通過文章主題分類提高推薦效果,使推薦系統(tǒng)更符合用戶的預(yù)期。

猜你喜歡
單詞文本內(nèi)容
內(nèi)容回顧溫故知新
單詞連一連
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
看圖填單詞
主要內(nèi)容
臺聲(2016年2期)2016-09-16 01:06:53
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
如何快速走進(jìn)文本
語文知識(2014年1期)2014-02-28 21:59:13
最難的單詞
單詞拾趣
海外英語(2006年8期)2006-09-28 08:49:00
主站蜘蛛池模板: 狼友视频国产精品首页| 国产精品私拍在线爆乳| 国产欧美日韩精品第二区| 国产成人亚洲精品色欲AV| 久久久久久久久亚洲精品| 国产欧美视频在线| 亚洲人成人无码www| 国产精品偷伦视频免费观看国产| 99这里只有精品免费视频| 性喷潮久久久久久久久| 黄色网址手机国内免费在线观看| 综合天天色| 亚洲成av人无码综合在线观看| 特级做a爰片毛片免费69| 999精品视频在线| 日本久久网站| 香蕉蕉亚亚洲aav综合| аⅴ资源中文在线天堂| 老司机久久99久久精品播放| 亚洲无码不卡网| 亚洲最大看欧美片网站地址| 男女性午夜福利网站| 国产十八禁在线观看免费| 久久香蕉国产线看观看亚洲片| 日本一区二区三区精品国产| 久久香蕉欧美精品| 久久亚洲天堂| 波多野结衣一区二区三区四区| 4虎影视国产在线观看精品| 亚洲va欧美va国产综合下载| 三级毛片在线播放| 亚洲精品国产精品乱码不卞| 福利国产微拍广场一区视频在线| 国产午夜福利在线小视频| 女人18毛片久久| 亚洲欧美精品日韩欧美| 精品无码人妻一区二区| 99久久精品国产精品亚洲| 99在线观看国产| 亚洲国产成人无码AV在线影院L| 丁香婷婷综合激情| 成人精品视频一区二区在线 | 中国国产A一级毛片| 久久国产精品77777| 2021国产乱人伦在线播放| 色综合中文| 538精品在线观看| 亚洲第一页在线观看| 天天干天天色综合网| 久夜色精品国产噜噜| 天天色天天操综合网| 日本草草视频在线观看| 亚洲最新地址| 色天堂无毒不卡| 美女扒开下面流白浆在线试听 | 国产十八禁在线观看免费| 精品无码一区二区三区电影| 视频在线观看一区二区| 久久精品娱乐亚洲领先| 国产乱人乱偷精品视频a人人澡| 亚洲区第一页| 成人在线观看一区| 国产精品成人一区二区不卡| 精品久久久久久久久久久| 亚洲黄色高清| 国产亚洲欧美在线人成aaaa| 国产成人精品男人的天堂| 99这里精品| 久久伊伊香蕉综合精品| 国产在线精彩视频二区| 日本欧美视频在线观看| 久久无码免费束人妻| 国产XXXX做受性欧美88| 2021最新国产精品网站| 亚洲日本韩在线观看| 亚洲色图在线观看| 亚洲人成网7777777国产| 美女一级毛片无遮挡内谢| 91精品国产一区自在线拍| 国产啪在线| 国产成人综合日韩精品无码首页| 欧美午夜小视频|