999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

網絡教育資源中的跨語言知識管理研究

2017-04-12 14:11:06徐昊李慧君秦玥
課程教育研究·新教師教學 2016年15期
關鍵詞:文本挖掘

徐昊+李慧君+秦玥

摘 要:近年來,隨著互聯網與教育的不斷融合,以MOOC為代表的網絡教育平臺在世界范圍內紛紛涌現。本文應用文本數據的獲取與挖掘的技術,對MOOC教育資源的跨語言知識管理方法進行研究,最后實現知識點的跨語言檢索和學習筆記的推薦功能,對基于開放數據的跨語言教育資源共享平臺的構建具有重要意義。

關鍵詞:跨語言;知識管理;MOOC;文本挖掘

G40-057

大型開放式網絡課程(MOOC)自2011年上線以來就倍受人們矚目,它在時間和空間上拓展了教育的范圍,教學形式較為新穎,對學習者來說,MOOC可以激發他們的求知欲、學習積極性和自主性[1]。MOOC的優勢在于便捷和開放,能提供課程的相關學習資源,如講義、筆記、學習小組、論壇等。還有一些英語課程配備了中文字幕,可以幫助中國學習者進行學習。這些在一定程度上提高了學習者的學習效率,促使學習者更快融入在線學習中,最后完成整個課程。

但是我們發現,在線學習也存在一些不完善的地方。以學習資源中的筆記為例,筆記通常按照記錄時間順序顯示,還存在著很多與課程內容無關的信息,這導致學習者不能查看某個知識點對應的筆記,還會被無關信息打擾。而且課程中的中英文知識點之間的關聯也不能體現。為了改進這些情況,讓MOOC平臺為學習者提供更好的用戶體驗,本文研究了如何通過文本挖掘技術和跨語言知識庫的構建,管理MOOC學習資源中的知識。

一、研究現狀和關鍵技術

1.跨語言知識管理

WordNet是由美國普林斯頓大學開發的大規模的匯總英語詞匯知識的在線資源庫。它是一個由普通的詞典內容與計算機科學、心理學成功結合的基于認知語言學的詞典,主要按照詞匯的意義而不是字母順序而組成的“詞匯網絡”[2]。經過20年的研究工作的進展,WordNet已經發展成為國際上非常有影響的英語詞匯知識庫,為知識管理做出了卓越的貢獻。近年來,隨著單一語言知識庫的飛速發展和各語言信息多樣性的增加,跨語言知識管理以及規模性跨語言知識庫的建設將成為必然的趨勢,具有研究價值。UKC (Universal Knowledge Core) 就是這樣一個典型例子。

UKC是一個由意大利特倫托大學開發的擴展的多語種版的WordNet,包括幾十萬個概念。UKC扮演的角色是世界上所有的自然語言的中心樞紐,對于每種語言,都存在一個獨立的LKC (Local Knowledge Core)。每個LKC都有一個源語言(目前為英文)和一個目標語言(世界上任何一種語言),可以獨立發展并且與UKC同步。事實上,LKC是一個本土化進程,通過UKC,所有LKC可以均衡協作、互相使用,多種語言可以得到匹配。

UKC的基本組成部分是詞語,義項,同義詞集和概念[3]。它們的含義如下:同義詞集是一組擁有一個共有的含義的詞語;概念是可以表示一個同義詞集含義的一句描述性質的話;義項是一個詞語的含義;注釋是一個同義詞集的簡短描述。此外,UKC中還有詞目和詞性這兩個

元素。

2.關鍵技術

近半個世紀以來,隨著計算機技術的成熟與發展,人們的生活中大量產生著社交媒體中的文本數據、通訊數據、GPS位置信息、傳感器數據甚至還有圖片和視頻,信息的種類和數量有了爆炸式的增加。但是人們目前面臨的嚴峻的問題是數據豐富而信息貧乏,只是把海量數據存儲起來并不會帶來任何價值,還需要對其進行分析,并從中獲得有用的信息[10]。數據分析基本上都經歷了數據獲取、預處理(清洗)、選擇分析算法、展示結果、評估這一流程。本文的研究基于文本數據的處理與分析,包括文本數據的獲取、清洗、信息挖掘和數據可視化。

獲取數據是數據挖掘的初始步驟。對分析者而言,外部數據比內部數據更容易獲取,獲取外部數據可以通過搜索引擎、開放數據、在聚合數據平臺上購買或下載專業數據集、網絡爬蟲、調查問卷等方式。目前應用較多的外部數據的采集方式的主要有兩種:商業化工具與網絡爬蟲,我們的研究就基于Python爬蟲程序來獲取網絡課程的筆記。

文本挖掘是數據挖掘的一個分支,也是一個由機器學習、統計學、數學、自然語言處理等多種學科交叉而成的領域。顧名思義,就是從大量文本數據中抽取隱含的、未知、可能有用的信息,并對這些數據進行分析,挖掘其中潛在的知識信息[4]。文本挖掘的數據主要是指非結構化文檔和郵件、網頁內容等半結構化數據,常見的算法有關聯規則算法,聚類算法 和分類算法。

數據可視化是指將身居分析的結果以圖形或表格的形式展現出來,以便進一步分析和報告數據的特征以及數據之間的關系。它的首要任務是準確地展示和傳達數據所包含的信息,并用直觀、容易理解和操縱的方式呈現出來。它的基本流程是:將信息映射成可視形式,選擇合適的圖表,刪去不突出的對象或屬性,最終呈現出關鍵屬性的明顯特征。

二、跨語言知識管理的應用

我們研究的數據來自網易公開課中斯坦福大學開設的計算機系課程《機器學習》。首先使用Python爬蟲程序獲取最優筆記內容作為實驗數據,然后用R語言分析文本數據、提取關鍵詞,模仿UKC構建跨語言知識庫,最后實現學習課程時對感興趣的知識點的查詢功能。跨語言知識管理研究的流程如圖1所示。

數據獲取與關鍵知識點提取

首先,利用編寫的Python爬蟲程序從網易公開課的課程頁面獲取前30頁最優筆記,獲得的數據保存成文本格式。

關鍵知識點提取是研究的核心部分,是文本分析算法的具體實現部分,此部分使用R語言完成,步驟如下:

第一步:讀入待處理的文件,對數據進行清理和格式轉換之后,經過排序,得到了共380條可用的筆記;

第二步:由于課程講授是具有連續性的,而且為了方便統計,這里人為地將筆記按每3分鐘為一段進行分段統計。然后對文本進行分詞,然后全部去除文本中包含的標點、數字、多余的空格和停用詞,生成語料庫;

猜你喜歡
文本挖掘
數據挖掘技術在電站設備故障分析中的應用
軟件導刊(2016年12期)2017-01-21 15:55:21
基于LDA模型的95598熱點業務工單挖掘分析
文本數據挖掘在電子商務網站個性化推薦中的應用
商(2016年34期)2016-11-24 16:28:51
從《遠程教育》35年載文看遠程教育研究趨勢
慧眼識璞玉,妙手煉渾金
文本觀點挖掘和情感分析的研究
主站蜘蛛池模板: 久热re国产手机在线观看| 91在线一9|永久视频在线| 亚洲成在线观看| 欧美成在线视频| 午夜天堂视频| 国产91成人| 亚洲国产天堂久久综合| 久久精品娱乐亚洲领先| 欧美成人A视频| 亚洲永久色| 尤物精品国产福利网站| 亚洲男人的天堂网| 日本精品视频一区二区| 日韩免费无码人妻系列| AV片亚洲国产男人的天堂| 99精品欧美一区| 蜜臀AV在线播放| 色天天综合久久久久综合片| 亚洲午夜福利在线| 欧美精品啪啪一区二区三区| 国产白丝av| 国产91熟女高潮一区二区| 99精品热视频这里只有精品7| 青青青国产免费线在| 人妻一本久道久久综合久久鬼色| 在线色国产| 91毛片网| 国产女同自拍视频| 亚洲国产成人久久77| 欧美日韩中文字幕二区三区| 韩国福利一区| 九九热视频精品在线| 97国产精品视频自在拍| 国产在线拍偷自揄观看视频网站| 99久久性生片| 伦精品一区二区三区视频| 亚洲性日韩精品一区二区| 国产91九色在线播放| 国产乱子精品一区二区在线观看| 在线观看国产小视频| 亚洲国产日韩视频观看| 欧美日韩综合网| 中文字幕免费播放| 成年A级毛片| av尤物免费在线观看| 亚洲人成网站在线观看播放不卡| 色哟哟国产成人精品| 久热精品免费| 亚洲一区国色天香| 欧美亚洲国产视频| 国产色网站| a级毛片视频免费观看| 国产丝袜91| 全色黄大色大片免费久久老太| 欧美三级视频网站| 看国产一级毛片| 亚洲一区二区日韩欧美gif| 国内老司机精品视频在线播出| 欧美一级特黄aaaaaa在线看片| 亚洲第一黄色网址| 欧美日韩国产综合视频在线观看| 中文字幕无码制服中字| 国产超碰一区二区三区| 国产成人h在线观看网站站| 亚洲日产2021三区在线| 国产成人综合亚洲欧洲色就色| 91精品啪在线观看国产| 欧美黄网在线| 亚洲永久视频| 国产99热| 午夜少妇精品视频小电影| 国产午夜不卡| 欧美成人一级| 一级在线毛片| 无码中文字幕加勒比高清| 99热国产这里只有精品无卡顿"| 最新国产你懂的在线网址| 亚洲精品无码抽插日韩| 亚洲女同欧美在线| 久久美女精品国产精品亚洲| 国产女人水多毛片18| 免费99精品国产自在现线|