999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于主題模型的教學評價研究

2019-05-24 14:12:12張揚武
電腦知識與技術 2019年7期

張揚武

摘要:教學評價在促進課堂教學方面所起到的作用越來越重要,學生的主觀評價內容往往過于繁雜,而且主題分散,不容易形成中心聚焦。針對教學評價中的內容分散,難以凝聚情感傾向的問題,本文提出一種基于主題模型的教學評價方法,根據貝葉斯概率理論,學生評價語句是學生對教師教學效果的情感主題的分布,然后在一定主題下的詞語分布中產生一個詞語,這個產生過程通過發現潛在主題分布,獲得有價值的主題。實驗結果表明,主題模型教學評價比傳統方法更能獲得真實有效的評價數據,幫助教師提升教學質量。

關鍵詞:教學評價;主題模型;LDA

中圖分類號:TP183 文獻標識碼:A

文章編號:1009-3044(2019)07-0032-03

Abstract:Teaching evaluation plays a more and more important role in promoting teaching.Aiming at the problem of scattered content and difficult to condense emotional tendency in teaching evaluation, this paper proposes a teaching evaluation method based on topic model.According to Bayesian probability theory, the evaluation sentences are the distribution of emotional topics of students' teaching effect to teachers, and then a word is generated in the distribution of words under certain themes. The experimental results show that the model of teaching evaluation can obtain more real and effective evaluation data than traditional methods, and help teachers to improve the quality of teaching.

Key words: Teaching evaluation; Topic model; LDA

1 引言

隨著以計算機技術為代表的因特網的快速發展,數據生產涉及社會各個方面,其中包括社交、學習和工作等。數據訪問具有移動、存儲量大和帶寬高等特點,因此,對數據的存儲、訪問以及使用將會越來越困難,也將越來越迫切。在海量分布的數據中發現有用的模式,以及如何對數據進行挖掘成為當前技術研究的熱點和應用場景的要求。主題模型(Latent Dirichlet Allocation, LDA)是主題模型領域非常著名的算法,由David M. Blei等人于2003年提出的[1]。LDA模型是一種基于概率的非監督機器學習方法,可以識別大規模文檔集或語料庫中潛在的隱藏信息。文檔中的詞語是有背后隱藏主題隨機抽取出來的,因此,LDA可以說是由文檔產生主題分布,由主題產生詞分布的概率生成模型,在文本分類、話題跟蹤、數據挖掘和情感發現等領域有著廣泛地應用。

教學評價是為了激發和調動學生學習的積極性,引導教師開展課堂教學活動,促進學校教育教學質量的提升,落實教學中心地位[2]。依據教學目標對課堂實施過程進行教學評價,評價結果用來服務提升教學質量的教學決策。很多學校開始逐漸從代替傳統的紙質方式過渡到網絡方式開展對課堂的教學評價。建立合理的教學評價機制是衡量教學水平的重要標志,評價結果可讀性是發揮教學評價機制作用的前提和保障。提高結果可讀性需要從大量評價數據中搜索隱藏其中的重要信息,通過規則和統計規律獲得可解釋的內容,主題模型就是一種統計模型。

2 相關工作

LDA模型已經被學術界廣泛接受,給應用帶來前所未有的啟發和高度,能夠滿足大數據需求,適用各種文本生產,解決用戶生成數據問題。LDA主題模型是一種多項式分布的概率生成模型,可以上溯到巴塞爾問題,歐拉在解決巴塞爾問題的同時,發現了gamma函數,被廣泛應用在概率論。解析數論的創建者Dirichlet提出了Dirichlet分布。二項分布的參數符合Beta分布,而多項式分布的參數符合Dirichlet分布,并且后驗分布和先驗分布是一對共軛分布。后來,Blei發展了PLSA模型,在Dirichlet分布的基礎上,結合貝葉斯先驗概率,提出了LDA模型。LDA模型隱含變量和參數非常多,求解問題十分復雜,最初用EM變分方法訓練,后來使用吉布斯采樣來求解[3]。在主題模型中,每個詞的產生過程屬于獨立同分布的重復實驗。當一個詞被產生時,根據貝葉斯假設的概率選擇某個主題,繼而以另一個假設概率在該主題下產生某個詞典中的詞[4],周而復始地重復此過程便產生了語料集。獨立同分布的主題分布,根據文檔和頻率學派,生成潛在主題分布和觀察結果的詞,這是一種詞袋模型[5]。教學評價中的詞主觀性強、上下文強和多義性強等特點,如果只是簡單分類,將會導致主題分布具有一定的局限性[6]。很顯然,在教學評價文本中,在統計概率模型上進行分類和發現。本文提出一種主題模型的教學評價分類方法,在詞與詞之間發現背后的主題聯系,按照主題進行分類和排序。

3 教學評價主題模型

3.1 LDA模型

對于數據集中的每一篇文檔,文檔生成過程分為三步[7],其過程如圖1所示。方框表示獨立重復實驗次數,也就是采樣次數。因此,M為文檔總數,也就是M框圖里的步驟重復次數。N為文檔中單詞數量[8],主題數量為K。

3.2 評價主題模型

中文詞語與英文單詞不一樣,英文單詞用空格分開間隔,而中文句子之間才有標點符號,句子內部詞語之間并沒有確定的間隔標識,此外,還要考慮到中文詞匯的復雜上下文環境,詞語的歧義和多義性。因此,中文文本在預處理階段需要分詞,并且還需要進行去除標點符號、刪除高頻詞和過濾停止詞等等操作[12]。

根據教學評價指標和教學質量管理決策領域,設定主題數目K。依據先驗參數經驗,設置文檔到主題分布的超參數α,以及主題到詞分布的超參數β。對應語料集和詞典數量,分配隱含主題Ζ矩陣和初始化LDA教學評價模型。然后,設置迭代次數,進行吉布斯采樣。達到停止條件后,輸出各個詞的主題編號Ζ矩陣,生成tassgin文件。輸出文檔到主題的分布θ矩陣,生成theta文件,M行K列。輸出文檔到主題的分布φ矩陣,生成phi文件,K行V列。教學評價主題模型框架如圖2所示。

吉布斯采樣是一種統計學中用于馬爾科夫蒙特卡洛(MCMC)的算法,在難以直接采樣時,從某一多變量概率分布中近似抽取樣本序列,然后用后驗概率偽隨機數來估計變量,該序列可用于近似聯合分布、部分變量的邊緣分布或計算積分,吉布斯采樣偽代碼如圖3所示。

4 實驗結果

實驗語料集選自教學管理系統,評價數為686篇,經過分詞后的詞典中詞數為1783,主題數量設置如表1所示。設置文檔到主題分布超參數α為0.5,設置主題到詞分布超參數β也為0.5,迭代次數為1000,各個主題下排序的詞數為5。

將上述參數值更新到配置文件setting.conf中,讀取語料集文件train.dat。按照迭代次數進行吉布斯采樣,完成后輸出4個文件,分別是model_theta、model_phi、model_tassign和model_twords文件。model_theta是文檔到主題的分布,model_phi是主題到詞的分布,model_tassign是詞的隱含主題編號,model_twords是每個主題下按分布概率進行排序并且位置靠前的詞,排序情況如表2所示。

5 結束語

教學評價越來越重視主觀評價,評價用語越來越傾向網絡語言化趨勢,有著與普通文本不同的特征。針對學生的主觀評價內容分散和不容易形成突出點,本文提出一種基于主題模型的教學評價方法,通過中文文本預處理,將分詞詞語輸入到教學評價模型,根據參評學生數量合理設置主題數量,然后在貝葉斯概率模型和Dirichlet分布的基礎上進行吉布斯抽樣,輸出詞語的主題分布情況。實驗結果表明,主題模型教學評價比傳統方法可以獲得更好的分類效果和主題推薦詞,為教育教學決策活動提供有效支持。

參考文獻:

[1] David M. Blei, Andrew Y. Ng, Michael I. Jordan. Latent Dirichlet Allocation[J]. Journal of Machine Learning Research,2003(3):993-1022.

[2] 李民.強化教學評價機制推動臨床醫學教學質量提升[J].重慶醫學,2011,40(11):1131-1133.

[3] David M. Blei, J. Lafferty. Correlated Topic Models. The Proceeding of International Conference on Machine Learning, 113-120, 2006.

[4] David M. Blei, J. Lafferty, D. John. Dynamic Topic Models. The Proceedings of the International Conference Machine Learning, 113-120, 2006.

[5] Y. Yao, Q. Li. Term Weighting Schemes for Emerging Event Detection. The IEEE International Conference on Web Intelligence & Intelligent Agent Technology, Vol.1:105-112, 2013.

[6] P. A. Chew. Terms Weighting Schemes for Latent Dirichlet Allocation. The Proceeding of the North American Chapters of the Association for Computation Linguistics, 2010(3):465-473.

[7] 徐戈, 王厚峰. 自然語言處理中主題模型的發展[J].計算機學報, 2011,34(8) .

[8] 張晨逸,孫建伶. 基于MB-LDA模型的微博主題挖掘[J].計算機研究與發展,2011,48(10).

[9] 郭藍天,李揚等.一種基于LDA主題模型的話題發現方法[J].西北工業大學學報,2016,34(4):697-701.

[10] 石晶,胡明,石鑫.基于LDA模型的文本分割[J].計算機學報,2008,31(10).

[11] 李文波, 孫樂.基于Labeled-LDA模型的文本分類新算法[J].計算機學報,2008,31(4).

[12] 王和勇,崔蓉.在線用戶評論的主題研究[J].現代情報,2015,35(5).

主站蜘蛛池模板: 国产成人无码久久久久毛片| 2024av在线无码中文最新| 国产永久在线观看| 国产视频欧美| 影音先锋亚洲无码| 亚洲精品天堂在线观看| 狠狠五月天中文字幕| 欧美性精品| 亚洲首页国产精品丝袜| 天天做天天爱天天爽综合区| 波多野结衣中文字幕一区二区| 国产精品视频999| 极品国产在线| 四虎永久在线| 国产亚洲欧美在线专区| 好紧好深好大乳无码中文字幕| 精品无码一区二区在线观看| 欧美激情,国产精品| 一级毛片免费观看久| 亚洲国产精品无码AV| 久久国产高潮流白浆免费观看| 26uuu国产精品视频| 欧美日一级片| 色婷婷色丁香| 亚洲国产成人久久精品软件 | 97国产一区二区精品久久呦| 国产免费网址| 国产毛片不卡| 免费无遮挡AV| 国产三级a| 91色在线观看| 国产成人精品亚洲77美色| 青青国产视频| 国产69精品久久| 亚洲黄色高清| 欧美五月婷婷| 亚洲第七页| 亚洲成aⅴ人在线观看| 亚洲国产一区在线观看| 蝴蝶伊人久久中文娱乐网| 一级毛片在线免费视频| 国产激情无码一区二区三区免费| 久久99这里精品8国产| 久久国产亚洲偷自| 丁香婷婷综合激情| 亚洲天堂精品在线| 无遮挡一级毛片呦女视频| 最新无码专区超级碰碰碰| 在线观看无码av五月花| 午夜日b视频| 思思热精品在线8| 免费a在线观看播放| 在线观看无码av免费不卡网站| 中文字幕啪啪| 无码有码中文字幕| 亚洲美女久久| 成人小视频网| 免费日韩在线视频| 国产一区二区三区精品久久呦| 网友自拍视频精品区| 婷婷六月天激情| 亚洲综合婷婷激情| 欧美第九页| 日韩精品亚洲人旧成在线| 欧美激情福利| 91丨九色丨首页在线播放| 不卡午夜视频| 97色婷婷成人综合在线观看| 激情综合图区| 亚洲精品自拍区在线观看| 久久香蕉国产线| 九月婷婷亚洲综合在线| 18禁黄无遮挡网站| 日本欧美中文字幕精品亚洲| 国产无人区一区二区三区 | 久久99国产综合精品1| 国产成人精品一区二区不卡| 中文字幕 日韩 欧美| 国产不卡网| 日韩黄色在线| 日韩美一区二区| 国产成人成人一区二区|