999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

概念圖在文獻集合研究中的一個新模型

2015-09-08 07:49:15尹莉
現(xiàn)代情報 2015年1期
關(guān)鍵詞:機器學習

尹莉

[摘要]概念圖是一種知識以及知識之間關(guān)系的網(wǎng)絡圖形化表征。本研究中將圖結(jié)構(gòu)的非參數(shù)先驗與潛在狄里克來分布結(jié)合在一起,構(gòu)建了一個新的概率模型GLDA,用來學習文檔中的概念圖。并將此模型應用于維基百科中關(guān)于機器學習的文獻集合加以驗證,同時與高階彈球分布模型(hPAM)與高階潛在狄里克來分布模型(hLDA)進行了比較,對模型的優(yōu)缺點進行了分析。

[關(guān)鍵詞]概念圖;潛在狄里克來分布;彈球分布模型;機器學習

DOI:10.3969/i.issn.1008-0821.2015.01.017

[中圖分類號]G254.0 [文獻標識碼]B [文章編號]1008-0821(2015)01-0091-05

概念圖(conceptmap)是一種知識以及知識之間關(guān)系的網(wǎng)絡圖形化表征,它是一種用節(jié)點代表概念、連線表示概念間關(guān)系的圖示法。康奈爾大學的約瑟夫·D·諾瓦克(Joserph D.Novak)教授于20世紀70發(fā)展出概念圖繪制技巧。一幅概念圖通常由“節(jié)點”、“鏈接”和“有關(guān)文字標注”組成。概念圖對于知識表征、協(xié)同與組織溝通、教育、教學設(shè)計、訓練等領(lǐng)域都有重要的應用。概念圖對于總結(jié)文獻集合很有用,并且可以提供一種語義內(nèi)容和大文獻集合結(jié)構(gòu)的可視化。概念圖的一個典型例子就是維基百科中的分類圖,如圖1就是維基百科中關(guān)于機器學習的分類圖的一部分子圖,從這個圖中我們能夠很快推斷出維基百科中機器學習方面的文章主要強調(diào)的是算法和馬爾科夫模型的演化。

本研究中,將展示一個新的生成概率模型GLDA(Graph Latent Dirichlet Allocationh),來學習文本中的概念圖,并對模型進行檢驗,應用于維基百科的文獻集合進行試驗,最后對模型進行了評價。本研究將在LDA、PAM、stickbreaking分布的基礎(chǔ)上,設(shè)計新的生成模型,并解釋它怎樣適用于原始的圖結(jié)構(gòu)。并對模型獲得了吉布斯抽樣方程,而且在模擬數(shù)據(jù)和真實文本數(shù)據(jù)上的進行了一系列實驗,最后將模型的性能與分層潛在狄里克來分布和分層Pachinko分布模型進行了比較,對該模型的優(yōu)點和局限性進行了討論。

1.理論基礎(chǔ)

1.1潛在狄里克萊分布(Laten Dirichlet Auocation)

LDA是給文本建模的一種方法,屬于生成模型,足能夠在文獻收集中自動識別主題的概率模型。可以用來識別大規(guī)模文檔集或語料庫中潛藏的主題信息。它采用詞袋的方法,將每一篇文檔視為一個詞頻向量,從而將文本信息轉(zhuǎn)化為易于建模的數(shù)字信息。每一篇文檔代表了一些主題所構(gòu)成的一個概率分布,而每一個主題又代表了很多單詞所構(gòu)成的一個概率分布。由于Didchlet分布隨機向量各分量問的弱相關(guān)性,標準的LDA模型并不包括主題之間的任何關(guān)系、依賴。

4.結(jié)論

本研究中我們將圖結(jié)構(gòu)的非參數(shù)先驗與潛在狄里克來分布結(jié)合在一起,構(gòu)建了一個新的概率模型GraphlA)A,用來學>J文檔中的概念圖。主要貢獻如下:

第一,我們展示了一個可能有無限多節(jié)點的有根節(jié)點、有向的無環(huán)圖的一個可能的非參數(shù)先驗。將圖結(jié)構(gòu)的非參數(shù)先驗與潛在狄里克來分布結(jié)合在一起,構(gòu)建了一個新的概率模型叫做GraphLDA,用來學習文檔中的概念圖。第二,我們展示了GraphLDA如何能夠被用來學習文獻集合中的概念圖,如何能用來更新新的標簽文獻中的圖結(jié)構(gòu)。解釋了GraphLDA在一個模擬文獻集合中的執(zhí)行情況,在這個集合中我們增加了被標注的文獻的比例以用來進行訓練學習。笫三,將GraphLDA的執(zhí)行與高階Pachinko分布模型(hPAM)與高階潛在狄里克來分布模型(hLDA)進行了比較。解釋了,GraphLDA在維基百科分類圖中的應用。我們展示了GLDA如何被用來更新維基百科中的圖的部分,以機器學習方面的文獻集合為例進行了說明。

研究提出的問題是學習一個給定文獻集合的概念圖,在這個集合中給文獻標注上概念標簽,可以得到一個原始的圖結(jié)構(gòu)。要得到一個原始圖結(jié)構(gòu),任務就是識別語料庫中沒有在圖中反映出來的那些概念,或者是圖中沒有反映出來的語料庫中的概念之間的關(guān)系(通過文獻中概念的共現(xiàn)關(guān)系實現(xiàn))。這個模型對維基百科這樣的文獻集合來說尤為適合,因為在維基百科中文章集合變化得非常快,以至于自動方法用來更新概念圖比手工編輯或者重新學習分類更合適。這個方法一個很重要的拓展就是應用到大圖中,這是很有意義的一個實踐。在抽樣過程中計算每一條路徑的概率也是值得去研究的一個課題,尤其足算法,M樣,還可以探討模型如何能夠處理每個文獻中的多重路徑。endprint

猜你喜歡
機器學習
基于詞典與機器學習的中文微博情感分析
基于網(wǎng)絡搜索數(shù)據(jù)的平遙旅游客流量預測分析
時代金融(2016年27期)2016-11-25 17:51:36
前綴字母為特征在維吾爾語文本情感分類中的研究
科教導刊(2016年26期)2016-11-15 20:19:33
下一代廣播電視網(wǎng)中“人工智能”的應用
活力(2016年8期)2016-11-12 17:30:08
基于支持向量機的金融數(shù)據(jù)分析研究
基于Spark的大數(shù)據(jù)計算模型
基于樸素貝葉斯算法的垃圾短信智能識別系統(tǒng)
基于圖的半監(jiān)督學習方法綜述
機器學習理論在高中自主學習中的應用
極限學習機在圖像分割中的應用
主站蜘蛛池模板: 国产爽爽视频| 国产欧美视频在线| 内射人妻无码色AV天堂| 欧美a在线| 五月天香蕉视频国产亚| 亚洲国产亚洲综合在线尤物| 亚洲综合色婷婷| 亚洲精品亚洲人成在线| 婷婷综合色| 中文字幕人妻无码系列第三区| 欧美成人在线免费| 日韩一区二区三免费高清| 免费全部高H视频无码无遮掩| 亚洲色图欧美视频| 一本久道热中字伊人| 久久亚洲美女精品国产精品| 欧美另类第一页| 亚洲人妖在线| 国产剧情一区二区| 成年人国产网站| 亚洲天堂视频在线播放| 成人无码一区二区三区视频在线观看| 国产欧美日韩专区发布| 国产婬乱a一级毛片多女| 婷婷色婷婷| 亚洲黄网在线| 波多野结衣二区| 日韩中文欧美| 成人第一页| 亚洲品质国产精品无码| 最新日韩AV网址在线观看| 波多野结衣一区二区三区AV| 国产黄网永久免费| 久久国产高清视频| 国产成人AV综合久久| 亚洲国语自产一区第二页| 欧美福利在线播放| 啪啪永久免费av| 亚洲精品爱草草视频在线| 亚洲欧洲自拍拍偷午夜色无码| 国产人前露出系列视频| 国产精品入口麻豆| 国产一区二区三区在线观看视频| 一级黄色欧美| 国产精品伦视频观看免费| 国产精品永久在线| 在线色国产| 青青操视频在线| 国产精品尤物铁牛tv| 欧美日韩国产在线播放| 日韩色图区| www.99精品视频在线播放| 国产成人AV男人的天堂| 国产福利微拍精品一区二区| 亚洲狼网站狼狼鲁亚洲下载| 久久亚洲精少妇毛片午夜无码| 国产性精品| 在线观看无码av免费不卡网站 | 色吊丝av中文字幕| 亚洲精品成人7777在线观看| 国产精品免费入口视频| 国产一区二区福利| 国产色伊人| 中文国产成人精品久久| 久久久久中文字幕精品视频| 黄色三级毛片网站| 人妻丰满熟妇AV无码区| 任我操在线视频| 亚洲一区精品视频在线| 国产午夜小视频| 91小视频在线| 亚洲品质国产精品无码| 欧美全免费aaaaaa特黄在线| 国产精品对白刺激| 女人爽到高潮免费视频大全| 麻豆国产在线观看一区二区| 国产不卡网| 欧美精品亚洲二区| аv天堂最新中文在线| 99青青青精品视频在线| 亚洲中文字幕日产无码2021| 首页亚洲国产丝袜长腿综合|