999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

文本挖掘中主客觀因素影響性的眼追蹤研究

2017-02-22 09:02:50
網絡安全與數據管理 2017年3期
關鍵詞:文本模型

郭 楠

(同濟大學 電子與信息工程學院,上海 201800)

文本挖掘中主客觀因素影響性的眼追蹤研究

郭 楠

(同濟大學 電子與信息工程學院,上海 201800)

基于文本主題模型與眼動儀技術,從主題挖掘的客觀角度與閱讀興趣的主觀角度研究文本內容提取技術。傳統文本挖掘多基于文本本身內容等客觀因素,而主觀取向的重要因素很少在文本挖掘中發揮作用。文章利用眼部追蹤技術,先將眼動數據轉換為閱讀興趣等主觀結果形式,并利用LDA(Latent Dirichlet Allocation)模型對文本進行客觀主題提取,繼而對眼部數據與主題建模結果進行比較,提取分析主客觀因素對文本挖掘的影響。新聞數據集的眼部追蹤實驗與主題提取實驗顯示了主客觀因素對結果影響的具體差異性與相似性,未來兩者結合并調控比率可作為對文本挖掘效果提升的基本方向。

文本主題建模;眼部追蹤技術;文本挖掘;主題模型

0 引言

文本主題建模以LDA(Latent Dirichlet Allocation)模型[1]為代表,是近年來文本挖掘領域的一個熱門研究方向。主題模型挖掘出的主題可以幫助理解文本背后隱藏的語義,也可以作為其他文本挖掘方法的輸入,完成文本分類、話題檢測等多方面的文本挖掘任務。然而近年來,主題建模模型的代表LDA模型的改進與擴展研究正面臨方法上的瓶頸,層出不窮的模型改進算法多使用參數上調整、建模層數優化等基本方法[2],這些改進對于主題模型的效率、效果提高程度有限;另一方面,主題挖掘研究集中于研究文本本身內容等客觀因素,而人類主觀取向因素很少在文本挖掘方面發揮重要作用,事實上,閱讀興趣等主觀因素對于文本挖掘有非常重要的參考價值,對主題模型本身也有極大的意義[3]。

因此針對文本挖掘、主題建模領域的相關研究,希望解決的相關問題就是,如何能夠在現有的主題建模模型基礎上,不僅對于不同內容領域的文本本身的客觀因素能夠統一進行分析挖掘,并且同時考慮人主觀閱讀規律、興趣取向因素的影響性,使得文本中所抽取的信息與知識更有價值、更有意義。

眼動儀技術可以獲得視覺信息提取過程中的生理和行為表現,它與人的心理活動有著直接或間接的關系,能夠為主題提取與文本挖掘提供人主觀興趣取向信息[4]。本文通過對眼動儀捕獲的用戶文本閱讀數據的分析和對主題提取模型LDA的研究,比較分析主觀眼動數據結果與主題模型的挖掘結果,從主觀規律和客觀模式兩方面對文本挖掘效果進行結果分析,對于推動未來文本挖掘領域建模與應用方法的進步,提高文本挖掘模型效果,具有一定的參考意義和應用價值。

1 文本主題提取算法

1.1 LDA模型

LDA模型以一種“詞袋”假設,把每個文檔當作組成文檔的詞匯分布的向量,這樣,文檔由多個主題的概率分布所代表,而主題則由單詞的概率分布所刻畫。

它對于每個文檔的主題生成過程如下:如圖1所示的概率模型,矩形代表重復的過程,外部矩形代表一個文檔,內部矩形則代表對于每個詞語選擇主題的重復過程,重復次數為文檔內詞語的個數。α和β代表語料庫級的參數,每進行一次語料庫的生成都要進行采樣化。θ則是文檔級參數,每取一個文檔則進行一次采樣化,z和w則為詞語級參數,對每一個文檔的每一個詞都進行一次采樣化。

圖1 LDA模型圖

1.2 文本主題提取過程

每一個文件集合M在T主題上服從多項式分布,系數為θ。如果每個主題對于組成的詞語而言都服從多項式分布,參數記為φ。θ和φ服從Dirichlet分布,超參分別為α與β,每一個文檔d中的詞語,話題z是以多項分布θ為參數從文檔中進行采樣的,詞語w則是以多項分布φ為參數從話題z中進行采樣。這個生成過程重復次數為N,是文檔d中詞語的總個數,形成文件D。

因此,利用該模型,有兩個參數需要從數據中推斷,即文檔的主題分布θ和主題的詞語分布φ,推斷的方式是采用Gibbs抽樣的方式來進行模型的參數估計。θ與φ參數則可分別代表用戶文章中主題的分布情況,以及能夠刻畫該主題的詞語的分布情況。

通過LDA模型的應用,輸入的文檔級數據可以轉化為主題分布的形式,主題數目由事先設定好的參數N來確定,最終以用戶感興趣的程度(主題分布中所占比率大小)取前N個主題輸出,以主題級數據刻畫文檔。而每個主題由組成的詞語的分布表示,詞語同樣也對應于分布中所占比率的參數。因此,可以通過LDA獲得用戶文檔中所描述的多個主題內容,并且抽取出描述該主題的詞語。

2 基于眼動儀的閱讀興趣提取方法

通過眼動儀捕獲的實驗對象閱讀文本的視覺追蹤數據,其結果形式體現在用戶閱讀文本的軌跡和看每個詞語的集中時間長度,圖像化結果如圖2所示,其中圓圈直徑代表對該詞語(位置)眼球集中時間長短,時間越長,直徑越大;直線代表眼球運動軌跡。

圖2 眼部追蹤數據圖像化形式

而眼動儀的非直觀性數據形式,則以觀察文本時間內每個捕獲視覺點的坐標和對應時間點的形式給出。如:(x,y),t: 0908。因此對這類數據進行形式轉換處理,最終轉換結果應為詞語及對應集中時間。

2.1 詞語區域統計

眼動儀實驗使用統一的圖片形式,即txt格式文本轉化為包括首行縮進、行距等文本分布形式均相同的圖片格式。根據一致的分布形式,統計每篇文章每個詞語所占區域的坐標范圍(x0x1y0y1)。如式(1)~(4)所示。

(1)

(2)

(3)

(4)

其中,d0、D0為每行和每列第一個字符的初始x、y坐標值;wi、Wi分別為水平與垂直方向的第i個詞的詞長和詞與詞間距長的和;K0、Q0分別為水平和垂直方向詞與詞間距長。

2.2 詞語集中時間計數

根據每個詞語的坐標區域劃分情況,對眼動數據結果文件中的坐標與對應時間點數據進行統計,落在某個詞語坐標區域內的坐標對應的該詞語的集中時間計數加一。全部觀察時間范圍內所有坐標與時間點均可通過轉換關系,轉為詞語和詞語集中時間的結果形式,即實驗對象閱讀文本通過眼動儀所捕獲到的集中度和興趣規律。

通過對每個詞語集中時間的計數,可以得到實驗對象對該文本中所有觀察詞語的集中時間排序結果。

3 實驗結果

數據集采用BBCnews的20篇文章,實驗對象為20名,每名實驗對象分別閱讀20篇新聞文章,并通過SMI眼動儀進行眼部數據跟蹤并捕獲。文本主題建模算法應用于同樣數據集中。如圖3所示為眼動數據實驗詞語的計數分布結果(橫軸代表各個詞語,具體內容略);圖4所示為對于每個詞語,所有實驗對象的均值與方差變化圖,可見方差基本穩定在0.1左右。

圖3 單人單文本詞語計數分布

圖4 某篇文章每個詞語20個人的均值與方差(歸一化后)

對LDA模型主題提取結果排序后與眼動數據結果排序后進行比較分析,每篇文章中同一詞語的計數值比較如圖5。而圖6顯示了具體主客觀文本挖掘方法的差異性和相似性。均值的重合度以排序前30個詞語為例,基本維持在0.6左右。分析比較結果,此例中,LDA模型對文本內容的客觀性提取有0.6的比率與人主觀興趣取向一致,而0.4比率是基于詞語頻率等內容因素的偏向客觀性的主題內容。

根據實驗數據結果可以看出,文本主題模型對于文本的提取結果與人的興趣行為取向存在一致性和差異性,而

圖5 單人同詞LDA與眼動分布數據對比

圖6 20人眼動數據均值與LDA詞語結果重合度(取排序前幾十)

通過調控主題提取結果所取的詞語比率,結合眼動數據結果中興趣部分的詞語比率,二者結合可同時反映主題內容和閱讀興趣這兩種文本挖掘因素,對于實際文本分類、文檔摘要等文本挖掘應用效果會有很大提升。

4 結論

本文通過LDA模型進行文檔的客觀性主題抽象,利用眼動儀提取主觀興趣取向因素結果。在News數據集上的比較分析實驗顯示了主觀因素和客觀結果對文本挖掘的具體不同影響,可以為未來主客觀因素相結合的文本挖掘算法提供一定參考與應用價值。

[1] BLEI D M, NG A Y,JORDAN M I. Latent dirichlet allocation[J]. Journal of Machine Learning Research, 2003(3):993-1022.

[2] DU L, BUNTINE W, JIN H. Modelling sequential text with an adaptive topic model[C]. Proceedings of the 2012 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning, 2012:535-545.

[3] MICHELSON M, MACSKASSY S A. Discovering users’ topics of interest on twitter: a first look[C]. Proceedings of the Fourth Workshop on Analytics for Noisy Unstructured Text Data,2010:73-80.

[4] DUCHOWSKI A T. Eye tracking methodology: theory and practice[M]. Springer-Verlag:2003.

An eye-tracking study on the influence of subjective and objective factors in text mining

Guo Nan

(School of Electronics and Information Engineering, Tongji University, Shanghai 201800, China)

Based on the text topic model and eye-tracking technology, this paper studies text mining from the objective topic extraction and the subjective tendency of reading interest. Traditional text mining is based on the objective factors such as the content of text itself, but the important factors of subjective orientation rarely play an important role in text mining. In this paper, eye tracking technology is used to convert eye movements into subjective data such as reading interest. LDA (Latent Dirichlet Allocation) model is used to extract information from the subjective text, and then the eye data and modeling results are evaluated by extraction, comparison and analysis of the subjective and objective factors on the impact of text mining. The eye-tracking experiment and topic modeling experiment of the BBC news dataset show the specific differences and similarities of the subjective and objective factors, and the future combination and regulation can be done as the basic direction of enhancing the effect of text mining.

text topic modeling; eye tracking technology; text mining; topic model

TP391

A

10.19358/j.issn.1674- 7720.2017.03.023

郭楠.文本挖掘中主客觀因素影響性的眼追蹤研究[J].微型機與應用,2017,36(3):79-81.

2016-10-02)

郭楠(1992-),女,碩士,主要研究方向:文本挖掘、數據挖掘。

猜你喜歡
文本模型
一半模型
重要模型『一線三等角』
初中群文閱讀的文本選擇及組織
甘肅教育(2020年8期)2020-06-11 06:10:02
重尾非線性自回歸模型自加權M-估計的漸近分布
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
3D打印中的模型分割與打包
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
論《柳毅傳》對前代文本的繼承與轉化
人間(2015年20期)2016-01-04 12:47:10
FLUKA幾何模型到CAD幾何模型轉換方法初步研究
主站蜘蛛池模板: 无码av免费不卡在线观看| 99久久人妻精品免费二区| 欧美日一级片| 久久亚洲美女精品国产精品| 色亚洲激情综合精品无码视频 | 亚洲欧美人成电影在线观看| 欧美激情二区三区| 乱人伦视频中文字幕在线| 青草娱乐极品免费视频| 青青草国产免费国产| 欧美一区二区三区国产精品| 波多野结衣二区| 国产精品熟女亚洲AV麻豆| 91成人在线观看| 多人乱p欧美在线观看| 国产欧美另类| 久久99国产精品成人欧美| Aⅴ无码专区在线观看| 伊人91在线| 国产欧美日韩91| 国产高清国内精品福利| 亚洲国产欧美国产综合久久| 麻豆国产在线观看一区二区| 日本一区高清| 99久久亚洲综合精品TS| 欧美日韩国产精品综合| 国产激情无码一区二区APP | 国产在线视频二区| 亚洲欧美精品在线| 99re在线视频观看| 免费在线国产一区二区三区精品 | 99免费在线观看视频| 又猛又黄又爽无遮挡的视频网站| 日韩免费毛片视频| 日韩欧美中文在线| m男亚洲一区中文字幕| 成人免费午间影院在线观看| 一本一道波多野结衣av黑人在线| 亚洲日韩精品无码专区97| yjizz国产在线视频网| a级毛片免费网站| 99视频在线观看免费| 国产偷国产偷在线高清| 色偷偷一区| 91欧美在线| 日韩国产一区二区三区无码| 欧美国产日产一区二区| 中文字幕第4页| 亚洲人成成无码网WWW| 亚洲第一成年网| 久久国产精品77777| 亚洲精品麻豆| 欧美成人在线免费| AV无码无在线观看免费| 99精品视频九九精品| 国产日韩欧美一区二区三区在线| 免费国产不卡午夜福在线观看| 视频在线观看一区二区| 99re热精品视频国产免费| 91精品伊人久久大香线蕉| 一本大道香蕉久中文在线播放| 午夜老司机永久免费看片| 国产精品va免费视频| 最新国语自产精品视频在| 激情综合五月网| 亚洲国产精品一区二区第一页免| 国产91丝袜在线播放动漫 | 中文字幕无码中文字幕有码在线 | 亚洲国产欧美自拍| 国产成人精品一区二区秒拍1o| 久久久精品无码一区二区三区| 久久国产成人精品国产成人亚洲 | 欧洲一区二区三区无码| 欧美激情综合一区二区| 精品99在线观看| 在线观看无码a∨| 91午夜福利在线观看精品| 久久香蕉国产线看观看精品蕉| 2020久久国产综合精品swag| 天堂亚洲网| 国产成人综合亚洲网址| 亚洲国产欧洲精品路线久久|