999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

大數(shù)據(jù)環(huán)境下的文本挖掘教學(xué)內(nèi)容探討

2018-05-09 02:54:48
無線互聯(lián)科技 2018年9期
關(guān)鍵詞:數(shù)據(jù)挖掘可視化文本

白 楊

(遼東學(xué)院 信息工程學(xué)院,遼寧 丹東 118003)

近年來,人工智能、云計(jì)算、物聯(lián)網(wǎng)、移動通信等技術(shù)與應(yīng)用的快速發(fā)展及其與社會經(jīng)濟(jì)活動的廣泛融合,把人類社會帶入一個(gè)全新的大數(shù)據(jù)時(shí)代。大數(shù)據(jù)成為國際競爭、國家發(fā)展的重要領(lǐng)域,給人們的生活、學(xué)習(xí)和工作帶來新的模式,采用合理的方法針對大數(shù)據(jù)進(jìn)行挖掘和利用,將有助于獲取有價(jià)值的信息。高校的發(fā)展也應(yīng)迎合大數(shù)據(jù)新環(huán)境的要求,在教學(xué)理念上做出適合學(xué)生能力發(fā)展的調(diào)整,并切實(shí)在教學(xué)實(shí)踐中付諸行動,增強(qiáng)學(xué)生的就業(yè)競爭優(yōu)勢。

目前,面向大數(shù)據(jù)相關(guān)人才的迫切需求,我國各大高校的計(jì)算機(jī)科學(xué)、信息管理等專業(yè)開設(shè)了“數(shù)據(jù)挖掘”課程。大數(shù)據(jù)環(huán)境下的互聯(lián)網(wǎng)約95%的數(shù)據(jù)以文本數(shù)據(jù)形式存在,文本挖掘技術(shù)及其應(yīng)用已經(jīng)成為新的研究熱點(diǎn),是數(shù)據(jù)挖掘技術(shù)發(fā)展的重要方向[1]。在各類相關(guān)教材中,也只將文本挖掘作為Web挖掘的一個(gè)小知識點(diǎn),并沒對其知識構(gòu)成和主要技術(shù)做全面介紹。針對這一現(xiàn)象,本文將對文本挖掘這一知識點(diǎn)進(jìn)行系統(tǒng)概述,對其區(qū)別于其他形式數(shù)據(jù)的挖掘技術(shù)特點(diǎn)進(jìn)行闡述。

1 文本挖掘概述

文本挖掘一詞最早出現(xiàn)于1998年第十屆歐洲機(jī)器學(xué)習(xí)會議上,它是一個(gè)從大量文本數(shù)據(jù)中提取以前未知的、有用的、可理解的、可操作的知識的過程[2]。文本挖掘的目的是從文本集合中,試圖在一定的理解水平上盡可能多地提取知識,其本質(zhì)是自然語言處理(Natural Language Processing,NLP)過程,NLP是將無結(jié)構(gòu)的自然語言轉(zhuǎn)換成結(jié)構(gòu)化數(shù)據(jù)自然語言,便于計(jì)算機(jī)的理解、存儲和管理。

1.1 文本挖掘的應(yīng)用場景

文本挖掘的應(yīng)用場景豐富,主要包括以下幾個(gè)方面:新聞檢索歸類,如谷歌新聞;社交網(wǎng)絡(luò)分析,如微博、推特?zé)狳c(diǎn)發(fā)現(xiàn)、謠言識別等;輿情監(jiān)測分析,如股票分析、房產(chǎn)分析等;顧客反饋評價(jià),如電子商務(wù)評價(jià)情感分析;用戶畫像,如用戶興趣偏好分析。

1.2 文本挖掘與數(shù)據(jù)挖掘的聯(lián)系和區(qū)別

廣義上,文本挖掘是數(shù)據(jù)挖掘的一個(gè)分支領(lǐng)域,挖掘目標(biāo)也分為預(yù)測和描述兩種。預(yù)測是利用數(shù)據(jù)庫中已有的變量預(yù)測未知或?qū)淼臄?shù)值;描述是用于探索已有數(shù)據(jù)的性質(zhì),對數(shù)據(jù)中的模式或關(guān)系進(jìn)行辨別,注重發(fā)現(xiàn)描述數(shù)據(jù)的模式,提供給用戶解釋和表述。狹義上,如果將文本挖掘作為一個(gè)單獨(dú)的研究領(lǐng)域,其研究對象是無結(jié)構(gòu)或半結(jié)構(gòu)的文本,而非結(jié)構(gòu)化數(shù)據(jù);以提取概念和知識以及做出描述和預(yù)測為目標(biāo),而非預(yù)測未來的狀態(tài);挖掘方法以提取短語、形成概念為主,與數(shù)據(jù)挖掘的傳統(tǒng)方法類似,也包括聚類、分類、關(guān)聯(lián)分析等。另外,由于文本數(shù)據(jù)是各類網(wǎng)站的主要數(shù)據(jù)形式,它廣泛應(yīng)用于社交網(wǎng)站、電子商務(wù)平臺、文獻(xiàn)集合、知識庫、電子郵件等媒介。

2 文本挖掘過程

如何使得文本數(shù)據(jù)可被計(jì)算機(jī)理解?如何利用計(jì)算機(jī)幫助解讀文本數(shù)據(jù)?要解決這些問題,皆要求文本挖掘具備數(shù)據(jù)獲取、數(shù)據(jù)分析和數(shù)據(jù)建模3方面的能力,以下5個(gè)步驟闡述了文本挖掘過程。

2.1 文本數(shù)據(jù)獲取

通常通過爬蟲程序?qū)崿F(xiàn)網(wǎng)絡(luò)海量文本數(shù)據(jù)的抓取,具體過程是根據(jù)挖掘目的設(shè)計(jì)爬蟲程序,爬取相關(guān)的數(shù)據(jù),以形成文本數(shù)據(jù)挖掘的初始數(shù)據(jù)。

2.2 文本挖掘的預(yù)處理

預(yù)處理過程是對編碼、缺失值、分布分析等問題進(jìn)行處理,是能否獲得有效挖掘結(jié)果的關(guān)鍵。由于文本數(shù)據(jù)的特征,文本數(shù)據(jù)的預(yù)處理方法區(qū)別于其他類型數(shù)據(jù)的預(yù)處理方法,具有其特殊性,因此這部分知識點(diǎn)是文本挖掘教學(xué)內(nèi)容的重點(diǎn),預(yù)處理過程一般劃分為以下幾個(gè)環(huán)節(jié)。

2.2.1 編碼處理

首先需要對文本數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理,因?yàn)椴煌幋a格式,有些軟件可能會不識別導(dǎo)致出錯(cuò),統(tǒng)一編碼(如將編碼轉(zhuǎn)化成“UTF-8”)將方便進(jìn)一步的主題特征抽取。

2.2.2 分詞處理

分詞處理將確定語句的詞(words)或詞項(xiàng)(terms),即文檔粒度。不同于英文語句中的詞與詞之間自帶空格的構(gòu)句特點(diǎn),中文句子往往因?yàn)閿嗑涞牟煌鹌缌x,因此,中文分詞方法顯得額外重要。中文分析方法分為詞典分詞和無詞典分詞兩種,前者是利用詞典中包括的領(lǐng)域術(shù)語,根據(jù)設(shè)定好的切詞字?jǐn)?shù),通過最大正向匹配將語句從左至右進(jìn)行切分。后者是利用統(tǒng)計(jì)思想來分詞,如最大概率法公式為:一個(gè)詞的概率=其出現(xiàn)的次數(shù)/語料中總的詞數(shù),以此區(qū)分詞在一個(gè)文檔中的重要程度。另外,還有一些常用的切詞工具如StandardAnalyzer,ChineseAnalyzer等都各具優(yōu)勢。

2.2.3 文本數(shù)據(jù)的表示—DTM矩陣生成

分詞處理之后需要進(jìn)行數(shù)據(jù)的表示,通過文檔—詞項(xiàng)矩陣(Document-Term Matrix,DTM)矩陣實(shí)現(xiàn)對本文數(shù)據(jù)的結(jié)構(gòu)化處理,它由文檔為樣本(行)、詞項(xiàng)為變量(列)、詞頻為觀測值(元素)構(gòu)成,如表1所示3個(gè)文檔(Doc1,Doc2,Doc3)的各個(gè)詞項(xiàng)(“歡迎”“來到”等)的詞頻值為1或0,1表示該詞項(xiàng)在文檔中出現(xiàn),0表示該詞項(xiàng)在文檔中未出現(xiàn)。

2.2.4 文本信息過濾—停用詞及常用詞處理

詞項(xiàng)中有些停用詞(如表1中的“的”“與”)無法給予我們有價(jià)值的信息,因此,需要借助詞典對停用詞進(jìn)行處理。需要注意的是,在分析具體行業(yè)時(shí),一些常用詞也可以處理掉,如只分析房地產(chǎn)行業(yè)時(shí),“房地產(chǎn)”一詞本身的意義就不大了。

2.2.5 文本特征篩選TF-DIF處理

詞頻—逆文本頻率指數(shù)(Term Frequency-Inverse Document Frequency,TF-IDF)的思想是一個(gè)詞在A文檔中出現(xiàn)頻率高(對A重要),而在其他文檔中出現(xiàn)次數(shù)相對低(對全局具有個(gè)性化),那么認(rèn)為該詞對于A文檔是重要的,它對A文檔有信息代表性,這將有利于進(jìn)行文本分類,從而方便提取規(guī)律和進(jìn)行檢索。

表1 數(shù)據(jù)挖掘與文本挖掘的區(qū)別

2.2.6 文本特征抽取—LDA主題模型

與TF-IDF不同,文檔主題生成模型(Latent Dirichlet Allocation,LDA)則將分析粒度從詞映射為詞的組合(構(gòu)成主題),從而使得分析粒度變大,分析維度降低。

2.3 文本數(shù)據(jù)分析與挖掘

根據(jù)挖掘目的和任務(wù)的不同,將文本挖掘分析與挖掘劃分為以下幾個(gè)功能。(1)關(guān)鍵詞檢索:與傳統(tǒng)的信息檢索使用的技術(shù)類似,關(guān)鍵詞檢索功能通過建立倒排文件索引實(shí)現(xiàn)。(2)相似檢索:找到相似內(nèi)容的文本,通常利用向量空間模型、余弦相似度模型進(jìn)行相似度計(jì)算。(3)詞語關(guān)聯(lián)分析:聚焦在詞語(包括關(guān)鍵詞)之間的關(guān)聯(lián)信息分析上。(4)文本分類和聚類:文本分類是有監(jiān)督地將文檔分為指定類;文本聚類是無監(jiān)督地將文檔分為若干類。實(shí)際上,多種分析方法經(jīng)?;旌线\(yùn)用,如進(jìn)行數(shù)據(jù)特征化處理使數(shù)據(jù)降維,從文檔中抽取能反映研究主題的一些特征后,再使用分類器進(jìn)行訓(xùn)練,而分類設(shè)置包括很多方法,如聚類、關(guān)聯(lián)、信息檢索、鏈接分析等方法。(5)自然語言處理:揭示自然語言的涵義,實(shí)現(xiàn)文本語義挖掘,如運(yùn)用LDA模型生成文本主題。

2.4 文本數(shù)據(jù)可視化

數(shù)據(jù)可視化就是把復(fù)雜的數(shù)據(jù)轉(zhuǎn)化為直觀的圖形,有利于進(jìn)行數(shù)據(jù)分析以及方便人們洞悉數(shù)據(jù)規(guī)律。目前研究領(lǐng)域和Web上最受歡迎的文本內(nèi)容可視化方法是標(biāo)簽云和Wordle,它們都是基于關(guān)鍵詞的方法。另外還有文本特征可視化、情感分析可視化、文本關(guān)系可視化等。

2.5 挖掘結(jié)果和策略

為輔助決策,文本挖掘的結(jié)果必須被用戶所理解,因此,需要對挖掘結(jié)果進(jìn)行評估。評估標(biāo)準(zhǔn)一般分為客觀標(biāo)準(zhǔn)和主觀標(biāo)準(zhǔn),其出發(fā)點(diǎn)均是判斷挖掘結(jié)果是否具有新穎的、有趣的、有價(jià)值的性質(zhì)。

3 結(jié)語

本文對文本挖掘的教學(xué)內(nèi)容做了系統(tǒng)、全面的設(shè)置,梳理了此知識點(diǎn)的基本概念,著重介紹區(qū)別于其他數(shù)據(jù)挖掘預(yù)處理的分詞技術(shù)及矩陣表示方法,并闡述了主要挖掘和分析方法及其應(yīng)用場景。實(shí)踐教學(xué)中,將利用開放的互聯(lián)網(wǎng)數(shù)據(jù)庫資源,使課堂教學(xué)、上機(jī)實(shí)驗(yàn)案例相結(jié)合,引導(dǎo)學(xué)生掌握文本數(shù)據(jù)挖掘技術(shù)的知識結(jié)構(gòu),調(diào)動學(xué)生的學(xué)習(xí)積極性和興趣。未來工作中,將進(jìn)一步引入前沿的文本挖掘問題應(yīng)用于“數(shù)據(jù)挖掘”課程的教學(xué)中,豐富教學(xué)案例,提高教學(xué)效果。

[參考文獻(xiàn)]

[1]袁軍鵬,朱東華,李毅,等.文本挖掘技術(shù)研究進(jìn)展[J].計(jì)算機(jī)應(yīng)用研究,2006(2):1-4.

[2]JIAWEI H,MICHELINE K,JIAN P,等.數(shù)據(jù)挖掘概念與技術(shù)[M].范明,孟小峰,譯.北京:機(jī)械工業(yè)出版社,2012.

猜你喜歡
數(shù)據(jù)挖掘可視化文本
基于CiteSpace的足三里穴研究可視化分析
基于Power BI的油田注水運(yùn)行動態(tài)分析與可視化展示
云南化工(2021年8期)2021-12-21 06:37:54
探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
基于CGAL和OpenGL的海底地形三維可視化
在808DA上文本顯示的改善
“融評”:黨媒評論的可視化創(chuàng)新
傳媒評論(2019年4期)2019-07-13 05:49:14
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
基于并行計(jì)算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
電力與能源(2017年6期)2017-05-14 06:19:37
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
主站蜘蛛池模板: 欧美成a人片在线观看| 欧美在线精品怡红院| 国产精品入口麻豆| 久久精品国产电影| 香蕉视频国产精品人| 日韩av高清无码一区二区三区| 国产网友愉拍精品| 91视频青青草| 欧美成人在线免费| 国产精品尤物铁牛tv| 中文字幕波多野不卡一区| 最新国产午夜精品视频成人| 九九香蕉视频| 国产中文一区二区苍井空| 国产一区二区福利| 国产性爱网站| 宅男噜噜噜66国产在线观看| 日本手机在线视频| 国产成人精品视频一区视频二区| 成人小视频在线观看免费| 国内毛片视频| jizz国产在线| 亚洲一区二区三区在线视频| 欧美日韩专区| 国产一区亚洲一区| 无码日韩视频| 色综合热无码热国产| 一本一道波多野结衣一区二区| 91探花在线观看国产最新| 亚洲精品在线91| 999在线免费视频| 欧美成人精品在线| 欧美a在线| 亚洲天堂精品视频| 无码免费的亚洲视频| 香蕉网久久| 欧美国产精品不卡在线观看| 秋霞午夜国产精品成人片| 99re在线视频观看| 五月婷婷亚洲综合| 91丝袜乱伦| A级全黄试看30分钟小视频| 无码高潮喷水在线观看| 91亚洲精选| 日韩毛片在线视频| 欧美成人亚洲综合精品欧美激情| 久久中文无码精品| 98精品全国免费观看视频| a级毛片免费看| 国产丝袜丝视频在线观看| 亚洲欧美日韩中文字幕在线一区| 999国产精品| 久久成人免费| 国产国产人在线成免费视频狼人色| 精品福利一区二区免费视频| 一区二区理伦视频| 夜夜操国产| 亚洲精品无码在线播放网站| 影音先锋亚洲无码| 欧美在线精品怡红院| 亚洲成人精品久久| 成人欧美日韩| 亚洲AⅤ永久无码精品毛片| 波多野结衣一区二区三区四区视频 | 国产成人三级在线观看视频| 中文字幕永久在线看| 一区二区在线视频免费观看| 精品无码国产自产野外拍在线| 国产超碰一区二区三区| 欧美一级高清片久久99| 日韩精品久久无码中文字幕色欲| 91精品亚洲| 激情网址在线观看| 国产一区二区福利| 亚洲美女视频一区| 97超爽成人免费视频在线播放| 国产精品一区在线观看你懂的| 国产乱子精品一区二区在线观看| 精品久久香蕉国产线看观看gif| 久久久久久尹人网香蕉| 91尤物国产尤物福利在线| 永久免费av网站可以直接看的|