999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

Web文本挖掘及可視化

2018-05-03 04:09:18鄧遠飛林曉偉
價值工程 2018年14期

鄧遠飛 林曉偉

摘要: 文本挖掘和文本可視化是計算機中重要應用技術,能夠形象地高度概括文本信息中的核心內容,方便人們快速地理解和吸收文本中的核心思想。本文闡述文本挖掘預處理簡要處理流程,然后闡述使用R軟件進行文本挖掘,實現詞項聚類、文本聚類、繪畫詞項云圖、詞項網絡圖等,找出其中隱藏的文本信息,并以可視化方式展現出來。最后對文本挖掘和文本可視化技術進行總結和展望。

Abstract: Text mining and text visualization are important application technologies in computers. They can summarize the core content of text information highly and help people quickly understand and absorb the core ideas in the text. This article elaborates the brief processing flow of text mining preprocessing, and then elaborates the use of R software for text mining, and implements term clustering, text clustering, drawing term cloud diagrams, term network diagrams, etc., to find the hidden text information, and visualize it. Finally, it summarizes and prospects text mining and text visualization technologies.

關鍵詞: 預處理;分詞;文本聚類;文本可視化;詞云

Key words: preprocessing;word segmentation;text clustering;text visualization;word cloud

中圖分類號:TP319 文獻標識碼:A 文章編號:1006-4311(2018)14-0216-03

0 引言

文本無處不在,是信息交流的主要傳媒之一。Web文本挖掘是指從大量非結構化、異構的Web文檔的集合中發現有效的、潛在可用的及最終可理解知識的過程。Web文本挖掘可以對 Web上文檔內容進行關聯分析、分類、聚類等。互聯網時代,如何利用文本挖掘技術,從大量半結構化文本數據中抽取關鍵信息、提升理解速度等,這是一個復雜的綜合性研究課題。文本可視化技術綜合了文本分析、數據挖掘、數據可視化等學科的理論和方法,為人們理解復雜的文本內容、結構和內在的規律等信息的有效手段,旨在最大程度的實現抽象與概括海量的文本信息,方便用戶快速理解和吸收文本的主要內容。

本文所要處理的數據文本源,已在前階段研究工作中完成,已經將處理后的花語文本存儲到MySQL數據庫中。本文使用R軟件實現文本預處理、詞項聚類、文本聚類和文本可視化等。

1 文本預處理

數據分類有按花材分類、送花對象分類和送花用途分類。在本文中,“玫瑰+戀人+愛情”表示為選取花材為“玫瑰”,送花對象為“戀人”,送花用途為“愛情”的花語文本。“康乃馨+父母+節慶”表示為選取花材為“康乃馨”,送花對象為“父母”,送花用途為“節慶”的花語文本。

對文本預處理,需經過如圖1所示的若干流程:讀取花語文本數據、中文分詞(加載自定義詞典)、去除停用詞等、轉換文本表示、構建詞項-文檔矩陣。中文分詞是中文文本挖掘研究的基礎與難點,中文分詞的準確與否,關系到能否準確識別語句含義,直接影響文本挖掘結果的分析。分詞后詞項數量過多,還需進行詞項降維、去除無意義詞語。文本預處理部分使用R軟件中的jiebaR包相關函數進行處理,其中函數worker進行中文分詞處理,函數filter_segment剔除停用詞,達到過濾分詞結果的效果。

2 聚類分析

聚類是將數據劃分到不同分類的過程,從很多文檔中把內容相似的文檔聚為一類,同類中的對象有很大相似性,而不同類間的對象有很大相異性。

根據前文分析的結果,百合和康乃馨的產品頻數大致相近。另外,百合主要是送給戀人對象,而康乃馨主要是送給父母對象,選取這兩種花材的花語進行聚類分析,以探究在花材送與對象表達的情感不同時花語表達的主題內容。

2.1 詞項聚類

選取“百合+康乃馨”花語,刪除稀疏詞項,使用函數hclust對詞項層次聚類,樹狀圖被劃分為3個簇,繪制如圖2聚類圖。

圖2中,母親、母親節詞語被分到同一組中,表達了送與父母的主題;健康、朋友詞語被分到同一組中,表達了送與朋友的主題;而歲月、關懷、周年紀念、爛漫、真摯等詞語被分到一組,表達了送與戀人的主題。賣家在配置花語上,送與不同的對象所表達的主題也不相同,驗證了百合花主要送與戀人與朋友,康乃馨主要送與父母與朋友。

2.2 文本聚類

選取“玫瑰+康乃馨”花語,對分詞后的花語文本進行k-means聚類,使用函數kmeans將花語文本劃分為3個簇,具體的聚類分組和每組頻繁詞項如下:

由上述簇和詞項可知,每個簇都圍繞著一個明確的主題。賣家對百合、康乃馨產品設置的花語中,簇1與朋友、友情有關,簇2與戀人、愛情有關,簇3與父母、節慶有關。賣家對百合、康乃馨產品主要表達三個主題,分別是愛情、親情和友情。

3 文本可視化

文本可視化是通過對文本資源的分析,發現特定信息,并使用計算機技術以圖形化方式呈現來的一種方法,其目的是以豐富的圖形方式呈現,方便快速理解和吸收文本核心內容。本文分別選取“玫瑰+戀人+愛情”和“康乃馨+父母+節慶”花語進一步分析,探究花材、送花對象、送花用途與花語的關系。

3.1 詞項云

詞項云又稱標簽云,是常見的文本關鍵字可視化方法。建立詞項-文檔矩陣后,通過R程序包wordcloud函數繪制詞項云。

3.1.1 “玫瑰+戀人+愛情” 詞項云

選取“玫瑰+戀人+愛情”花語,設置 min.freq=14,繪制如圖3的詞項云圖。

由圖3可看出,其中心圍繞著:愛、幸福、永遠、愛情、祝福、思念等詞語。這表明,玫瑰主要是用來表達愛(愛情)、幸福、思念等。

3.1.2 “康乃馨+父母+節慶” 詞項云

選取“康乃馨+父母+節慶”花語,設置 min.freq=4,繪制如圖4的詞項云圖。

由圖4看出,其中心圍繞著:媽媽、祝福、愛、快樂、幸福、溫暖等詞語。這表明,康乃馨主要是用來表達母愛、幸福、快樂等。

3.2 詞項網絡

詞項網絡用來描述詞語之間關聯,直觀展現出詞語之間關聯。為了簡化詞項網絡圖對詞項-文檔矩陣,降維處理,保留20~30個左右中心詞項。

3.2.1 “玫瑰+戀人+愛情”詞項網絡

由圖5可看出,在“玫瑰+戀人+愛情”產品的花語設置中,與其他詞項之間兩兩聯系、緊密度較大的有:愛、祝福、永遠、爛漫、擁有等。同時也說明,賣家在對玫瑰送給戀人表達愛情的花語設置中,愛、祝福、永遠、爛漫、擁有等詞是結隊出現。

3.2.2 “康乃馨+父母+節慶”詞項網絡

由圖6可看出,在“康乃馨+父母+節慶”產品的花語設置中,與其他詞項之間兩兩聯系、緊密度較大的有:媽媽、幸福、母親、祝福、健康等。同時也說明,賣家在對康乃馨送給母親用于節慶的花語設計上,媽媽、母親、幸福、祝福、健康等詞是結隊出現。

4 結束語

本文對花語詞項和文本進行聚類分析,繪畫詞項云和詞項網絡圖并分析,驗證了網店在針對不同的花材、送花對象、送花用途的花產品時,其表達的主題內容不同,所搭配的花語也不同。實際文本挖掘應用中,如果文本樣本數據量偏少,則會導致關鍵詞出現頻次不夠,數據分布不能夠很好的反映其特征,聚類結果不明顯,只能粗略反映某種主題。本文通過文本可視化技術,生成直觀的詞云圖與詞項網絡圖,充分概括文字和數據分析得到的結果,以容易理解和接受的方式展現出來。隨著文本挖掘技術的逐步發展,其應用范圍也越來越廣。

參考文獻:

[1]李曉笛.Web文本挖掘技術研究及應用[D].北京交通大學,2015.

[2]沈記全,唐菁,楊炳儒.Web文本挖掘系統及其分類算法的研究與實現[J].計算機工程,2003(17):37-39.

[3]楊彥波,劉濱,祁明月.信息可視化研究綜述[J].河北科技大學學報,2014(01):91-102.

主站蜘蛛池模板: 国产亚洲精品无码专| 亚洲视频免费播放| 免费毛片a| 国产麻豆永久视频| 午夜影院a级片| 亚洲国产天堂在线观看| 亚洲AV无码一区二区三区牲色| 国产成人精品亚洲77美色| 九色国产在线| 日韩精品亚洲一区中文字幕| 色播五月婷婷| 国产成人av大片在线播放| 91综合色区亚洲熟妇p| 91精品国产综合久久不国产大片| 国产69囗曝护士吞精在线视频| 丁香五月婷婷激情基地| 国产国语一级毛片| 日韩不卡免费视频| 国产成人亚洲综合a∨婷婷| 一本色道久久88亚洲综合| 国产av剧情无码精品色午夜| 久久久91人妻无码精品蜜桃HD| 国产视频久久久久| 国产精品无码AV中文| 亚洲男人在线天堂| 一级毛片免费播放视频| 亚洲国产综合精品一区| 亚洲色成人www在线观看| 丰满人妻中出白浆| 人妻一区二区三区无码精品一区| 国内黄色精品| 午夜一区二区三区| 国产全黄a一级毛片| 香蕉蕉亚亚洲aav综合| 亚洲无码不卡网| 亚洲美女久久| 国产主播一区二区三区| 国产美女91呻吟求| 伊人无码视屏| 九九热视频在线免费观看| 亚洲最大在线观看| 91视频日本| 99久久国产综合精品2023| 青青草国产在线视频| 中国精品久久| 在线国产你懂的| 9久久伊人精品综合| 亚洲最大福利网站| 亚洲综合狠狠| 亚洲成年人片| 99re66精品视频在线观看| 先锋资源久久| 一级毛片中文字幕| 国产97视频在线观看| www.亚洲国产| 色成人亚洲| 999在线免费视频| 日韩 欧美 小说 综合网 另类| 亚洲a免费| 国产内射一区亚洲| 五月丁香伊人啪啪手机免费观看| 亚洲无码37.| 国产人成午夜免费看| 日韩精品一区二区三区中文无码| 真实国产乱子伦高清| 国产亚洲精品97AA片在线播放| 91精品人妻一区二区| 日日拍夜夜嗷嗷叫国产| 女人一级毛片| 人妻一区二区三区无码精品一区| 亚洲男人的天堂久久精品| 88av在线| 免费视频在线2021入口| 中文字幕波多野不卡一区| 免费观看无遮挡www的小视频| 无码免费视频| 国产麻豆精品久久一二三| 国产三级a| 尤物精品视频一区二区三区| 日本成人在线不卡视频| 午夜精品久久久久久久99热下载 | 亚洲美女操|