999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于詞頻統(tǒng)計的文本可視化實(shí)現(xiàn)

2016-12-15 02:47:20
軟件 2016年11期
關(guān)鍵詞:可視化單詞文本

朱 巧

(北京郵電大學(xué) 網(wǎng)絡(luò)與交換國家重點(diǎn)實(shí)驗(yàn)室, 北京 100876)

基于詞頻統(tǒng)計的文本可視化實(shí)現(xiàn)

朱 巧

(北京郵電大學(xué) 網(wǎng)絡(luò)與交換國家重點(diǎn)實(shí)驗(yàn)室, 北京 100876)

隨著海量文本的涌現(xiàn),信息超載和信息提取速度慢等問題促使了文本可視化技術(shù)的出現(xiàn)。文本可視化通過對文本資源的分析,提取信息,并以圖形化方式呈現(xiàn)出來,為人們提供了一種快速獲取文本關(guān)鍵信息的有效手段。在介紹了文本可視化的概念和重要性的基礎(chǔ)上,著重闡述了基于詞頻統(tǒng)計的中文文本可視化的實(shí)現(xiàn)方法。基于某微博賬戶的微博數(shù)據(jù),首先使用TF-IDF算法進(jìn)行關(guān)鍵詞提取,得到帶有權(quán)重的詞語,然后基于SVG技術(shù)和四叉樹算法,實(shí)現(xiàn)了文本布局算法。最后得到的可視化效果良好,能全面、直觀地反映出用戶的興趣和關(guān)注點(diǎn)。

文本可視化;關(guān)鍵詞提取;四叉樹算法;TF-IDF

本文著錄格式:朱巧. 基于詞頻統(tǒng)計的文本可視化實(shí)現(xiàn)[J]. 軟件,2016,37(11):114-117

0 引言

文本信息在生活中無處不在,日常中的書籍、郵件、咨詢、新聞,都是以文本作為載體。隨著信息技術(shù)的發(fā)展,信息量呈現(xiàn)出爆炸增長,人們通過閱讀獲取和理解信息的速度明顯滯后。傳統(tǒng)的文本分析技術(shù),比如文本聚類、語義分析等,能在一定程度上挖掘出文本數(shù)據(jù)中的主要信息,但是人在理解這些挖掘結(jié)果的時候仍然存在困難,文本可視化在這樣的背景下產(chǎn)生。

文本可視化是數(shù)據(jù)可視化的一個重要主題,它利用可視化技術(shù)讓人直觀地認(rèn)識數(shù)據(jù),為人們提供了一種理解復(fù)雜文本的內(nèi)容、結(jié)構(gòu)和內(nèi)在規(guī)律等信息的有效手段。俗話說,一幅圖勝千言萬語,通常情況下,人們從圖像中獲取的信息比直接從大量文字中獲取的信息更快速、準(zhǔn)確,信息量也更多。

微博作為新興媒體,在人們的生活中日益流行。對微博中用戶行為的統(tǒng)計、分析,和微博內(nèi)容中信息的挖掘等成為了研究的熱點(diǎn)。本文希望能夠通過文本可視化的手段,清晰地反映微博賬戶的關(guān)注點(diǎn)。

1 文本可視化的相關(guān)理論

就文檔類別來說,可以把文檔分為單文本、文檔集合和時序文本數(shù)據(jù)三個類別;從一篇文檔本身來說,又包含詞語、語法和語義三個層級。文檔的這些屬性使文本信息的分析需求更為豐富。例如,在分析新聞報道時,分析的重點(diǎn)是能概括新聞的內(nèi)容。而對于一系列跟蹤報道所構(gòu)成的新聞專題,人們不但關(guān)注每一時間點(diǎn)的具體內(nèi)容,還包括新聞熱點(diǎn)的隨著時間的變化趨勢。針對文本信息和屬性的多樣

性分析需求,人們提出了很多具有特性的可視化技術(shù)。通常,文本可視化可以分為基于關(guān)鍵詞的文本可視化、基于文本關(guān)系的文本可視化這幾類[1]。

1)基于關(guān)鍵詞的文本可視化

當(dāng)遇到海量文本時,人們需要對整個文本的關(guān)鍵內(nèi)容進(jìn)行快速概覽,這種場景適合使用基于關(guān)鍵詞的文本可視化。關(guān)鍵詞指的是從原始文本中提取的能反映文本內(nèi)容的側(cè)重點(diǎn)的語義單元。提取文檔中關(guān)鍵詞的原則多種多樣, 其中最常見的方法是使用詞頻來反映文本特征,通常認(rèn)為單詞的重要性與它在文檔中出現(xiàn)的頻率呈正比。

2)基于文本關(guān)系的文本可視化

這種可視化方式的關(guān)注點(diǎn)在于文本內(nèi)部或者文本所在的文本集合的關(guān)聯(lián)信息,包括文檔之間的引用信息、從文檔中提取的結(jié)構(gòu)信息等。常用的手段有樹狀圖和節(jié)點(diǎn)連接的網(wǎng)絡(luò)圖。

本文主要針對基于詞頻統(tǒng)計的文本可視化方法進(jìn)行了深入研究。

2 基于詞頻統(tǒng)計的文本可視化

隨著微博的日趨流行,對微博中用戶行為的統(tǒng)計、分析,和微博內(nèi)容中信息的挖掘等成為了研究的熱點(diǎn)。本文統(tǒng)計了新浪微博中某個賬戶發(fā)布的微博內(nèi)容,希望能通過可視化方法,反映出該賬戶用戶的關(guān)注點(diǎn)信息。

2.1 可視化設(shè)計

標(biāo)簽云是常用的基于詞頻統(tǒng)計的可視化方法,也稱為詞云、文字云。標(biāo)簽一般是獨(dú)立的詞匯,常常按字母順序排列,其重要程度又能通過改變字體大小或顏色表現(xiàn),所以標(biāo)簽云可以靈活地依照字母順序或熱門程度檢索一個標(biāo)簽。這樣的特性使標(biāo)簽云適用于展現(xiàn)熱點(diǎn)的話題或者特性,因此選取標(biāo)簽云作為用戶微博內(nèi)容的呈現(xiàn)方式。

文本可視化系統(tǒng)通常涵蓋了三個步驟[2],本文工作也按照這個步驟進(jìn)行:

1)挖掘文本中的特征信息;

這個階段需要進(jìn)行信息收集和數(shù)據(jù)預(yù)處理,然后針對可視化的目的和需求,通過各種數(shù)據(jù)處理的手段提取出文本中的特征信息。

2)可視化設(shè)計和呈現(xiàn);

針對提取的特征信息,用適合的可視化表達(dá)方式,通過圖形設(shè)計和計算機(jī)編碼等手段進(jìn)行可視化實(shí)現(xiàn)。

3)用戶與信息圖的交互。

2.2 文本信息提取

標(biāo)簽云展示的是文本中出現(xiàn)頻率高的詞語。在文本信息提取過程中,需要通過對原始文本進(jìn)行關(guān)鍵詞抽取、歸一化處理等操作,提取出帶有權(quán)重的單詞。

常用衡量詞頻和權(quán)重計算方法有很多種,如布爾權(quán)重法、熵函數(shù)和TF-IDF權(quán)重法。其中最常用的是TF-IDF權(quán)重法,該方法算法相對簡單、并有較高的準(zhǔn)確度和召回率,所以一直受到相關(guān)研究人員和眾多應(yīng)用領(lǐng)域的青睞。

TF-IDF方法由Salton等人提出[3],它的基本思想是,具有較高權(quán)重的單詞,應(yīng)該在該篇文檔中出現(xiàn)次數(shù)較多(TF),而在其他文檔中出現(xiàn)次數(shù)和范圍都較小(IDF)。計算單詞權(quán)重的公式為:

weighti,j=tfi,j*idfi=tfi,j*log(N/nj) (1)

在上式中,tfi,j是指特征項tj在文檔中出現(xiàn)的次數(shù);idfi是指出現(xiàn)特征項tj的文檔的數(shù)量的倒數(shù)。N表示總文檔數(shù)量,nj指出現(xiàn)特征項tj的文檔數(shù)。

本文采用TF-IDF權(quán)重法進(jìn)行關(guān)鍵詞提取,由于只在當(dāng)前文檔中選取,所以不需要逆向文件頻率(IDF)文本語料庫。對收集了某微博賬號一個月發(fā)布的微博之后,對其發(fā)布的微博內(nèi)容提取的部分結(jié)果如下:

表1 關(guān)鍵詞提取結(jié)果Tab.1 The result of keyword extraction

為了方便進(jìn)一步地展示,需要對權(quán)重值進(jìn)行歸一化處理,使最終的權(quán)重分布在0到1之間,選取的歸一化公式為:

其中,wi代表某個詞語的原本權(quán)重值,min代表所有詞語的權(quán)重值中的最小值,max代表所有詞語的全種植中的最大值,wi′代表進(jìn)行歸一化之后的結(jié)果。

完成文本信息提取之后,需要進(jìn)行圖元布局的設(shè)計和實(shí)現(xiàn)。

2.3 標(biāo)簽云布局算法的實(shí)現(xiàn)

目前,已經(jīng)有一些算法和項目對標(biāo)簽云的布局算法進(jìn)行了實(shí)現(xiàn),其中最為出名的是Jonathan Feinberg的Wordle[4]。在這個項目用Java Applet實(shí)

現(xiàn)了很好的標(biāo)簽云布局效果。雖然Wordle在布局實(shí)現(xiàn)上已經(jīng)非常成熟,但是該項目仍有一些缺陷:首先,它不支持中文作為輸入,這讓它的使用場景有了很大限制;其次,它把布局結(jié)果生成了一張圖片,無法進(jìn)行交互,很大程度影響了用戶體驗(yàn)。

為了提高交互性,同時兼顧跨平臺性,本文基于SVG(Scalable Vector Graphic)技術(shù),實(shí)現(xiàn)了標(biāo)簽云的布局算法。SVG是基于擴(kuò)展標(biāo)記語言XML的一種二維矢量圖格式。由W3C組織于2000年正式發(fā)布[5]。相對于其他的圖形格式,如PNG、GIF、JPEG等,SVG有卓越的優(yōu)勢:

1. 可收縮性。SVG作為一種矢量圖格式,與柵格化格式的圖像相比,圖形可以按照任意尺寸縮放而保存本來的清晰度。

2. 交互性強(qiáng)。由于SVG完全支持DOM(文檔對象模型),因此SVG中的圖形對象完全可以通過腳本語言,比如JavaScript來接受外部事件的監(jiān)聽和處理(如鼠標(biāo)點(diǎn)擊,鼠標(biāo)懸停等動作),以實(shí)現(xiàn)自身或?qū)ζ渌麍D形對象的控制。

3. 跨平臺性良好。SVG并非僅僅是一種圖像格式,由于它是一種基于XML的描述語言,意味著它完全繼承了XML語言的跨平臺性和可擴(kuò)展性。因此,SVG可以很好地跨平臺工作,該標(biāo)準(zhǔn)一經(jīng)推出立刻得到了包括Apple,Autodesk,IBM,Google,Microsoft,Netscape, Sun在內(nèi)各大公司的實(shí)現(xiàn)和支持。

選用SVG作為圖形繪制格式后,在標(biāo)簽云的實(shí)現(xiàn)上,需要重點(diǎn)考慮單詞的尺寸、顏色、布局,以及用戶的交互。通常來說,標(biāo)簽云把單詞按照頻度或者權(quán)重遞減的順序進(jìn)行排列,頻度或者權(quán)重與單詞顯示的尺寸呈正比。常用的標(biāo)簽云布局有水平排列布局,而為了效果更加美觀,在一些設(shè)計中標(biāo)簽云形成不同的外形。為了效果美觀,也能通過編程實(shí)現(xiàn),本文將單詞沿著螺旋形狀的路徑布局。其布局算法步驟為:

1. 獲取輸入的詞語列表,該列表是按照詞語的權(quán)重進(jìn)行排序的,每個詞語包括內(nèi)容和權(quán)重兩個屬性。

2. 從權(quán)重最大的一個詞語開始遍歷列表,對于列表中的每一個詞語,首先根據(jù)詞語本身長度和權(quán)重值計算出詞語的尺寸。

3. 在螺旋路徑的某一個位置上,試圖將詞語放置上去。

4. 檢測當(dāng)前詞語是否與已經(jīng)放置的詞語發(fā)生了碰撞。

5. 如果沒有發(fā)生碰撞,那么這個單詞放置的位置是合理的,完成當(dāng)前單詞的放置,繼續(xù)放置下一個單詞;如果發(fā)生碰撞,則返回第3步,重新放置當(dāng)前的單詞。

整個流程如圖1所示。在這個算法中,影響算法復(fù)雜度和效率的關(guān)鍵部分在于碰撞檢測,也可以說是重疊檢測。如果每次檢測都遍歷所有單詞,那么復(fù)雜度為O(n2),效率過低。為了提高二維空間中碰撞檢測的算法速度,四叉樹被廣泛應(yīng)用[6]。四叉樹是一種常用的數(shù)據(jù)結(jié)構(gòu),可用于描述二維空間。在進(jìn)行兩個物體的碰撞檢測時,其基本思想是先把空間用橫豎兩條坐標(biāo)軸等分成4象限,一個物體通常只在其中的某個象限,如果兩個物體所在的象限不同,那么確定不發(fā)生碰撞;如果檢查到所處象限相同,則把這個象限再往下分割成4個子象限。使用四叉樹算法可以讓碰撞檢測的時間復(fù)雜度從O(n2)提高到O(nlogn)。

圖1 布局算法流程圖Fig.1 The flow chart of layout algorithm

圖2 文本可視化結(jié)果Fig.2 The result of Text Visaulization

3 文本可視化實(shí)現(xiàn)效果

圖2展示了基于詞頻統(tǒng)計的文本可視化最終實(shí)現(xiàn)效果,可以看到單詞在平面上的布局均勻、美觀,并且很少有重疊的單詞。在關(guān)鍵詞提取過程中擁有

較大權(quán)重的關(guān)鍵詞的尺寸更大,不同關(guān)鍵詞的重要性在標(biāo)簽云中一目了然。鼠標(biāo)懸停在單詞上時,右側(cè)展示出跟這個單詞相關(guān)聯(lián)的微博,具有很好的交互性。

4 結(jié)束語

文本可視化是可視化的熱點(diǎn)研究內(nèi)容,它利用文本處理技術(shù)和計算機(jī)圖像的技術(shù),把文本中的信息用圖形的形式展現(xiàn)給用戶,幫助用戶理解這些信息。

本文首先介紹了文本可視化的相關(guān)理論知識。然后著重介紹了基于詞頻統(tǒng)計的文本可視化的實(shí)現(xiàn),并以用戶微博數(shù)據(jù)為基礎(chǔ),進(jìn)行了信息提取、圖元布局設(shè)計和布局實(shí)現(xiàn)。最終的實(shí)現(xiàn)效果良好。

[1] 劉芳. 信息可視化技術(shù)及應(yīng)用研究[D]. 浙江大學(xué), 2013. LIU F. Study of Information Visualization[D]. Zhejiang University, 2013.

[2] 唐家渝, 劉知遠(yuǎn), 孫茂松等. 文本可視化研究綜述[J]. 計算機(jī)輔助設(shè)計與圖形學(xué)學(xué)報, 2013, 25(3): 273-285. TANG J Y, LIU Z Y, SUN M S, et al. A Survey of Text Visualization[J]. Journal of Computer—Aided Design 8L Computer Graphics, 2013, 25(3): 273-285.

[3] 施聰鶯, 徐朝軍, 楊曉江等. TFIDF算法研究綜述[J]. 計算機(jī)應(yīng)用, 2009, 29(z1): 167-170, 180. SHI C Y, XU C J, YANG X J, et al. Study of TFIDF algorithm[J]. Journal of Computer Applications, 2009, 29(z1): 167-170, 180.

[4] FERNANDA B V,MARTIN W, JONATHAN F, et al.Participatory Visualization with Wordle[J]. IEEE transactions on visualization and computer graphics, 2009, 15(6): 1137-1144.

[5] KIM E, HUANG X, TAN G, et al. Markup SVG—An Online Content-Aware Image Abstraction and Annotation Tool[J]. IEEE transactions on multimedia, 2011, 13(5): 993-1006.

[6] 關(guān)振群, 宋超, 顧元憲等. 有限元網(wǎng)格生成方法研究的新進(jìn)展[J]. 計算機(jī)輔助設(shè)計與圖形學(xué)學(xué)報, 2003, 15(1): 1-14. GUAN Z Q, SONG C, GU Y X, et al. Recent Advances of Research on Finite Element Mesh Generation Methods[J]. Journal of Computer-Aided Design & Computer Graphics, 2003, 15(1): 1-14.

The Realization of Text Visualization Based on Word Frequency Statistics

ZHU Qiao
(State Key Laboratory of networking and switching, Beijing University of Posts and Telecommunications, Beijing 100876, China)

Along with the emergence of massive text, the problem of information overload and the slow speed of information extraction prompted the emergence of text visualization. By analyzing the text, extracting the information and presenting it in a graphical way, text visualization provides an effective way to extract the key information of a text. After introduce the concept and importance of text visualization, emphatically expounds the realization of text visualization based on word frequency statistics. A micro-blog account’s data is chosen as the source data. First, use the TF-IDF algorithm for keyword extraction, and get keywords with weight. Then, realize the text layout algorithm based on SVG and quad-tree algorithm. The visual effect is good, and it can fully and directly reflect the account’s interests.【Key words】: Text visualization; Word frequency statistics; Quad-tree algorithm; TF-IDF

TP391

A

10.3969/j.issn.1003-6970.2016.11.025

朱巧(1992-),女,碩士研究生,主要研究方向?yàn)閿?shù)據(jù)可視化。

猜你喜歡
可視化單詞文本
基于CiteSpace的足三里穴研究可視化分析
基于Power BI的油田注水運(yùn)行動態(tài)分析與可視化展示
云南化工(2021年8期)2021-12-21 06:37:54
基于CGAL和OpenGL的海底地形三維可視化
單詞連一連
在808DA上文本顯示的改善
“融評”:黨媒評論的可視化創(chuàng)新
傳媒評論(2019年4期)2019-07-13 05:49:14
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
看圖填單詞
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
如何快速走進(jìn)文本
語文知識(2014年1期)2014-02-28 21:59:13
主站蜘蛛池模板: 亚洲av色吊丝无码| 91网站国产| 精品无码视频在线观看| 国产一区二区三区精品久久呦| 国产精品免费电影| 日韩av无码DVD| 国产9191精品免费观看| 国产又粗又爽视频| 噜噜噜久久| 国产精品开放后亚洲| 青青操国产| 最新午夜男女福利片视频| 欧美一区二区啪啪| 毛片在线区| 国产91透明丝袜美腿在线| 亚洲天堂啪啪| 亚洲无码高清视频在线观看| 国内精品久久九九国产精品| 夜夜操国产| 国产www网站| 永久免费av网站可以直接看的| 在线无码av一区二区三区| 国产欧美日韩91| 天天操天天噜| 国产不卡网| 免费a级毛片视频| 91无码人妻精品一区| 亚洲an第二区国产精品| 在线a视频免费观看| 久久精品一卡日本电影 | 欧美亚洲一区二区三区在线| 亚洲 欧美 日韩综合一区| 香蕉网久久| 亚洲开心婷婷中文字幕| 日本www在线视频| 亚洲天堂精品视频| 久久亚洲日本不卡一区二区| 国产高清不卡| 日韩免费视频播播| 视频二区国产精品职场同事| 青青国产成人免费精品视频| 亚洲永久免费网站| 亚洲一区二区三区国产精品| 亚洲中文字幕23页在线| 伊人无码视屏| 国产区福利小视频在线观看尤物| 亚洲综合网在线观看| 亚洲女同一区二区| 青青草91视频| 国产日韩欧美精品区性色| 国产婬乱a一级毛片多女| 国产人人干| 欧美日韩中文国产| 99精品福利视频| 久久综合一个色综合网| 国产一级毛片yw| 国产成人精品男人的天堂| 欧美午夜视频在线| 国产一在线观看| 91在线激情在线观看| 精品自窥自偷在线看| 国产欧美视频在线| 性网站在线观看| 国产成人高清精品免费5388| 久久99精品国产麻豆宅宅| 暴力调教一区二区三区| 欧美国产精品不卡在线观看| 精品国产免费观看一区| 精品久久久久成人码免费动漫 | 91在线一9|永久视频在线| 亚洲国产成人麻豆精品| 99精品视频九九精品| 91小视频在线观看免费版高清| 国产无码在线调教| 青青草原国产精品啪啪视频| 国产精品综合久久久| 国产精品一区在线麻豆| 久久国产黑丝袜视频| 亚洲精品动漫在线观看| 尤物精品视频一区二区三区| 九色91在线视频| 欧美日韩成人|