999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

研討系統(tǒng)中的發(fā)言文本聚類及其可視化

2017-06-20 23:53:10武文英熊才權(quán)余高峰李元甘聲穩(wěn)
軟件導(dǎo)刊 2017年4期
關(guān)鍵詞:可視化文本內(nèi)容

武文英+熊才權(quán)+余高峰+李元+甘聲穩(wěn)

摘要:研討系統(tǒng)會產(chǎn)生大量的專家發(fā)言文本信息,對發(fā)言文本進行聚類分析并可視化展現(xiàn)聚類結(jié)果,可以引導(dǎo)專家思維,提高研討效率。提出一種基于聚類的研討文本分析及可視化方法。首先對專家發(fā)言文本進行分詞,提取專家發(fā)言文本向量;再采用聚類算法對專家發(fā)言文本進行聚類分析,得到不同發(fā)言簇;最后在基于Web的研討系統(tǒng)中實現(xiàn)研討文本聚類,并采用D3方法對聚類結(jié)果進行可視化展現(xiàn)。實驗結(jié)果表明,該方法能有效展現(xiàn)專家發(fā)言之間的相似性和聚集度,引導(dǎo)專家思維收斂并達成共識。關(guān)鍵詞:研討支持系統(tǒng);發(fā)言文本;文本聚類;可視化DOI:10.11907/rjdk.171214中圖分類號:TP301文獻標識碼:A(文章編號)文章編號:16727800(2017)0040014040引言 研討是一種基于言語的群體交互行為,通過研討可以消除分歧,從而達成共識。群體研討系統(tǒng)[1]是一種計算機支持研討工具,它支持研討人員在線發(fā)表自己的觀點,并顯示研討進程和共識達成狀態(tài)。群體研討環(huán)境的開發(fā)涉及研討模型及共識達成算法、研討過程控制和研討結(jié)果可視化展示及利用等理論和技術(shù)問題,其中研討模型及共識達成算法則是最重要的研究內(nèi)容,它決定了系統(tǒng)能否自動得出研討結(jié)果。目前,對研討模型的研究大都基于抽象辯論理論,即把專家發(fā)言抽象為一個結(jié)點,而不考慮發(fā)言的內(nèi)容。如文獻[2]根據(jù)發(fā)言結(jié)點之間的攻擊和支持關(guān)系確定發(fā)言結(jié)點的可接受性,文獻[3]~[5]則對發(fā)言結(jié)點或發(fā)言之間的響應(yīng)強度賦予量化值,再根據(jù)這些量化值求得發(fā)言結(jié)點的共識值。事實上,群體共識隱藏在專家發(fā)言之中,對發(fā)言文本內(nèi)容進行分析處理是提取群體共識的重要手段。目前對發(fā)言文本分析已有諸多研究,如白冰等[6]提出了一種基于主題聚類的熱點提取方法,先對專家發(fā)言進行聚類分析,得到不同的聚類簇,每個聚類簇對應(yīng)一個主題,再從聚類簇中提取熱門話題。唐錫晉等[7]提出用對偶刻度法對專家發(fā)言關(guān)鍵詞進行聚類分析,形成專家與觀點關(guān)鍵詞之間的映射關(guān)系,以激勵成員產(chǎn)生聯(lián)想,形成創(chuàng)意。李欣苗等[8]針對開放式團隊創(chuàng)新研討的短文本特征,運用AntSA算法對研討文本進行聚類分析,識別每個類別的研討主題并展示給成員,從而激發(fā)成員的創(chuàng)新思維。本文在以上研究的基礎(chǔ)上,采用一種基于中心點的聚類算法對研討發(fā)言文本進行分析,并采用基于D3的Web可視化技術(shù)對聚類結(jié)果進行展現(xiàn)。這種方法的主要特色是在給定文本相似度閾值的前提下,得到若干個文本子集,同一個子集中的文本內(nèi)容具有一定的相似性,而不同子集之間的文本內(nèi)容差異較大,調(diào)整文本相似度閾值可以得到不同的聚類結(jié)果,便于專家從不同角度觀察發(fā)言之間的相似性,從而幫助專家分析發(fā)言內(nèi)容,促進研討達成共識。 1研討文本分析1.1研討文本預(yù)處理 研討文本是一種無結(jié)構(gòu)的數(shù)據(jù),需要將它們轉(zhuǎn)化成計算機能處理的數(shù)據(jù)。預(yù)處理的關(guān)鍵操作是對文本中的詞語進行切分,將連續(xù)的一句話分成無依賴關(guān)系并且按一定規(guī)則排列的單個詞語,然后過濾掉它們中的無關(guān)詞組,從而獲取一個文本特征詞的集合,最后按照停用詞表中的詞語將語料中對文本內(nèi)容識別意義不大但出現(xiàn)頻率很高的詞、符號、標點及亂碼等去掉。其處理流程如圖1所示。1.2文本特征詞權(quán)重確定及文本向量生成1.2.1文本特征項選擇與加權(quán) 首先根據(jù)研討內(nèi)容及相關(guān)領(lǐng)域知識建立特征詞庫,標識每個詞的權(quán)重,再根據(jù)文本內(nèi)容利用TFIDF[10]方法確定特征詞的權(quán)重。詞頻(term frequency,TF)是指某一個給定的詞語在該文本中出現(xiàn)的頻率。這個數(shù)值是對詞的個數(shù)(term count)的歸一化,以防止它偏向長的文本。對于在某一特定文本dj中的詞ti來說,它的重要性可表示為:tfij=(ni,j∑knk,j,其中ni,j是指ti在dj中出現(xiàn)的次數(shù),而∑knk,j是dj中詞的總數(shù)。逆向文本頻率(inverse document frequency,IDF)是對一個詞語普遍重要性的度量。某一個特定詞的逆向文本頻率可以由總文本數(shù)目除以包含該詞語的文本的個數(shù),其公式可以表示為:idfi=log(|D||{j:ti∈dj}|,其中D={d1,…,dn}是文本集,|D|是文本集中文本的個數(shù),|{j:ti∈dj}|是指包含ti的文本的個數(shù)。如果該詞語不在文本集中,即ti未在任意一個文本中出現(xiàn),就會導(dǎo)致分母為零,因此一般的處理方法是將其設(shè)為:|{j:ti∈dj}|+1。那么,TFIDF可以表示為:TF-IDF=tfij×idfi,其主要作用是過濾掉常見的詞語,保留重要的詞語。1.2.2向量空間模型VSM 向量空間模型(Vector space model)[11]就是把文本內(nèi)容轉(zhuǎn)化為相應(yīng)的文本向量,通過計算文本向量之間的相似性來度量文檔間的相似性。常用的文本向量相似性度量方式是余弦距離。文檔用較簡單的向量表示,簡化了文本中關(guān)鍵詞之間的復(fù)雜關(guān)系,使得文本分析具備了可計算性。這個算法的基本思想是:在含有n個研討文本的集合中,先將文本集合中的每個文本單獨作為一個簇,取各自的中心點向量,對簇集中兩兩簇的中心點向量進行相似度計算處理,從長度為(n×(n-1))/2的結(jié)果集中選出最大的相似度值所對應(yīng)的兩個簇。若該最大相似度值大于或等于閾值f,則將這兩個簇合并為一個新的簇,計算其中心點向量,并對簇集進行更新,然后再對簇集中的兩兩簇的中心點向量進行相似度計算處理,直至簇集中簇的中心點向量的最大相似度值小于閾值f,此時說明所有文本之間的相似度都不滿足要求,各自成為一簇。該算法主要是基于中心點向量來進行聚類分析,每獲取一個新的簇,都要取其中心點并對更新后的簇集重新進行相似度值的計算處理,因而算法的時間復(fù)雜度為O(n2)。2實例分析結(jié)果 為了驗證本文中提出的研討系統(tǒng)中的發(fā)言文本聚類分析方法的有效性和可行性,對已經(jīng)計算出相似度、關(guān)鍵詞及其詞頻的研討文本建立相關(guān)視圖,并采用基于D3的Web可視化技術(shù)對研討結(jié)果進行展現(xiàn),以更直觀的方式幫助專家理解研討結(jié)果。為了測試其結(jié)果有效性,本文團隊以“大學(xué)生暑期計劃如何安排”為話題展開研討。團隊共有9名同學(xué)參與了此次研討,這9個同學(xué)分別對應(yīng)大學(xué)的不同階段,并就自己的暑期計劃進行發(fā)言。把這9名同學(xué)的發(fā)言信息收集整理成了9篇文檔,并將文檔以發(fā)言的主體內(nèi)容進行命名,如圖2所示,暑期計劃可以分為旅游(出國游和國內(nèi)游)、實習(xí)(公司和學(xué)校實習(xí))、在家(考研復(fù)習(xí)、健身、務(wù)農(nóng))和備考公務(wù)員4類。本次實驗通過調(diào)整閾值的方式來實現(xiàn)文本聚類的多種結(jié)果,然后通過與人為判斷的預(yù)期結(jié)果進行比較來分析聚類的有效性和可行性。圖2是選出的9個作為本次聚類的實驗文檔樣本,并利用本文的基于中心點的聚類算法進行聚類。圖3~圖6展示了不同相似度閾值對聚類結(jié)果的影響。當閾值為0.01時說明對文本的區(qū)分度要求很低,所以9個文本聚在一起,表明各個文本內(nèi)容在主題上具有相似性。但隨著閾值的逐漸升高,聚類效果也逐步提升。當閾值在0.11附近時達到一個相對較好的聚類效果,此時旅游、實習(xí)、在家和備考公務(wù)員剛好各自歸為一類,與預(yù)期結(jié)果保持一致。但當閾值調(diào)整到0.35附近時,發(fā)現(xiàn)出國游和國內(nèi)游分開了,“在家的不同計劃”也各自歸為一類,雖然實習(xí)類沒有任何變化,但結(jié)合文本內(nèi)容來看,實習(xí)內(nèi)容有較多相似之處。這是因為隨著閾值提高,文本之間的區(qū)分度也逐漸變大,需要參考的文本內(nèi)容也越來越多,關(guān)鍵詞個數(shù)增多也會相應(yīng)地導(dǎo)致相似度降低,這顯然是合乎常理的。當閾值在0.5及其以上時,發(fā)現(xiàn)各個文本獨自為一類,說明文本之間的相似度已經(jīng)不滿足閾值了。從以上結(jié)果分析可以看出,本文提出的研討系統(tǒng)中的文本聚類方法具有較強的有效性和可行性。3結(jié)語 本文主要研究研討系統(tǒng)中發(fā)言文本的聚類方法,采用了一種基于中心點的聚類算法,對發(fā)言文本的相似性進行了分析并可視化展示聚類結(jié)果。這種方法主要是在給定相似度閾值的前提下,得到若干個子集,同一個子集中的文本內(nèi)容具有一定相似度,而不同子集之間的文本差異比較大。從另一個角度來說,文本聚類結(jié)果的顯示是依據(jù)文本相似度值反映的,通過對文本相似度進行計算分析,用不同顏色標識文本中出現(xiàn)的不同特征詞及其頻率,并用柱狀圖來反映詞頻之間的差異,從而使用戶對測試文本有一個主觀上的評判,為進一步研討提供很好的參考。不同專家的發(fā)言文本也可以通過同心圓的形式表示,由此反映研討文本的觀點的趨勢,有利于專家對自己的文本主體內(nèi)容進行反思與完善,使得專家思維收斂速度更快,加快研討進程,對促進專家思維一致性具有很好的導(dǎo)向效果。但是,此算法仍然存在一些不足,由于語義分析方面不夠強大,對于文本中的同義詞識別的敏感度不是特別高,加上語料庫、停用詞庫等的規(guī)模都比較小,對將要進行聚類的文本的過濾處理不夠完善,從而導(dǎo)致詞頻統(tǒng)計中詞匯有點冗余,對文本內(nèi)容關(guān)鍵詞的提取數(shù)量有一定影響,從而對文本向量的維度以及相似度的計算結(jié)果產(chǎn)生了一定的影響。這將是后續(xù)進一步完善的方向。參考文獻:[1]唐錫晉, 劉怡君. 有關(guān)社會焦點問題的群體研討實驗——定性綜合集成的一種實踐[J]. 系統(tǒng)工程理論與實踐,2007(3):4249.[2]熊才權(quán), 李德華. 一種研討模型[J]. 軟件學(xué)報,2009,20(8):21812190.[3]RAGO A, TONI F, AURISICCHIO M,et al.Discontinuityfree decision support with quantitative argumentation debates[J].AAAI Press,2016(23):6373.[4]BARONI P, ROMANO M, TONI F, et al. Automatic evaluation of design alternatives with quantitative argumentation[J]. Argument & Computation. 2015,6(1): 2449.[5]ARVAPALLY R S, LIU X. Collective assessment of arguments in an online intelligent argumentation system for collaborative decision support[C]. Collaboration Technologies and Systems (CTS), 2013 International Conference on, 2013: 411418.[6]白冰,李德華,熊才權(quán).研討支持系統(tǒng)中基于主題聚類的熱點提取[J].計算機與數(shù)字工程,2010,38(11):8185.[7]唐錫晉,劉怡君.從群體支持系統(tǒng)到創(chuàng)造力支持系統(tǒng)[J].系統(tǒng)工程理論與實踐,2006,26(5):6371.[8]FOX J, GLASSPOOL D, GRECU D, et al. Argumentationbased inference and decision makingA medical perspective[J]. IEEE Intelligent Systems,2007,22(6): 3441.[9]熊才權(quán), 李德華, 張玉. 研討廳專家意見聚類分析及其可視化[J].模式識別與人工智能,2009,22(2): 282287.[10]VAN GELDER T.Enhancing deliberation through computer supported argument visualization[M].Visualizing Argumentation: Software Tools for Collaborative and Educational SenseMaking,London:Springer London,2003:97115.[11]BARNES E, LIU X. Textbased clustering and analysis of intelligent argumentation data[C].26th International Conference on Software Engineering and Knowledge Engineering, SEKE,2014.(責(zé)任編輯:陳福時)Abstract:The webbased argumentation support system(WASS) will produce a large number of experts speech texts. Clustering analysis for speech texts and visualizing the clustering results can not only guide experts' thinking but also improve the efficiency of argumentation. In this paper, a method of text clustering and visualization for WASS is proposed. First, the speeches text is segmented and the text vector is extracted. Then clustering algorithm is used to cluster the experts' speeches and get different text clusters. Finally, the proposed method is realized in WASS, and the D3based method is used to visualize the clustering results. The experimental results show that the method can achieve clustering and visualization of speech texts, thus improving the efficiency of the argumentation.Key Words: WebBased Argumentation Support System(WASS);Speech Text;Text Clustering;Visualizationendprint

猜你喜歡
可視化文本內(nèi)容
基于CiteSpace的足三里穴研究可視化分析
內(nèi)容回顧溫故知新
基于Power BI的油田注水運行動態(tài)分析與可視化展示
云南化工(2021年8期)2021-12-21 06:37:54
基于CGAL和OpenGL的海底地形三維可視化
在808DA上文本顯示的改善
“融評”:黨媒評論的可視化創(chuàng)新
傳媒評論(2019年4期)2019-07-13 05:49:14
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
主要內(nèi)容
臺聲(2016年2期)2016-09-16 01:06:53
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
如何快速走進文本
語文知識(2014年1期)2014-02-28 21:59:13
主站蜘蛛池模板: 国产亚洲高清在线精品99| 被公侵犯人妻少妇一区二区三区| 色综合久久综合网| 国产99视频在线| 国产网友愉拍精品视频| 国产91在线|中文| 激情综合五月网| 青草娱乐极品免费视频| 亚洲成人动漫在线观看| 国内精自线i品一区202| 丰满人妻久久中文字幕| 天堂在线视频精品| 永久天堂网Av| 无码精品国产dvd在线观看9久| 超碰色了色| 国产丰满大乳无码免费播放| 精品免费在线视频| 欧美成a人片在线观看| 欧美性色综合网| 国产91色| 国产丝袜91| 日韩黄色在线| 精品国产自在现线看久久| 国产免费人成视频网| 久久综合AV免费观看| 中国精品自拍| 欧美在线精品怡红院| 成人午夜视频免费看欧美| 亚洲AⅤ永久无码精品毛片| 亚洲va欧美ⅴa国产va影院| 国产精品毛片在线直播完整版 | 大乳丰满人妻中文字幕日本| 国产在线八区| 九九热视频精品在线| 亚洲国产综合第一精品小说| 中文字幕波多野不卡一区| 国产乱人激情H在线观看| 国产精品亚洲va在线观看| 91青青在线视频| 亚洲无码不卡网| 丁香婷婷激情网| 欧美成人亚洲综合精品欧美激情| 国产免费一级精品视频 | 亚洲第一色网站| 一级成人a做片免费| 日本在线欧美在线| 久久综合九色综合97婷婷| 新SSS无码手机在线观看| 国产永久无码观看在线| 国产AV无码专区亚洲精品网站| 中文字幕久久亚洲一区| 精品人妻AV区| 一区二区偷拍美女撒尿视频| 无码综合天天久久综合网| 亚洲精品图区| 欧洲极品无码一区二区三区| 色哟哟国产精品| 一级毛片在线播放| 夜夜操国产| 成人久久18免费网站| 国产乱子伦视频三区| 欧美亚洲国产视频| 97人妻精品专区久久久久| 国产精品视频猛进猛出| 在线中文字幕日韩| 茄子视频毛片免费观看| 日本午夜视频在线观看| 久久久久久久久18禁秘| 茄子视频毛片免费观看| 高清无码手机在线观看| 在线中文字幕日韩| 日韩人妻无码制服丝袜视频| 大香伊人久久| 国产永久免费视频m3u8| 免费毛片全部不收费的| 欧美日韩精品在线播放| 久久中文电影| 香蕉蕉亚亚洲aav综合| 野花国产精品入口| 国产综合精品日本亚洲777| 91青青在线视频| 国产性精品|