999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

關注可視化文本分析中的技術優勢*——基于全國教育科學規劃教育技術類課題的命題分析

2016-01-15 06:06:45
現代遠程教育研究 2015年3期
關鍵詞:信息可視化

?

關注可視化文本分析中的技術優勢*——基于全國教育科學規劃教育技術類課題的命題分析

□郁曉華

摘要:可視化文本分析表達了一種對文本數據運用交互式圖形呈現方式,實現知識發現的信息分析技術和過程,其應用過程一般分為文本處理、可視化呈現和交互理解三個階段。進行文本可視化分析操作時,需根據研究對象的特征,選擇恰當的工具,從原始材料中抽取文本的特征屬性或元數據,在合適的視覺編碼描繪和概括文本內容、結構、關系等基礎上,與用戶互動,揭示文本信息的特征和規律。已有研究表明,借助技術在計算和可視化上的能力,可視化文本分析技術可以彌補人工分析時存在的耗時長、主觀性強等問題,提升文本信息處理與理解的效率,深入探察數據中隱藏的特征、關系和模式。基于全國教育科學規劃教育技術類課題的案例研究驗證了這些優勢,且這一做法正逐漸引發業內的研究關注,成為一大發展趨勢。案例研究還發現:受中文自然語言處理技術還不夠成熟的影響,可視化文本分析在中文文本應用中還比較有限,在分詞、工具選用以及分析深度等方面還存在不足。

關鍵詞:信息可視化;文本分析;可視化工具;操作方法;案例研究

一、引言

科技的迅猛發展使得現今社會比以往任何一個時期都更富于變化與創新,知識的大量涌現和激烈的社會競爭要求人們能快速從大量文本信息和不同觀點中建構自己的理解并加以創新。為應對這一轉變,有效利用技術的力量加速人們對于文本信息的處理與理解,進而發現數據中隱藏的特征、關系和模式就成為了解決問題的有力路徑,在此背景下,可視化文本分析技術(Visual Text Analytics)應運而生。可視化文本分析有效整合了文本分析和信息可視化兩個技術領域的核心優勢,用直觀、交互式圖形對抽象、非結構化文本數據加以呈現,以有效支持信息的分析理解和知識的挖掘發現。雖然當前國內有一些可視化文本分析技術的介紹,但人們對于如何選用可視化文本分析工具,如何進行文本信息的抽取、可視化結果呈現等還缺乏直觀、深入的了解。本文以“十一五”、“十二五”全國教育科學規劃教育技術類立項課題為應用案例,運用可視化文本分析技術對這些課題的標題信息展開研究,在驗證其優勢的基礎上,展示可視化文本分析技術的應用過程,探討其在應用方面的一些操作技巧以及在中文應用中所存在的不足。

二、可視化文本分析技術概述

1.文本分析、信息可視化與可視化文本分析

從字面含義剖析,可視化文本分析涉及兩類關鍵技術,即文本分析(Text Analytics)和信息可視化(Information Visualization)。

文本分析也稱為文本挖掘(Text Mining),泛指對非結構化文本中所包含數據進行分析的技術(Miner et al.,2012)。這一主題下隱含的核心任務就是要將非結構化的文本轉化為有意義的數據,用算法加以分析從而為決策提供支持。文本分析的方法覆蓋了從完全算法型(Algorithmic)到完全探索型(Exploratory)兩極。算法型方法和探索型方法的根本區別在于是否有一個明確遵循的目標或處理過程。其中,探索型方法一般不預設目標和過程,分析時側重在不斷地探索中尋找線索形成指向(Kings College London,2007)。文本分析在社會科學領域的一個典型應用就是內容分析(Content Analytics)。Stemler(2001)認為內容分析其實就是一種系統的、可復制的技術,它將文本中眾多的詞匯依據明確的編碼規則壓縮成少量的內容分類。因此,文本分析常常會涉及概念詞典的建立和應用,或者是某一固定術語詞匯集的應用。依據這些詞典或詞匯集,文本數據將被抽取出來進行匹配或統計計算。

信息可視化研究的是如何用計算機技術對抽象數據實現互動化的視覺呈現(Card et al.,1999)。一張圖抵千言萬語。信息可視化充分利用了人類與生俱有的對圖像信息迅速辨識和理解的能力,以直觀方式傳遞抽象信息,增強了人們對于信息的觀察和理解,進而放大了人類的認知能力,尤其是在工作記憶、模式的識別、各種關系的知覺推理等方面(Thomas et al.,2005)。在各類抽象數據中,文本是其中很重要的一類,因此文本可視化是信息可視化的一個重要子集。余紅梅等(2011)、唐家渝等(2013)認為文本可視化就是將復雜文本中的內容、結構、關系和內在規律等提取出一定的模式,以視覺符號的形式表達出來,讓用戶通過與可視化界面的交互來快速理解文本,為知識發現提供支持。

總的來講,文本分析側重于非結構化文本中信息的抽取以及關系和規律模式的形成,而信息可視化側重于結果的視覺化呈現與互動,兩者在方法和過程上存在一些重疊。將兩者相結合,可視化文本分析描述了一種對文本數據運用交互式圖形呈現方式實現知識發現的信息分析技術和過程(Risch et al.,2008)。這一技術和過程將計算機的能力(如圖形和計算的功能)和人的智慧(如認知、關聯和推理的能力)緊密聯合在一起,為更好地理解文本和發現知識提供了新的有效途徑(劉世霞等,2011;唐家渝等,2013)。

2.可視化文本分析的過程與方法

可視化文本分析的主要目標是快速從文本中找出重要內容,形成圖形,揭示文本的內容結構和關系規律,以幫助用戶快速獲取所需信息。這一過程一般可劃分為文本處理、可視化呈現和交互理解三個階段(唐家渝等,2013)。

(1)文本處理階段

這一階段將生成可視化分析所需數據,文本的特征屬性或其他元數據將被分析抽取出來。一般來講,文本特征或元數據獲取越多,越有利于后面的信息分析。分析中常應用到的文本特征有詞頻、位置、詞性和詞義等。其中,詞頻表示詞在文檔中出現的次數,也是最容易獲取的數據。一般而言,除去聯系詞,詞頻越高表示詞與所在文檔主題的相關性越高,也意味著其在文檔中的重要性越高。另外,由于首段、末段、段首、段尾等特殊位置在文檔中常用于揭示文檔的主要內容和核心觀點,因此出現在這些位置的詞尤其要加以關注。在詞性上,名詞、動詞、形容詞等實詞相對于連詞、介詞等虛詞在文本信息傳達上的表現力要更強些。詞義最難,一般系統在處理詞義時需同時配合領域知識庫或領域知識本體的運用。

文本處理時常用到的關鍵技術有文檔結構解析方法、實體提取技術和情感分析技術等。其中,解析文檔結構時的分詞技術非常重要,分詞的準確率和合理性將直接對后面信息分析的有效性產生重大影響。分詞要求能正確識別單詞或詞匯單元中的連詞符(比如人名中的中間點)、特定符號等(比如電子郵件),單詞的大小寫、縮寫等。分詞、抽取、歸一化等操作后提取出的詞匯利用特征數據構建向量空間模型并進行降維,或利用主題模型處理特征數據,原始無結構或結構較弱的文本數據與其特征屬性加以整合后將變成有意義的結構化信息,這些最終形成的數據將用于后面階段的可視化呈現和交互。

(2)可視化呈現階段

這一階段將完成數據到圖形的轉換,一個重要任務就是選擇合適的視覺編碼來描繪和概括文本的內容、結構、關系等,得出所謂的文本可視化。通常,文本詞匯的視覺編碼主要服務于突顯內容的重要程度,可使用的方式有大小、長度、顏色、形狀、面積、位置等,比如用字體的大小反映詞頻,用區塊面積反映重要性;而文本結構、關系等的視覺編碼相對更為復雜,需要綜合使用多種文本特征數據,甚至需要結合文檔來源的社會、歷史和文化等背景信息,主要用到的手段有時間線、樹狀圖、網絡圖、疊式圖、主題地圖、知識圖譜等。

依據文本可視化對特征屬性數據的不同選取,文本可視化可分為基于文本詞匯的可視化、基于文本關系的可視化以及基于多層面信息的可視化三大類(劉世霞等,2011;袁海等,2014),分別服務于不同的分析目標,如表1所示。

表1 文本可視化分類

(3)交互理解階段

這一階段用戶與視覺圖形互動以發現文本信息的特征和規律。一般而言,文本可視化后都會提供一定的交互功能以幫助用戶設置合適的視角加以觀察和理解,主要應用到的交互手段有全局+詳細、平移+縮放、焦點+上下文及變形、動態過濾、多視圖關聯協調等(楊彥波等,2014)。

三、案例研究的設計

1.研究對象

科教興國是我國實現國家強盛、民族復興長期秉持的發展戰略,每年的全國教育規劃課題申報工作可以說是我國教育科研領域的最大盛事。優秀的選題不僅指明了我國教育改革發展和現代化建設中亟需解決的重大理論與實踐問題,還將引領我國教育科學研究的未來發展方向(全國教育科學規劃領導小組辦公室,2012)。這些研究選題的思想、方法和價值大多通過好的課題命題被有效加以表達和傳遞。因此,標題文字不僅要濃縮課題研究的精華,其遣詞造句上的立意也需用心良苦,才能使其在課題評審中被高效識別并得到廣泛認同。要揭露課題命題中的秘密,對標題信息開展可視化文本分析研究將是一個不錯的方法選擇。

2.研究假設

區別于以往同類型主題研究(張剛要,2008;劉晶波等,2008)中較多依賴于人的主觀加工和處理的做法,可視化文本分析大量借助了技術在計算和可視化上的優勢。因此,本文假設這一做法將在案例的以下研究方面發揮作用:

(1)傳統同類型主題研究往往需要人為凝煉標題的主要內容或抽取標題的核心觀點,不僅工作量巨大且在分析之前就使分析材料帶有了一定認知偏向,這在一定程度影響了結論的客觀性。采用可視化文本分析后,技術對人工的替代可以克服這兩方面的不足。

(2)由于標題所涵蓋的信息有限(課題申請書是不公開的),人工分析的范疇和程度也會比較有限。傳統同類型主題研究幾乎都僅聚焦于現狀及發展變化上,而采用可視化文本分析后,通過關系和規律的可視化揭露,應能在分析的視角上有所突破,比如命名中的一些構造規則和常用范式,以及課題研究的區域分布特點等。

3.文本可視化工具的選取

可視化文本分析提供了一條不同于以往的全新方式去解讀文本。當前,實現文本可視化的工具很多(Brady,2012),但能夠服務于中文可視化分析的卻很少。在這些工具中,比較知名且免費的有IBM研究中心和IBM Cognos軟件組共同主持的Many-Eyes實驗項目所開發的一套可視化工具集(http:// www-958.ibm.com/software/data/cognos/manyeyes/visualizations①)以及由Stéfan Sinclair和Geoffrey Rockwell研究文本分析工具和文本分析修辭合作項目所開發的基于網絡的可視化分析環境Voyant/ Voyeur(http://hermeneuti.ca/voyeur/tools)。這兩套可視化工具集都可支持用戶輸入自由文本(即原始文本信息),并在最基本的詞頻分析上提供了很多可視化呈現方式,比如詞頻曲線、氣泡集合、標簽云等。但相比較而言,Voyant在分析因素的種類上相對更為豐富、應用更為多樣,其主要可視化工具如表2所示。

表2 Voyant工具集

本研究將從Voyant和ManyEyes中選取適合的且沒有語言要求的工具展開針對全國教育科學規劃教育技術類立項課題名稱的可視化文本分析研究。

四、案例的研究過程

1.研究材料的處理

本研究的可視化文本分析材料來自于全國教育科學規劃領導小組辦公室在其官方網站(http://onsgep.moe.edu.cn/)上公布的“十一五”(2006-2010年)、“十二五”(2011-2013年)以來教育技術領域的立項課題(課題編號中含“CA”),共計201項,各年立項及地區分布情況如表3所示。

表3 2006-2013年全國教育科學規劃教育技術類課題立項情況

由于案例研究不像以往同類型主題研究那樣人工提煉核心詞匯,而是直接分析原始詞匯,因此首要工作就是要對課題名稱進行分詞處理。但中文是以字為單位,中文詞語之間不像英文用空格對每個單詞加以分隔自然形成分界,是沒有明顯區分標識的。此外,中文連續字之間的不同切割和組合還會產生不同的含義或語義側重,因此中文分詞的狀況將直接影響可視化分析得出的結論。為保證中文分詞的合理與準確性,本研究對課題名分詞采用了技術分詞和人工分詞相結合的方式。技術分詞就是使用分詞工具實現快速分詞,目前比較常見的中文分詞工具有SCWS、NLPIR(前身ICTCLAS)、CJKAnalyzer、IKAnalyzer、paoding、MMSeg4j、imdict等。分詞工具的選用除了考慮工具的分詞原理與分詞速度之外,還需要考慮工具所帶詞典種類、規模、可擴展性,以及工具對于歧義、數字、英文混合分詞的處理效果等。綜合以上多個因素的考慮,本研究選用了NLPIR漢語分詞系統(http://ictclas.nlpir.org/)進行分詞的初始處理;然后在此基礎上,為進一步優化分詞效果,結合了三位教育技術領域內研究人員的意見進行修訂和調整;最終形成一份相對比較客觀、合理的文本分詞詞匯集合。

在分詞過程中,研究發現,無論分詞工具如何設置和調整,對于語義的把握目前仍然不太成熟。因此,人工修訂對分詞的微調可從以下幾個方面入手:

(1)去重復詞。同一標題中重復的詞匯只需統計一次,以有效獲取主題的頻次。比如課題“重慶市城市地區與農村地區中小學生信息素養的比較研究”,分詞拆分會得到兩個“地區”,但詞頻統計只需要計算一次即可。

(2)表示統一。標題中的同一詞義,有的課題用中、英文分別表示;有的課題用類似但不同的詞匯,這些情況在分詞時會形成多個不同的詞匯,不利于對課題專題的分析理解,因此人工調整階段時應選用一種表示方式加以統一歸并。比如“計算機支持的協作學習”與“CSCL”(統一用“CSCL”),“網絡”與“WEB”(統一用“網絡”),“虛擬學習社區”與“教育虛擬社區”(統一用“虛擬社區”),“教育資源”、“教育信息資源”和“數字化資源”(統一用“教育資源”)等。

(3)詞意拆解。中文的詞匯有時一個復合詞可包含多個含義,這非常不利于對標題語義的分析,因此分析之前可人工進一步拆分為多個詞匯分別表達。比如中小學生,可拆解為中小學和學生兩個詞匯。

2.可視化的呈現與解讀

上一階段分解獲得的課題標題詞匯集,將在這一階段,在不同的目標需求下選擇恰當的可視化方式加以呈現,實現對信息的分析和對知識的發現。雖然表1已給出了文本可視化應用的一般性指導原則,但在具體操作時,還需要根據可視化工具的特點做出靈活調整。

(1)用簡單、可視化的詞頻變化解讀當前教育技術領域研究需求和方法的轉變

教育技術領域研究的關注點集中體現在一定時期內課題標題中一些關鍵詞匯的運用,因此關注點的發展變化可結合這些詞匯在不同時期的頻次變化加以考察。從可視化文本分析的角度,這需要利用詞匯的時間特征。由于本研究中將2006-2013年間的全國教育科學規劃教育技術類立項課題名稱的分詞詞匯集合按時間先后順序放置在一個文本文件中,就將詞匯的時間特性轉換為相對比較簡單的位置特性,因此可以使用Voyant中的Bubblelines工具。Bubblelines工具使用水平線作為時間軸,每個詞匯都可有自己的時間軸,詞匯就以氣泡方式按其在文本中的先后分布情況在水平線上對應呈現。氣泡的大小反映了詞匯的頻次,對于本研究而言,也即反映了詞匯在特定時期受關注的重要程度。

由于Bubblelines工具支持選定詞匯組的對比觀察,因此可以從不同視角考察關注點的發展變化。在本研究中,我們不再重復以往同類型主題研究在教育技術研究主題和領域方面的研究結論,而試圖通過可視化分析技術從研究需求和研究方法上加以揭示,因而選取對應的詞匯集如表4所示。導入立項課題名稱的分詞詞匯集合之后,在Bubblelines工具中按照設定的詞匯集經過觀察篩選可分別得如圖1、圖2所示的圖示。

表4 當前教育技術研究領域變化的詞匯集

圖1 技術應用于教育在不同時期需求層次的演變

圖2 教育技術研究在不同時期研究方法或方式上的側重

進行可視化解讀時,雖然時間軸不是很精確,但在理解趨勢發展上影響并不是很大。因此,可大致將Bubbleline圖示的水平軸等分成2006-2008(“十一五”前期)、2009-2010(“十一五”后期)、2011-2013(“十二五”前期)三段。借助這些直觀圖示,我們不難發現當前教育技術領域研究需求和研究方法的關注變化:

第一,技術帶給教育的發展和創新需求一直是教育技術領域不變的話題。在“十一五”后期,效益需求被激發。而從“十二五”開始,變革需求開始提上議程。但奇怪的是,共享需求在“十一五”后期出現斷檔(見圖1所示)。

第二,方法和結果在現實中的“應用”價值以及對實踐的指導作用是教育技術領域研究一直十分強調的目標。在“十一五”期間,這一目標在課題標題中還常會用到“理論”與“實踐”兩個詞匯分別表示方式上的側重。“十一五”中、后期,使用“實證”和“評價”方式論證研究的有效性和合理性尤其突顯(見圖2所示)。

可見,在本次應用中,可視化文本的分詞技術起到關鍵作用。相對于以往同類型專題的研究,技術分詞的應用,使得詞匯數據的粒度相對較小,也使得很多人工處理時容易忽視的“平凡”、“瑣碎”的詞匯被保留了下來,比如“理論”、“實踐”、“創新”、“發展”等,從而有了更多層次、更多維度視角看待事物的支持基礎。

(2)通過可視化交互突顯觀察要素,透視當前教育技術領域的區域研究特點

要分析當前教育技術領域的區域研究特點,除了課題名稱詞匯本身的特征屬性數據之外,還需要用到課題來源的地區信息。選用ManyEyes的Country Map工具,將立項課題的地區分布情況數據值疊加在中國地圖上,就可用比表格更為直觀、形象的方式觀察立項課題的全國空間格局。從圖3中我們不難發現,教育技術類課題研究存在嚴重的區域分布不均衡現象,研究多集中在東部沿海地區,而黑龍江、青海、西藏、云南、貴州、寧夏、海南等地區在2006-2013年間竟無一項課題立項。

圖3 2006-2013年間課題立項的區域分布

為進一步分析教育技術的區域研究特點,我們選用了標簽云工具。由于標簽云中所顯示詞匯的字體大小是直接映射該詞匯在文本中出現的頻次,從某種程度上也代表了該詞匯對文本的重要性,因此使用標簽云可快速將各地區研究課題中的核心主題和內容突顯出來。雖然Voyant和ManyEyes都提供了實現標簽云的工具,但功能上都無法很好支持本案例研究所需的互動觀察,因此研究另外選用了服務上更為專業的標簽云工具WordItOut(http://worditout.com)。首先,將立項課題的分詞詞匯集合按地區歸屬抽取出來分別加以整理,各自形成一個獨立的文本文件。接著,在WordItOut中分別導入文本中的詞匯。考慮可視化文本分析合理性對文本數量有一定要求,本研究僅選擇立項數較多的北京、江蘇、廣東、浙江和上海5個省市加以考察。在WordItOut中,調整顯示詞匯的最低頻次限度對顯示詞匯加以篩選過濾,得到5個省市對應的標簽云(見圖4)。

通過這些可視化圖示,我們不難對當前教育技術領域的區域研究特點做出如下分析歸納:

第一,對于教育技術研究的主要組成內容,北京側重于教師和資源,江蘇側重于教師和環境,浙江和上海分別側重于環境與資源,而廣東在這方面沒有體現出明顯的研究側重。

第二,在教育技術應用領域上,北京和江蘇都非常重視中小學中的教育應用。此外,北京還關注農村教育,江蘇關注聾教育,廣東關注職業教育,浙江關注高校,上海關注基礎教育。

第三,在研究方式上,北京、江蘇、浙江都非常看重應用,江蘇還特別強調理論建構與實證評價,廣東強調模式研究,上海則突出研究的實踐。

第四,在研究主題上,北京對于教育技術能力的研究十分突出,而浙江則對課堂教學的研究比較側重。

在本次應用中,可視化文本分析的交互技術起了關鍵作用。相對于以往同類型專題的研究,最低頻次限度的過濾設置使得文本重心快速突顯出來,視點得以聚焦,研究者不再被龐大、繁雜的數據所淹沒。

(3)在文本關系的可視化中剖析課題命名的構造規則和常用范式

圖4 5省市立項課題的標簽云

對課題命名構造規則和常用范式的剖析,這一研究內容在以往同類型專題研究中幾乎沒有。分解課題名稱的構造,大體可劃分為條件背景、內容主題和方法結果三部分。其中,條件背景部分展示了課題開展的時代背景、研究領域或實驗環境條件,內容主題部分表明了課題關注的領域主題、研究對象或問題,而方法結果部分則指出了課題使用的研究方法、實驗手段以及最后的結果產出等。本研究所希望揭示的課題命名構造規則和范式,主要是指這三部分闡述中的一些用詞習慣、搭配關系以及彼此之間的常用連接詞等,其實質就是基于文本關系的可視化。這可以使用Voyant中的Links工具加以觀察。Links工具在分析詞匯詞頻與位置特征屬性的基礎上,發現詞匯間的組合規律,然后使用有向圖給予視覺的直觀呈現,并以尺寸作為視覺編碼展現詞匯與鄰近關鍵術語間的鏈接強弱。

圖5 課題詞匯的關系網絡圖

本研究將處理后的2006-2013年間的全國教育科學規劃教育技術類立項課題名稱的分詞詞匯集合導入Links工具中,調整所需要觀察的頻次較高的關鍵詞匯,獲得如圖5所示的關系網絡圖,從中我們不難識別出課題名稱構造中的常用詞匯,如表5所示。

表5 課題名稱構造中的常用詞匯

進一步,再分別選取連接詞匯和內容詞匯細節化觀察課題命名中的搭配關系。圖6a、b、c分別顯示了標題條件背景部分、內容主題部分、方法結果部分的構造習慣。總的來講,借助可視化文本分析技術,我們可對課題命名的構造規則和常用范式作如下概要歸納:

第一,“研究”一詞為課題命名中最為重要的構造用詞(詞頻為187/201≈0.93)。

第二,“基于”、“下”、“中”三詞常用于引導課題研究的條件背景說明。三者的區別在于“基于”用于技術研究,“下”用于對策研究,“中”用于應用研究(見圖6a所示)。

第三,課題名稱的內容主題部分,常用“及其”實現研究對象的并列陳述,并往往需在標題中用“在”和“中”指明研究的條件背景;用“促進”說明研究對象間的作用關系,同時搭配“發展”明示價值意義,“設計”明示結果產出(見圖6b所示)。

第四,課題命名對于方法結果說明的用詞中,“理論”與“實踐”兩詞經常一起使用,且還會搭配“體系”一詞。實證研究中,對“效益”開展“實證”,對“建設”進行“評估”。實踐研究中,往往會開發“關鍵”“技術”,探討“應用”“支持”(見圖6c所示)。

圖6 課題命名構造規則和常用范式

雖然對于可視化后關系圖的解讀,主觀因素的影響會很大。但相對于人工操作在關系和規律揭露上的費時費力,甚至束手無策,可視化文本分析的優勢展露無遺。

五、結論與展望

可視化文本分析技術的價值不僅在于能用更為豐富和生動的方式展現結果,以幫助用戶更方便地理解和接受所要傳達的信息,更為重要的是能通過一系列的設計與算法,將文本中潛在的語義、結構等方面的關聯和規律顯性展現出來,幫助用戶分析和發現更多有趣的有用信息。本文通過案例研究逐一驗證了這些優勢,而這一做法也正逐漸引發業內的研究關注,成為一大發展趨勢(如胡曉玲等,2013)。

本研究雖然利用可視化文本分析技術對2006-2013年間全國教育科學規劃教育技術類立項課題命名規律加進行探索和歸納,分析并揭示了當前教育技術領域研究的發展變化和區域分布特點,但也存在著以下一些不足:

第一,相對于人工提煉后的標題關鍵詞匯,直接對標題分詞后的原始詞匯進行分析不僅快捷,而且還可有效增強結論的客觀性。但由于中文文體的獨特構造,在案例研究中不得不引入人工修訂,這額外增加了工作量,同時也增加了主觀影響的風險。

第二,由于現有大部分可視化文本分析工具不支持中文,因此案例研究在工具的選用上非常有限,很多工具的優勢無法加以有效利用,比如單詞樹(以樹狀層次結構展現特定單詞或語法在文本中的不同應用情境,工具如Word Tree)、層次詞頻結構(中心為特定詞匯,外圈是整個文本中曾與該詞匯搭配出現的詞,詞的大小是由出現的頻次決定,工具如Docu-Burst),使得在后續圖示的分析與解讀上開展得不夠全面充分,結論上難免有遺漏或誤解之處。

第三,案例研究所選用的文本特征屬性主要是頻次、位置、時間等較為簡單的數據,相應能支持對立項課題名稱開展的分析也比較有限,因此研究結論中的一些理解可能還比較膚淺。若要深入解讀和挖掘,研究還需借助質性研究中的內容分析技術,結合語法、語義和語用層面加以剖析。

總之,可視化文本分析技術現已逐漸彰顯出其巨大的應用價值和廣泛的發展空間,正被大量應用于信息處理、情報研究、知識挖掘、決策支持等相關領域。但更為有效的應用,應該是將可視化文本分析技術與學科領域的相關知識有機整合,從而更有效發揮計算機的計算能力,增強文本挖掘和知識發現的效能,在有效節省人類認知付出的同時高效提升人類理解的智慧。雖然受中文自然語言處理技術還比較薄弱的影響,可視化文本分析技術在中文文本中的應用還十分有限,但我們相信這僅是時間上的問題。

注釋:

①論文發表時,ManyEyes的網址更改為http://www-969. ibm.com/software/analytics/manyeyes,工具類型及其使用操作也作了部分調整。

參考文獻:

[1]胡曉玲,胡鐵生,潘國等(2013).我國基礎教育信息技術課題研究現狀與趨勢研究[J].教育信息技術,(12):18-20.

[2]劉晶波,豐新娜(2008).“全國教育科學規劃課題”中學期教育課題研究的狀況與分析[J].學前教育研究, (11): 12-17.

[3]劉世霞,曹楠(2011).可視化文本分析[J].中國計算機學會通訊, (7): 26-30.

[4]全國教育科學規劃領導小組辦公室(2012).全國教育科學規劃課題管理辦法[EB/OL]. [2014-08-26].http://onsgep.moe. edu.cn/edoas2/website7/level3.jsp?infoid=1335361775186559&id= 1335427422154100&location=null.

[5]唐家渝,劉知遠,孫茂松(2013).文本可視化研究綜述[J].計算機輔助設計與圖形學學報, (3):273-285.

[6]楊彥波,劉濱,祁明月(2014).信息可視化研究綜述[J].河北科技大學學報, (1):91-102.

[7]余紅梅,梁戰平(2011).文本可視化技術與競爭情報[J].圖書情報工作, (8):79-83.

[8]袁海,陳康,陶彩霞等(2014).基于中文文本的可視化技術研究[J].電信科學,(4):114-122.

[9]張剛要(2008).全國教育科學規劃2001-2007年教育技術學立項課題統計分析[J].電化教育研究, (10):90-93.

[10]Brady, A. (2012).See Text in Whole New Way: Text Visualization Tools[EB/OL]. [2014-08-26].http://blogs.princeton.edu/ etc/2012/08/16/see-text-in-whole-new-waytext-visualization-tools/.

[11]Card, S. K., Mackinlay, J. D., & Shneiderman, B. (1999). Readings in Information Visualization: Using Vision to Think[M]. Morgan Kaufmann.

[12]Kings College London (2007). Method in Text-Analysis: An Introduction [EB/OL]. [2014-08-26]. http://www.cch.kcl.ac.uk/legacy/teaching/av1000/textanalysis/method.html.

[13]Miner, G., Elder, J., & Hill, T. et al.(2012). Practical Text Mining and Statistical Analysis for Non-Structured Text Data Applications[M]. Academic Press.

[14]Risch, J., Kao, A., & Poteet, S. R. et al.(2008). Text Visualization for Visual Text Analytics[A]. Simoff S.J. et al. (Eds.). Visual Data Mining [C]. Springer Berlin Heidelberg:154-171.

[15]Stemler, S.(2001). An Overview of Content Analysis [J]. Practical Assessment, Research & Evaluation, 7(17) : 137-146.

[16]Thomas, J. J., & Cook, K. A. (2005).Illuminating the Path: The Research and Development Agenda for Visual Analytics[M]. National Visualization and Analytics Center.

[17]UCLA Library (n.d.). Text Analysis Tools[EB/OL]. [2014-08-26]. http://guides.library.ucla.edu/text.

design of these learning spaces, such as highly flexible seating arrangements and facilities for instantaneous information sharing within and across groups; yet it is also already clear that research on learning spaces is still in an early stage because of a small amount and poor quality of related academic research literature, the lack of scientific basis of learning spaces design and the shortage of rigorous empirical research. In the future, universities and research institutes should establish the interdisciplinary research team to further expand the research field as well as strengthen exchanges and cooperation in areas inside and outside.

Focusing on the Power of Visual Text Analytics——An Analyticsof the Titlesof Educational Technology Research Projectsofthe National Education Science Plan

Yu Xiaohua

Abstract:Visual text analytics shows a kind of information analysis techniques and processes of using interactive graphical methods to achieve knowledge discovery. Its application has three steps, including text processing, visual presentation and interactive interpretation. First, feature attributes or metadata should be extracted from the original text material with appropriate tools according to the characteristics of the study object. Then, based on the proper visual coding to describe and summarize the content, structure and relations of texts, traits and rules of the textual information are discovered through user interaction. Studies have shown that, with the capability of calculation and visualization of the technology, visual text analytics can make up the problems existing in manual analysis such as the time-consuming and subjectivity, enhance the efficiency of text information processing and understanding, and deeply explore the hidden characteristics, relationships and patterns of data. A case study carried out on the topics of educational technology research projects of the National Education Science Plan from 2006 to 2013 verified the advantages of visual text analytics in text comprehension. Visual text analytics is gradually arousing research attention and becomes a major trend. The case study also discussed the weakness of title tokenization, the inadequacies of research tools to support Chinese text analytics and the insufficient utilization of text features. Affected by the immaturity of Chinesenaturallanguageprocessingtechnology,theapplicationofvisualtextanalyticsin Chineseisstilllimited.

Keywords:Information Visualization; Text Analytics; Visualization Tools; Operation Method; Case Study

收稿日期2014-12-15責任編輯汪燕

作者簡介:郁曉華,博士,副教授,華東師范大學教育信息技術學系(上海200062)。

*基金項目:全國教育科學“十二五”規劃2013年度教育部重點課題“智慧教育視域下學習活動流及其信息模型建構與應用”(DCA130222)。

中圖分類號:G434

文獻標識碼:A

文章編號:1009-5195(2015)03-0104-09 doi10.3969/j.issn.1009-5195.2015.03.012

猜你喜歡
信息可視化
基于大數據的圖書館信息模式與個性化服務研究
計算機網絡安全可視化研究平臺設計與實現
論信息可視化設計在個人簡歷中的應用
標簽的可視化進程初探
科技傳播(2016年19期)2016-12-27 15:12:42
基于畢業生求職簡歷的信息可視化研究
新媒體時代背景下的圖形動畫設計與制作研究
戲劇之家(2016年8期)2016-05-23 12:29:03
淺談信息可視化在新聞傳播中的應用
出版廣角(2016年5期)2016-05-16 22:08:24
信息可視化技術在數字圖書館館藏資源檢索中的應用研究
圖書館界(2015年4期)2016-02-27 23:40:12
基于信息可視化的推動城市能源環保創新應用探究
科技資訊(2015年20期)2015-10-15 20:19:17
淺析信息可視化在用戶體驗研究中的設計
主站蜘蛛池模板: 伊人丁香五月天久久综合| 日韩精品免费在线视频| 亚洲国产日韩欧美在线| 亚洲精品国产日韩无码AV永久免费网| 欧美国产日本高清不卡| 美女亚洲一区| 亚洲有无码中文网| 久久久亚洲色| 亚洲高清无在码在线无弹窗| 精品视频一区二区观看| 亚洲欧美日韩中文字幕在线| 国产综合在线观看视频| 中文字幕人妻av一区二区| 欧美a在线看| 欧美成人免费午夜全| 国产第一页亚洲| 婷婷六月激情综合一区| 18禁黄无遮挡免费动漫网站| av在线手机播放| 伊人久综合| 亚洲精品第一页不卡| 免费在线国产一区二区三区精品| 中文字幕波多野不卡一区| 黄色网站不卡无码| 国产麻豆精品久久一二三| 欧美日韩午夜| 性视频一区| 免费无码一区二区| 手机成人午夜在线视频| 国产美女91呻吟求| AV网站中文| 亚洲日韩AV无码精品| 久久男人视频| 国产一区亚洲一区| 久久天天躁夜夜躁狠狠| 免费A级毛片无码无遮挡| 在线免费a视频| 国产成人夜色91| 国产菊爆视频在线观看| 亚洲婷婷在线视频| 亚洲色中色| 国产无码制服丝袜| 国产精品香蕉| 午夜精品区| 无码国内精品人妻少妇蜜桃视频 | 国产精品视频观看裸模| 中文字幕佐山爱一区二区免费| 四虎AV麻豆| 国产精品极品美女自在线看免费一区二区| 久久久91人妻无码精品蜜桃HD| 91福利在线观看视频| 巨熟乳波霸若妻中文观看免费| 欧美国产另类| 毛片网站在线看| 宅男噜噜噜66国产在线观看| 456亚洲人成高清在线| 伊人无码视屏| 国产亚洲精品91| 国产高清毛片| 波多野结衣无码AV在线| 国产成人8x视频一区二区| 丰满人妻久久中文字幕| 伊人丁香五月天久久综合| 波多野结衣无码中文字幕在线观看一区二区| 国产久草视频| 丰满人妻久久中文字幕| 免费在线看黄网址| 91色老久久精品偷偷蜜臀| 日韩免费中文字幕| 波多野结衣中文字幕一区二区| 国产精品女同一区三区五区| 国产黄视频网站| 99re精彩视频| 国产在线欧美| 欧美成人综合视频| 国产精品免费福利久久播放| 热re99久久精品国99热| 在线观看视频99| 九九热视频精品在线| 人妻少妇乱子伦精品无码专区毛片| 亚洲成人网在线播放| 白浆免费视频国产精品视频|