?
關(guān)注可視化文本分析中的技術(shù)優(yōu)勢(shì)*——基于全國(guó)教育科學(xué)規(guī)劃教育技術(shù)類(lèi)課題的命題分析
□郁曉華
摘要:可視化文本分析表達(dá)了一種對(duì)文本數(shù)據(jù)運(yùn)用交互式圖形呈現(xiàn)方式,實(shí)現(xiàn)知識(shí)發(fā)現(xiàn)的信息分析技術(shù)和過(guò)程,其應(yīng)用過(guò)程一般分為文本處理、可視化呈現(xiàn)和交互理解三個(gè)階段。進(jìn)行文本可視化分析操作時(shí),需根據(jù)研究對(duì)象的特征,選擇恰當(dāng)?shù)墓ぞ撸瑥脑疾牧现谐槿∥谋镜奶卣鲗傩曰蛟獢?shù)據(jù),在合適的視覺(jué)編碼描繪和概括文本內(nèi)容、結(jié)構(gòu)、關(guān)系等基礎(chǔ)上,與用戶(hù)互動(dòng),揭示文本信息的特征和規(guī)律。已有研究表明,借助技術(shù)在計(jì)算和可視化上的能力,可視化文本分析技術(shù)可以彌補(bǔ)人工分析時(shí)存在的耗時(shí)長(zhǎng)、主觀性強(qiáng)等問(wèn)題,提升文本信息處理與理解的效率,深入探察數(shù)據(jù)中隱藏的特征、關(guān)系和模式。基于全國(guó)教育科學(xué)規(guī)劃教育技術(shù)類(lèi)課題的案例研究驗(yàn)證了這些優(yōu)勢(shì),且這一做法正逐漸引發(fā)業(yè)內(nèi)的研究關(guān)注,成為一大發(fā)展趨勢(shì)。案例研究還發(fā)現(xiàn):受中文自然語(yǔ)言處理技術(shù)還不夠成熟的影響,可視化文本分析在中文文本應(yīng)用中還比較有限,在分詞、工具選用以及分析深度等方面還存在不足。
關(guān)鍵詞:信息可視化;文本分析;可視化工具;操作方法;案例研究
科技的迅猛發(fā)展使得現(xiàn)今社會(huì)比以往任何一個(gè)時(shí)期都更富于變化與創(chuàng)新,知識(shí)的大量涌現(xiàn)和激烈的社會(huì)競(jìng)爭(zhēng)要求人們能快速?gòu)拇罅课谋拘畔⒑筒煌^點(diǎn)中建構(gòu)自己的理解并加以創(chuàng)新。為應(yīng)對(duì)這一轉(zhuǎn)變,有效利用技術(shù)的力量加速人們對(duì)于文本信息的處理與理解,進(jìn)而發(fā)現(xiàn)數(shù)據(jù)中隱藏的特征、關(guān)系和模式就成為了解決問(wèn)題的有力路徑,在此背景下,可視化文本分析技術(shù)(Visual Text Analytics)應(yīng)運(yùn)而生。可視化文本分析有效整合了文本分析和信息可視化兩個(gè)技術(shù)領(lǐng)域的核心優(yōu)勢(shì),用直觀、交互式圖形對(duì)抽象、非結(jié)構(gòu)化文本數(shù)據(jù)加以呈現(xiàn),以有效支持信息的分析理解和知識(shí)的挖掘發(fā)現(xiàn)。雖然當(dāng)前國(guó)內(nèi)有一些可視化文本分析技術(shù)的介紹,但人們對(duì)于如何選用可視化文本分析工具,如何進(jìn)行文本信息的抽取、可視化結(jié)果呈現(xiàn)等還缺乏直觀、深入的了解。本文以“十一五”、“十二五”全國(guó)教育科學(xué)規(guī)劃教育技術(shù)類(lèi)立項(xiàng)課題為應(yīng)用案例,運(yùn)用可視化文本分析技術(shù)對(duì)這些課題的標(biāo)題信息展開(kāi)研究,在驗(yàn)證其優(yōu)勢(shì)的基礎(chǔ)上,展示可視化文本分析技術(shù)的應(yīng)用過(guò)程,探討其在應(yīng)用方面的一些操作技巧以及在中文應(yīng)用中所存在的不足。
1.文本分析、信息可視化與可視化文本分析
從字面含義剖析,可視化文本分析涉及兩類(lèi)關(guān)鍵技術(shù),即文本分析(Text Analytics)和信息可視化(Information Visualization)。
文本分析也稱(chēng)為文本挖掘(Text Mining),泛指對(duì)非結(jié)構(gòu)化文本中所包含數(shù)據(jù)進(jìn)行分析的技術(shù)(Miner et al.,2012)。這一主題下隱含的核心任務(wù)就是要將非結(jié)構(gòu)化的文本轉(zhuǎn)化為有意義的數(shù)據(jù),用算法加以分析從而為決策提供支持。文本分析的方法覆蓋了從完全算法型(Algorithmic)到完全探索型(Exploratory)兩極。算法型方法和探索型方法的根本區(qū)別在于是否有一個(gè)明確遵循的目標(biāo)或處理過(guò)程。其中,探索型方法一般不預(yù)設(shè)目標(biāo)和過(guò)程,分析時(shí)側(cè)重在不斷地探索中尋找線(xiàn)索形成指向(Kings College London,2007)。文本分析在社會(huì)科學(xué)領(lǐng)域的一個(gè)典型應(yīng)用就是內(nèi)容分析(Content Analytics)。Stemler(2001)認(rèn)為內(nèi)容分析其實(shí)就是一種系統(tǒng)的、可復(fù)制的技術(shù),它將文本中眾多的詞匯依據(jù)明確的編碼規(guī)則壓縮成少量的內(nèi)容分類(lèi)。因此,文本分析常常會(huì)涉及概念詞典的建立和應(yīng)用,或者是某一固定術(shù)語(yǔ)詞匯集的應(yīng)用。依據(jù)這些詞典或詞匯集,文本數(shù)據(jù)將被抽取出來(lái)進(jìn)行匹配或統(tǒng)計(jì)計(jì)算。
信息可視化研究的是如何用計(jì)算機(jī)技術(shù)對(duì)抽象數(shù)據(jù)實(shí)現(xiàn)互動(dòng)化的視覺(jué)呈現(xiàn)(Card et al.,1999)。一張圖抵千言萬(wàn)語(yǔ)。信息可視化充分利用了人類(lèi)與生俱有的對(duì)圖像信息迅速辨識(shí)和理解的能力,以直觀方式傳遞抽象信息,增強(qiáng)了人們對(duì)于信息的觀察和理解,進(jìn)而放大了人類(lèi)的認(rèn)知能力,尤其是在工作記憶、模式的識(shí)別、各種關(guān)系的知覺(jué)推理等方面(Thomas et al.,2005)。在各類(lèi)抽象數(shù)據(jù)中,文本是其中很重要的一類(lèi),因此文本可視化是信息可視化的一個(gè)重要子集。余紅梅等(2011)、唐家渝等(2013)認(rèn)為文本可視化就是將復(fù)雜文本中的內(nèi)容、結(jié)構(gòu)、關(guān)系和內(nèi)在規(guī)律等提取出一定的模式,以視覺(jué)符號(hào)的形式表達(dá)出來(lái),讓用戶(hù)通過(guò)與可視化界面的交互來(lái)快速理解文本,為知識(shí)發(fā)現(xiàn)提供支持。
總的來(lái)講,文本分析側(cè)重于非結(jié)構(gòu)化文本中信息的抽取以及關(guān)系和規(guī)律模式的形成,而信息可視化側(cè)重于結(jié)果的視覺(jué)化呈現(xiàn)與互動(dòng),兩者在方法和過(guò)程上存在一些重疊。將兩者相結(jié)合,可視化文本分析描述了一種對(duì)文本數(shù)據(jù)運(yùn)用交互式圖形呈現(xiàn)方式實(shí)現(xiàn)知識(shí)發(fā)現(xiàn)的信息分析技術(shù)和過(guò)程(Risch et al.,2008)。這一技術(shù)和過(guò)程將計(jì)算機(jī)的能力(如圖形和計(jì)算的功能)和人的智慧(如認(rèn)知、關(guān)聯(lián)和推理的能力)緊密聯(lián)合在一起,為更好地理解文本和發(fā)現(xiàn)知識(shí)提供了新的有效途徑(劉世霞等,2011;唐家渝等,2013)。
2.可視化文本分析的過(guò)程與方法
可視化文本分析的主要目標(biāo)是快速?gòu)奈谋局姓页鲋匾獌?nèi)容,形成圖形,揭示文本的內(nèi)容結(jié)構(gòu)和關(guān)系規(guī)律,以幫助用戶(hù)快速獲取所需信息。這一過(guò)程一般可劃分為文本處理、可視化呈現(xiàn)和交互理解三個(gè)階段(唐家渝等,2013)。
(1)文本處理階段
這一階段將生成可視化分析所需數(shù)據(jù),文本的特征屬性或其他元數(shù)據(jù)將被分析抽取出來(lái)。一般來(lái)講,文本特征或元數(shù)據(jù)獲取越多,越有利于后面的信息分析。分析中常應(yīng)用到的文本特征有詞頻、位置、詞性和詞義等。其中,詞頻表示詞在文檔中出現(xiàn)的次數(shù),也是最容易獲取的數(shù)據(jù)。一般而言,除去聯(lián)系詞,詞頻越高表示詞與所在文檔主題的相關(guān)性越高,也意味著其在文檔中的重要性越高。另外,由于首段、末段、段首、段尾等特殊位置在文檔中常用于揭示文檔的主要內(nèi)容和核心觀點(diǎn),因此出現(xiàn)在這些位置的詞尤其要加以關(guān)注。在詞性上,名詞、動(dòng)詞、形容詞等實(shí)詞相對(duì)于連詞、介詞等虛詞在文本信息傳達(dá)上的表現(xiàn)力要更強(qiáng)些。詞義最難,一般系統(tǒng)在處理詞義時(shí)需同時(shí)配合領(lǐng)域知識(shí)庫(kù)或領(lǐng)域知識(shí)本體的運(yùn)用。
文本處理時(shí)常用到的關(guān)鍵技術(shù)有文檔結(jié)構(gòu)解析方法、實(shí)體提取技術(shù)和情感分析技術(shù)等。其中,解析文檔結(jié)構(gòu)時(shí)的分詞技術(shù)非常重要,分詞的準(zhǔn)確率和合理性將直接對(duì)后面信息分析的有效性產(chǎn)生重大影響。分詞要求能正確識(shí)別單詞或詞匯單元中的連詞符(比如人名中的中間點(diǎn))、特定符號(hào)等(比如電子郵件),單詞的大小寫(xiě)、縮寫(xiě)等。分詞、抽取、歸一化等操作后提取出的詞匯利用特征數(shù)據(jù)構(gòu)建向量空間模型并進(jìn)行降維,或利用主題模型處理特征數(shù)據(jù),原始無(wú)結(jié)構(gòu)或結(jié)構(gòu)較弱的文本數(shù)據(jù)與其特征屬性加以整合后將變成有意義的結(jié)構(gòu)化信息,這些最終形成的數(shù)據(jù)將用于后面階段的可視化呈現(xiàn)和交互。
(2)可視化呈現(xiàn)階段
這一階段將完成數(shù)據(jù)到圖形的轉(zhuǎn)換,一個(gè)重要任務(wù)就是選擇合適的視覺(jué)編碼來(lái)描繪和概括文本的內(nèi)容、結(jié)構(gòu)、關(guān)系等,得出所謂的文本可視化。通常,文本詞匯的視覺(jué)編碼主要服務(wù)于突顯內(nèi)容的重要程度,可使用的方式有大小、長(zhǎng)度、顏色、形狀、面積、位置等,比如用字體的大小反映詞頻,用區(qū)塊面積反映重要性;而文本結(jié)構(gòu)、關(guān)系等的視覺(jué)編碼相對(duì)更為復(fù)雜,需要綜合使用多種文本特征數(shù)據(jù),甚至需要結(jié)合文檔來(lái)源的社會(huì)、歷史和文化等背景信息,主要用到的手段有時(shí)間線(xiàn)、樹(shù)狀圖、網(wǎng)絡(luò)圖、疊式圖、主題地圖、知識(shí)圖譜等。
依據(jù)文本可視化對(duì)特征屬性數(shù)據(jù)的不同選取,文本可視化可分為基于文本詞匯的可視化、基于文本關(guān)系的可視化以及基于多層面信息的可視化三大類(lèi)(劉世霞等,2011;袁海等,2014),分別服務(wù)于不同的分析目標(biāo),如表1所示。

表1 文本可視化分類(lèi)
(3)交互理解階段
這一階段用戶(hù)與視覺(jué)圖形互動(dòng)以發(fā)現(xiàn)文本信息的特征和規(guī)律。一般而言,文本可視化后都會(huì)提供一定的交互功能以幫助用戶(hù)設(shè)置合適的視角加以觀察和理解,主要應(yīng)用到的交互手段有全局+詳細(xì)、平移+縮放、焦點(diǎn)+上下文及變形、動(dòng)態(tài)過(guò)濾、多視圖關(guān)聯(lián)協(xié)調(diào)等(楊彥波等,2014)。
1.研究對(duì)象
科教興國(guó)是我國(guó)實(shí)現(xiàn)國(guó)家強(qiáng)盛、民族復(fù)興長(zhǎng)期秉持的發(fā)展戰(zhàn)略,每年的全國(guó)教育規(guī)劃課題申報(bào)工作可以說(shuō)是我國(guó)教育科研領(lǐng)域的最大盛事。優(yōu)秀的選題不僅指明了我國(guó)教育改革發(fā)展和現(xiàn)代化建設(shè)中亟需解決的重大理論與實(shí)踐問(wèn)題,還將引領(lǐng)我國(guó)教育科學(xué)研究的未來(lái)發(fā)展方向(全國(guó)教育科學(xué)規(guī)劃領(lǐng)導(dǎo)小組辦公室,2012)。這些研究選題的思想、方法和價(jià)值大多通過(guò)好的課題命題被有效加以表達(dá)和傳遞。因此,標(biāo)題文字不僅要濃縮課題研究的精華,其遣詞造句上的立意也需用心良苦,才能使其在課題評(píng)審中被高效識(shí)別并得到廣泛認(rèn)同。要揭露課題命題中的秘密,對(duì)標(biāo)題信息開(kāi)展可視化文本分析研究將是一個(gè)不錯(cuò)的方法選擇。
2.研究假設(shè)
區(qū)別于以往同類(lèi)型主題研究(張剛要,2008;劉晶波等,2008)中較多依賴(lài)于人的主觀加工和處理的做法,可視化文本分析大量借助了技術(shù)在計(jì)算和可視化上的優(yōu)勢(shì)。因此,本文假設(shè)這一做法將在案例的以下研究方面發(fā)揮作用:
(1)傳統(tǒng)同類(lèi)型主題研究往往需要人為凝煉標(biāo)題的主要內(nèi)容或抽取標(biāo)題的核心觀點(diǎn),不僅工作量巨大且在分析之前就使分析材料帶有了一定認(rèn)知偏向,這在一定程度影響了結(jié)論的客觀性。采用可視化文本分析后,技術(shù)對(duì)人工的替代可以克服這兩方面的不足。
(2)由于標(biāo)題所涵蓋的信息有限(課題申請(qǐng)書(shū)是不公開(kāi)的),人工分析的范疇和程度也會(huì)比較有限。傳統(tǒng)同類(lèi)型主題研究幾乎都僅聚焦于現(xiàn)狀及發(fā)展變化上,而采用可視化文本分析后,通過(guò)關(guān)系和規(guī)律的可視化揭露,應(yīng)能在分析的視角上有所突破,比如命名中的一些構(gòu)造規(guī)則和常用范式,以及課題研究的區(qū)域分布特點(diǎn)等。
3.文本可視化工具的選取
可視化文本分析提供了一條不同于以往的全新方式去解讀文本。當(dāng)前,實(shí)現(xiàn)文本可視化的工具很多(Brady,2012),但能夠服務(wù)于中文可視化分析的卻很少。在這些工具中,比較知名且免費(fèi)的有IBM研究中心和IBM Cognos軟件組共同主持的Many-Eyes實(shí)驗(yàn)項(xiàng)目所開(kāi)發(fā)的一套可視化工具集(http:// www-958.ibm.com/software/data/cognos/manyeyes/visualizations①)以及由Stéfan Sinclair和Geoffrey Rockwell研究文本分析工具和文本分析修辭合作項(xiàng)目所開(kāi)發(fā)的基于網(wǎng)絡(luò)的可視化分析環(huán)境Voyant/ Voyeur(http://hermeneuti.ca/voyeur/tools)。這兩套可視化工具集都可支持用戶(hù)輸入自由文本(即原始文本信息),并在最基本的詞頻分析上提供了很多可視化呈現(xiàn)方式,比如詞頻曲線(xiàn)、氣泡集合、標(biāo)簽云等。但相比較而言,Voyant在分析因素的種類(lèi)上相對(duì)更為豐富、應(yīng)用更為多樣,其主要可視化工具如表2所示。

表2 Voyant工具集
本研究將從Voyant和ManyEyes中選取適合的且沒(méi)有語(yǔ)言要求的工具展開(kāi)針對(duì)全國(guó)教育科學(xué)規(guī)劃教育技術(shù)類(lèi)立項(xiàng)課題名稱(chēng)的可視化文本分析研究。
1.研究材料的處理
本研究的可視化文本分析材料來(lái)自于全國(guó)教育科學(xué)規(guī)劃領(lǐng)導(dǎo)小組辦公室在其官方網(wǎng)站(http://onsgep.moe.edu.cn/)上公布的“十一五”(2006-2010年)、“十二五”(2011-2013年)以來(lái)教育技術(shù)領(lǐng)域的立項(xiàng)課題(課題編號(hào)中含“CA”),共計(jì)201項(xiàng),各年立項(xiàng)及地區(qū)分布情況如表3所示。

表3 2006-2013年全國(guó)教育科學(xué)規(guī)劃教育技術(shù)類(lèi)課題立項(xiàng)情況
由于案例研究不像以往同類(lèi)型主題研究那樣人工提煉核心詞匯,而是直接分析原始詞匯,因此首要工作就是要對(duì)課題名稱(chēng)進(jìn)行分詞處理。但中文是以字為單位,中文詞語(yǔ)之間不像英文用空格對(duì)每個(gè)單詞加以分隔自然形成分界,是沒(méi)有明顯區(qū)分標(biāo)識(shí)的。此外,中文連續(xù)字之間的不同切割和組合還會(huì)產(chǎn)生不同的含義或語(yǔ)義側(cè)重,因此中文分詞的狀況將直接影響可視化分析得出的結(jié)論。為保證中文分詞的合理與準(zhǔn)確性,本研究對(duì)課題名分詞采用了技術(shù)分詞和人工分詞相結(jié)合的方式。技術(shù)分詞就是使用分詞工具實(shí)現(xiàn)快速分詞,目前比較常見(jiàn)的中文分詞工具有SCWS、NLPIR(前身ICTCLAS)、CJKAnalyzer、IKAnalyzer、paoding、MMSeg4j、imdict等。分詞工具的選用除了考慮工具的分詞原理與分詞速度之外,還需要考慮工具所帶詞典種類(lèi)、規(guī)模、可擴(kuò)展性,以及工具對(duì)于歧義、數(shù)字、英文混合分詞的處理效果等。綜合以上多個(gè)因素的考慮,本研究選用了NLPIR漢語(yǔ)分詞系統(tǒng)(http://ictclas.nlpir.org/)進(jìn)行分詞的初始處理;然后在此基礎(chǔ)上,為進(jìn)一步優(yōu)化分詞效果,結(jié)合了三位教育技術(shù)領(lǐng)域內(nèi)研究人員的意見(jiàn)進(jìn)行修訂和調(diào)整;最終形成一份相對(duì)比較客觀、合理的文本分詞詞匯集合。
在分詞過(guò)程中,研究發(fā)現(xiàn),無(wú)論分詞工具如何設(shè)置和調(diào)整,對(duì)于語(yǔ)義的把握目前仍然不太成熟。因此,人工修訂對(duì)分詞的微調(diào)可從以下幾個(gè)方面入手:
(1)去重復(fù)詞。同一標(biāo)題中重復(fù)的詞匯只需統(tǒng)計(jì)一次,以有效獲取主題的頻次。比如課題“重慶市城市地區(qū)與農(nóng)村地區(qū)中小學(xué)生信息素養(yǎng)的比較研究”,分詞拆分會(huì)得到兩個(gè)“地區(qū)”,但詞頻統(tǒng)計(jì)只需要計(jì)算一次即可。
(2)表示統(tǒng)一。標(biāo)題中的同一詞義,有的課題用中、英文分別表示;有的課題用類(lèi)似但不同的詞匯,這些情況在分詞時(shí)會(huì)形成多個(gè)不同的詞匯,不利于對(duì)課題專(zhuān)題的分析理解,因此人工調(diào)整階段時(shí)應(yīng)選用一種表示方式加以統(tǒng)一歸并。比如“計(jì)算機(jī)支持的協(xié)作學(xué)習(xí)”與“CSCL”(統(tǒng)一用“CSCL”),“網(wǎng)絡(luò)”與“WEB”(統(tǒng)一用“網(wǎng)絡(luò)”),“虛擬學(xué)習(xí)社區(qū)”與“教育虛擬社區(qū)”(統(tǒng)一用“虛擬社區(qū)”),“教育資源”、“教育信息資源”和“數(shù)字化資源”(統(tǒng)一用“教育資源”)等。
(3)詞意拆解。中文的詞匯有時(shí)一個(gè)復(fù)合詞可包含多個(gè)含義,這非常不利于對(duì)標(biāo)題語(yǔ)義的分析,因此分析之前可人工進(jìn)一步拆分為多個(gè)詞匯分別表達(dá)。比如中小學(xué)生,可拆解為中小學(xué)和學(xué)生兩個(gè)詞匯。
2.可視化的呈現(xiàn)與解讀
上一階段分解獲得的課題標(biāo)題詞匯集,將在這一階段,在不同的目標(biāo)需求下選擇恰當(dāng)?shù)目梢暬绞郊右猿尸F(xiàn),實(shí)現(xiàn)對(duì)信息的分析和對(duì)知識(shí)的發(fā)現(xiàn)。雖然表1已給出了文本可視化應(yīng)用的一般性指導(dǎo)原則,但在具體操作時(shí),還需要根據(jù)可視化工具的特點(diǎn)做出靈活調(diào)整。
(1)用簡(jiǎn)單、可視化的詞頻變化解讀當(dāng)前教育技術(shù)領(lǐng)域研究需求和方法的轉(zhuǎn)變
教育技術(shù)領(lǐng)域研究的關(guān)注點(diǎn)集中體現(xiàn)在一定時(shí)期內(nèi)課題標(biāo)題中一些關(guān)鍵詞匯的運(yùn)用,因此關(guān)注點(diǎn)的發(fā)展變化可結(jié)合這些詞匯在不同時(shí)期的頻次變化加以考察。從可視化文本分析的角度,這需要利用詞匯的時(shí)間特征。由于本研究中將2006-2013年間的全國(guó)教育科學(xué)規(guī)劃教育技術(shù)類(lèi)立項(xiàng)課題名稱(chēng)的分詞詞匯集合按時(shí)間先后順序放置在一個(gè)文本文件中,就將詞匯的時(shí)間特性轉(zhuǎn)換為相對(duì)比較簡(jiǎn)單的位置特性,因此可以使用Voyant中的Bubblelines工具。Bubblelines工具使用水平線(xiàn)作為時(shí)間軸,每個(gè)詞匯都可有自己的時(shí)間軸,詞匯就以氣泡方式按其在文本中的先后分布情況在水平線(xiàn)上對(duì)應(yīng)呈現(xiàn)。氣泡的大小反映了詞匯的頻次,對(duì)于本研究而言,也即反映了詞匯在特定時(shí)期受關(guān)注的重要程度。
由于Bubblelines工具支持選定詞匯組的對(duì)比觀察,因此可以從不同視角考察關(guān)注點(diǎn)的發(fā)展變化。在本研究中,我們不再重復(fù)以往同類(lèi)型主題研究在教育技術(shù)研究主題和領(lǐng)域方面的研究結(jié)論,而試圖通過(guò)可視化分析技術(shù)從研究需求和研究方法上加以揭示,因而選取對(duì)應(yīng)的詞匯集如表4所示。導(dǎo)入立項(xiàng)課題名稱(chēng)的分詞詞匯集合之后,在Bubblelines工具中按照設(shè)定的詞匯集經(jīng)過(guò)觀察篩選可分別得如圖1、圖2所示的圖示。

表4 當(dāng)前教育技術(shù)研究領(lǐng)域變化的詞匯集

圖1 技術(shù)應(yīng)用于教育在不同時(shí)期需求層次的演變

圖2 教育技術(shù)研究在不同時(shí)期研究方法或方式上的側(cè)重
進(jìn)行可視化解讀時(shí),雖然時(shí)間軸不是很精確,但在理解趨勢(shì)發(fā)展上影響并不是很大。因此,可大致將Bubbleline圖示的水平軸等分成2006-2008(“十一五”前期)、2009-2010(“十一五”后期)、2011-2013(“十二五”前期)三段。借助這些直觀圖示,我們不難發(fā)現(xiàn)當(dāng)前教育技術(shù)領(lǐng)域研究需求和研究方法的關(guān)注變化:
第一,技術(shù)帶給教育的發(fā)展和創(chuàng)新需求一直是教育技術(shù)領(lǐng)域不變的話(huà)題。在“十一五”后期,效益需求被激發(fā)。而從“十二五”開(kāi)始,變革需求開(kāi)始提上議程。但奇怪的是,共享需求在“十一五”后期出現(xiàn)斷檔(見(jiàn)圖1所示)。
第二,方法和結(jié)果在現(xiàn)實(shí)中的“應(yīng)用”價(jià)值以及對(duì)實(shí)踐的指導(dǎo)作用是教育技術(shù)領(lǐng)域研究一直十分強(qiáng)調(diào)的目標(biāo)。在“十一五”期間,這一目標(biāo)在課題標(biāo)題中還常會(huì)用到“理論”與“實(shí)踐”兩個(gè)詞匯分別表示方式上的側(cè)重。“十一五”中、后期,使用“實(shí)證”和“評(píng)價(jià)”方式論證研究的有效性和合理性尤其突顯(見(jiàn)圖2所示)。
可見(jiàn),在本次應(yīng)用中,可視化文本的分詞技術(shù)起到關(guān)鍵作用。相對(duì)于以往同類(lèi)型專(zhuān)題的研究,技術(shù)分詞的應(yīng)用,使得詞匯數(shù)據(jù)的粒度相對(duì)較小,也使得很多人工處理時(shí)容易忽視的“平凡”、“瑣碎”的詞匯被保留了下來(lái),比如“理論”、“實(shí)踐”、“創(chuàng)新”、“發(fā)展”等,從而有了更多層次、更多維度視角看待事物的支持基礎(chǔ)。
(2)通過(guò)可視化交互突顯觀察要素,透視當(dāng)前教育技術(shù)領(lǐng)域的區(qū)域研究特點(diǎn)
要分析當(dāng)前教育技術(shù)領(lǐng)域的區(qū)域研究特點(diǎn),除了課題名稱(chēng)詞匯本身的特征屬性數(shù)據(jù)之外,還需要用到課題來(lái)源的地區(qū)信息。選用ManyEyes的Country Map工具,將立項(xiàng)課題的地區(qū)分布情況數(shù)據(jù)值疊加在中國(guó)地圖上,就可用比表格更為直觀、形象的方式觀察立項(xiàng)課題的全國(guó)空間格局。從圖3中我們不難發(fā)現(xiàn),教育技術(shù)類(lèi)課題研究存在嚴(yán)重的區(qū)域分布不均衡現(xiàn)象,研究多集中在東部沿海地區(qū),而黑龍江、青海、西藏、云南、貴州、寧夏、海南等地區(qū)在2006-2013年間竟無(wú)一項(xiàng)課題立項(xiàng)。

圖3 2006-2013年間課題立項(xiàng)的區(qū)域分布
為進(jìn)一步分析教育技術(shù)的區(qū)域研究特點(diǎn),我們選用了標(biāo)簽云工具。由于標(biāo)簽云中所顯示詞匯的字體大小是直接映射該詞匯在文本中出現(xiàn)的頻次,從某種程度上也代表了該詞匯對(duì)文本的重要性,因此使用標(biāo)簽云可快速將各地區(qū)研究課題中的核心主題和內(nèi)容突顯出來(lái)。雖然Voyant和ManyEyes都提供了實(shí)現(xiàn)標(biāo)簽云的工具,但功能上都無(wú)法很好支持本案例研究所需的互動(dòng)觀察,因此研究另外選用了服務(wù)上更為專(zhuān)業(yè)的標(biāo)簽云工具WordItOut(http://worditout.com)。首先,將立項(xiàng)課題的分詞詞匯集合按地區(qū)歸屬抽取出來(lái)分別加以整理,各自形成一個(gè)獨(dú)立的文本文件。接著,在WordItOut中分別導(dǎo)入文本中的詞匯。考慮可視化文本分析合理性對(duì)文本數(shù)量有一定要求,本研究?jī)H選擇立項(xiàng)數(shù)較多的北京、江蘇、廣東、浙江和上海5個(gè)省市加以考察。在WordItOut中,調(diào)整顯示詞匯的最低頻次限度對(duì)顯示詞匯加以篩選過(guò)濾,得到5個(gè)省市對(duì)應(yīng)的標(biāo)簽云(見(jiàn)圖4)。
通過(guò)這些可視化圖示,我們不難對(duì)當(dāng)前教育技術(shù)領(lǐng)域的區(qū)域研究特點(diǎn)做出如下分析歸納:
第一,對(duì)于教育技術(shù)研究的主要組成內(nèi)容,北京側(cè)重于教師和資源,江蘇側(cè)重于教師和環(huán)境,浙江和上海分別側(cè)重于環(huán)境與資源,而廣東在這方面沒(méi)有體現(xiàn)出明顯的研究側(cè)重。
第二,在教育技術(shù)應(yīng)用領(lǐng)域上,北京和江蘇都非常重視中小學(xué)中的教育應(yīng)用。此外,北京還關(guān)注農(nóng)村教育,江蘇關(guān)注聾教育,廣東關(guān)注職業(yè)教育,浙江關(guān)注高校,上海關(guān)注基礎(chǔ)教育。
第三,在研究方式上,北京、江蘇、浙江都非常看重應(yīng)用,江蘇還特別強(qiáng)調(diào)理論建構(gòu)與實(shí)證評(píng)價(jià),廣東強(qiáng)調(diào)模式研究,上海則突出研究的實(shí)踐。
第四,在研究主題上,北京對(duì)于教育技術(shù)能力的研究十分突出,而浙江則對(duì)課堂教學(xué)的研究比較側(cè)重。
在本次應(yīng)用中,可視化文本分析的交互技術(shù)起了關(guān)鍵作用。相對(duì)于以往同類(lèi)型專(zhuān)題的研究,最低頻次限度的過(guò)濾設(shè)置使得文本重心快速突顯出來(lái),視點(diǎn)得以聚焦,研究者不再被龐大、繁雜的數(shù)據(jù)所淹沒(méi)。
(3)在文本關(guān)系的可視化中剖析課題命名的構(gòu)造規(guī)則和常用范式

圖4 5省市立項(xiàng)課題的標(biāo)簽云
對(duì)課題命名構(gòu)造規(guī)則和常用范式的剖析,這一研究?jī)?nèi)容在以往同類(lèi)型專(zhuān)題研究中幾乎沒(méi)有。分解課題名稱(chēng)的構(gòu)造,大體可劃分為條件背景、內(nèi)容主題和方法結(jié)果三部分。其中,條件背景部分展示了課題開(kāi)展的時(shí)代背景、研究領(lǐng)域或?qū)嶒?yàn)環(huán)境條件,內(nèi)容主題部分表明了課題關(guān)注的領(lǐng)域主題、研究對(duì)象或問(wèn)題,而方法結(jié)果部分則指出了課題使用的研究方法、實(shí)驗(yàn)手段以及最后的結(jié)果產(chǎn)出等。本研究所希望揭示的課題命名構(gòu)造規(guī)則和范式,主要是指這三部分闡述中的一些用詞習(xí)慣、搭配關(guān)系以及彼此之間的常用連接詞等,其實(shí)質(zhì)就是基于文本關(guān)系的可視化。這可以使用Voyant中的Links工具加以觀察。Links工具在分析詞匯詞頻與位置特征屬性的基礎(chǔ)上,發(fā)現(xiàn)詞匯間的組合規(guī)律,然后使用有向圖給予視覺(jué)的直觀呈現(xiàn),并以尺寸作為視覺(jué)編碼展現(xiàn)詞匯與鄰近關(guān)鍵術(shù)語(yǔ)間的鏈接強(qiáng)弱。

圖5 課題詞匯的關(guān)系網(wǎng)絡(luò)圖
本研究將處理后的2006-2013年間的全國(guó)教育科學(xué)規(guī)劃教育技術(shù)類(lèi)立項(xiàng)課題名稱(chēng)的分詞詞匯集合導(dǎo)入Links工具中,調(diào)整所需要觀察的頻次較高的關(guān)鍵詞匯,獲得如圖5所示的關(guān)系網(wǎng)絡(luò)圖,從中我們不難識(shí)別出課題名稱(chēng)構(gòu)造中的常用詞匯,如表5所示。

表5 課題名稱(chēng)構(gòu)造中的常用詞匯
進(jìn)一步,再分別選取連接詞匯和內(nèi)容詞匯細(xì)節(jié)化觀察課題命名中的搭配關(guān)系。圖6a、b、c分別顯示了標(biāo)題條件背景部分、內(nèi)容主題部分、方法結(jié)果部分的構(gòu)造習(xí)慣。總的來(lái)講,借助可視化文本分析技術(shù),我們可對(duì)課題命名的構(gòu)造規(guī)則和常用范式作如下概要?dú)w納:
第一,“研究”一詞為課題命名中最為重要的構(gòu)造用詞(詞頻為187/201≈0.93)。
第二,“基于”、“下”、“中”三詞常用于引導(dǎo)課題研究的條件背景說(shuō)明。三者的區(qū)別在于“基于”用于技術(shù)研究,“下”用于對(duì)策研究,“中”用于應(yīng)用研究(見(jiàn)圖6a所示)。
第三,課題名稱(chēng)的內(nèi)容主題部分,常用“及其”實(shí)現(xiàn)研究對(duì)象的并列陳述,并往往需在標(biāo)題中用“在”和“中”指明研究的條件背景;用“促進(jìn)”說(shuō)明研究對(duì)象間的作用關(guān)系,同時(shí)搭配“發(fā)展”明示價(jià)值意義,“設(shè)計(jì)”明示結(jié)果產(chǎn)出(見(jiàn)圖6b所示)。
第四,課題命名對(duì)于方法結(jié)果說(shuō)明的用詞中,“理論”與“實(shí)踐”兩詞經(jīng)常一起使用,且還會(huì)搭配“體系”一詞。實(shí)證研究中,對(duì)“效益”開(kāi)展“實(shí)證”,對(duì)“建設(shè)”進(jìn)行“評(píng)估”。實(shí)踐研究中,往往會(huì)開(kāi)發(fā)“關(guān)鍵”“技術(shù)”,探討“應(yīng)用”“支持”(見(jiàn)圖6c所示)。

圖6 課題命名構(gòu)造規(guī)則和常用范式
雖然對(duì)于可視化后關(guān)系圖的解讀,主觀因素的影響會(huì)很大。但相對(duì)于人工操作在關(guān)系和規(guī)律揭露上的費(fèi)時(shí)費(fèi)力,甚至束手無(wú)策,可視化文本分析的優(yōu)勢(shì)展露無(wú)遺。
可視化文本分析技術(shù)的價(jià)值不僅在于能用更為豐富和生動(dòng)的方式展現(xiàn)結(jié)果,以幫助用戶(hù)更方便地理解和接受所要傳達(dá)的信息,更為重要的是能通過(guò)一系列的設(shè)計(jì)與算法,將文本中潛在的語(yǔ)義、結(jié)構(gòu)等方面的關(guān)聯(lián)和規(guī)律顯性展現(xiàn)出來(lái),幫助用戶(hù)分析和發(fā)現(xiàn)更多有趣的有用信息。本文通過(guò)案例研究逐一驗(yàn)證了這些優(yōu)勢(shì),而這一做法也正逐漸引發(fā)業(yè)內(nèi)的研究關(guān)注,成為一大發(fā)展趨勢(shì)(如胡曉玲等,2013)。
本研究雖然利用可視化文本分析技術(shù)對(duì)2006-2013年間全國(guó)教育科學(xué)規(guī)劃教育技術(shù)類(lèi)立項(xiàng)課題命名規(guī)律加進(jìn)行探索和歸納,分析并揭示了當(dāng)前教育技術(shù)領(lǐng)域研究的發(fā)展變化和區(qū)域分布特點(diǎn),但也存在著以下一些不足:
第一,相對(duì)于人工提煉后的標(biāo)題關(guān)鍵詞匯,直接對(duì)標(biāo)題分詞后的原始詞匯進(jìn)行分析不僅快捷,而且還可有效增強(qiáng)結(jié)論的客觀性。但由于中文文體的獨(dú)特構(gòu)造,在案例研究中不得不引入人工修訂,這額外增加了工作量,同時(shí)也增加了主觀影響的風(fēng)險(xiǎn)。
第二,由于現(xiàn)有大部分可視化文本分析工具不支持中文,因此案例研究在工具的選用上非常有限,很多工具的優(yōu)勢(shì)無(wú)法加以有效利用,比如單詞樹(shù)(以樹(shù)狀層次結(jié)構(gòu)展現(xiàn)特定單詞或語(yǔ)法在文本中的不同應(yīng)用情境,工具如Word Tree)、層次詞頻結(jié)構(gòu)(中心為特定詞匯,外圈是整個(gè)文本中曾與該詞匯搭配出現(xiàn)的詞,詞的大小是由出現(xiàn)的頻次決定,工具如Docu-Burst),使得在后續(xù)圖示的分析與解讀上開(kāi)展得不夠全面充分,結(jié)論上難免有遺漏或誤解之處。
第三,案例研究所選用的文本特征屬性主要是頻次、位置、時(shí)間等較為簡(jiǎn)單的數(shù)據(jù),相應(yīng)能支持對(duì)立項(xiàng)課題名稱(chēng)開(kāi)展的分析也比較有限,因此研究結(jié)論中的一些理解可能還比較膚淺。若要深入解讀和挖掘,研究還需借助質(zhì)性研究中的內(nèi)容分析技術(shù),結(jié)合語(yǔ)法、語(yǔ)義和語(yǔ)用層面加以剖析。
總之,可視化文本分析技術(shù)現(xiàn)已逐漸彰顯出其巨大的應(yīng)用價(jià)值和廣泛的發(fā)展空間,正被大量應(yīng)用于信息處理、情報(bào)研究、知識(shí)挖掘、決策支持等相關(guān)領(lǐng)域。但更為有效的應(yīng)用,應(yīng)該是將可視化文本分析技術(shù)與學(xué)科領(lǐng)域的相關(guān)知識(shí)有機(jī)整合,從而更有效發(fā)揮計(jì)算機(jī)的計(jì)算能力,增強(qiáng)文本挖掘和知識(shí)發(fā)現(xiàn)的效能,在有效節(jié)省人類(lèi)認(rèn)知付出的同時(shí)高效提升人類(lèi)理解的智慧。雖然受中文自然語(yǔ)言處理技術(shù)還比較薄弱的影響,可視化文本分析技術(shù)在中文文本中的應(yīng)用還十分有限,但我們相信這僅是時(shí)間上的問(wèn)題。
注釋?zhuān)?/p>
①論文發(fā)表時(shí),ManyEyes的網(wǎng)址更改為http://www-969. ibm.com/software/analytics/manyeyes,工具類(lèi)型及其使用操作也作了部分調(diào)整。
參考文獻(xiàn):
[1]胡曉玲,胡鐵生,潘國(guó)等(2013).我國(guó)基礎(chǔ)教育信息技術(shù)課題研究現(xiàn)狀與趨勢(shì)研究[J].教育信息技術(shù),(12):18-20.
[2]劉晶波,豐新娜(2008).“全國(guó)教育科學(xué)規(guī)劃課題”中學(xué)期教育課題研究的狀況與分析[J].學(xué)前教育研究, (11): 12-17.
[3]劉世霞,曹楠(2011).可視化文本分析[J].中國(guó)計(jì)算機(jī)學(xué)會(huì)通訊, (7): 26-30.
[4]全國(guó)教育科學(xué)規(guī)劃領(lǐng)導(dǎo)小組辦公室(2012).全國(guó)教育科學(xué)規(guī)劃課題管理辦法[EB/OL]. [2014-08-26].http://onsgep.moe. edu.cn/edoas2/website7/level3.jsp?infoid=1335361775186559&id= 1335427422154100&location=null.
[5]唐家渝,劉知遠(yuǎn),孫茂松(2013).文本可視化研究綜述[J].計(jì)算機(jī)輔助設(shè)計(jì)與圖形學(xué)學(xué)報(bào), (3):273-285.
[6]楊彥波,劉濱,祁明月(2014).信息可視化研究綜述[J].河北科技大學(xué)學(xué)報(bào), (1):91-102.
[7]余紅梅,梁戰(zhàn)平(2011).文本可視化技術(shù)與競(jìng)爭(zhēng)情報(bào)[J].圖書(shū)情報(bào)工作, (8):79-83.
[8]袁海,陳康,陶彩霞等(2014).基于中文文本的可視化技術(shù)研究[J].電信科學(xué),(4):114-122.
[9]張剛要(2008).全國(guó)教育科學(xué)規(guī)劃2001-2007年教育技術(shù)學(xué)立項(xiàng)課題統(tǒng)計(jì)分析[J].電化教育研究, (10):90-93.
[10]Brady, A. (2012).See Text in Whole New Way: Text Visualization Tools[EB/OL]. [2014-08-26].http://blogs.princeton.edu/ etc/2012/08/16/see-text-in-whole-new-waytext-visualization-tools/.
[11]Card, S. K., Mackinlay, J. D., & Shneiderman, B. (1999). Readings in Information Visualization: Using Vision to Think[M]. Morgan Kaufmann.
[12]Kings College London (2007). Method in Text-Analysis: An Introduction [EB/OL]. [2014-08-26]. http://www.cch.kcl.ac.uk/legacy/teaching/av1000/textanalysis/method.html.
[13]Miner, G., Elder, J., & Hill, T. et al.(2012). Practical Text Mining and Statistical Analysis for Non-Structured Text Data Applications[M]. Academic Press.
[14]Risch, J., Kao, A., & Poteet, S. R. et al.(2008). Text Visualization for Visual Text Analytics[A]. Simoff S.J. et al. (Eds.). Visual Data Mining [C]. Springer Berlin Heidelberg:154-171.
[15]Stemler, S.(2001). An Overview of Content Analysis [J]. Practical Assessment, Research & Evaluation, 7(17) : 137-146.
[16]Thomas, J. J., & Cook, K. A. (2005).Illuminating the Path: The Research and Development Agenda for Visual Analytics[M]. National Visualization and Analytics Center.
[17]UCLA Library (n.d.). Text Analysis Tools[EB/OL]. [2014-08-26]. http://guides.library.ucla.edu/text.
design of these learning spaces, such as highly flexible seating arrangements and facilities for instantaneous information sharing within and across groups; yet it is also already clear that research on learning spaces is still in an early stage because of a small amount and poor quality of related academic research literature, the lack of scientific basis of learning spaces design and the shortage of rigorous empirical research. In the future, universities and research institutes should establish the interdisciplinary research team to further expand the research field as well as strengthen exchanges and cooperation in areas inside and outside.
Focusing on the Power of Visual Text Analytics——An Analyticsof the Titlesof Educational Technology Research Projectsofthe National Education Science Plan
Yu Xiaohua
Abstract:Visual text analytics shows a kind of information analysis techniques and processes of using interactive graphical methods to achieve knowledge discovery. Its application has three steps, including text processing, visual presentation and interactive interpretation. First, feature attributes or metadata should be extracted from the original text material with appropriate tools according to the characteristics of the study object. Then, based on the proper visual coding to describe and summarize the content, structure and relations of texts, traits and rules of the textual information are discovered through user interaction. Studies have shown that, with the capability of calculation and visualization of the technology, visual text analytics can make up the problems existing in manual analysis such as the time-consuming and subjectivity, enhance the efficiency of text information processing and understanding, and deeply explore the hidden characteristics, relationships and patterns of data. A case study carried out on the topics of educational technology research projects of the National Education Science Plan from 2006 to 2013 verified the advantages of visual text analytics in text comprehension. Visual text analytics is gradually arousing research attention and becomes a major trend. The case study also discussed the weakness of title tokenization, the inadequacies of research tools to support Chinese text analytics and the insufficient utilization of text features. Affected by the immaturity of Chinesenaturallanguageprocessingtechnology,theapplicationofvisualtextanalyticsin Chineseisstilllimited.
Keywords:Information Visualization; Text Analytics; Visualization Tools; Operation Method; Case Study
收稿日期2014-12-15責(zé)任編輯汪燕
作者簡(jiǎn)介:郁曉華,博士,副教授,華東師范大學(xué)教育信息技術(shù)學(xué)系(上海200062)。
*基金項(xiàng)目:全國(guó)教育科學(xué)“十二五”規(guī)劃2013年度教育部重點(diǎn)課題“智慧教育視域下學(xué)習(xí)活動(dòng)流及其信息模型建構(gòu)與應(yīng)用”(DCA130222)。
中圖分類(lèi)號(hào):G434
文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):1009-5195(2015)03-0104-09 doi10.3969/j.issn.1009-5195.2015.03.012