胡 蓉唐振貴朱慶華
(1.南京大學信息管理學院 南京 210023; 2.西南大學計算機與信息科學學院 重慶 400715)
·學術論壇·
文內視覺資源復雜度計量分析框架與應用研究*
胡 蓉1,2唐振貴1朱慶華1
(1.南京大學信息管理學院 南京 210023; 2.西南大學計算機與信息科學學院 重慶 400715)
學術文獻內部的視覺資源(簡稱“文內視覺資源”)主要是其圖表資源的集合,在學術交流與傳播中扮演著重要角色。針對目前尚缺乏文內視覺資源復雜度計量分析方面的研究,文章提出一套復雜度分析框架,在設置復雜度判別規則,搭建文內視覺資源標注平臺,選擇圖書情報領域樣本期刊構建語料庫基礎上,從復雜度特征演化以及復雜度與研究主題關系兩個維度進行計量分析,進而在一定程度上揭示圖書情報學科的視覺表達態勢。
文內視覺資源 復雜度 計量分析 分析框架 視覺表達
〔引用本文格式〕胡蓉,唐振貴,朱慶華.文內視覺資源復雜度計量分析框架與應用研究[J].圖書館,2016(11):40-44
文內視覺資源主要指學術文獻(如學術專著、學術期刊、學位論文等)內部的圖表視覺資源集合。作為研究者學術成果顯性表達的可視知識形態,文內視覺資源能集中反映學術研究的核心思想與架構,研究方法與過程,研究數據與結論,以直觀且簡潔的方式提高讀者閱讀和理解學術文獻的效率[1],提升學術洞察力,因而成為學術研究成果的重要載體,在學術交流與傳播中扮演著重要角色。
隨著科研環境的發展以及研究技術的推動,近年來學術研究對象日益豐富,研究過程日趨完備與規范,研究數據海量趨勢明顯,各類研究工具及可視化技術的使用使得研究者對于復雜數據與分析過程的掌控能力不斷增強,同時研究成果視覺呈現的復雜度也逐漸提升,文內視覺資源復雜度問題日趨顯現。本文認為,對于學科發展而言,其科研成果視覺呈現的復雜度演化趨勢在某種程度上反映出學科的視覺表達態勢,將文內視覺資源作為可視知識計量單元進行分析,將從新的視角和更細的粒度拓展計量分析的對象,同時可以挖掘文內視覺資源復雜度與學科研究主題的關系,為科研分析與決策提供支持。為此,本文嘗試對文內視覺資源復雜度特征進行計量分析,分析框架涉及復雜度判別規則制定、標注平臺搭建、語料庫生成、復雜度計量分析的推進過程。在研究對象選擇問題上,由于學術期刊具有連續出版的特征,便于從時間維度探索其文內學術資源的發展與演化,為此,本文選擇學術期刊這一文獻類型,以圖書情報學科較具代表性的《中國圖書館學報》為例,對分析框架進行案例應用。
文內視覺資源復雜度計量分析涉及兩方面的研究,一是文內視覺資源(圖表)的研究,二是視覺復雜度的分析。文獻調研結果表明,文內視覺資源研究主要涉及圖表類型研究、圖表設計等方面,其中圖表類型研究的典型代表是Mitchell于1986年提出的族譜圖[2],該研究將圖(Graphic)分為圖片(Picture)、造像圖(Statue)與設計圖(Design); Steiner在2008年的研究中將圖(Graphic)劃分為照片(Photo)、統計圖表(Chart)、繪圖(Drawing)、文本框(Text Box)、表格(Table)、地圖(Map)和方程式(Equation)[3];如今CNKI學術圖片知識庫中的圖片分類體系包括形態圖、譜線圖、曲線圖、系統圖、分析圖五個大類,每個大類下又有28個以上的二級分類,體系較為龐大[4],由圖表的復雜類型可以看出,如果對圖表分門別類進行復雜度分析,其難度非常大,需要尋求更為抽象層次上的分析。圖表設計研究方面,近年來圖書情報領域研究較多的是知識圖譜或可視化設計,主要涉及如何利用相關工具生成知識圖譜或可視化圖表[5-7],繪制過程一般包括樣本數據獲取、樣本數據清洗、選擇知識單元、構建單元關系、數據標準化、樣本數據簡化、知識可視化以及圖譜結果解讀幾個環節,相較于圖解表示型的圖表,知識圖譜類的圖表生成過程更為復雜。視覺復雜度分析方面,計算機科學、信息與通信工程領域對其研究較多,涉及研究的主題有圖像、網頁、顏色、形狀復雜度等方面[8-11],且多為算法視角的研究,針對文內視覺資源復雜度的分析較為稀缺。
此外,隨著學術文獻量的激增,文內視覺資源呈現爆發增長態勢,逐漸匯集成為學術視覺資源大數據,為此CNKI專門構建學術圖片庫,以提供對文內圖片資源的檢索、對比和分析等知識發現功能,Figshare[12]則提供學術視覺資源的發布、存儲、分享、管理與發現服務,且Peter Kraker等人還利用Figshare,基于Altmetrics的方法,采用“Captures”、“Mentions”、“Social Media”、“Views”以及“Downloads”幾個指標對資源使用情況進行了統計分析[13-14]。然而,目前CNKI學術圖片庫或Figshare對文內視覺資源自身特征計量分析的支持力度有待提升,且相關研究與實踐對“表”的關注較少,同時由于文內視覺資源“嵌入”文獻,需在采集資源時就對其進行特征標注,才能進一步從資源集合視角進行特征計量分析。因此,本文嘗試從復雜度視角切入,獨立構建一個文內視覺資源復雜度計量分析框架,并通過對樣本期刊的文內視覺資源分析進行案例應用。
本文所搭建的文內視覺資源復雜度計量分析框架由4個推進模塊構成,如圖1,框架側重回答如下幾個問題:①文內視覺資源的復雜度如何判別?②文內視覺資源的復雜度演化情況如何?③文內視覺資源復雜度與相關研究主題之間有何關系?其中,復雜度判別規則是基礎,基于判別規則搭建的標注平臺是重要支撐,在標注平臺上通過實施人工標注形成語料庫,進而可實現對文內視覺資源復雜度的演化分析,以及資源復雜度與研究主題之間關系分析。
3.1 復雜度判別規則
視覺復雜度常被定義為刺激物的物理特性,然而視覺復雜度涉及資源的視覺感知,其判別同樣受到觀者主觀評價的影響,視覺復雜度影響著“第一印象”的形成[8],不同個體對復雜度的感知不同。由現有圖表的復雜類型可知,很難對圖表分門別類進行復雜度分析,因此本文尋求一種更為抽象層次上的分析,將復雜度劃分為簡單、適中和復雜三個級別。為了減少標注環節的隨意性和偏差,使得標注過程相對有章可循,本文遵循“客觀與主觀相結合”的原則形成相關判別規則,如表1,分別設置了表和圖的復雜度判別規則,規則中除了涉及行數、頁數、元素、屬性與關系(即圖中元素間關系)多少的客觀判別標準外,借鑒認知負荷理論(Cognitive Load Theory)[15]及相關測評方法[16]中對時間維度的關注,考慮到圖表內容越復雜,對其進行識別與理解的時間(即認知載入時間)將越長,將時間因素引入判別規則,酌情增加復雜度。

表1 復雜度判別規則
3.2 標注平臺與語料庫構建
基于上述復雜度判別規則搭建的文內視覺資源標注平臺支持對電子版學術文獻的文內視覺資源抽取和特征標注,可以抽取與標注文內視覺資源多個維度特征,本文著重討論復雜度特征。基于該平臺,選擇學術文獻樣本實施標注,即可構建文內視覺資源特征語料庫,進而分析文內視覺資源復雜度演化情況;同時可結合對應的學術文獻題錄數據,從文內視覺資源復雜度與學科研究主題的關系維度展開分析。因此,語料庫中的數據集將包括文獻題錄與原文、圖與表及其復雜度特征元數據。
3.3 復雜度計量分析
一方面,通過計量分析可以看出文內視覺資源自身復雜度演化情況;另一方面,復雜度與研究主題關系維度的分析主要基于如下假設,即研究主題支配著圖表的使用[3],特定的研究主題影響其圖表的視覺表達特征;進一步推論,特定的研究主題會影響其圖表的復雜度。而論文關鍵詞是其研究主題的核心體現,從關鍵詞與文內視覺資源復雜度的關系角度進行探索,是可行且有意義的。因此,具體實施分析時,需要將文獻題錄數據與復雜度特征元數據關聯。綜上,通過對上述文內視覺資源復雜度特征的計量分析,學科的視覺表達的態勢也能在一定程度上得以反映。
為驗證該框架對文內視覺資源的標注與分析效果,本文選擇圖書情報領域具有典型性與代表性的兩棲刊物[17]《中國圖書館學報》2005-2015年間發表的文獻進行案例分析。
4.1 分析流程
分析流程分為原始數據采集、數據清理、數據抽取與標注以及數據分析四大環節,如圖2,平臺搭建以及數據獲取與分析工作從2015年11月10日啟動至2016年1月20日完成。

圖2 分析流程

表2 文內視覺資源復雜度特征元數據片段
原始數據采集環節,從《中國圖書館學報》官方網站采集2005年第1期——2015年第6期原始數據(含題錄和PDF格式原文)各1186份;數據清理環節,從1186份原始數據中剔除消息、動態、總目次、征稿啟事等非研究型文章,經二次校對,最終確認1086份原始數據進入后續環節;數據抽取與標注環節,利用搭建的標注平臺,對1086篇論文人工進行文內圖表抽取與復雜度特征元數據標注,表2展示了標注完成的語料庫中每篇論文所關聯的文內視覺資源復雜度特征元數據片段,其中寬和高以像素為單位。1086篇論文共抽取圖表及其復雜度特征元數據各2773個,初步構建文內視覺資源復雜度特征樣本語料庫。最后,數據分析環節,從文內視覺資源復雜度計量維度,以及復雜度與研究主題關系兩個維度進行分析。
4.2 分析結果
(1)資源復雜度特征演化
如表3,本文采用復雜度比率來表示文內視覺資源復雜度特征占比情況,該指標屬于“即年指標”,即以當年為單位,相應復雜度特征的圖(表)數量與當年用圖(表)總量的比值。具體復雜度比率可以細分為簡單圖(表)率、適中圖(表)率和復雜圖(表)率。如2015年《中國圖書館學報》用圖量共114個,其中簡單圖量51個,則簡單圖率為45%;復雜圖量23個,則復雜圖率為20%。

表3 復雜度比率指標
如圖3,2005-2015年間,復雜圖的比率有不斷增大的趨勢,即從4%增長到20%以上,復雜表的總體增長趨勢不明顯,2013年達到10%。但總體上看,在所有的圖與表中,大多數屬于簡單圖表,當然,這是《中國圖書館學報》文內視覺資源的特征演化情況,而整個圖書情報學科領域期刊論文的特征演化,還需覆蓋更多的數據才能準確揭示。具體復雜圖實例如“學術創新的擴散過程研究”中的“圖1結構洞理論擴散時序網絡”包括了398個節點和2241條弧;復雜表如“美國州公共圖書館員職業認證制度比較研究”一文,全文僅一個表(30行11列),但卻因為文字內容較多,跨5個頁面,成為樣本中典型的復雜表。復雜圖表的逐漸增多,一方面與圖書情報學科研究對象、方法、數據、結論的復雜度日益增加有關,另一方面也反映了計算機處理技術及可視化軟件驅動下,該學科在研究成果視覺表達方面的不斷革新。

圖3 圖與表復雜度表達特征與演化
(2)資源復雜度與研究主題的關系
如前所述,論文是其研究主題的核心體現,可從
與文內視覺資源復雜度的關系角度進行研究探索。為此,本文首先從語料庫中獲取題錄數據與資源復雜度元數據,并從題錄數據中提取
,經
合并(如“本體”與“Ontology”合并為“本體”)后,進行復雜度與
共現分析,分析時關注三種復雜度特征中特征值為“復雜”的論文的相關
,并將
對應的該特征圖(表)數量按照降序排列,取前20個
,如圖4。
與“復雜圖”對應的中,大部分
具有明顯計量學主題特征(如知識圖譜、Citespace、共被引分析、共現分析、信息計量等),由此推知計量學主題的研究偏好運用復雜圖進行視覺表達;圖書情報學、圖書館學、高效圖書館、圖書館2.0主題的研究成果也較多使用了復雜圖;此外,復雜圖常常與本體、關聯數據、研究前沿、研究熱點、可視化、社會網絡分析等
共現。與“復雜表”對應的
中,各類圖書館主題,圖書館學情報學類主題,用戶研究相關主題,數字不平等與數字鴻溝類主題,社會化搜索類主題,以及評價類主題較多使用了復雜表形式,究其原因,應是上述主題常常利用到大量調研數據,需要通過復雜表的形式對數據加以展示。

圖4 復雜圖表與研究主題關系
文內視覺資源在學術交流與傳播中扮演著重要角色,針對目前尚缺乏文內視覺資源復雜度計量分析方面的研究,本文提出一套文內視覺資源復雜度分析框架,在設置相關復雜度判別規則基礎上,搭建了文內視覺資源標注平臺,并以《中國圖書館學報》為例構建語料庫,從復雜度特征演化以及復雜度與研究主題關系兩個維度,對其2005-2015年間發表的1086篇研究型論文及其2773個文內視覺資源進行了分析。
該框架是在文內視覺資源復雜度計量分析方面的有益嘗試,框架較具通用性,可為學術視覺資源庫建設與管理、檢索與分析,以及更細粒度的知識服務提供參考。從框架應用案例來看,盡管本研究以《中國圖書館學報》為樣本,所揭示的文內視覺資源復雜度特征分析伴生于該刊物,但作為本學科學術期刊的典型代表,該刊文內視覺資源復雜度特征與演化也能夠折射出圖書情報學科的視覺表達特征。總體來看,計量學主題的研究以及本體、關聯數據方面的研究偏好運用復雜圖進行視覺表達,可以預見,在圖書情報領域不斷加強量化與實證研究,以及大數據研究與處理技術不斷增強的趨勢下,量化研究成果的視覺表達特征將進一步凸顯。
綜上,本文初步構建了文內視覺資源復雜度計量分析框架,其中復雜度相關判別規則有待進一步細化和完善。在本文基礎上,未來研究可以從兩方面展開:①豐富文內視覺資源分析體系,進一步完善文內視覺資源特征分析框架;②將分析框架應用至圖書情報學科內多種中外文期刊,以便進行比較研究,發現更多文內視覺資源的學科視覺表達規律。
(來稿時間:2016年5月)
1.張靜. Figshare平臺與CNKI學術圖片庫比較分析[J].科技與出版,2015(1):63-66
2.Mitchell, W.J.T.. Iconology: image, text, ideology[M]. Chicago: The University of Chicago Press,1986
3.Steiner,E. Visual scientific communication: the use of graphics in contemporary doctoral thesis [D]. Uppsala: Uppsala University,2008
4.CNKI圖片庫[EB/OL].[2016-01-20]. http://image.cnki.net
5.薛曉芳.知識可視化理論、方法和工具及軍事醫學應用研究[D].北京:中國人民解放軍軍事醫學科學院博士論文,2014
6.肖明,邱小花,黃界,等.知識圖譜工具比較研究[J].圖書館雜志,2013(3):61-69
7.楊思洛,韓瑞珍.國外知識圖譜繪制的方法與工具分析[J].圖書情報知識,2012(6):101-109
8.潘聰.基于眼動數據的網頁美學因素研究[D].上海:上海交通大學碩士論文,2014
9.姜海蛟.基于形狀復雜度的運動人體定位研究[D].保定:河北大學碩士論文,2014
10.趙倩,曹家麟,胡越黎.結合高斯多尺度變換和顏色復雜度計算的顯著區域檢測[J].儀器儀表學報,2012,33(2):405-412
11. Crutzen, R., Kruif, Linda de., de Vries,Nanne K.. You never get a second chance to make a first impression: The effect of visual complexity on intention to use websites[J].Interaction Studies,2012,13(13):469-477
12. Figshare [EB/OL].[2016-01-20]. https://figshare.com
13. Kraker, P., Lex, E., etc. Research data explored II: the anatomy and reception of figshare [EB/OL].[2016-01-25]. http:// arxiv.org/abs/1503.01298
14. Peters,I., Kraker, P.,etc. Research data explored: citations versus altmetrics [EB/OL].[2016-01-25]. http://arxiv.org/ abs/1501.03342
15. Sweller, J.. Cognitive load theory, learning difficulty, and instructional design[J]. Laming and Instruction,1994(4):293-312
16.李金波,許百華.人機交互過程中認知負荷的綜合測評方法[J].心理學報,2009,41(1):35-43
17.張斌,賈茜.我國圖書情報學的認知結構及其演化[J].中國圖書館學報,2014,40(212):31-47
Bibliometric Analysis Framework and Application Research on the Complexity of Visual Resources in Academic Literature
Hu Rong1,2Tang Zhengui1Zhu Qinghua1
( 1. School of Information Management, Nanjing University; 2. School of Computer & Information Science, Southwest University )
Visual resources in academic literature play an important role in scholarly communication and dissemination. So far, there are few existing studies on the complexity of visual resources in academic literatures with the bibliometrics approach. In this paper, an analytical framework on the complexity of the visual resources in academic literature is constructed. Then a sample journal was taken as an example of using the analytical framework to explore the complexity characteristic evolution and the relationship between the complexity and the research topics. Furthermore, the visual expression of the library and information science discipline is reflected to some extent.
Visual resources in academic literatures Complexity Bibliometric analysis Analytical framework Visual expression
G203
*本文系國家社會科學基金重大項目“面向大數據的數字圖書館移動視覺搜索機制及應用研究”(項目編號:15ZDB126)研究成果之一。
胡蓉,女,南京大學信息管理學院博士研究生,西南大學計算機與信息科學學院講師;唐振貴,男,南京大學信息管理學院博士研究生;朱慶華,男,南京大學信息管理學院教授、博士生導師。