孫 艷,田麗梅
(渤海大學 圖書館,遼寧 錦州 121013)
基于多維尺度分析的輿情研究主題詞知識圖譜
孫 艷,田麗梅
(渤海大學 圖書館,遼寧 錦州 121013)
為了對輿情的研究現狀進行客觀梳理,總結研究文獻內在的聯系和科學結構,文中選取近5年來中國知網收錄的“中文核心期刊”和“CSSCI”相關研究文獻展開研究。首先,進行前期數據準備,包括準備的步驟與方法及其相關的數學模型;然后,將相異系數矩陣輸入到SPSS中進行多維尺度分析并繪制知識圖譜;最后,從維度定義和空間分布特點兩個方面對知識圖譜進行分析。結果表明,當前輿情研究主要集中于4個方向,輿情直接相關研究是重點與熱點,媒體相關的研究領域也較活躍,但一些細分的研究方向成果比較分散。
多維尺度分析;輿情研究;主題詞;知識圖譜
(1)高頻主題詞統計排序。
對輿情研究主題詞知識圖譜進行分析,必須選取具有代表性的研究文獻。文中選取近5年(2010-2014年)中國知網收錄的來源類別為“中文核心期刊”和“CSSCI”,包含“輿情”主題詞的文獻共計1 045篇,使用統計分析軟件統計這1 045篇文獻中出現的前40個高頻主題詞排序,如表1所示。

表1 40個高頻主題詞排序
(2)建立共詞矩陣。
共詞分析是一種比較成熟的內容分析方法,原理是通過統計各主題詞在同一篇論文中共現的次數,來分析這些詞所代表的主題和領域的結構變化情況[6-7]。表1的詞頻統計不足以準確描述“輿情”研究的熱點和變化,必須以高頻主題詞為基礎,構建共詞矩陣。共詞矩陣(Co-word matrix)是由兩兩主題詞共同出現次數構成的矩陣。設有n個高頻主題詞,共詞矩陣R是一個n×n階矩陣,令rij表示第i個主題詞和第j個主題詞同時出現的次數,共詞矩陣R表示如下[8]:
(1)
手工構建共詞矩陣工作量大且不準確,文中使用《書目共現分析系統》(BibliographicItemCo-OccurrenceMatrixBuilder,BICOMB)對表1的主題詞構建40×40階的共詞矩陣,受文章篇幅所限,文中不列出實際的矩陣數據。
(3)數據標準化。
數據標準化(DataNormalization)是將數據按比例縮放,使之落入一個小的特定區間,消除不同因素在量綱、量級上的差異,便于進行比較和計算[9]。常用的數據標準化方法包括Z得分、全距從-1到1、全距從0到1、1的最大量、均值為1、標準差為1等,文中選用“全距從0到1”。
第j列(因素)數據的平均值為:
(2)
數據均值化處理后的新序列為:
(3)
對數據均值化的結果進行歸一化處理,用某一數值減去該行數據的最小值除以該行數據的最大值減去該行數據的最小值,計算公式如下:
(4)
經過標準化處理后的數據矩陣為:
(5)
(4)建立相似系數矩陣。
相似系數矩陣(SimilarityCoefficientMatrix)由相似系數構成,相似系數又稱皮爾遜相似系數,描述了兩個定距變量間聯系的緊密程度[10]。主題詞i與主題詞j的相似系數為[11]:
(6)

(7)
(5)建立相異系數矩陣。
相異系數矩陣(DissimilarityCoefficientMatrix)根據相似系數矩陣求得。相異系數用dij表示。
“相異系數=1-相似系數”,即:
dij=1-sij
(8)
n個主題詞的相異系數矩陣表示為:
(9)
相異系數矩陣也是對稱矩陣,但對角元素的值為0。相異系數矩陣分析的基本原理是:矩陣中兩個主題詞之間的數據越接近1,表明這兩個主題詞之間的距離越大,相似度越小;反之,兩個主題詞之間的數據越接近0,表明這兩個主題詞之間的距離越小,相似度越大。限于文章篇幅,文中不列出40×40階的相異系數矩陣。
將相異系數矩陣輸入到SPSS中進行多維尺度分析。度量標準采用區間方式的Euclidean距離,標準化選擇“全距從0到1”,S應力收劍性、最小s應力值和最大迭代次數均采用系統默認值,輸出結果為組圖,包括派生的激勵配置圖、線性擬合的散點圖、非線性擬合的散點圖、轉換散點圖等[12-14]。通常使用派生的激勵配置圖作為知識圖譜使用,但該圖沒有標明各維度的意義,沒有對主題詞的緊密程度進行區域劃分。同時,由于受坐標尺度的影響,很多主題詞擁擠在一起,看起來極不清晰。在知識圖譜中,各個主題詞所處的位置用小圓圈表示,主題詞關系越緊密,它們所代表的圓圈間的距離越近。文中參考派生的激勵配置圖和SPSS輸出的激勵坐標尺度,重新繪制輿情研究主題詞知識圖譜,將坐標直接分為相等的四個象限并用不規則的實線框將各個領域區分開來,繪制結果如圖1所示。

圖1 輿情研究主題詞知識圖譜
進行多維尺度分析時,一般都想得到維度較少而擬合程度又高的分析結果。對多維尺度分析結果進行解釋,主要從兩個方面[15]:一是對維度定義的解釋,二是對研究對象空間分布特點的解釋。
維度意義的解釋主要從各維度兩端研究對象的典型差異進行分析。從圖1中可以看出,分布在橫向維度(維度1)左側的主題詞大多與輿情管理相關,右端的主題詞大多與媒體相關,因此將橫向維度的含義解釋為“管理-媒體”維度;分布在縱向維度(維度2)上端的主題詞大多與輿情直接相關,下端的主題詞大多與研究方向相關,因此將縱向維度的含義解釋為“輿情-方向”維度。
研究對象空間分布特點的解釋主要是為了分析研究對象在研究者所關心的屬性特點方面的規律性聯系。從圖1中可以看出,共分為4個研究領域和2個特殊領域。以第1象限為主、部分位于第2象限的輿情直接相關研究(領域1),具有較高的密度和向心度,各個主題詞與“輿情”之間的關系緊密,是目前國內學者輿情研究中的重點與熱點,與其他3個研究領域之間的聯系也很緊密;位于第2象限和第3象限的輿情管理(領域2)研究相對活躍,位于第2象限的“監測、預警、監管”三個主題詞與“輿情”之間的聯系密切,位于第3象限的“決策、建議、民意”三個主題詞之間的關系較密切,但與“輿情”的關系相對較遠,很容易受其他領域研究影響而演化;位于第3象限和第4象限的各個輿情研究方向(領域3)與“輿情”之間的關系相對較遠,表明研究比較分散,尚未引起足夠的重視,需要加大這方面的研究。但“法律”研究相對活躍,“大學生、高校、思想政治教育”三個主題詞之間的聯系較緊密,具有較強的相關性;位于第1象限和第4象限的媒體研究方向(領域4)與“輿情”之間的聯系較近,各主題詞之間的聯系也較緊密,表明研究比較集中,也是當前研究的熱點問題。“互聯網、意見領袖、傳播、新媒體”四個主題詞與“輿情”之間的聯系非常近,是當前輿情相關的媒體領域研究的熱點問題;“突發事件、群體性事件”兩個主題詞歸入周圍其他領域不合理,但二者與“輿情”的聯系又比較緊密,因此將二者單獨劃為特殊領域1(應急);“評價、指標體系”兩個主題詞與特殊領域1類似,既與領域1相關,又與領域2相關,單獨劃為特殊領域2(評價)。
多維尺度分析是一種探索性數據分析技術。文中將輿情研究領域相關的40個主題詞構成的40×40階的相異系數矩陣壓縮到一個低維空間,形成一個直觀的知識圖譜,將主題詞之間的聯系直觀地表現出來,揭示主題詞之間的潛在規律。研究結果表明,我國當前輿情研究主要集中于輿情直接相關、輿情管理、輿情研究方向、媒體研究方向四個領域。輿情直接相關研究是當前研究的重點與熱點;輿情研究方向雖然很多,但研究內容比較分散,沒有比較優秀的研究成果;由于信息技術的發展,與媒體相關的研究領域也較活躍。文中的研究存在兩個局限性:一是數據選取方面,只選取近5年的數據不能反映長期以來輿情研究的發展變化情況,只選取中國知網收錄的“中文核心期刊”和“CSSCI”數據不夠全面;二是研究方法方面,共詞矩陣使用書目共現分析系統,相異系數矩陣使用自編程序計算,多維尺度分析使用SPSS,沒有一種集成的軟件來完成全部工作,容易造成數據偏差且不規范。這些局限性會隨著數據源、研究方法和軟件工具的發展逐步得到改善。
[1] 戴維民,劉 軼.我國網絡輿情信息工作現狀及對策思考[J].圖書情報工作,2014,58(1):24-29.
[2] 許 鑫,章成志,李雯靜.國內網絡輿情研究的回顧與展望[J].情報理論與實踐,2009,46(3):115-120.
[3]JiaH,YanY,GongL,etal.Knowledgemap-basedmethodfordomainknowledgebrowsing[J].DecisionSupportSystems,2014,61(1):106-114.
[4]CuiM,YangS,YuT,etal.Expertknowledgemapsforknowledgemanagement:acasestudyinTraditionalChineseMedicineresearch[J].JournalofTraditionalChineseMedicine,2013,33(5):698-702.
[5]KurodaK,HashiguchiH,FujiwaraK,etal.Reconstructionofnetworkstructuresfrommarkedpointprocessesusingmulti-dimensionalscaling[J].PhysicaA:StatisticalMechanicsandItsApplications,2014,415(1):194-204.
[6]WuChao-Chan,LeuHoang-Jyh.Examiningthetrendsoftechnologicaldevelopmentinhydrogenenergyusingpatentco-wordmapanalysis[J].InternationalJournalofHydrogenEnergy,2014,39(11):19262-19269.
[7] 汪偉良,劉 紅.基于共詞分析的我國科研誠信研究現狀[J].科學管理研究,2014,32(4):35-39.
[8]HuJiming,ZhangYin.ResearchpatternsandtrendsofrecommendationsysteminChinausingco-wordanalysis[J].InformationProcessing&Management,2015,51(4):329-339.
[9] 孫海濤,李仲秋.鐵路物流節點規劃模糊聚類分析[J].計算機技術與發展,2014,24(3):54-57.
[10]SangamRS,OmH.Thek-modesalgorithmwithentropybasedsimilaritycoefficient[J].ProcediaComputerScience,2015,50(1):93-98.
[11] 紅黑聯盟.數據矩陣與相異性矩陣[EB/OL].2015-05-01.http://book.2cto.com/201210/5869.html.
[12]JungK,TakaneY.MultidimensionalscalingI[M].2nded.[s.l.]:[s.n.],2015.
[13]KisenwetherJS,ProsekRA.Theeffectofexperienceonperceptualspaceswhenjudgingsynthesizedvoicequality:amultidimensionalscalingstudy[J].JournalofVoice,2014,28(5):548-553.
[14]LinLanxin,SoHC,ChanFKW.Multidimensionalscalingapproachfornodelocalizationusingreceivedsignalstrengthmeasurements[J].DigitalSignalProcessing,2014,34(11):39-47.
[15] 趙守盈,呂紅云.多維尺度分析技術的特點及幾個基礎問題[J].中國考試,2010(4):13-19.
Mapping Knowledge Domain on Subject Headings of Public Sentiment Research Based on Multi-dimensional Scaling
SUN Yan,TIAN Li-mei
(Library of Bohai University,Jinzhou 121013,China)
In order to conduct objective comb for the current situation of public sentiment research and summarize the intrinsic links and science structure of researched literatures,it researches on "Chinese Core Journals" and "CSSCI" relevant research literatures included in CNKI in the past five years in this paper.First,preliminary data should be prepared,comprising the steps and methods of preparation and associated mathematical model.Then,the dissimilarity coefficient matrix is input into SPSS software to carry on multi dimensional scaling and draw mapping knowledge domain.Finally,mapping knowledge domain must be analyzed from two aspects of dimension definition and spatial distribution.The results show that the current public sentiment research has focused on four directions,and direct relevant research of public sentiment is the focus and hotspot,and media-related field of study is more active,but some results of research direction of segmentation are more dispersed.
multi-dimensional scaling;public sentiment;subject headings;mapping knowledge domain
2015-05-11
2015-08-13
時間:2016-03-22
遼寧省社會科學基金項目(L14BTQ003)
孫 艷(1972-),女,副研究館員,研究方向為圖書館學理論與方法。
http://www.cnki.net/kcms/detail/61.1450.TP.20160322.1518.028.html
TP311
A
1673-629X(2016)04-0187-04
10.3969/j.issn.1673-629X.2016.04.041
0 引 言
又稱敘詞,在標引和檢索中用以表達文獻主題的規范化的詞或詞組,能夠反映特定主題的概念。主題詞是規范化的檢索語言,對文獻中出現的同義詞、近義詞、多義詞以及同一概念的一同書寫形式等進行了嚴格的控制和規范,使每個主題詞都含義明確,以便準確檢索,防止誤檢、漏檢。知識圖譜(Mapping Knowledge Domain)也被稱為科學知識圖譜,在圖書情報界稱為知識域可視化或知識領域映射地圖,將數學、信息科學、圖形學等學科知識與引文分析法相結合,通過繪制可視化的圖譜形象地展示學科的核心結構,從不同視角揭示知識之間的相關性和知識領域的動態發展規律,為學科研究提供有價值的參考[3-4]。知識圖譜的主要研究方法包括共引分析(Co-citation analysis)、共詞分析(Co-word analysis)、多元統計分析(Multivariate statistical analysis)、詞頻分析(Word frequency analysis)、社會網絡分析(Social network analysis)等方法。多維尺度分析(Multi-dimensional Scaling)是研究對象之間相似性或差異性(不相似性)的一種多元統計分析方法[5]。采用多維尺度分析可以創建多維空間感知圖,圖中點的距離反映了對象的相似性或差異性。為此,文中基于多維尺度分析方法,構建輿情研究主題詞知識圖譜,通過詳細的分析得出結論,具有一定的理論意義和實用價值。
輿情是輿情因變事項發生、發展和變化過程中,民眾所持有的社會態度[1]。輿情研究是新興的社會科學與自然科學交叉的研究領域,對于維護社會穩定、促進國家發展、創建和諧社會等方面具有重要的現實意義。我國輿情思想和制度建設較早,但真正開展研究始于2003年[2],經過十多年的發展,取得了一些有價值的研究成果。但仍然有必要對輿情的研究現狀進行客觀梳理,歸納主要的研究領域和研究熱點,總結研究文獻內在的聯系和科學結構,描繪輿情研究未來的發展方向。