陳辰 王璐 郝曉雪
摘要:結合詞頻統計與高頻關鍵詞的語義關聯分析,為“京津冀協同發展”的研究熱點及前沿主題的細化研究提供切入點。結合實驗數據,提出關鍵詞語義關聯的三種路徑:基于敘詞表概念關系的關聯、基于關鍵詞語法結構的關聯和基于邏輯概念分類的關聯,并基于這三種路徑探索了京津冀協同發展研究的熱點及前沿趨勢。
關鍵詞:研究熱點;語義關聯;詞頻分析
中國分類號:G250;G353.1文獻標識碼:A
DOI:10.13897/j.cnki.hbkjty.2018.0017
1引言
目前國內外有關研究熱點與前沿監測研究主要涉及理論、方法和實證應用幾個方面,在方法上主要是基于引用關系和基于文本內容的分析法,其中基于引用關系的科技前沿預測方法又分為直接引用、共被引和文獻耦合三個方面,基于內容分析的方法分為詞頻分析法和共現分析法,這些方法各有其優缺點,將上述方法進行有效的結合,互相取長補短,是當前該領域的研究重點。
關于研究熱點和前沿預測方法的結合研究,Braam等人利用共詞分析與共被引聚類結合的方法,探測研究前沿,能獲得比單純共被引分析更加全面的景象[1]。王立學認為3種引用方法都可以探測研究前沿,但是綜合使用才能取得較好效果[2]。方麗等利用雙聚類算法和突發檢測算法進行學科前沿與知識基礎的比較研究[3]。宮雪等對直接引證、同被引和文獻耦合3種方法在前沿預測的效果上進行比較分析[4]。
本文在傳統詞頻統計預測研究熱點的基礎上,結合語義關聯方法進行研究熱點和前沿的細化與全面分析,是對傳統詞頻統計方法的一種優化,使其更加準確、全面、細致地反映研究熱點與前沿。
詞頻分析,是通過統計可以表達文獻核心內容的關鍵詞或主題詞的頻次高低來進行某學科或研究領域的熱點主題預測,頻次越高說明該主題的關注度越高,是當前的熱點主題。但是由于有的關鍵詞不規范,對研究主題的預測會產生一定的偏差;而且如果只分析高頻詞匯,就可能忽略了有一定集合意義、代表研究熱點、研究前沿的低頻詞匯。本文在詞頻統計的基礎上,進行高頻關鍵詞的語義處理方法研究,以期解決上述問題。
2數據分析樣本
本文以“京津冀協同發展”研究主題為實例,選擇CNKI期刊全文數據庫為數據源,共檢索出論文2 532篇。將題錄信息導入EXCEL中進行統計,共得到關鍵詞11 727個,經初步統計,將沒有實際研究意義的高頻詞去掉,得到前50位高頻關鍵詞如下表。表1的高頻關鍵詞為基礎數據分析來源,通過實驗總結關鍵詞的關聯路徑。
3關鍵詞語義關聯方法探析
關鍵詞語義關聯方法,即高頻關鍵詞與其他關鍵詞(包括高頻詞與低頻詞)建立某種連接時所依據的歸并、拆分和組配方法。關鍵詞語義關聯在分析挖掘關鍵詞隱含的各種語義信息及其層次關系的基礎上,參照一定的語義環境確定高頻關鍵詞和其他關鍵詞間關系。通過總結,本文將關鍵詞語義關聯方法分為三類:
3.1基于敘詞表概念關系的語義關聯
《ISO25964—1文獻和信息-檢索用敘詞表》[4],指出概念間的關系有等同關系、等級關系(上、下位)、相關關系和定制關系等。關鍵詞間的關聯可參考上述語義關系,進行等同、等級和相關關系的歸并處理,實現同一概念不同關鍵詞表達形式之間的對等關聯,以及包含與被包含關系及相關關系的關聯,以全面構建研究主題的概念語義關系。
(1)等同關系的關聯。等同關系關聯是指將概念語義完全相同的,即在不同的應用場合基本可以互相取代的兩個關鍵詞進行歸并處理。等同關系的關聯又分為兩種情況:①詞形規范:對字面形式(詞序、簡繁體等)、含有標點符號、字母符號和數字等方面的關鍵詞進行規范,達成兩個詞間的等同映射關聯。如含有標點符號(引號)的“京津冀一體化”、“京津冀”一體化與京津冀一體化的等同關聯。②詞義規范:對同義詞、準同義詞間的關聯,具體包括單關聯和組配關聯,前者是一對一關聯,后者是通過關鍵詞間的組配達成一對多的關聯。示例1(單關聯):“地區經濟”和“區域經濟”、“地緣經濟”含義相同,可合并為一詞。示例2(組配關聯):“承接產業轉移”可由“產業承接”與“產業轉移”進行組配,組配關聯需要注意組配的語義對等。
(2)等級關系關聯。等級關系關聯又稱為上、下位關聯,通過分析在語義上具有包含與被包含關系的關鍵詞,建立屬種關系、整體和部分關系、實例關系關聯。上位關聯可以反映該關鍵詞的上位類,說明較為宏觀的研究主題,下位關聯可以反映該關鍵詞的下位類,更全面、細致深入地反映研究主題。
(3)相關關系關聯。相關關系關聯是指將語義上具有重合或者交叉關系的關鍵詞建立聯系。一般有相同的父類關系的關鍵詞具有相關關系,但并不是所有具有同一父類的子類就具有相關關系。關鍵詞相關關聯可以擴大相關主題的范圍,為該主題的進一步深入研究提供思路與切入點。示例:“京津冀協同發展戰略”與“一帶一路戰略”和“長江經濟帶”屬于相關關系關聯類型,它們具有相同的上位類——“國家戰略”。“京津冀”和“長三角”與“珠三角”也屬于相關關聯,相同的上位類為“區域經濟”。
3.2基于關鍵詞語法結構的關聯
朱德熙[6]將詞語的語法結構分為聯合、偏正、主謂、述賓和述補等五類,另外還有重疊、附加、前綴和后綴四類。抓住了詞語詞素間的結構關系,就抓住了語義關系[6]。據于此,本部分通過分析關鍵詞的語法結構,來理清詞語間的語義層次關系,進而根據語義關系進行關鍵詞間的關聯。
(1)聯合關系短語。聯合關系又稱并列關系,并列關系短語中的兩個詞語是同類短語,詞性相同,可以互換位置,中間可用“和”、“與”等連詞相連。如“體制機制”、“互利共贏”、“互聯互通”“、聯防聯控”“節能減排”等都屬于并列關系詞語。
(2)偏正關系短語。偏正關系短語,是由修飾語和中心語組成,結構成分是修飾和被修飾的關系。偏正結構的關鍵詞,可對其中心詞進行關聯主題分析,擴大分析范圍。如“世界級城市群”的中心詞為“城市群”,“環京津貧困帶”的中心詞為“貧困帶”。
(3)主謂關系短語。主謂關系的短語,由主題和陳述主題的謂語兩部分構成。此類關鍵詞關聯可以根據主題上位類目進行聚類,分析出主題陳述的宏觀研究方向,即研究熱點的大致分類情況。
(4)述賓關系短語。述賓關系又稱動賓關系,是由動詞和受動詞支配的實施對象兩部分組成。如“生態環境保護”(保護生態環境)、“大氣污染防治”(防治大氣污染)、“大氣污染治理”、“資源綜合利用”、“生態補償”等。此類詞語的關聯主題重點應在實施對象上。
(5)述補關系短語。述補短語是由述語和對述語的補充說明成分組成,中間一般可以加“得”字連接。如“優化開發”、“跨越式發展”、“和諧發展”、“低碳發展”和“協調發展”等。此類詞語的關聯主題重點應在述語上。
3.3基于邏輯概念分類的關聯
關鍵詞可以借鑒邏輯概念分類方法進行分類,以明確關鍵詞的內涵和外延,從而進行概念層次的關聯。蘇天輔[8]將概念分為專指概念和普通概念、集合概念和非集合概念等。
(1)專指概念和普通概念。從概念的外延上劃分,可以分為專指概念和普通概念。專指概念是外延只有一個對象的、反映某一特定事物的概念,如“長江經濟帶”、“京津冀區域”、“河北省”和“保定市”等屬于此類概念。普通概念是外延有兩個或兩個以上的、反映一類事物的概念,包括許多對象的組合,如“基礎設施”、“世界城市”等。
(2)集合概念和非集合概念。集合概念是反映具有某種聯系的許多同類對象所構成整體的概念,非集合概念是不反映集合體的概念。如“城市群”、“貧困帶”、“核心區”、“首都圈”等為集合概念。
(3)單一概念和復合概念。除了上述分類標準,根據概念的結構還可分為單一概念和復合概念。單一概念在結構上不可再分,復合概念是指在結構上可以分解為兩個以上的分概念。復合概念由多個詞組成,有的可進行直接拆分,有的不能根據字面含義直接進行拆分,需要對原有的組成術語進行修改才能進行拆分組配。所以在進行復合關鍵詞關聯時,要注意復合概念的拆分語義。示例:“城市功能定位”可拆分為“城市功能”和“功能定位”,或“功能區定位”;“市場經濟體制”拆分為“市場經濟”和“經濟體制”;“區域經濟合作”拆分為“區域經濟”和“經濟合作”。而“金融生態環境”不能拆分為“金融”和“生態環境”,這明顯具有語義上的錯誤,因為“生態環境”在京津冀協同發展研究中更多的是指自然生態環境,而不是金融生態環境中根據仿生學原理構建的金融體系環境。
4基于詞頻統計與語義關聯的“京津冀一體化”研究熱點與前沿實例分析
本部分基于上述關鍵詞語義關聯方法,結合京津冀協同發展研究關鍵詞,進行研究熱點及前沿問題的探索分析。
4.1京津冀一體化研究
“京津冀一體化”是京津冀協同發展要實現的整體目標,那么其包含的具體路徑和問題可以從其下位類中反映。反映“京津冀一體化”下位關聯情況的詞匯詳見表2:
通過分析京津冀一體化的下位關聯類目及出現頻次,可以看出“交通一體化”是實現京津冀一體化的主要路徑之一,其次還有經濟一體化、產業一體化和物流一體化等;說明京津冀一體化是近兩年的研究熱點,而作為下位類的交通一體化、經濟一體化和產業一體化可能會是未來幾年繼續研究的前沿問題。
在問題研究方面,“一體化改革”受關注度較高,說明目前京津冀協同發展面臨很多障礙,全面深化改革的措施、項目等是研究的熱點及未來研究前沿。此外, “全面深化改革”為述補關系短語,出現頻次為44,其意為“改革得全面深化”,中心含義為“改革”,與之相關的關聯為“一體化改革”“國企改革”“改革創新”“體制機制改革”等,共計126個頻次,說明這是當前改革方面的研究熱點及未來趨勢。
4.2京津冀協同發展體制機制問題研究
具有聯合并列關系的關鍵詞詞語可進行多層關聯,首先分別將兩個詞語進行拆分關聯,找出各自的主題重點,然后根據需要再進行并列短語的整體關聯。關于“體制機制”多層關聯關系詳見表3,關鍵詞后括號內數字為出現頻次。
通過上述關聯關系分析,在“體制”方面,對于市場經濟體制方面的研究最多,尤其是為京津冀協同發展創造良好的“財稅、財政體制”是研究的熱點主題,也有可能成為未來的研究前沿主題。其次還有“政府、金融、文化、醫療”等方面的體制改革也是關注的熱點。在“機制”方面,遵循市場機制,構建區域協調機制、生態補償機制、利益協調機制、補償機制是研究的熱點問題。京津冀協同發展研究中,“體制機制障礙”研究最多,說明京津冀協同發展中要進行體制機制方面的創新,進行全面深入的改革,是未來研究關注的焦點問題。
4.3京津冀協同發展戰略問題
具有偏正關系結構的短語,可對其中心詞進行關聯主題分析,擴大研究分析范圍,細化研究主題。如“國家戰略”可以基于敘詞表概念體系進行多層關聯分析,如它的等同關聯類目為國家重大戰略、三大國家戰略;等級關聯類目有發展戰略、戰略定位和戰略部署等;相關關聯類目為京津冀協同發展戰略、“一帶一路”戰略和長江經濟帶戰略。
通過關聯分析,可以構建較為完整的“國家戰略”知識概念體系,為進一步進行國家戰略主題的深入研究提供新的切入點。通過分析可知,作為國家重大的戰略,相關學者進行戰略分析、戰略定位及部署方面的研究,另外結合其他兩個國家戰略進行相關問題的研究,是目前國家戰略層面的研究熱點。
4.4京津冀城市群相關概念研究
集合概念是一種構成整體的概念,它由具有某種聯系的許多同類對象所構成。“城市群”是目前出現頻次較高的集合概念,通過細化“城市群”概念的元素對象,可以看出研究的關注熱點,通過統計分析,它的同類集合對象及其頻次情況如下,北京(7)、天津(7)、河北省內城市主要為廊坊(20)、保定(10)、石家莊(8)、張家口(7)、秦皇島(6)、唐山(3)、承德(4)、滄州(2)。
在京津冀“城市群”研究中,河北廊坊的頻次最高,說明受學者關注的程度最高,其次為河北保定、石家莊等。有關天津的研究,除了“天津”自身出現的頻次外,“北方經濟中心”也是天津的等同類目,頻次為27次,所以天津作為北方經濟中心的功能定位研究也是熱點。
4.5京津冀協同發展的經濟、產業與區域問題研究
具有主謂關系的詞語,可以根據主題上位類目進行聚類,分析出主題陳述的宏觀研究方向,確定當前的研究熱點及未來的研究趨勢。表4為具有主謂關系短語的關聯示例。
通過主謂關系的關鍵詞關聯,具有相同主題的類目可以聚類為宏觀研究類,如上示例中大的類目為“經濟”、“區域”和“產業”,說明京津冀協同發展研究的熱點問題大致集中在“經濟發展”、“區域治理”和“產業協同”等幾個宏觀角度。在具有相同結構的類目中,可以根據詞頻高低,進一步判斷該宏觀類目下的熱點研究分主題,如“產業”研究中,“產業分工”出現頻次最高,可以看作是未來的研究前沿。
5總結與展望
本文基于京津冀協同發展研究主題論文的關鍵詞,進行研究熱點與前沿的實證分析,提出在基于詞頻統計的基礎上,進一步利用基于敘詞表概念關系、基于關鍵詞語法結構和基于邏輯概念分類三種方法進行關鍵詞的語義關聯,為相應熱點主題的深入、細化研究提供切入點,探測與高頻詞具有語義關聯的低頻詞匯,預測未來該研究領域的研究趨勢。關鍵詞的一些細化關聯類目可能會是該領域研究前沿領域,未來進一步加強研究前沿預測和關鍵詞語義關聯這方面綜合研究,以期取得較好的研究結果。
參考文獻
[1]Braam R,Web H,Van R.Mapping of science by combined co-citation and word analysis Ⅱ: dynamical aspects[J].Journal of the American Society for Information Science,1991,42( 4) : 252-264.
[2]王立學,冷伏海.簡論研究前沿及其文獻計量識別方法[J].情報理論與實踐,2010,(3):55-58.
[3]方麗,崔雷.利用雙聚類和突發檢測算法探測學科前沿及知識基礎的比較分析[J].情報雜志,2015,(2):79-88.
[4]宮雪,崔雷.利用不同類型引文探測研究前沿及比較研究[J].中華醫學圖書情報雜志,2010,(4):8-10,31.
[5]ISO 25964-1:2011(E),Information and documentation——Thesauri and interoperability with other vocabularies——Part 1: Thesauri for information retrieval[S]. Geneva: International Standardization Organization(ISO),2011.
[6]朱德熙.語法講義[M].北京:商務印書館,1982:32.
[7]王漢衛.華語測試的閱讀研究[M].北京:北京大學出版社,2012:98.
[8]蘇天輔.形式邏輯學[M].成都:四川人民出版社,1981:23.
作者簡介:陳辰(1986-),女,碩士,河北金融學院圖書館館員,研究方向:知識組織。
王璐(1988-),女,碩士,河北金融學院國際金融服務外包學院助教,研究方向:信息計量。
郝曉雪(1988-),女,碩士,河北金融學院圖書館館員,研究方向:信息計量。
(收稿日期:20170609責任編輯:張靜茹)
Abstract: The semantic relevance analysis combing word frequency statistics and high frequency keywords, provide an entry point for the detailed research on the research hotspot and frontier topic of “the Coordinated Development of Beijing, Tianjin and Hebei Province”. Based on the experimental data, three paths of keywords semantic relevance are presented: relevance based on the conceptual relation of descriptors, relevance based on keywords grammatical structure and relevance based on logical concept classification. On the basis of these three paths, the paper explores the research hotspot and front trend of “the Coordinated Development of Beijing, Tianjin and Hebei Province”.
Key words: Research Hotspot; Semantic Relevance; Word Frequency Analysis