◎文/鄒中華(安徽省科學技術情報研究所)
我國科技查新起源于20世紀80年代末期,至今已有近30年的歷史[1]。科技查新規范了我國的科技活動,保證了科學資源的合理配置,成為我國科技管理體系中的重要環節[2]。安徽省科學技術情報研究所是安徽省唯一國家一級查新機構。十幾年來,科技查新項目不斷增加,這些查新項目從側面反映了安徽省創新主體的研發熱點。本文運用共詞分析法與可視化技術對查新項目中的高頻詞分布、高頻詞間的內在關聯進行分析,從微觀上揭示安徽省科技創新主體的研發熱點以及研發熱點之間的關聯。
查新項目的名稱是查新項目內容的濃縮與體現,因此本文通過對查新項目名稱的分析實現對查新項目內容的分析。針對安徽省2015—2017年間的科技查新項目,先采用Python編程環境下的Jieba軟件對項目的名稱進行分詞,再從分詞的結果中提取所有名詞短語和對應的詞頻,合并意思相似的名詞短語,如“電池”和“蓄電池”統一合并為“電池”,“電機”和“馬達”統一合并為“電機”,然后按詞頻由高到低排序,選擇詞頻數大于50的名詞45個(見表1)。這些出現頻次較高的名詞及其組合,在一定程度上可以體現最近3年安徽省科技查新項目的研發熱點。

表1 2015—2017年安徽省科技查新項目的高頻名詞
20世紀70年代中后期,共詞分析法逐漸興起,其思想依據是文獻計量學中的引文耦合與共被引分析[3],利用文獻中的“名詞短語”或“共現詞匯對”出現的情況來判斷它們所代表的各主題間的關聯。針對表1中的45個高頻名詞短語,兩兩統計其在同一個查新項目名稱中共現的次數,形成45×45的共詞矩陣??紤]到關聯名詞短語間的關聯程度及共現頻次對可視化結果有一定影響,本文采用關聯強度Ochiia系數[4]來減少這一影響。Ochiia系數的計算公式如下:


表2 高頻名詞的45×45相關矩陣(部分)
采用上式將共詞矩陣轉換成Ochiia系數相關矩陣,如表2所示。
在相關矩陣的基礎上,利用SPSS軟件進行聚類分析和多維尺度分析[5],得到可視化的查新高頻關鍵詞聚類分析樹形圖(見圖1)與多維尺度圖(見圖2)。


圖1 高頻名詞的聚類分析樹形圖
在圖1所示的聚類分析樹形圖中,上端0~25的標度代表各類名詞之間的距離,越早被聚為一類的名詞之間的距離越近、關聯越緊密[6]。觀察高頻名詞的聚類過程,同時參考因子分析結果,科技查新項目的熱點可分為如下 9 類:(1) 鋼結構、混凝土的施工工法(10、24、4、12);(2)工程線路、裝備的制造工藝和技術(1、5、31、35、21);(3)玻璃的生產裝置和方法(7、8、22);(4)電動汽車的電機、空調電機(6、19、23、28,新能源電動汽車是安徽省重點扶持的戰略新興產業,而直流電機是電動汽車的核心部件之一);(5)用于電池和叉車的高性能環保材料(13、14、15、20、42);(6)鋁合金電力電纜及變壓器(11、30、43、44);(7)信息系統、網絡平臺、智能數據處理(2、3、9、27、18、25、40);(8)機器人及其生產線(16、27、41);(9)冰箱制造涉及的壓縮機和模具(34、37、38、39)。

圖2 高頻名詞的多維尺度圖
圖2展現了科技查新項目高頻名詞在二維空間的分布,圖中有高度相似性的點聚集到一起形成一類,并且越居中的關鍵詞與其他關鍵詞的關聯越多,在該領域中的地位越核心[7]。由圖2可知,安徽省科技創新主體的研發熱點可概括分為9個部分,分別用橢圓標出,9個部分的關聯如下:“電機、叉車、液壓、玻璃、變壓器”區域和“生產線、裝備、工藝、方法”區域距離很近,并且這兩個區域所占的空間較大,說明安徽省的工業目前仍然以傳統產業為主;“電動汽車”區域和“網絡平臺”區域關聯密切,并存在“軟件”區域交集。這表明電動汽車作為新的高科技熱點,在設計和生產過程中充分利用了網絡和軟件技術;“電力信息系統”區域和“網絡平臺”區域關聯較為密切,說明在電力系統中越來越多地引入了信息化生產和管理方式;“冰箱壓縮機”“混凝土工法”“鋼結構”3個區域,在空間上和別的部分關聯不大,具有相對獨立性。
本文針對科技查新項目的熱點進行可視化分析,統計出反映研發熱點的45個高頻熱點名詞,并結合共詞分析法與可視化技術,進行主題分析,較為直觀地展示了安徽省創新主體的研發熱點,以及研發熱點之間的關聯。本研究尚有一定的不足之處,如高頻名詞的確定閾值、同義詞歸類標準等仍是有待討論的問題。