唐福濤
(天津商業大學科研處 天津 300134)
研究主題是指某一研究領域內的主要研究內容,反映了該領域的科研工作者和管理者的研究熱點和工作重點[1]。隨著當今科技的不斷交叉與融合,如何透過科技研究主題的演化分析和把握科技發展態勢,對科技工作者尤為重要。國家科學技術獎代表了科學研究的最高榮譽,是反映國家科學技術進步的重要標尺,也代表各個行業科學攻關的方向,所以,對國家科學技術獎研究主題分析有重要的現實意義。
我國幅員遼闊,各省市自治區受地理位置、社會文化、自然資源等因素的影響,經濟發展不平衡,在科研產出結構和優勢領域的分布上差異性大。為了揭示我國各省市自治區的研究主題和優勢領域,本文以2010—2019年國家科技進步獎獲獎項目為數據源,統計分析了我國31個省市自治區(不包括港、澳、臺)在各評審組中的科技進步獎項獲得情況,并借助jieba分詞功能對研究主題進行細化分析。
目前、國內外學者針對某一行業研究領域或者主題的分析已經很多,如大數據領域[2-3]、醫藥領域[4]、計算機集成制造領域[5]、國內環境治理領域[6]、衛生應急處置領域[7]等。但是,縱觀目前對研究主題的分析,數據來源都集中在研究論文和專利方面,還沒有對科學技術獎的主題分析,而國家科技進步獎作為科技研發的前沿和主要陣地,對科技發展意義不言而喻。另外,目前的研究多是針對某一個或幾個特定的領域,具有一定的局限性。本文主要是從宏觀層次上進行國家科技進步獎研究領域主題的分析。
本研究數據源來自國家科學技術獎勵工作辦公室網站[8],在國家科技獎勵—國家科學技術進步獎欄目,從獲獎項目目錄即可查看歷年的獲獎項目。數據的篩選和處理分以下幾個步驟:(1)下載2010—2019年國家科技進步獎通用獎項一、二等獎項目名單(不含專用項目),并導入Excel 表格;(2)整理獲獎項目所屬評審組,并對獲獎項目所屬省市自治區進行劃分(含獲獎參與單位);(3)利用Python 中jieba 中文分詞包功能,對每個項目獲獎名稱進行分詞處理并進行清洗統計。
統計2010—2019年31個省市自治區(不包括港、澳、臺)參與國家科技進步獎項目的情況顯示:整體上各省市的國家科技獲獎項目數呈現“一超多強”的分布趨勢,北京作為首都,獲獎的次數明顯多于其他省市,其他經濟發達地區,如上海、廣東、江蘇、浙江獲得獎項的次數也比較多,而西部欠發達地區,如貴州、青海、西藏等省市獲得獎項的數量明顯少,總體上,國家科技進步獎各省市自治區獲獎頻次存在著明顯的東強西弱的特征。
分詞是將由字符序列構成的句子按照一定的規則重新組合成詞的集合,中文分詞就是指將句子中漢字序列切分成詞集合[9]。jieba中文分詞工具是一款使用Python 語言開發的分詞效果較好的分詞器、開源分詞工具,它的主要特點有3 個:(1)支持3 種分詞模式,即精確模式、全模式和搜索引擎模式;(2)支持繁體分詞;(3)支持自定義詞典。jieba 分詞的實現基于以下3 個原理[10]:(1)基于trie樹結構,實現高效的詞圖掃描,生成句子中漢字所有可能成詞情況所構成的有向無環圖(directed acyclic graph,DAG);(2)采用動態規劃,查找最大概率路徑,找出基于詞頻的最大切分組合;(3)對于未登錄詞,采用了Viterbi 算法和基于漢字成詞能力的HMM模型。
本研究是基于國家科技獎獲獎項目的名稱進行分詞處理,獲獎名稱是對獲獎項目的精確、濃縮概括,因此,采用jieba分詞中的精確模式。該模式是jieba分詞中最基礎和自然的模式,它試圖盡可能精確地劃分語句,特別適合極短文本分析。
國家科技進步獎項目基本每年會設有30 個左右的評審組,范圍涵蓋了理、工、農、醫類全部學科方向。隨著時代發展,評審組也會有微調,如2010—2011年設有先進制造與重大裝備、安全生產、循環經濟3個評審組,2012—2019年則沒有這3個評審組,2019年之前農藝學和農業工程學是在一個評審組,2019年之后農藝學和農業工程學分開評審。所以。本文在歷年獎項評審組的基礎上進行了微調,歸納了30 個評審組,匯總了2010—2019 各個省市自治區在評審組里面主要參與獲獎頻次,如圖1所示。
由圖1可知,北京作為全國政治經濟中心,在國家科技進步獎獲獎方面,獲得評審組獎項的數量遙遙領先,地處長三角、珠三角地區的上海市、江蘇省、浙江省、廣東省參與獲得國家科技進步獎的次數也比較多,獲獎范圍基本涵蓋了多數的評審組領域,與這幾個省份經濟發達、學術資源豐富、各行業基礎研究力量較強相關。

圖1 各省市參與國家科技進步獎評審組情況統計
在全部30個評審組各省市自治區獲獎次數里面,北京在26 個評審組里居于首位,另外的4 個評審組里面,通信組是廣東省獲獎次數最多,機械組、紡織組、工人農民技術創新組都是江蘇省獲獎次數最多。從各個省市在各評審組獲獎的情況來看,北京市、上海市、江蘇省、浙江省、廣東省、山東省、湖北省不但獲獎次數多,而且涉及的評審組也廣,科技發展創新活力較強;其他省市比較典型的,如河南省在作物遺傳育種與園藝、農業工程評審組獲獎比較多,陜西省在動力電氣與核電評審組里面參與次數比較多,湖南省、遼寧省在金屬材料評審組里面參與次數比較多;而在經濟薄弱的西部地區,如寧夏、西藏、青海等在各個評審組獲獎都很少,科技獲獎能力偏弱。
利用jieba中文分詞功能,探究31個省市自治區的研究主題,包括3 個步驟:(1)對2010—2019年度獲獎項目名稱進行分詞處理;(2)對數據進行清洗,剔除一些不能體現研究主題或內容的詞語,如“關鍵技術”“開發”“應用”“工程”等;(3)整理31個省市自治區獲得國家科技進步獎項目主要所屬評審組及分詞數據,如表1所示。由分詞數據更能直觀地看到各省市自治區的科技研究優勢領域,各省市研究主題和所屬評審組兩者之間也有較高的關聯性,例如:上海的外科與耳鼻喉組、內科與預防醫學組與分詞數據的臨床、治療、疾病互相關聯;河南的作物遺傳育種與園藝組、農藝組、農業工程組與分詞數據的新品種、選育、小麥關聯度高。由分詞數據信息進一步反映了31個省市自治區的科技研究主題。

表1 31 省市國家科技進步獎主要所屬評審組及分詞數據
各省市自治區在國家科技進步獎中獲獎頻次受多方面因素影響,區域學術資源、經濟發展狀況、自然資源聚集都會對研究主題產生影響[11]。京津冀、長三角、珠三角地區無論是學術資源還是經濟發展都走在前列,所以,在各評審組中都能斬獲獎項。一些典型的自然資源聚集的省份在各自優勢產業也有收獲,如山西省是煤炭大省,其獲獎主要來自于礦山工程評審組;廣東省的電子通信業是其支柱產業,故其在通信組中排名首位。中西部地區只有四川省和陜西省在國家科技進步獎項目中能位于前十位,原因在于這兩個省份都有8個雙一流高校,還有部分科研院所,屬于人才知識聚集地,其他西部偏遠地區無論是自然資源還是經濟活力、學術資源都比較劣勢,科技創新能力較弱,在國家科技進步獎項目中獲獎很少。
本文在歸納各省市自治區2010—2019年獲得國家科技進步獎項目所屬評審組基礎上,對獲獎項目名稱進行分詞處理并進行研究主題分析,主要得出了如下結論。(1)31個省市自治區獲得國家科技進步獎的項目數呈現“一超多強”“東強西弱”的態勢,北京處于遙遙領先位置,長三角、珠三角經濟發達省市科技獲獎能力較強,西部偏遠地區獲獎能力偏弱。(2)31個省市自治區的研究主題和地域的學術資源、自然資源密切相關,以適應當地經濟社會發展的需要。(3)31個省市自治區獲得國家科技進步獎項目所屬評審組與項目名稱分詞數據關聯性高,進一步反映了各省市的科技研究主題情況。
本文以國家科技進步獎項目為源數據,利用統計和jieba分詞方法,探究了31個省市自治區科技研究主題,有助于科技工作者進一步把握科技發展方向,有助于政府和有關部門制定宏觀科技發展戰略。當然,研究還存在一定的局限,后續需進一步做優化處理。(1)分析對象是以國家科技進步獎為數據源,沒有包括其他國家科技獎項,如國家技術發明獎、自然科學獎,雖然這些獎項數量比較少,但是也可以反映各省市自治區的科技研究主題。(2)此次統計整理各省市自治區獲得國家科技進步獎項目的所屬評審組和項目名稱分詞數據,未區分該省市是項目的主持單位還是參與單位,一個獲獎項目的取得往往是多家單位合作的成果,機構在項目中排名能反映機構對項目的貢獻度,后續可做各省市自治區研究深度的量化分析。(3)本次研究年限是2010—2019年,沒有對31個省市自治區的研究主題進行分階段分析,后續對研究主題的分析可分階段進一步關注演化趨勢。