侯素娟,趙瑞珍,宋 蘇
1(山東師范大學 信息科學與工程學院,山東 濟南 250014)
2(國家自然科學基金委員會 信息科學部,北京 100085)
通訊作者:趙瑞珍,E-mail:zhaorz@nsfc.gov.cn
國家自然科學基金申請書通常反映相關領域目前最新進展和成果.申請書一般都附有關鍵詞,這些關鍵詞能夠迅速、準確地反映出一份申請書的主題內容和重點,也是函評階段計算機輔助指派系統進行專家匹配的重要因素之一.對某個研究領域較長時間段的大量基金申請書進行關鍵詞的詞頻和趨勢規律分析,有助于揭示本領域研究的熱點、總體內容特征、內容之間的內在聯系、學術研究的發展脈絡與發展方向等[1].文獻[2]對國家自然科學基金自動化領域1986 年~2017 年項目申請和資助數據進行了大量分析,發現自動化領域基金資助的相關領域反映了國內外研究前沿;同時發現,熱點領域理論研究的比重大于應用基礎研究.
近些年,隨著網絡和存儲技術的快速發展,多媒體數據量呈爆炸式增長,圖像和視頻數據的研究已成為計算機應用領域研究的熱點.2019 年,國家自然科學基金委員會信息科學部明確將“社交媒體大數據分析與處理”作為優先支持的研究領域之一[3].目前,計算機學科(對應一級代碼F02)共設有65 個三級代碼.近5 年,計算機圖像與視頻處理領域(對應三級代碼F020502)的項目申請量和項目資助量在65 個三級代碼中均排第一位,具體地,在申請方面,2014 年~2018 年度各類項目總量共計2 445 項,占計算機應用(F0205)項目總量的27.4%,占整個計算機學科項目總量的10.4%;在資助方面,2014 年~2018 年度各類項目總量共計646 項,占計算機應用項目總量的30.09%,占整個計算機學科項目總量的11.5%.因此,本文選取2014 年~2018 年計算機圖像與視頻處理領域的項目關鍵詞進行統計和分析.
在進行項目申報時,國家自然科學基金委員會要求每個項目標引5 個以內(含5 個)的關鍵詞.我們統計了2014 年~2018 年計算機圖像與視頻處理領域的項目申請量及其標引的關鍵詞數量(本文統計的關鍵詞數量包含了重復出現的關鍵詞)、項目資助量及其標引的關鍵詞數量,見表1.

Table 1 Number of projects and keywords in the field of computer image and video processing from 2014 to 2018表1 2014 年~2018 年計算機圖像與視頻處理領域的項目數量和關鍵詞數量
根據表1 中的結果統計,2014 年~2018 年申請項目2 445 項,標引關鍵詞10 686 個,篇均關鍵詞4.37 個.資助項目646 項,標引關鍵詞2 844 個,篇均關鍵詞4.40 個.
同時,我們還統計了計算機圖像與視頻處理領域關鍵詞標引量(關鍵詞標引量:申請書中所標注的關鍵詞的個數)及其對應的項目申請量,如圖1 所示.
由圖1 可以看出:大多數申請項目的關鍵詞標引量集中在4~5 個,其中,標注了4 個和5 個關鍵詞的項目數量分別有673 項和1 377 項,分別占總項目的27.53%和56.32%,二者之和所占比例達83.85%.
此外,筆者還統計了計算機圖像與視頻處理領域關鍵詞標引量及其對應的項目資助占比,如圖2 所示,其中,括號內的數字為關鍵詞標引量對應項目數量的占比.

Fig.2 Number of keywords and corresponding project funding rate圖2 關鍵詞標引量及其項目資助占比
由圖2 可以看出,近5 年資助項目的關鍵詞標引量具有以下特點.
(1)大多數獲資助項目的關鍵詞標引量集中在4~5 個,其中,標注4 個和5 個關鍵詞的項目共計544 項,占項目總數的84.21%;標引5 個關鍵詞的項目資助占比最高,相對于同為5 個關鍵詞的項目申請占比(56.32%)高2.5%;
(2)結合圖1 數據,可以計算出標引1~5 個關鍵詞的項目資助率分別為25%,20.69%,26.83%,24.37%,27.6%,其中,標引5 個關鍵詞的項目獲得資助的比例相對較高.
以上分析表明,獲資助申請書其關鍵詞標引量絕大多數在4 個或以上,當申請書的關鍵詞標引量為5 時,獲資助比例較高.
詞頻用于定義關鍵詞在某一研究領域中出現的頻次高低[4].我們對2014 年~2018 年計算機圖像與視頻處理領域申請及獲資助項目的關鍵詞詞頻進行統計,表2 中列出排序在前10 的關鍵詞及其詞頻(注:申請及獲資助項目的關鍵詞總量分別為10 686 和2 844).
由表2 的統計結果可以看出:
(1)從關鍵詞反映出的申請項目的研究熱點與專家的認可度基本一致,例如:申請項目和資助項目詞頻排序在前2 位的均依次為“深度學習”和“特征提取”.然而,兩者其他關鍵詞的研究熱度和專家認可度并不一致,如“圖像理解”在資助項目的關鍵詞詞頻排序中列第3 位,而在申請項目的關鍵詞詞頻排序中列第7 位;
(2)高頻詞確實反映了計算機圖像與視頻處理領域的熱點:a)隨著AlphaGo 戰勝人類圍棋世界冠軍,人工智能迎來第三次熱潮,深度學習成為本領域備受關注的研究內容,這在表2 的詞頻統計結果中得到了充分體現;b)圖像特征提取是圖像和視頻研究的關鍵,特征提取的效果直接決定著圖像和視頻應用的性能.如何從原始圖像中提取具有較強表示能力的特征,是計算機圖像與視頻處理的一個研究熱點.這從表2 中也得到體現.

Table 2 Top 10 keyword frequency in the field of computer image and video processing from 2014 to 2018表2 2014 年~2018 年計算機圖像與視頻處理領域項目關鍵詞詞頻TOP10
我們對計算機圖像與視頻處理領域的項目出現頻次較高的關鍵詞的資助率進行統計,并將統計結果按照資助項目的關鍵詞詞頻高低進行排序,表3 給出了資助項目詞頻排序在前10 的關鍵詞的資助率統計結果.

Table 3 Keyword frequency and project funding rate in the field of computer image and video processing from 2014 to 2018表3 2014 年~2018 年計算機圖像與視頻處理領域的項目關鍵詞詞頻與關鍵詞的資助率
從表3 可以看出:
(1)詞頻高的項目,其資助率不一定高.例如:“圖像理解”在資助項目的關鍵詞詞頻排序中列第3 位,在申請項目的詞頻排序中列第7 位,其資助率較高;“目標檢測”在資助項目的關鍵詞詞頻排序中列第8 位,在申請項目的關鍵詞詞頻排序中列第4 位,其資助率較低;
(2)涉及“深度學習”和“圖像理解”的項目相對容易得到同行專家的認可.
詞頻分析法是利用詞頻來確定該領域研究熱點和發展動向的計量學方法[4].申請書中關鍵詞詞頻的高低,可以反映本領域的研究熱點和主要研究方向,由關鍵詞詞頻分布特征可以分析出本領域研究的集中程度.為了分析近5 年計算機圖像與視頻處理領域研究熱點的變化,筆者運用詞頻分析法從詞頻方面分別對申請項目和資助項目的關鍵詞詞頻進行逐年統計,并列出詞頻排序在前10 的關鍵詞(見表4).由表4 的統計結果可以看出:
(1)對于詞頻最高的關鍵詞,申請項目和資助項目兩者完全匹配.例如:2014 年,申請項目和資助項目詞頻最高的關鍵詞均為“計算機視覺”;2015 年~2018 年,關鍵詞“深度學習”的詞頻排序持續保持第一.目前,深度學習發展迅速,其研究價值和潛力正不斷地被挖掘,在圖像檢索、語音識別、人臉識別、機器翻譯等領域均取得了突出的應用效果;
(2)對于其他關鍵詞,申請項目和資助項目兩者的詞頻排序基本不匹配,具體表現在同一關鍵詞不僅在同一年度的申請和資助的詞頻排序各不相同,而且不同年份的詞頻排序變化波動也較為明顯.以“圖像檢索”關鍵詞為例,圖3 給出其近5 年在申請和資助兩方面詞頻排序的變化.

Table 4 Top 10 annual keyword frequency of the field of computer image and video processing from 2014 to 2018表4 2014 年~2018 年計算機圖像與視頻處理領域項目關鍵詞TOP10 逐年統計

Table 4 Top 10 annual keyword frequency of the field of computer image and video processing from 2014 to 2018表4 2014 年~2018 年計算機圖像與視頻處理領域項目關鍵詞TOP10 逐年統計

Fig.3 Change of Word Frequency Ranking towards Image Retrieval from 2014 to 2018圖3 關鍵詞圖像檢索在2014 年~2018 各年度的詞頻排序變化
本文從申請項目和資助項目兩個方面,對2014 年~2018 年計算機圖像與視頻處理領域的關鍵詞進行統計,分別對關鍵詞的標引量和詞頻進行分析,并探討了它們與資助率的關系,最后,透過熱頻關鍵詞的變化分析了計算機圖像與視頻處理領域研究熱點的變化.可以看出,“深度學習”在計算機圖像與視頻處理領域已持續成為大家關注和感興趣的研究課題.