黃曉林 王輝 黃卉 蔣欣宏



[摘要] 科技報(bào)告是與科研項(xiàng)目緊密相關(guān)的特種文獻(xiàn)。基于科技報(bào)告數(shù)據(jù),采用文獻(xiàn)計(jì)量學(xué)和復(fù)雜網(wǎng)絡(luò)的方法,對(duì)湖南省現(xiàn)代農(nóng)業(yè)領(lǐng)域的研發(fā)現(xiàn)狀進(jìn)行了分析。研究發(fā)現(xiàn),湖南省現(xiàn)代農(nóng)業(yè)領(lǐng)域研發(fā)目前側(cè)重在種植業(yè)、現(xiàn)代種業(yè)和農(nóng)技推廣應(yīng)用等方向;各研究熱點(diǎn)間聯(lián)系較多,也較緊密;不同主要研究熱點(diǎn)所屬的研究主題不同,研究的內(nèi)容也有所區(qū)分。
[關(guān)鍵詞]湖南;現(xiàn)代農(nóng)業(yè);研發(fā)現(xiàn)狀;科技報(bào)告
[中圖分類(lèi)號(hào)]F327;G358[文獻(xiàn)標(biāo)識(shí)碼]A
1? ? 引言
當(dāng)前,我國(guó)正由傳統(tǒng)農(nóng)業(yè)向現(xiàn)代農(nóng)業(yè)轉(zhuǎn)型,已進(jìn)入發(fā)展現(xiàn)代農(nóng)業(yè),加快構(gòu)建新型農(nóng)業(yè)經(jīng)營(yíng)體系,深入推進(jìn)農(nóng)業(yè)發(fā)展方式轉(zhuǎn)變,建設(shè)社會(huì)主義新農(nóng)村的關(guān)鍵時(shí)期。農(nóng)業(yè)科技創(chuàng)新是推進(jìn)農(nóng)業(yè)現(xiàn)代化的重要?jiǎng)恿ΑN覈?guó)農(nóng)業(yè)科技進(jìn)步貢獻(xiàn)率已達(dá)到57.5%,但仍與發(fā)達(dá)國(guó)家有較大差距。湖南省作為農(nóng)業(yè)大省,總體R&D投入占GDP比重偏弱,2016年僅為1.5%。因此了解區(qū)域農(nóng)業(yè)領(lǐng)域的研發(fā)現(xiàn)狀,對(duì)做好農(nóng)業(yè)產(chǎn)業(yè)規(guī)劃布局,合理分配有限的農(nóng)業(yè)領(lǐng)域研發(fā)資金,最終促進(jìn)區(qū)域農(nóng)業(yè)的健康發(fā)展,具有重要意義。
科技報(bào)告是科技人員為了描述其從事的科研、設(shè)計(jì)、工程、試驗(yàn)和鑒定等活動(dòng)的過(guò)程、進(jìn)展和結(jié)果,按照規(guī)定的標(biāo)準(zhǔn)格式編寫(xiě)而成的特種文獻(xiàn)。在我國(guó),科技報(bào)告由國(guó)家和各級(jí)政府采取一定的行政手段強(qiáng)制形成,是國(guó)家和地區(qū)的重要戰(zhàn)略資源。由于科技報(bào)告與科技項(xiàng)目關(guān)系的特殊性,科技報(bào)告不僅記錄了科技項(xiàng)目的基本信息,它同時(shí)還有對(duì)科技項(xiàng)目科學(xué)研究和技術(shù)實(shí)施內(nèi)容的完整描述。我國(guó)于2014年建立國(guó)家科技報(bào)告共享服務(wù)系統(tǒng),目前已收錄各類(lèi)科技計(jì)劃項(xiàng)目提交的科技報(bào)告10萬(wàn)余份。湖南省于2015年啟動(dòng)科技報(bào)告工作,截止2018年4月,湖南省科技報(bào)告共享服務(wù)系統(tǒng)已收錄科技報(bào)告1377份。
2? ? 數(shù)據(jù)來(lái)源及分析方法
本研究數(shù)據(jù)來(lái)源于“湖南科技報(bào)告共享服務(wù)系統(tǒng)”(http://www.hnstrs.cn/)。在科技報(bào)告技術(shù)領(lǐng)域中,以“農(nóng)業(yè)”為主題詞進(jìn)行檢索,得到的結(jié)果有“農(nóng)業(yè)-種植”、“農(nóng)業(yè)-養(yǎng)殖”和“農(nóng)業(yè)-農(nóng)產(chǎn)品加工”等技術(shù)領(lǐng)域分類(lèi),為了提高檢索結(jié)果覆蓋的準(zhǔn)確性,對(duì)“資源與環(huán)境”,“生物與醫(yī)藥-中藥”等領(lǐng)域分類(lèi)下與農(nóng)業(yè)領(lǐng)域存在交叉的科技報(bào)告進(jìn)行人工篩選。對(duì)選中的科技報(bào)告信息進(jìn)行采集,采集的字段包括科技報(bào)告題名、關(guān)鍵詞和立項(xiàng)年度等信息。為更準(zhǔn)確的體現(xiàn)湖南省農(nóng)業(yè)領(lǐng)域的研發(fā)現(xiàn)狀,本研究只采集了2013年(含)以后立項(xiàng)相關(guān)科技項(xiàng)目產(chǎn)生的科技報(bào)告。截止2018年4月,湖南科技報(bào)告共享服務(wù)系統(tǒng)共收錄2013年(含)以來(lái)立項(xiàng)科技項(xiàng)目產(chǎn)生的農(nóng)業(yè)領(lǐng)域相關(guān)科技報(bào)告248份。
為提高分析的準(zhǔn)確性,本文將每份科技報(bào)告的題名和關(guān)鍵詞分別合并為一條信息,并且進(jìn)行切分詞處理,刪除虛詞,并且人工剔除研究(research)、關(guān)鍵(key)、方法(method)和進(jìn)展(development)等一些在題名中普遍存且干擾分析的詞匯,從而形成包含248條熱點(diǎn)詞信息的文本語(yǔ)料庫(kù)。本文語(yǔ)言處理及分析采用python語(yǔ)言及gensim工具包實(shí)現(xiàn)。詞頻統(tǒng)計(jì)采用bibexcel軟件實(shí)現(xiàn)。
復(fù)雜網(wǎng)絡(luò)在現(xiàn)實(shí)社會(huì)中廣泛存在,節(jié)點(diǎn)和邊是復(fù)雜網(wǎng)絡(luò)中的基本要素,在復(fù)雜網(wǎng)絡(luò)中,個(gè)體或事物即為節(jié)點(diǎn),節(jié)點(diǎn)之間存在的關(guān)系(關(guān)聯(lián))即為邊。兩個(gè)不同熱點(diǎn)詞在同一篇文獻(xiàn)中出現(xiàn),即表示熱點(diǎn)詞存在一條邊,稱(chēng)之為詞共現(xiàn)。基于此,不同的熱點(diǎn)詞在一定的文獻(xiàn)樣本中可形成廣泛的聯(lián)結(jié),即基于詞共現(xiàn)的復(fù)雜網(wǎng)絡(luò)。通過(guò)對(duì)復(fù)雜網(wǎng)絡(luò)的可視化,可以發(fā)現(xiàn)網(wǎng)絡(luò)中的研究熱點(diǎn)。本文復(fù)雜網(wǎng)絡(luò)計(jì)算及可視化采用Gephi 0.9.2軟件實(shí)現(xiàn)。
圍繞某個(gè)或某幾個(gè)研究熱點(diǎn)往往會(huì)形成特定的研究主題,但在復(fù)雜網(wǎng)絡(luò)中由于節(jié)點(diǎn)之間邊關(guān)系復(fù)雜,不一定形成明顯的社團(tuán)結(jié)構(gòu),不同主題之間往往難以區(qū)分。為挖掘出隱藏在復(fù)雜網(wǎng)絡(luò)中的研究主題及其網(wǎng)絡(luò),本文采用python語(yǔ)言環(huán)境下自然語(yǔ)言處理工具模塊word2vec實(shí)現(xiàn)。Word2vec通過(guò)神經(jīng)網(wǎng)絡(luò)的方法進(jìn)行學(xué)習(xí),其中的連續(xù)詞袋(Continuous Bag-of-Words,CBOW)模型,在輸入某一個(gè)特定詞的上下文相關(guān)的詞對(duì)應(yīng)的多維詞向量后,經(jīng)過(guò)模型訓(xùn)練,可以輸出這一個(gè)特定詞的詞向量。從而計(jì)算不同詞向量與特定詞向量的余弦相似度(余弦距離),最后可輸出經(jīng)過(guò)歸一化處理的余弦距離最近的相關(guān)詞匯。Word2vec工具中CBOW模型原理如圖1,具體的實(shí)現(xiàn)模型及算法參見(jiàn)Mikolov的相關(guān)論文,這里不再贅述。
3? ? 湖南省現(xiàn)代農(nóng)業(yè)領(lǐng)域研發(fā)現(xiàn)狀分析
3.1? ? 高頻詞分析
對(duì)詞頻進(jìn)行計(jì)量統(tǒng)計(jì),排名前20的熱點(diǎn)詞如表1所示。從表1中可以發(fā)現(xiàn)湖南省現(xiàn)代農(nóng)業(yè)領(lǐng)域,種植業(yè)的栽培(cultivation)方向,在分析的248份報(bào)告中,有53份與栽培有關(guān),占比超過(guò)20%,這與湖南省農(nóng)業(yè)以種植業(yè)為主的產(chǎn)業(yè)結(jié)構(gòu)相符。其次,對(duì)新產(chǎn)品、工具、方法、技術(shù)的應(yīng)用(application),也受到廣大科研工作者的重視,這表明湖南省的農(nóng)業(yè)研究仍然以應(yīng)用研究為主。此外,育種(breeding)也是湖南省現(xiàn)代農(nóng)業(yè)關(guān)注的重要方向,這表明新品種研發(fā)是湖南省現(xiàn)代農(nóng)業(yè)發(fā)展的重要發(fā)力點(diǎn),這與《湖南省“十三五”科技創(chuàng)新規(guī)劃》中將現(xiàn)代種業(yè)列為10大領(lǐng)域產(chǎn)業(yè)技術(shù)創(chuàng)新鏈之一的情況一致。除此之外,水稻(rice)、產(chǎn)業(yè)化(industrialization)、品種(variety)、系統(tǒng)(system)、品質(zhì)(quality)、資源(resoures)和有機(jī)的(organic)也是湖南省現(xiàn)代農(nóng)業(yè)的研發(fā)熱點(diǎn)詞,這其中既有湖南省傳統(tǒng)的研究熱點(diǎn),也體現(xiàn)了近年來(lái)一些研究方向正成為新的研究熱點(diǎn)。
3.2? ? 熱點(diǎn)共現(xiàn)關(guān)系分析
為了更好的研究不同熱點(diǎn)之間的關(guān)系,我們以熱點(diǎn)詞為節(jié)點(diǎn),其在科技報(bào)告中的共現(xiàn)關(guān)系為邊,進(jìn)行復(fù)雜網(wǎng)絡(luò)分析。將從科技報(bào)告題名和關(guān)鍵詞中經(jīng)過(guò)分詞處理的單詞,詞頻3次以上,利用gephi軟件進(jìn)行共現(xiàn)可視化作圖,保留共現(xiàn)3次以上的邊關(guān)系,其結(jié)果如圖2所示。由圖2可知,湖南省農(nóng)業(yè)領(lǐng)域研究熱點(diǎn)為栽培(cultivation)、水稻(rice)、育種(breeding)、應(yīng)用(application)和系統(tǒng)(system)等,這與表1的結(jié)果也一致。其中以栽培和應(yīng)用的關(guān)注度最高,與其它研究熱點(diǎn)的聯(lián)系也最多。但是由于所分析的科技報(bào)告都同屬于現(xiàn)代農(nóng)業(yè)領(lǐng)域的緣故,各節(jié)點(diǎn)之間關(guān)系較為緊密,僅系統(tǒng)(system)節(jié)點(diǎn)為核心的子網(wǎng)絡(luò)與其他節(jié)點(diǎn)的聯(lián)系相對(duì)較少,各節(jié)點(diǎn)未形成明顯的子網(wǎng)絡(luò)。
3.3? ? 核心熱點(diǎn)及其主題分析
雖然整個(gè)領(lǐng)域的熱點(diǎn)聯(lián)系整體較緊密,但是不同熱點(diǎn)之間的聯(lián)系緊密程度卻不一。結(jié)合表1和圖2,根據(jù)熱點(diǎn)詞的分布情況,選取部分頻次較高、邊關(guān)系較多的研究熱點(diǎn)為核心熱點(diǎn)詞,利用Word2Vec工具,計(jì)算核心熱點(diǎn)與其他所有熱點(diǎn)的余弦相似度(cosθ),對(duì)與之相關(guān)的研究主題進(jìn)行了分析。Word2Vec模型參數(shù)如下:最小丟棄詞頻min_count=3,學(xué)習(xí)速率alpha=0.05,高頻詞匯隨機(jī)采樣配置閾值sample=0.0015,訓(xùn)練算法sg=0(C-Bow算法),迭代次數(shù)iter=30。選取余弦相似度最高的10個(gè)詞,部分結(jié)果如表2所示。
由表2可知,不同核心熱點(diǎn)詞形成的研究主題,其研究?jī)?nèi)容是有所區(qū)分的。例如在栽培(cultivation)為核心的主題中,主要關(guān)注新技術(shù)、新品種和新裝備等的采用(introduction)、示范(demonstration)以及生產(chǎn)效率(efficient)的提高。以水稻(rice)為核心的研究主題則主要關(guān)注雜交水稻尤其是超級(jí)雜交稻(super hybrid rice)以及作物抗性(resistance)和適應(yīng)性(adaptability)。以育種(breeding)為核心的主題中,則可以看出研究者主要采用聯(lián)合(combination)育種、分子(molecular)育種、雜交(hybrid)育種等育種方法,育種方向主要在提升(promotion)品種的適應(yīng)性(adaptability)、產(chǎn)量(yield)和抗性(resistance)等。而以系統(tǒng)(system)為核心的研究主題,則明顯與信息(information)、服務(wù)(service)、智能(intelligent)、云(cloud)、在線(online)等熱點(diǎn)詞關(guān)系緊密,這表明借助新一代信息技術(shù)發(fā)展現(xiàn)代農(nóng)業(yè),已成為農(nóng)業(yè)信息化的必然趨勢(shì)。
4? ? 結(jié)論與建議
本文基于湖南省科技報(bào)告數(shù)據(jù),采用文獻(xiàn)計(jì)量、復(fù)雜網(wǎng)絡(luò)和模型分析等情報(bào)學(xué)手段和方法,分析了湖南省現(xiàn)代農(nóng)業(yè)領(lǐng)域的研發(fā)現(xiàn)狀。結(jié)果表明,湖南省現(xiàn)代農(nóng)業(yè)領(lǐng)域研發(fā)側(cè)重在種植業(yè)、現(xiàn)代種業(yè)和農(nóng)技推廣應(yīng)用等方向;農(nóng)業(yè)產(chǎn)業(yè)化、農(nóng)業(yè)信息化等正成為研究的新熱點(diǎn);各研究熱點(diǎn)間聯(lián)系較多,也較緊密,除信息農(nóng)業(yè)外,未有形成較獨(dú)立的研究子網(wǎng)絡(luò)。不同主要研究熱點(diǎn)所屬的研究主題不同,研究的內(nèi)容也有所區(qū)分。
根據(jù)研究結(jié)果,本文對(duì)湖南省現(xiàn)代農(nóng)業(yè)領(lǐng)域研發(fā)提出如下建議:(1)立足省情,扎實(shí)做好種植業(yè)研發(fā)投入和農(nóng)技推廣。結(jié)合湖南省以種植業(yè)為主的農(nóng)業(yè)結(jié)構(gòu)和科技水平較低的現(xiàn)狀,做好作物新品種、先進(jìn)農(nóng)業(yè)裝備和生產(chǎn)新技術(shù)的推廣示范工作,促進(jìn)農(nóng)業(yè)科技成果轉(zhuǎn)移轉(zhuǎn)化,提高農(nóng)業(yè)科技進(jìn)步貢獻(xiàn)率。(2)大力發(fā)展現(xiàn)代種業(yè)。依托《湖南省“十三五”科技創(chuàng)新規(guī)劃》強(qiáng)有力的政策支撐和袁隆平院士、官春云院士等育種團(tuán)隊(duì)的雄厚科研實(shí)力,發(fā)揮優(yōu)勢(shì),培育高產(chǎn)、高效和優(yōu)質(zhì)的作物和畜禽水產(chǎn)新品種,做大做強(qiáng)湖南現(xiàn)代種業(yè)。(3)重視農(nóng)業(yè)產(chǎn)業(yè)化、農(nóng)業(yè)信息化和生態(tài)農(nóng)業(yè)等新興熱點(diǎn)的發(fā)展。要注重產(chǎn)學(xué)研結(jié)合,科技成果必須服務(wù)于產(chǎn)業(yè),才能產(chǎn)生直接的經(jīng)濟(jì)效益。注重農(nóng)業(yè)生產(chǎn)的產(chǎn)業(yè)化、標(biāo)準(zhǔn)化,并積極融合互聯(lián)網(wǎng)+和物聯(lián)網(wǎng)等新一代的信息技術(shù),以提高生產(chǎn)效率。同時(shí)還要將生態(tài)環(huán)保的綠色發(fā)展理念植入到現(xiàn)代農(nóng)業(yè)的研發(fā)工作中,使新的農(nóng)業(yè)科研成果對(duì)資源節(jié)約型社會(huì)、環(huán)境友好型社會(huì)的建設(shè)起到積極的推動(dòng)作用。
[參考文獻(xiàn)]
[1] 常理.農(nóng)業(yè)不平衡不充分問(wèn)題將有效解決[N].經(jīng)濟(jì)日?qǐng)?bào),2018-06-01(007).
[2] 金麗華,張學(xué)友,錢(qián)選詩(shī),等.我國(guó)農(nóng)業(yè)科技的發(fā)展及其對(duì)農(nóng)業(yè)生產(chǎn)的貢獻(xiàn)率[J]. 長(zhǎng)江大學(xué)學(xué)報(bào)(自科版),2006,3(1):206-208.
[3] 湖南省科技廳. 湖南科技年鑒(2017卷)[M]. 長(zhǎng)沙:湖南科學(xué)技術(shù)出版社,2018.
[4] 賀德方. 中國(guó)科技報(bào)告制度的建設(shè)方略[J]. 情報(bào)學(xué)報(bào),2013,32(5):452-458.
[5] Mikolov, T., Yih, W., Zweig, G. Linguistic regularities in continuous space word representations[J]. NAACL HLT,2013:746-751.
[6] Mikolov, T., Chen, K., Corrado, G., Dean, J.. Efficient estimation of word representations in vector space[J]. Computer Science,2013:1-12.