周 杰
(杭州師范大學 教務處,浙江 杭州 311121)
大學生創新創業訓練計劃項目(以下簡稱“雙創計劃”)是高校培養大學生創新創業能力的重要舉措,是高校創新創業教育體系的重要組成部分,是深化創新創業教育改革的重要載體。自教育部決定在“十二五”期間實施國家級大學生創新創業訓練計劃以來,國家為“雙創計劃”實施出臺政策,2010年教育部頒布《關于大力推進高等學校創新創業教育和大學生自主創業工作的意見》指出高等學校積極鼓勵學生自主創業,大力開展創新創業教育[1]。2015年國務院辦公廳頒布《關于深化高等學校創新創業教育改革的實施意見》明確提出深入實施大學生創新創業訓練計劃,完善國家、地方、高校三級創新創業實訓教學體系,擴大覆蓋面,促進項目落地轉化[2]。2018年國務院頒布《關于推動創新創業高質量發展打造“雙創”升級版的意見》進一步提出強化大學生創新創業教育培訓[3]。各省市區先后結合自身實際進行地方性探索實踐,各高校開展實施大學生創新創業訓練計劃。教育部“國家大學生創新創業訓練計劃”首批地方實施高校中浙江省有27所。2015年,浙江省出臺專門意見鼓勵有條件的高校開展創新創業教育改革試點。2013年起至今,所取得的研究成果不斷豐富,因此對杭州師范大學生命與環境科學學院(以下簡稱學院)近10年的“雙創計劃”項目進行分析。
本文利用文本分析的方法和Python工具對2012—2020年學院國家級大學生創新創業訓練計劃項目進行文本分析與共詞分析,較為全面地展示學院“雙創計劃”研究領域的發展路徑,挖掘和歸納其主要研究熱點,從而厘清其研究現狀和趨勢,為推進學院“雙創計劃”全面落實和進一步發展提供參考。
創新創業的競賽項目可追溯至20世紀90年代,直到2012年教育部在全國范圍內正式啟動了“雙創計劃”,通過國家級大學生創新創業訓練計劃平臺查詢統計2012-2020年的全國“雙創計劃”項目,共計有247 691項目,其中創新訓練項目223 717項,占83.64%;創業類項目31 396項,占16.36%;如表1所示。數據顯示,歷年全國“雙創計劃”項目中創新訓練類型的項目數量占據大部分,創業類型(創業訓練和創業實踐)項目數量普遍偏低,項目類型分布不均衡,可落地轉化的項目比例較少,距離國家促進項目落地轉化的目標仍有一定的差距。

表 1 2012-2020年全國“雙創計劃”項目統計
如圖1所示,浙江省兩個項目類型的分布與全國相似,創新訓練類型的項目數量占據絕大部分(歷年平均占比為74.22%),而與全國情況不同的是,浙江省歷年創業類項目占比均高于全國(每年創業類項目占比平均高全國9.51個百分點)。

圖1 創業類項目比重
從項目類型占比的發展趨勢來看,2012—2016年,全國及浙江省“雙創項目”處于初期的探索階段,項目數量趨勢波動比較大,原因在于后續年份會根據前一年的結項情況做調整,2017—2020年,相較于全國創業類項目比重趨于穩定,浙江省創業類項目逐年小幅上升,學院的發展也與之類似。從縱向發展以及橫向與全國情況比較,浙江省創業類項目發展和運營狀況良好。
詞頻分析法和共詞分析方法是文本分析的兩種常用方法。其中詞頻分析利用表達文獻核心內容的關鍵詞或主題詞,在某一領域文獻中出現頻次高低確定該領域的研究熱點和發展動向[4],但是不能反映研究主題之間的關聯;共詞分析建立在詞頻分析基礎上,利用文獻集中專業術語共同出現的情況,確定文獻集所代表學科中研究主題之間的關聯[5]。其基本思想為:當一堆表征某學科領域研究主題或研究方向的專業術語在同一篇文章中出現,表明兩個詞之間存在一定關系,且共現次數越多,關系越緊密。分別統計文獻集中主題詞或關鍵詞在同一文獻中共同出現的頻次,便可形成由這些詞組成的共詞矩陣,因此為基礎對其進行分層聚類以揭示詞與詞之間的親疏關系,從而歸納該領域的研究熱點、結構和范式。
以python語言軟件為主要的研究開發工具,采用python語言軟件中jieba分詞包,其中詞頻分析主要是以大學生雙創項目結項報告的關鍵詞或者主題詞的提取來反映大學生在該領域的研究創新熱點和發展趨勢的一種文獻計量方法。共詞分析是在定型分析和定量分析結合基礎上,通過統計相關文獻集中專業術語的共同出現次數,研究該領域的熱點主題及其存在的相關關系。
本文以2012—2020年學院國家級大學生創新創業訓練項目的結項報告為數據來源,剔除報告中的與研究無關的格式文檔部分,一共收集有效結題報告36份,對有效文檔進行規范處理,讓文本編碼格式符合python3.6語言的共詞分析的要求。
利用python3.6語言工具對文獻集進行jieba分詞,去掉其中的停頓詞、阿拉伯數字、英文字符,利用TF-IDF算法對其中的分詞結果進行關鍵詞提取分析,每篇文檔提取前10個關鍵詞,去重之后共有56個關鍵詞,按照重要性從高到低排序如表2所示。

表2 高頻關鍵詞匯總表
為了讓數據結果符合尺度分析的要求,利用R語言對上述56個關鍵詞進行共詞分析,生成詞篇矩陣后進行Ochiia系數,在進行多維尺度分析時,同時把系數轉化為56的共詞相似矩陣,將此相似矩陣再轉化為相異矩陣,結果如表3所示。

表3 高頻關鍵詞Ochiia系數相異矩陣
高頻關鍵詞Ochiia系數相異矩陣的數字表明了數據之間的相異性。即兩個對應的關鍵詞之間距離的遠近,數值越小或者越接近零,標明關鍵詞的距離越近,相似度越高,數值越大,表明關鍵詞之間的距離越遠,相似度越低。本文通過對知識圖譜的清晰分析進一步展示學院大學生的創新研究現狀和未來發展趨勢。
高頻關鍵詞聚類分析可以看出關鍵詞之間的關系是近還是遠,根據關鍵詞的親屬關系可以推斷我國大學生創業教育研究的發展趨勢。高頻關鍵詞聚類分析的原理是利用統計學中的聚類分析方法,以關鍵詞在同一篇報告中出現兩兩的頻率為分析對象,把關聯度密切高的關鍵詞匯集組成一個聚類,再從聚類中抽取其中的子關鍵詞及相近的關鍵詞再重新組成一個新的聚類。關鍵詞之間的相似度越低,說明它們之間的距離越遠,反之,則越近。把研究中36篇有效報告的關鍵詞分析,得到關鍵詞聚類分析結果如表4所示。

表4 高頻關鍵詞聚類分析
(1)包括工藝、固化劑、重金屬、廢水等關鍵詞,主要研究話題與環境、環境中的污染源、污染源對生物的影響作用相關。
(2)包括農作物、土壤、低溫、重金屬等關鍵詞,主要研究的話題是農藥學、農藥與病蟲害、農藥與農作物生長等關系。
(3)包括蛋白、凋亡、病原菌等關鍵詞,主要研究的是細菌生物學、病毒學層面的研究。
(4)包括代謝、抗氧化、修飾、抑菌等關鍵詞,主要研究的是生物化學、生物代謝的作用等。
在python3.6中將56×56的相異矩陣進行數據處理,以其中的56核心關鍵詞共同出現頻率為基礎,探尋56個關鍵詞間隱藏的內涵,同時應用python中network工具包呈現關鍵詞之間的網絡連接關系,繪制出大學生創新項目研究熱點知識圖譜,結果如圖2所示。因此可以看出,學院大學生創新研究的熱點聚焦在生長環境、遺傳條件、污染物對于生物基因表達、抑制以及生物疾病誘導等方面,體現了一定的研究能力。

圖 2 大學生創新創業項目研究熱點知識圖譜
綜合以上知識圖譜的分析,學院大學生創新項目的研究熱點主要從以上4個方面展開,通過以上分析,得出大學生創新項目的發展趨勢:一是加強學科建設,特別是加強學科基礎設施建設等;二是形成科學思想認識和科學創新氛圍,目前來看,本科生創新項目的課題申報課題數目較少,一方面因為預算和投入原因,另一方面與學生群體學術研究氛圍有關,教育管理部門應當增強對于學生科學創新的投入和培育。