劉能現, 姜云飛(福州大學 研究生院,福建 福州 350116)
博士研究生教育作為國民教育的頂端,其教育的質量和數量是衡量一個國家高等教育水平的重要指標,一流的博士研究生教育是“雙一流”建設的重要內容。隨著我國經濟社會發展進入新常態,對提高博士研究生教育質量提出了新任務。2017年1月國務院學位委員會第三十三次會議上劉延東副總理指出質量是研究生教育的生命線,要加強質量保障體系建設,強化培養單位質量意識,抓好質量監控,著力提高博士生培養質量。博士學位論文是博士生獲得博士學位時最具代表性的研究成果,是衡量博士生能否畢業和授予學位的一個重要依據,是博士生學習階段學術水平與研究能力的集中體現,是衡量博士生培養質量的重要指標[1]。
數據挖掘技術可以從大量的數據中發現隱藏的模式與知識, 目前已成功應用在金融、生物醫學和電子商務等廣泛的領域。近年來,在教育信息化、遠程教育及在線學習系統等應用的帶動下,教育數據挖掘開始受到越來越多的研究者的關注[2]。教育數據挖掘是指應用數據挖掘方法從教育數據中提取出有意義的信息的過程,在大數據時代,對教育數據進行挖掘分析可以幫助發現和解決教育中的各類問題,如為管理人員提供輔助決策依據、幫助教師改進課程、提升教學效果以及提高學生的學習效率等。
本文基于數據挖掘中的聚類算法,對福州大學2015—2017學年畢業的306位博士研究生的學位論文相關數據進行聚類分析與挖掘,找出影響博士學位論文質量的主要因素,為提高博士學位論文質量提供參考依據。
聚類分析[3]是一種重要的數據分析方法,就是將數據對象分成類或簇的過程,使同一個類中的對象之間具有較高的相似性,而不同類中的對象具有較大的差異性。聚類分析數據挖掘過程可
概括為三部分:數據準備、聚類分析及結果的解釋和評估。
目前,聚類分析的算法[4-5]大致可分為層次聚類算法、劃分式聚類算法、基于密度和網格的聚類算法和其他聚類算法。在眾多的聚類算法中,K均值聚類(K-means)是最經典、最方便快速的算法之一。
K均值聚類算法[6]的過程概述如下:
(1)從N個樣本數據中隨機選取K個對象作為初始的聚類中心;
(2)分別計算每個樣本到各個聚類中心的距離,將對象分配到距離最近的聚類中;
(3)所有對象分配完成后,重新計算K個聚類中心;
(4)與前一次計算得到的K個聚類中心比較,若聚類中心發生變化,轉(2),否則轉(5);
(5)當聚類中心不發生變化時,停止并輸出聚類結果。
福州大學的研究生教育管理系統記錄了研究生從招生入學到畢業授學位的全過程的培養信息,為有效進行博士學位論文數據聚類分析提供了基礎。該系統數據庫主要包括學生基本信息、導師信息、課程信息、學習成績信息、獎學金信息、開題情況、中期考核、發表論文登記信息、論文送審以及答辯成績等數據表。但是這些數據表涉及很多屬性,哪些字段屬性被用于聚類算法,直接影響到最終的聚類效果。本文目標是對博士學位論文質量進行聚類分析,經查閱相關文獻[7-8],論文質量的主要影響因素包括博士生招生政策、博士生生源質量、導師學術水平、學科建設水平、科研條件、培養管理機制、學位論文的評審與答辯制度等。因此,選取了學號、攻讀方式、學習方式、導師稱謂、學科、課程成績、獲獎情況、論文選題來源、發表論文情況、論文送審成績、答辯成績等字段作為挖掘的屬性。
為了讓數據滿足挖掘要求和提高聚類算法的效率,對數據使用下列規則進行預處理。
(1)學生基本信息處理,將屬性攻讀方式分為公開招考、提前攻博和碩博連讀,將屬性學習方式分為全日制學習和非全日制學習,將屬性導師稱謂分為國家級人才(如院士、長江學者、國家杰出青年基金獲得者等)和非國家級人才。
(2)課程學習成績處理,每個學生根據研究方向的不同可能選修不一樣的課程和學分,為公平衡量學生學習成績,采用學位課加權成績作為學生綜合成績,即學生綜合成績等于所有學位課程的成績乘以課程學分之和除以所有學位課程的學分之和。為更好地進行聚類,采用等頻分箱法進一步對成績進行離散化處理,即將計算的成績按從大到小進行排序,并將學生成績等分為四部分,分別標記為A、B、C和D四個等級。
(3)獎學金信息處理,分為有獲獎學金和未獲獎學金并分別標記為是和否。
(4)論文選題來源信息處理,博士學位論文選題可能來自導師不同級別的科研項目或自選課題,為便于聚類把論文選題來源分為國家級項目、省部級項目、其他項目和其他。
(5)發表論文情況,根據學校博士生在讀期間發表論文要求規定,博士生至少要發表1篇一類論文才能申請畢業,因此根據博士生在讀期間發表一類期刊論文數量將發表論文情況分為4個等級,發表1篇一類期刊論文的標記為1,發表2篇一類期刊論文的標記為2,發表3篇一類期刊論文的標記為3,發表4篇及以上一類期刊論文的標記為4。
(6)學位論文信息處理,根據論文送審和答辯成績確定博士學位論文質量等級,首先根據論文答辯成績把學位論文等級分為優、良、中、差4個等級,根據實際情況,論文答辯成績一般會好于送審成績,考慮到論文送審采用匿名盲審方式,送審成績能比較客觀地體現論文質量,因此,把送審成績出現及格及以下而答辯成績為中及以上的論文等級定為差。
利用Microsoft SQL Server Analysis Services (SSAS)數據挖掘平臺作為實驗平臺。在該平臺上建立博士學位論文質量聚類分析挖掘模型,主要包括以下步驟:(1)創建Analysis Services 項目;(2)創建數據源;(3)創建數據源視圖;(4)創建挖掘結構模型和設置算法參數,本文選擇聚類分析中K-means算法,經過多次反復實驗,當參數聚類數設為4時,能得到具有明顯特征的數據聚類結果;(5)部署和處理挖掘模型。在Visual Studio 2008中創建的挖掘模型如圖1所示。

圖1 博士學位論文質量聚類分析挖掘示意圖
對福州大學2015至2017學年畢業的306位博士研究生的學位論文相關數據,執行博士學位論文質量聚類分析挖掘模型,得到聚類分析結果,如表1所示。從聚類結果可以看出,數據被劃分為4類:
第一類包括103名學生,占總數的33.7%,該類主要特征包括攻讀方式以公開招考為主,學習方式以非全日制為主,導師中國家級人才占0.9%,學科門類中理學和工學占61.6%,其他學科占38.4%,課程成績處于A、B等級的占38.4%,課程成績處于C、D等級的占61.6%,在學期間只有0.9%的學生獲得了獎學金,在學期間58.9%的學生只發表了1篇一類期刊論文,發表論文情況較一般,論文選題有43.8%獲得國家級項目支持,論文選題有28.6%未獲得項目支持,論文質量優良率為62.5%。總得來說,該類學生在學期間表現相對較差,主要原因包括該類學生中大部分為非全日制學生、有較多的學位論文未獲得項目的支持和法學等非優勢學科占比較大。
第二類包括109名研究生,占總數的35.6%,該類主要特征包括攻讀方式以提前攻博和碩博連讀為主,學習方式以全日制為主,導師中國家級人才占18.9%,學科門類中理學和工學占94.4%,其他學科占5.6%,課程成績處于A、B等級的占58.5%,課程成績處于C、D等級的占41.5%,在學期間有85.8%的學生獲得了獎學金,在學期間65.1%的學生發表了3篇以上一類期刊論文,發表論文情況較好,論文選題有89.6%獲得國家級項目支持,論文選題只有3.8%未獲得項目支持,論文質量優良率為90.6%,其中優占73.6%。總得來說,該類學生在學期間表現較為優秀,主要得益于該類中大部分學生為提前攻博和碩博連讀的優秀全日制學生、有較多的學位論文獲得國家級項目的支持和理學等優勢學科占比較大。
第三類包括62名研究生,占總數的20.3%,該類主要特征包括攻讀方式以公開招考為主,學習方式全日制占57.4%,非全日制占42.6%,導師中國家級人才占1.9%,學科門類中理學和工學占81.5%,其他學科占18.5%,課程成績處于A、B等級的占46.3%,課程成績處于C、D等級的占53.7%,在學期間有11.1%的學生獲得了獎學金,在學期間64.8%的學生發表了2篇一類期刊論文,發表論文情況較一般,論文選題有22.2%獲得國家級項目支持,有33.3%獲得省級項目支持,有24.1%未獲得項目支持,論文質量優良率為66.6%。總得來說,該類學生在學期間表現相對一般。
第四類包括32名研究生,占總數的10.4%,該類主要特征包括攻讀方式以公開招考為主,學習方式以全日制為主,導師中國家級人才占77.4%,學科門類中理學和工學占71.1%,其他學科占29%,課程成績處于A、B等級的占74.2%,課程成績處于C、D等級的占35.8%,在學期間有74.2%的學生獲得了獎學金,在學期間42%的學生發表了3篇以上一類期刊論文,發表論文情況較好,論文選題有87.1%獲得國家級項目支持,論文選題只有6.5%未獲得項目支持,論文質量優良率為90.3%,其中優占61.3%。總得來說,該類學生在學期間表現較好,雖然該類學生以公開招考的普通全日制學生為主,但該類中導師為國家級人才比例及學位論文獲國家級項目支持比例都較高,所以該類學生表現也較好。

表1 數據聚類分析結果統計表
根據聚類分析結果,可以得出以下結論及建議:
(1)生源質量是影響學位論文質量的源頭,學校應深化招生體制改革,提高全日制博士生的比例,特別是提高碩博連讀和提前攻博學生的比例,逐漸減少在職人員的招生比例,同時學校應加強學科建設,提高學校吸引力,千方百計提高生源質量。
(2)在學期間參與科研項目是影響學位論文質量的重要因素,參與科研項目能夠鍛煉博士生科研能力。因此,要鼓勵博士生在學期間多參與科研項目,同時學校在博士研究生招生指標分配時應向有國家級科研項目的導師傾斜。
(3)導師學術水平是產出高質量學位論文的重要因素,學校應加強博士生導師隊伍建設,深化博士生導師遴選和聘任上崗改革,學校在博士研究生招生指標分配時應向學術水平較高的導師傾斜,同時對考核不合格的導師進行停招處理。
(4)在學期間發表論文情況和博士學位論文質量是正相關的,因此,要鼓勵博士研究生在學期間積極撰寫發表高質量的學術論文,為撰寫學位論文打下堅實的基礎,從而有效地提高學位論文質量。
(5)獎學金和博士學位論文質量也是正相關的,學校應加大對博士研究生的獎助力度,減輕他們的生活經濟壓力,發揮獎學金激勵作用,不斷調動博士研究生的研究積極性和激發他們的科研創新能力,從而促進學位論文質量進一步提高。
博士學位論文是衡量博士研究生培養質量的重要指標,博士學位論文質量受生源質量、導師學術水平、科研條件等諸多因素影響。本文通過對福州大學博士研究生的學位論文相關數據進行聚類分析,探討博士生招生政策、博士生生源質量、導師學術水平、學科建設水平、科研條件、培養管理機制、學位論文的評審與答辯制度等因素與博士學位論文質量的關聯關系。聚類結果表明,博士學位論文質量主要與攻讀方式有關,其他因素也有一定關系,但作用較小。從提高生源質量、鼓勵多參與科研項目、加強博士生導師隊伍建設、鼓勵在學期間發表高質量論文、加大獎學金資助力度等方面為學校提高博士學位論文質量及博士研究生培養質量提供參考依據。
參考文獻:
[1]李艷,馬陸亭,趙世奎.博士學位論文質量及其影響因素研究[J].江蘇高教,2015(2):105-109.
[2]周慶,牟超,楊丹.教育數據挖掘研究進展綜述[J].軟件學報,2015,11(26) : 3026-3042.
[3]韓家煒. 數據挖掘概念與技術[M].北京:機械工業出版社,2007.
[4]孫吉貴,劉杰,趙連宇.聚類算法研究[J].軟件學報,2008(1) :48-61.
[5]姜云飛. 基于聚類的博士生源選拔方法探析[J].長春大學學報,2014,24(2) :238-240.
[6]張良均,樊哲,趙云龍,等. Hadoop大數據分析與挖掘實戰[M]. 北京:機械工業出版社,2017:84.
[7]孔令夷. 基于解釋結構模型的博士學位論文質量關鍵影響因素分析[J].中國高教研究,2012(4):51-55.
[8]郭巍,鄭舒婷.博士學位論文質量影響因素及保障體系建設[J].沈陽師范大學學報,2014,38(3): 146-148.