劉芯伶 康春花 曾平飛
認知診斷(Cognitive Diagnosis, CD)是以認知診斷測驗為載體, 對學生問題解決的認知過程進行個性化診斷分析的新型心理測量理論, 它彌補了傳統測量理論在進行教學評價時的粗放性問題, 將能力細分為不同的認知屬性, 以屬性去評價學生的知識掌握情況,為更好地實施因材施教創造條件。
CD 理論研究興起于20 世紀80 年代。 進入21世紀后, 隨著世界各國教育改革的深入發展,CD 在國際上獲得的關注不斷凸顯。從已有的文獻來看,研究集中在認知診斷過程中的關鍵理論和技術, 主要包括診斷模型和方法的開發、Q 矩陣的修訂和估計、影響診斷準確性的因素以及與計算機自適應測驗(Computer Adaptive Testing, CAT)相結合等方向[1-4]。CD 的理論研究不斷涌現, 但并未真正惠及教育實踐,因而全面了解CD 領域研究現狀,精準把握CD研究熱點、前沿和不足,對于CD 領域理論和實踐研究的深入開展都有著重要意義。 目前,CD 的綜述性研究只存在于與研究者、研究主題相關的某一領域,并未見全面性、綜合性的研究綜述。
本研究擬借助CiteSpaceV 這一可視化知識圖譜分析工具,對CD 研究領域進行知識圖譜分析,總結該領域取得的成果與不足、知識基礎、研究熱點以及研究前沿演進, 為領域研究者掌握發展現狀并開展突破性研究提供參考。
文獻數據來源于Web of Science 核心合集數據庫。 在基本檢索中,主題詞為“cognitive* diagnos*”,文獻類型設定為“article”,采取“精確匹配”方式以提高檢準率,年限設置為2008-2018 年,數據檢索日期為2019 年1 月,共獲得301 條檢索記錄。 檢索結果按照CiteSpace 要求的“全記錄與引用的參考文獻格式”下載并保存為純文本格式。
使用可視化分析軟件CiteSpaceV 進行以下基本操作步驟: 將得到的301 條文獻記錄導入CiteSpaceV,時間跨度設置為2008-2018 年,以1 年作為時區劃分, 每個時區選擇頻次排名前50%的記錄繪制網絡圖譜, 其他根據所要分析的內容選擇節點類型(Node Types)和網絡修剪策略(Pruning)等信息,進而形成各時區綜合一體的可視化知識圖譜。
每個圖譜中的節點代表不同的分析對象, 某一圖譜中的節點代表同一分析對象的不同內容。其中,每個節點上按設定的時區出現顏色、 粗細不一的年輪環,年輪環上的顏色(由藍到黃、由里至外)代表不同的時間范圍(2008-2018), 同一顏色的年輪環越粗, 表明在該單位時間內該節點內容出現的頻次越多;帶有紫色外圈的節點,表示中心性>0.1,節點的中心性較高,紫色外圈越粗,說明其在整個網絡中的重要性和影響力越高[5]。不同節點之間的連線顏色代表他們首次有聯系的時間, 連線的粗細代表節點之間聯系的緊密程度。 圖譜節點主要以出現頻次及中心性兩個指標來反映其重要程度及影響力。
圖1 為2008 年至2018 年CD 研究領域年發文量柱狀圖, 橫坐標表示年份, 縱坐標表示文獻發表量。由圖1 可知,2008 年至2012 的年均發文量在15篇左右波動。2013 年是CD 研究的轉折之年,發文量出現了突發性轉變, 成倍增長至29 篇。 2014 年至2017 年發文量緩慢遞增,2018 年再次發生突破性進展,年發文量突破50 篇。 綜合近十年發展情況可以看出,CD 作為心理測量與認知心理學相結合的新一代測量理論, 吸引了大量心理及教育測量研究者對其進行深入的研究,取得了較多高水平的研究成果。

圖1 CD 研究領域文獻發表時間分布
圖2 為CD 研究的國家知識圖譜現狀, 通過節點大小、紫色外圈、節點間連線分別反映各個國家在CD 研究領域的發文量、重要性以及國家間的合作緊密程度。日本學者湯淺光朝認為,某個時期某國科技成果數占同期世界科學成果總數25%以上的國家為該時期的世界科學中心[6]。CD 研究文獻共來自29 個國家(地區)。 其中,美國發文量為198 篇,占總量的66%,遙遙領先于其他國家,可視為CD 研究的世界科學中心;從連線數量來看,美國與其他國家的合作也相對緊密。發文量排在第二位的國家是中國,共發表52 篇,占總量的17%,與“世界科學中心”這一稱號有一定距離, 但也代表著國內學者共同努力獲得了一定成果,并與多個國家有著密切的學術交流。發文量排名第三的加拿大在近十年發表了18 篇研究成果。全球研發報告中指出,世界科學領域的主導地位一直由美國占據著[7]。然而進入21 世紀以來,亞太地區國家科研論文數量增長迅速,尤其是中國。就科研論文量而言,中國僅次于美國,位列第二,CD 領域的研究也如此。 在不同領域都能看到中國科研者不斷奮斗、拼搏的豐碩成果。

圖2 CD 研究領域國家網絡圖譜
美國、英國、西班牙、日本這4 個國家節點均有紫色外圈, 說明以上四個國家在CD 領域的中心性較高, 在兩個或多個國家中扮演著不可缺少的橋梁角色,促進各國CD 研究的跨方向合作,因此在CD領域的影響力和重要性也較高。 四個國家的紫色外圈厚度依次遞減,即在中心性、影響力以及重要性上均依次遞減。從發文量和中心性兩個方面來看,中國在CD 研究領域有較高的活躍度, 但尚未在該領域獲得較大影響力。
圖3 為CD 研究領域的機構合作網絡圖譜,節點大小、紫色外圈、節點間連線分別反映各機構在認知診斷領域的發文量、 重要性以及國家間的合作緊密程度。
從機構發文量和合作關系中可以了解高產量、高質量的研究機構,對于選擇優秀的機構進行合作、派遣科研人員訪學、人才引進、追蹤新穎研究問題等都有重要的作用。從圖3 整體來看,機構的合作網絡相對松散,各機構之間合作較少,網絡以美國伊利諾伊大學(Univ Illinois)為中心,主要向四個方向發散。伊利諾伊大學在CD 領域的核心地位毋庸置疑,與該領域內的各洲代表性研究機構有緊密的合作。 但由此節點發散的四個方向的機構間幾乎無合作關系, 缺少將各機構編制成為一個緊密網絡的中介機構。當今時代是團隊協作的時代,科學的眾多門類相互交叉、滲透、綜合,已經發展成為結構復雜的大科學系統[8]。 因此,應該加強CD 研究機構的緊密合作,使其成果水平更高,融合性更強。

圖3 CD 研究領域機構網絡圖譜
從單個機構來看,表1 呈現了高中心性的10 個機構。 前6 名的發文量均較高, 后四名的發文量較低,但是在整個CD 研究中起到的作用較大。 因此,研究者在追溯2018 年及以前文章時,既需關注發文量高的機構, 又需重視表1 中發文量少的四個機構所關注的研究方向, 方可準確把握CD 整體研究脈絡。在搜索最新研究時,可以重點關注前六個機構的最新研究成果, 以便更好地定位CD 研究領域的發展趨勢。 國內的北京師范大學和江西師范大學這兩個機構在國際上的發文量均在前10 以內,并具有高中心性, 可通過關注這兩所機構的研究成果了解國內CD 研究的熱點和前沿。 在網絡中,兩個國內機構的合作機構較少,并且較為固定。 獲2017 年度我國國際科學技術合作獎的普拉默強調:“國際化將成為中國科研發展的關鍵挑戰。 ”[9]我國CD 研究在發展上也存在著同樣的國際化挑戰。
圖4 呈現了認知診斷研究領域的作者合作網絡圖譜,節點大小、節點間連線反映了作者在CD 領域的發文量及合作關系。 從圖4 可以看出,主要以De La Torre J 和Chang HH 為代表的兩大科研團體支撐著CD 研究,由Xu GJ 等人使其間接地聯系起來。 國內研究者更傾向于和Chang HH 科研團體成員合作, 未出現與De La Torre J 為代表的另一科研團體的合作。 這兩個團體涉及的CD 研究方向略有不同,前者傾向于CD 與CAT 的結合性研究, 后者更多涉及CD 模型和方法方面的研究, 并且后者的研究內容是CD 領域的重要基礎。 中國只與兩大科研團體之一有較多的合作, 將不利于我國CD 領域研究的全面覆蓋和深度提升。

圖4 CD 研究領域作者網絡圖譜
普萊斯在其代表名著《小科學,大科學》一書中提到:“在同一主題中, 半數的論文為一群高生產能力作者所撰, 這一作者集合的數量上約等于全部作者總數的平方根[10]。 ”CD 研究文獻共來自762 位作者。根據Price 的計算方法,可得到≈31,即發文量前31 的作者可視為該領域的高生產能力者。 結合統計結果,將發文量為4 篇及以上的作者視為高生產能力者,共計30 人,如表2 所示。 普賴斯的理論還提出了核心作者的概念,即發表論文數為N 篇以上的作者是核心作者, 這里的N=0.749 (max)1/2, 式中max 為發文量最多的作者的論文數。 由此,CD 研究領域的核心作者發表論文數也為4 篇及以上。綜上,表2 中的30 位研究者既是高生產能力者,也是領域核心作者。

表2 CD 領域高生產能力者
De La Torre J 作為CD 領域首位核心作者, 共發文24 篇。 從其文獻主題看,主要關注開發不同數據情況下適用的認知診斷模型(Cognitive Diagnostic Models,CDMs),包括多分屬性(Polytomous Attributes)、多級反應(Polytomous Response)、多策略(Multiple Strategies)、 連續反應 (Continuous Response)、 多項選擇(Multiple-Choice Options),以及多種數據類型同時考慮的模型等,占其總發文量的1/3。 其余2/3 的文章主題相對分散,主要涉及模型充分性、參數不變性檢驗、模型-資料擬合、項目擬合統計量和Q 矩陣校準等。
Chiu CY 作為第二位CD 核心作者, 共發文14篇。主要涉及Q 矩陣的估計和完備性、漸近分類理論相關研究、非參數診斷分類方法等。 從引用量來看,具有廣泛影響力的是Q 矩陣完備性的研究成果。
Douglas J 的研究貫穿于CD 發展的整個過程,從2008 年到2018 年陸續發表了12 篇文獻。他的研究所涉及的認知診斷主題相對龐雜, 從CDMs 的開發、Q 矩陣的相關研究,到認知診斷計算機自適應測驗 (Cognitive Diagnostic Computer Adaptive Testing,CDCAT),均有涉及。
將圖3 和圖4 結合來看可以發現, 研究者間的合作主要集中在影響力較大機構的研究者之間,而影響力較小機構的研究者多是機構內成員間的合作,這與前文得到的結論一致:領域研究的合作較為缺乏,集中表現在缺乏跨水平和跨主題的機構合作。因此,應推進各研究機構間的跨主題合作,使CD 研究團體更加壯大,研究內容更加深入。
圖5 為CD 研究領域的共被引期刊網絡圖譜,主要反映期刊在領域內的重要性以及不同期刊之間方向的緊密程度。 分析期刊圖譜可以幫助研究者更加快速地確定該領域的主要來源期刊, 使期刊收藏及期刊投稿更具針對性,及時把握前沿動態,提高研究的時效性[11]。

圖5 CD 研究領域共被引期刊網絡圖譜
CD 研究領域的文獻共被引期刊共225 個。高頻被引期刊前10 的基本數據資料如表3 所示。表中排名前10 的除了有7 個期刊外,還包括兩本認知診斷書籍(DIAGNOSTIC MEASUREME & COGNITIVELY DIAGNOST) 和一個教育測量年會 (ANN M NAT COUNC MEAS),被引量分別排名第7、9、10。 在重視領域期刊的同時, 也不能忽視與領域相關的書籍與會議。從書籍中可獲得理論基礎,從會議資料中則可把握國際上的最新高水平研究,與時俱進。
APPL PSYCH MEAS、J EDUC MEAS 和PSYCHOMETRIKA 這三個期刊處于高被引用量的前三甲。 排名第三的PSYCHOMETRIKA 中心性明顯高于前兩個期刊,說明它在CD 研究領域輻射面較廣,可將多個期刊的研究主題間接地聯系在一起, 起到高度的中介性;另外,PSYCHOMETRIKA 的期刊影響因子也高于前兩者, 說明該期刊在CD 研究領域內所處地位更高,影響力更大。
圖6 是CD 研究領域的文獻共被引網絡圖譜,大的節點(被引量高)與紫色外圈(中心性高)兩個指標較好地反映了領域知識基礎。 被引量和中心性較高的文獻在認知診斷研究領域處于基礎性地位,領域內的價值大,國際認可度高,其研究主題、技術、理論和結論等可推動整個領域的發展, 并對后來的研究有較強的參考價值。這些關鍵文獻共同構成了CD的知識基礎。

表3 高頻被引期刊Top10

圖6 CD 研究領域文獻共被引網絡圖譜
整體而言, 引用量和中心性突出的文獻較為明顯,說明整個CD 領域的知識基礎是公認的。 根據圖6 所示的文獻節點, 對被引量和中心性最高的前10位進行匯總,見表4。

表4 高被引量的認知診斷文獻Top10
表4 中呈現的文獻可視為重要知識基礎。引用量最高的是認知診斷書籍Diagnostic Measurement:Theory, Methods, and Applications, 在期刊共被引分析中也呈現出該書籍在領域內的重要性。 其余9篇文章中, 同時具有高引用量和高中心性的有7篇, 另外引用量排名第5 和第9 的這兩篇是關于CD 的應用性研究,中心性不足,無法達到領域基礎性地位。
將7 篇高引用量和高中心性的文章進行概括可以發現,CD 領域的知識基礎分為三個方面:(1)CD模型與方法:表中引用量排名第2、3、4、7、10 的五篇文獻均是診斷模型和方法的研究[12-14]。 其中,中心性最高的是序號4 關于DINA 模型與使用參數估計方法的教學文章,在引用量前10 的文章中多篇文章涉及DINA 模型。 由此可以看出,DINA 模型占據整個CD 知識基礎的核心位置。 (2)Q 矩陣校準:表中引用量排名第6 的文章為Q 矩陣校正的方法研究[15]。 (3)模型-數據擬合:表中引用量排名第8 的文章是關于CD 模型相對與絕對擬合的研究。
關鍵詞是對文獻主要內容和核心的提煉概括,出現頻次越高和中心性越大的關鍵詞可視為該研究領域內研究者在一定時間內共同關注的熱點問題,以及該關鍵詞的重要性和核心地位。因此,對文獻的關鍵詞進行共現分析可以從中挖掘研究熱點。
圖7 為CD 研究領域關鍵詞共現網絡圖譜,可以看出,節點之間連線縱橫交錯,說明關鍵詞之間的聯系非常緊密,經常同時出現在同一篇文獻中,是研究者同時比較關注的。 出現頻次較高的關鍵詞包括cognitive diagnosis model、calssification、rule space、latent class model、validation、q-matrix 等。 主要可分兩類熱點問題:模型開發和比較、Q 矩陣校準。

圖7 CD 研究領域關鍵詞共現網絡圖譜
表5 呈現的是排名前10 的關鍵詞節點頻次和中心性,它們代表了近十年CD 的研究熱點。從中心度來看,排名前10 的節點中心性都>0.1,其中心度很高,是網絡中的關鍵節點。 出現頻次和中心性同時排在前10 的關鍵詞包括:classification、item response theory、Q-matrix、latent class model、validation、rule space、DINA model、cognitive diagnosis。 從高頻次和強中心性的關鍵詞可獲得與圖7 反映的研究熱點一致, 主要研究熱點為診斷模型與方法、Q 矩陣的校準兩方面。
(1)診斷模型與方法
認知診斷模型研究主要為模型之間適用性的比較和新模型的開發[16-17]。2013 年,Chen 和De La Torre研發了多分屬性模型,即pG-DINA。 除了模型的建立外, 作者使用不同條件下的估計能力來評估模型的可行性, 并通過改進的分類規則將模型的分類精度和傳統的G-DINA 模型進行比較, 也用實例證明了該模型的實用性。提出一種廣義的、適用于更多情境的模型是目前認知診斷模型研究的重要趨勢。

表5 高共現頻次、中心性關鍵詞Top10
(2)Q 矩陣校準
關于Q 矩陣校準,國內外學者均有研究[18]。 最近一篇是國內研究者Wang 等人在DINA 模型下, 利用EM 算法研究三種Q-矩陣驗證方法的有效性,即最大似然估計(MLE)、邊際極大似然估計(MMLE)、交叉和差分(ID)法,研究得到結論:ID 法能更好地找到錯誤的Q-向量,MLE 法可更好地保留正確的Q-向量。
理解突現性關鍵詞的真正含義對研究者辨識該領域研究前沿演變歷程是非常關鍵的, 研究前沿代表了這一時期的思想狀態[19]。 可以通過考察關鍵詞的時間分布, 將其中頻次變化率高的詞從關鍵詞中挑選出來,依靠關鍵詞的頻次變化、而不僅僅是頻次的高低來確定突現[20]。 用這種方式確定的突現詞能夠幫助研究者把握一段時間內出現的新研究趨勢,判斷研究領域的前沿。 圖8 的突現詞時間分布圖反映了CD 領域不同時期興起的理論趨勢和涌現出的新主題。

圖8 2008-2018 年突現詞時間分布情況
如圖8 所示,7 個突現關鍵詞在2008 年的文獻中均有出現,但真正成為突現詞的年份不一。根據圖8 可將近十年的CD 研究劃分為三個時期,即2008-2012 年、2013-2015 年、2016-2018 年。
第一個時期是2008-2012 年, 這一時期是近十年CD 研究較為集中涌現的一個時期。這一時期突變強度較大的關鍵詞有:認知診斷、模型、規則空間等。正如該領域研究者的研究結果所示,這是CD 模型研究的凸顯期,如規則空間、G-DINA 等模型。
第二個時期是2013-2015 年, 這一時期出現了認知評估和計算機自適應測試這兩個新的突現詞,兩者的突現強度接近,均為2.6 左右。 在這一階段,以CDCAT 為主題的研究在CD 領域內凸顯出來,有集中增長趨勢。
第三個時期是2016-2018 年, 這一時期未出現新前沿詞,只是延續前期研究主題,并未有認知診斷與新型技術相結合的轉變性研究。
CD 研究的國家數占世界總數較少,重要貢獻國為美國、中國、英國等;主要機構為美國伊利諾大學、美國羅特格斯州立大學以及國內的北京師范大學和江西師范大學等;影響力與發文量的重要學者為DE LA Torre、CHIU CY、Douglas J、Chang HH 以及國內學者辛濤、 丁樹良等;CD 領域內重要的期刊為Applied Psychological Measuremen t、Journal of Educational Measurement、P sychometrika 等。
認知診斷的知識基礎主要為CDMs、Q 矩陣校準和模型數據擬合三個方面;領域研究熱點主要集中于CDMs 和Q 矩陣校準。 領域研究前沿演進可分為三個階段:①CDMs 和Q 矩陣研究凸顯;②CDCAT 研究活躍;③各認知診斷研究主題同步進行,無新穎性研究主題。CDMs 占據認知診斷研究的重要地位,是認知診斷付諸實踐的前提,構建一個更精準、廣泛而又簡潔的診斷模型是認知診斷理論研究的主要目標。
目前, 認知診斷領域具有較大影響力的國家均為發達國家,跨機構合作不足,作者合作也呈現明顯的區塊化。 總體而言,CD 研究缺乏更大區域的國際合作。
當今是一個注重交流合作的時代。 從全球研究理事會到中國國家自然科學基金委員會國際合作局,再到國內高校的國際合作處,均是致力于促進全球高質量理論合作和最佳實踐交流的組織機構[21]。合作可以提高科學的質量,避免不必要的重復,提供規模經濟,并解決只有通過合作才能解決的問題。習近平總書記在致國際教育信息化大會開幕的賀信中提出:中國愿同世界各國一道,開拓更加廣闊的國際合作平臺[22]。 這不僅向國內科研者傳遞出國際合作的重要性,也向世界各國拋出了合作的橄欖枝。
相比其他領域,CD 研究需增強國際交流與合作,通過達成CD 研究合作,將CD 的思想和研究成果傳遞給更多的國家, 使各國在認知診斷研究上共同進步, 使CD 研究成果獲得更廣泛的國際社會認可。 因此,我國研究者應大膽地走出去,與高水平研究者合作交流, 使國內CD 研究的廣度和深度不斷提升; 還可以與未涉及該領域的地區采取先交流再合作的模式,使CD 研究成果惠及更多的地區。
目前,CD 的理論研究相對成熟, 也受到心理測量學界的認可。但是,CD 較少應用于日常的教育、教學、考試中,無法體現理論研究的實際效用,而對于社會發展有用的研究才是真正有價值的。
有部分研究者將TIMSS 測驗進行后期屬性標定,對已有學生數據做診斷分析[23]。 這類測驗可能會涉及較多(10 個及以上)屬性,在理論研究中較少出現這么多屬性的研究,導致理論研究與應用研究的脫節。目前理論研究考慮的因素更適用于教學中的隨堂檢測,或對某一小模塊的檢驗,以把握學生掌握不足的知識點,方便教師的補救教學和學生學習的查漏補缺。 認知診斷可輔助教學,加強它的實踐應用才能體現其價值,發揮出CD 更具現實意義的一面。
認知診斷的目的是為了服務于教育, 如果不能較好地與教育相結合就會失去其靈魂。 2015 年5 月24 日,習近平總書記在國際教育信息化大會的賀信中指出: 因應信息技術的發展, 推動教育變革和創新,構建網絡化、數字化、個性化、終身化的教育體系,建設“人人皆學、處處能學、時時可學”的學習型社會,培養大批創新人才,是人類共同面臨的重大課題[24]。2017 年9 月11 日世界物聯網博覽會智慧教育峰會上, 教育部教育信息化標準委員會主任祝智庭教授提到:“應充分利用數據實現智慧教育, 知識應向可視化、參數化、智能化方向發展,提倡個性化學習、按需制定個性化服務。 ”[24]可見,教育智能化或稱智慧教育是未來主要的教育生態。 如何將CD 應用于教學評價和學習分析,體現智慧教育的特征,為個性化學習測評與分析走向實踐、走向課堂,實現智慧教育,是值得CD 研究者思考的主要方向。