算法素養的多維分級評價體系研究

2024-03-18 10:10:05鄧勝利王浩偉夏蘇迪

現代情報 2024年3期

鄧勝利王浩偉夏蘇迪

關鍵詞：算法素養；皮亞杰認知階段理論；IRT項目反應理論；熵權法；評價體系

在當今社會的大部分領域，算法的應用越來越廣泛。在互聯網中，個性化推薦算法影響著用戶的所見所得。2022年，“基于算法的個性化內容推送已占整個互聯網信息內容分發的70%左右”。算法在工業生產領域的應用，一方面帶來了自動化生產下的效率提升：另一方面也引發公眾對于就業崗位減少的擔憂。與此同時，算法也在改變著社會未來的發展。例如在出行上，我國以及許多發達國家（地區）已經開始了對無人駕駛汽車的研究，并且在可行性和實用性方面取得了一定的進展。更便捷的信息交流，更高效的工業生產，更豐富的生活方式，使人們已經無法簡單地拒絕算法。但同時算法帶來的問題也愈發嚴重，例如隱私侵害、倫理道德問題、社會就業損失等。

剖析算法問題產生的原因，一是由于算法本身的缺陷：目前，大部分的算法開發設計仍然無法避免算法的不確定性、魯棒性、易被攻擊性和不可解釋性的問題；二是由于算法不合理使用：例如，網絡平臺利用監管漏洞，使用算法對用戶的個人信息進行收集分析，在此過程中，用戶的知情權可能受到損害，容易產生個人信息泄露問題。同時，算法濫用帶來了內容與真實需求間的偏差，形成“信息繭房”：三是由于用戶對于算法的認知不完善導致對算法的盲從。

算法問題影響的不斷加深對網絡平臺、用戶、開發設計人員、監管部門、政府等多主體的算法能力提出新的目標要求。從算法的主體多元性出發，算法素養可以界定為“在特定需求和環境下，不同算法利益相關主體依據特定的思維、態度和知識，運用算法認識世界和改造世界”。算法素養評價從人與算法交互中的人本主義出發，幫助了解多元算法主體的算法素養情況，為算法社會背景下的政策制定和算法素養教育提供依據，有助于更好地發揮算法高效、智能的優勢，并降低算法應用對個人權益的危害，減輕其在社會發展的不利影響。

在研究不同主體的算法素養時，需關注主體間的差異性問題。例如，對于普通的互聯網用戶和專業算法開發人員，對兩者的算法能力要求是不同的，普通互聯網用戶很少參與到算法的開發設計，而更多的是對算法的使用，因此不能要求其擁有和專業算法開發人員一樣的技術能力和創造性的算法設計思維。為了解決在算法素養研究中的主體差異性問題，需要在算法素養評價中加入分級思想，通過對不同主體的算法能力要求級別的劃分來細化算法素養評價體系。

本文結合皮亞杰認知發展階段理論，將認知發展的時序階段轉變為認知發展水平的等級劃分，提出了一種多維分級的算法素養評價體系，包含了意識、理解、評估、應對、創造5個維度和感知與經驗、總結與歸納、可逆與擴展、形式與抽象4個級別，之后以普通社會大眾這一典型主體為例，進行算法素養的多維分級評價。首先通過測驗問卷收集樣本的得分，之后通過IRT項目反應理論計算出算法素養潛在能力估值，最后通過熵權法得到各維度的權重系數，匯總得到樣本的最終算法素養估值。

1相關工作

算法素養構建起算法社會中人與算法之間的橋梁。在算法素養評價相關研究中，關于算法素養的概念的界定已有初步發展，并且算法素養評價體系的構建也愈受重視。在以往的研究中，關于算法素養概念主要與算法意識、算法知識和算法評估相關，并且大部分研究主要關注個體算法素養，缺乏對于算法的開發、設計和應用等階段相關主體的關注。但關于政府、企業等主體的算法素養的研究同樣不容忽視。

在算法素養相關概念的界定上，Dogruel L等將算法素養歸納為能夠意識到在線服務中算法的廣泛應用并理解其工作原理，能夠批判性地評估其帶來的影響并合理應對。但隨著算法從一種技術手段逐漸變為一種社會背景，算法全生命周期中的多方主體參與愈發重要，因此，算法素養概念的界定需要考慮到算法設計者、開發者、應用平臺、監管者和個人等不同主體。同時，“以人為中心”的理念要求算法素養不僅能夠被動地應對算法帶來的問題，也要求能夠主動地發揮算法作用。夏蘇迪等學者從算法的相關主體和素養內涵出發，依據HCAI思想和KC框架界定了面向多元主體的算法素養內涵，“在特定需求和環境下，不同算法利益相關主體依據特定的思維、態度和知識運用算法認識世界和改造世界”。

素養評價方法相關研究中，通常采用文獻分析法、德爾菲法、扎根理論等，通過凝練相關文獻或者概念中的核心要素，對其進行進一步闡釋，通過層次分析法構建素養評價體系。目前，算法素養評價體系構建中同樣以層次評價體系為主，從算法素養概念出發劃分維度，將各個維度的得分與算法素養之間的關系視為無界的線性函數關系，并未考慮各個維度間的階段性劃分，以及在針對不同主體進行評價時各維度的能力要求差異。

因此，雖然面向不同主體的差異化算法素養評價逐漸引起了學者們的重視，但過去的以層次評價體系為主的算法素養評價體系無法體現出對不同主體的算法相關能力要求的差異。因此，在算法素養評價體系構建中納入了分級思想，對算法素養評價的等級進行劃分，并結合算法素養評價的維度構建多維分級的算法素養評價體系。

2算法素養的多維分級評價體系

2.1算法素養評價的維度構建

本研究通過對現有文獻中的算法素養界定出發，構建算法素養評價的維度。Dogruel L等將算法素養分為4個方面：意識和知識、批判性評估、應對和策略、創造和設計。同時，Dogruel L等在對算法素養的意識和知識維度研究中，發現意識和知識之間對個體算法素養存在不同的影響路徑。對于算法而言，意識和知識具有明顯的區別，算法的意識強調對算法存在的感知，并不需要對于算法復雜機制的認知，算法的知識則強調對于算法的運行機制、內在邏輯等的理解。在當今算法環境中，用戶在與算法的接觸中，有時會意識到算法正在產生影響，但并不理解算法的具體機制內涵，或者雖然知道算法的機制內涵，但無法意識到算法的存在。例如，對于優秀的算法開發者，即使對于算法的運行機制有深刻的理解，也不能及時發現所有在周圍網絡環境中存在的算法。而對于一些普通的網絡用戶，日常生活中頻繁的個性化廣告推薦也會讓其意識到應用在軟件中的推薦算法。因此，在本文中，將意識和知識分為兩個單獨的維度，即意識維度和理解維度，從而形成算法素養的5個維度：

1）意識即意識到算法存在哪些軟件、領域以及其之間的關系。

2）理解即理解算法的機制、內涵。

3）評估即對于算法對于自身、社會的影響進行判斷、評估。

4）應對即正確處理算法帶來的各種問題。

5）創造即具有選擇、開發、設計算法相關的能力。

2.2算法素養評價的等級構建

在算法素養的評價中，針對評價對象的不同，算法素養在各維度上的要求也不同。對于不同的評價對象，其在算法素養不同維度上的目標存在差異性，例如對于普通社會大眾而言，對其在算法素養創造維度上的水平要求低于開發者。因此，在對不同對象進行算法素養評價時，需要考慮算法素養評價的等級問題。

本研究通過凝練皮亞杰認知發展階段理論中的階段內涵構建算法素養評價等級。皮亞杰認知發展階段理論將思維的發展劃分為4個階段：感知運算階段、前運算階段、具體運算階段和形式運算階段：

1）感知運算階段：思維的萌芽期，能用發射、循環、協調組合發現新方法。

2）前運算階段：以符號為中介描述外部世界，能夠進行延緩地模仿。

3）具體運算階段：思維具有守恒、去中心化、可逆、層次、序列、綜合特點。

4）形式運算階段：思維能力超出事物的具體內容或感知的事物，思維具有更大的靈活性，具有假設一演繹推理能力和命題思維。

雖然認知發展在個體間的差異或特殊性較為顯著，可能存在“滯差”等情況，但皮亞杰認知發展階段論的邏輯數學結構具有普遍性，其階段的劃分既代表認知的不同發展階段，也反映認知水平的高低差異。皮亞杰認知發展階段理論的邏輯結構能夠為制定算法素養不同維度的級別劃分的標準提供參考，其中，感知運算階段的特點為即時性與具體性，即在單一情境下的認知。前運算階段能夠將在不同時刻感知到的一個個情景進行積累，但仍然局限在個人的角度，即積累性與個體性。在具體運算階段，體現了思路的可逆性與擴展性。形式運算階段最大的特點便是抽象性，在算法素養中即可以視為對各個維度的抽象概括能力與深層次分析能力。因此，本文通過歸納皮亞杰認知理論各個階段的特點并結合現在的素養評價實踐，總結了算法素養不同維度的4個等級評判標準及其特點：

1）感知與經驗：個人的、經驗性的、即時的、具體的。

2）總結與歸納：個人的、經驗性的、累積的、具體的。

3）可逆與擴展：群體的、預見性的、擴展的、具體的。

4）形式與抽象：群體的、預見性的、擴展的、抽象的。

其中，從感知與經驗到形式與抽象，各個等級的內涵從認知發展的不同階段中提取，也反映了算法素養水平的由低到高。

2.3算法素養不同維度與不同等級的結合

算法素養的5個維度是對算法素養內容的解構，算法素養評價的4個等級則是對發展程度進行區分，對于算法素養評價中的維度，其中每個維度不僅包含算法素養各方面的內涵，也要考慮其程度差異，因此需要將算法素養的不同維度與不同等級結合，構建算法素養的多維分級評價體系。

在算法素養的多維分級評價體系中，算法素養評價的5個維度對算法能力的各個方面進行區分，評價對象在不同維度上的能力要求差異通過各維度上的等級來體現。例如，對于社會大眾來說，在算法的開發設計上能力要求較低，則在算法素養評價時，在創造維度選擇較低的等級。通過不同維度與不同等級的結合，能夠在對不同對象進行算法素養評價時根據目標能力要求的不同在各維度上選擇不同的等級，從而實現算法素養評價目標的可調節性和評價對象良好的適應性。

3實證研究

3.1測驗設計與數據收集

實驗以算法素養中的典型對象社會大眾為例，對其進行算法素養的多維分級評價。首先測定其在算法素養各個維度的等級要求。對于社會大眾來說，意識到算法的存在是其開展其他算法相關活動的基礎，因此對于意識能力具有一定要求，需達到可逆與擴展等級。同時其作為社會中的一員，需要能夠評估算法對自身和社會帶來的影響，因此在評估維度上選擇可逆與擴展等級。在理解、創造維度，對于社會大眾來說，通常涉及算法的理解和創造能力的情況較少，因此選擇感知與經驗等級。在應對維度，社會大眾面對的算法問題往往以個人為主，較為分散，因此選擇感知與經驗等級。通過以上分析，最終得到本次研究的測評標準，如表3所示。

測驗包含基本信息和5個維度的測驗問題，各個維度下包含若干題項，基本信息包含：性別、職業、學歷；意識維度針對算法的應用領域進行測驗，包含12個題項：理解維度以常見的算法運行影響因素為主題進行測驗，包含9個題項：評估維度針對算法對社會的影響進行測驗，包含8個題項：應對維度針對減少算法危害的方法措施進行測驗，包含9個題項：創造維度針對如何使用常見的算法進行測驗，包含9個題項。在測驗中，每個題項有“是”“否”和“不清楚”3種選項，“不清楚”用于減少測驗對象在作答中進行猜測的可能。在進行結果統計時，回答正確記1分，“不清楚”和回答錯誤記0分。

測驗通過網上問卷的形式進行，共收集問卷204份，剔除異常問卷19份，最終有效問卷185份。

本次問卷中性別比例為男性占比52.43%，女性占比47.57%，職業中的學生占比58.92%，互聯網行業相關人員占比32.43%，其他人員占比8.65%，學歷中，高中及以下占比11.3%，大專或本科占比77.3%，碩士及以上占比11.35%。

3.2信效度檢驗

信度檢驗能夠考察問卷的可靠性，對于測量結果的內部一致性程度進行了解，本文使用Cronbach'sa（克隆巴赫）系數法來檢測數據信度是否達標，一般認為問卷的Cronbach's儀系數大于0.8說明其信度較好。本次問卷中5個維度的信度均大于0.8，如表4所示，證明問卷具有良好的可靠性。

效度檢驗用于檢驗問卷的有效性，其反映了測量工具預測目標測量變量的準確性。測量結果與目標變量越吻合，效度則越高。本文對于問卷結果進行KMO檢驗與巴特利特球體檢驗。一般認為，KMO檢驗系數大于0.8，P值（巴特利特球體檢驗的x2統計值的顯著性概率）小于0.05，問卷才有結構效度。本問卷中的5個維度的KMO檢驗系數均大于0.8，P值均小于0.05，如表5所示。

3.3IRT分析

項目反應理論（Item Response Theory，IRT）是心理測量的方法之一，與之相對的常見的心理測量方法還有真分數理論（Classical Test Theory，CTT）以及可概括性理論（Generalizability Theory，GT）。IRT理論基本思想是認為測量對象的潛在特質即潛在能力估值與其對于測量項目的反應即測驗真實分數之間存在關系，并通過概率型模型來表示兩者之間的關系。IRT理論相較于CTT理論和GT理論有以下幾個方面的優點：①不依賴于特定的樣本與測驗題目，測驗結果比較方便；②可以發現異?，F象；③具有等值處理和自適應功能：④提供了項目篩選的功能。目前，項目反應理論被廣泛用于醫學、心理學、教育學和計算機等領域相關的測量或評價。

因此，在算法素養評價中，項目反應理論能夠將測驗問卷中的實際得分通過項目特征模型轉化為樣本的潛在能力估值。本研究中采用項目反應理論的雙參數模型（2PL），2PL模型能夠分析測驗項的區分系數a和難度系數B。難度系數B體現了受測對象正確回答測驗題項的難度，區分系數a體現了該測驗題項對于樣本的區分能力。其項目反應函數如式（1）：

在計算出各維度下的所有題項的項目反應模型后，匯總得到各維度的測驗特征曲線[29]，如圖1所示。測驗特征曲線反映了實際測驗分數與算法素養在該維度的潛在估值之間的關系，特征曲線在零點處的潛在能力估值對應的真實分數越高，說明測驗題項難度越大，特征曲線越陡峭，說明測驗題項醫分能力越強。

如圖2所示，各個維度的測驗信息函數反映了該維度下所有題項在各個位置的信息量的大小總和，用于分析該維度各區間的信息量變化，體現了測驗題項中的信息價值。測驗信息函數通過各項信息函數之和計算。具體公式如式（2）‘30]：

在理解維度的特征曲線中，（-2，O）區間的特征曲線較其他部分更為陡峭，說明在該區間區分度較大。在理解維度的信息函數中，整體上呈現正態分布，同樣在零點附近區間信息量較大，區分度較好。對于評估維度的特征曲線，大于0的區間大部分區間較為陡峭，在潛在能力估值小于0的區間較為平緩，說明測驗項對于較高水平的樣本區分度好于較低水平樣本的區分度。在評估維度的信息函數中，大部分在（O，2）的區間上較為陡峭，說明測驗題項在該區間的區分度較高。在應對維度的特征曲線中，零點右側陡峭程度加劇，其他部分陡峭程度均較低，說明測驗項在中等水平上的區分度較好，在低水平和高水平上的區分度一般。應對維度的信息函數在零點附近的信息量遠高于其他維度，說明其測驗項目在中等水平具有較高的信息價值，能夠較好地區分算法素養的各個水平。在創造維度的特征曲線上，其在（-1，1）區間上的陡峭程度較高，其信息函數在（-1，1）區間達到峰值，均說明其對中低水平區間的樣本區分度較好。在5個維度中，應對維度的信息函數在零點附近信息量遠大于其他維度，說明應對維度下的測驗題項在中等水平樣本上的區分度優于其他4個維度。

3.4權重計算

在獲得各個維度的估值后，為了獲得算法素養上的整體潛在能力估值，需要根據熵權法計算各個維度的權重，具體過程如下：

第一，在使用熵權法之前，首先需要對數據進行歸一化，本文采用Z-Score方法進行標準化，用于評估樣本點到總體均值的距離，見式（4）：關，一般k= 1/ln（m）。

最終計算出意識、理解、評估、應對和創造5個維度權重分別為0.123、0.132、0.457、0.110、0.178。從各個維度的權重可以發現評估維度的權重較大，其反映出在評估維度得分的差異較為明顯。各維度權重由高到低排序依次為評估、創造、理解、意識、應對，基本與各維度的得分分布差異大小相符。從權重結果中可以看出，在評估維度上，受測對象的水平差異較大，可能由于評估維度選定的目標等級較高，測驗題項具有良好的區分度。在其他維度上，權重差異較小，大部分受測對象的回答正確率均較高。

3.5結果討論

在本次測驗中，首先通過項目反應理論計算出算法素養各個維度潛在能力估值結果，如表6、圖3所示。

在意識維度，估值在[-0.5，-1）區間的樣本數占比超過70%，說明受測對象在意識維度的能力差距較小。在理解維度，各個區間的樣本數分布相對平均，說明受測對象在理解維度的能力差異較大，理解維度中感知與經驗等級要求能夠理解遇到的具體算法，受測對象在理解維度的顯著能力差異的形成可能由于不同的對象遇到的算法問題數量和影響存在差異，因此其對具體算法的理解意愿不同，在長期實踐中形成了理解能力的差異。在評估維度，整體估值較高，但在[-1，0.5）區間上人數較多，說明受測對象中，算法素養評估能力中等水平的樣本較多，其反映出算法問題已經在社會中引起一定程度重視，而且算法在就業和個人隱私等方面的潛在危害對社會大眾有著直接影響，因此其對算法的影響也較為關注。在應對維度的估值整體分布與評估維度相似，但應對維度有極少部分受測對象素養潛在能力估值分布在[-2，-1）區間，說明這部分受測對象在應對維度可能在面對算法問題時幾乎沒有應對能力，為算法弱勢群體，因此需持續關注在算法的應用和推廣中對算法弱勢群體的影響，推動以人為中心的算法發展。在創造維度上，整體上各個區間差距較小，同時相比于其他維度，創造維度在[-2，-1）即低水平區間樣本較多，說明算法素養的創造能力完全達到感知與經驗等級難度較高，但隨著算法在社會各行業的應用普及，算法社會中的每個個體均無法避免接觸和使用算法，其創造能力也可能在與算法的接觸中逐漸提高。

之后需計算加權后的算法素養整體估值，根據算法素養整體估值=各維度估值×各維度權重，得到匯總后的算法素養潛在能力估值，如表7、圖4所示。

在總樣本中，負分值樣本數為96，占總樣本數比約51%，其中，在負分樣本中，大部分樣本估值集中在零點附近，說明受測對象算法素養基本滿足預期目標。一部分原因可能由于受測對象受教育水平較高，其具有一定的算法相關的知識儲備，因此在測驗中得分較高：另一部分原因可能是算法在生產生活中應用已經較為廣泛，算法已經從一個抽象概念演變為日常生活中不可避免的一部分，隨著社會大眾與算法的不斷接觸，算法素養也隨之提升。同時，雖然結果中低分區間的樣本較少，但不能忽視對算法弱勢群體的關注，算法弱勢群體對于算法發展中各類問題的敏感性更高，算法相關能力更為不足，因此需著重提高算法弱勢群體在算法社會中的適應性，進一步加強并完善算法相關的教育普及與算法引導工作。

4總結

算法社會不僅僅是算法單方面地發揮作用，同時強調人的因素，算法技術的發展與社會中各類主體算法素養的提高均是推動算法社會進步的重要動力。本研究結合素養評價中的層次評價體系與皮亞杰認知階段理論，通過分析算法素養評價的不同維度與等級，提出了多維分級的算法素養評價體系。該評價體系結合層次評價體系的維度劃分，有助于了解不同主體的算法素養水平，針對性地制定算法素養培養策略，從而幫助形成多主體共建共治的算法社會。

目前，算法素養評價中，在算法素養的多維分級評價體系的各維度的等級選定上主要依據經驗總結。后續利用定量方法分析不同對象在算法素養評價體系各維度上的等級定位，有助于算法素養評價準確性的進一步提高。