999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

自學考試“臟數據”問題研究和應對策略

2023-02-17 06:09:20林華
考試研究 2023年1期
關鍵詞:標準信息系統

林華

高等教育自學考試制度以其開放、靈活的特點成為構建高等教育立交橋的重要組成部分。數據作為信息化的基礎,是自學考試最核心的部分之一,它能為用戶提供業務申請、存儲、檢索服務,使其方便、準確、及時地從數據中獲得所需的信息,更可以為管理者提供決策依據。完整、準確的數據是保證自學考試業務正常運轉的重要因素。但隨著自學考試數據不斷積累且日益龐大,海量數據中不可避免的產生并積累了不同程度冗余的、失準的、無效的甚至是錯誤的數據,形成所謂“臟數據”[1],給自學考試信息系統運行與維護都帶來了困擾,也直接影響到各項管理工作的效率,長此以往,甚至會造成自學考試政策制定的偏差。因此,清洗“臟數據”已成為亟待解決的問題。

一、自學考試“臟數據”的概念與種類

(一)“臟數據”的概念

“臟數據”(Dirty Data),又稱“壞數據”(Bad Data),其概念最初源于西方,是指源系統中的數據不在給定的范圍內或對于實際業務毫無意義,或是數據格式非法,以及在源系統中存在不規范的編碼和含糊的業務邏輯[2]。

這個概念引申到自學考試中,是指隨著幾十年自學考試的發展沉積下來的,在目前或以后的數據使用過程中和數據管理中冗余的、失準的、無效的,甚至是錯誤的數據。這些數據不僅不能為系統的正常運行帶來價值,反而會隨時間推移逐漸占據存儲空間,浪費軟硬件資源,如不能得到及時的清理,而參與到正常的運算和檢索中,會出現嚴重的錯誤,影響數據庫的可信度。數據分析的最終目的是驅動決策,一旦“臟數據”使整個數據都不再可靠和準確的時候,那將會直接影響決策的質量。

(二)“臟數據”的分類與成因

根據“臟數據”形成的主要原因,大致可將其分為以下四類。

1.重復冗余數據

隨著我國社會經濟的高速發展,新的行業不斷涌現,相應的,自學考試新專業也應運而生。與此同時,不再適應社會人才需求的自學考試相關專業的生源則在逐漸萎縮。目前,全國自學考試的專業及課程體系又進入了一個調整期,隨著部分專業的關停并轉,考生專業轉考的規模也將持續增加。

圖1、圖2、圖3展示了在某個時間點,停考專業轉考的三種基本形式,在幾十年專業的不斷調整過程中,這三種簡單形式交錯演變形成圖4或圖5的復雜形式。

圖1 停考專業“多對一轉考”示例

圖2 停考專業“一對多轉考”示例

圖3 停考專業“一對一轉考”示例

圖4 停考專業鏈狀繼承圖

圖5 停考專業網狀繼承圖

例如,從圖4上看,一個A專業的考生,多年來一直參加自學考試但仍未畢業,始終處在持合格成績轉考的過程中,其所在專業先后經過了三次停、轉。由于自學考試是按照專業管理,考生報考任何專業均要申請該專業的準考證號,所以這個考生雖然目前留在專業D里繼續參加考試直至畢業,但他此時會持有專業A、專業B、專業C以及專業D的四個準考證號。從專業管理的層面看,根據準考證號的不同,系統將會把該考生認作四個獨立的個體;而從身份管理的層面看,根據身份證號等個人信息,他又被系統視為同一個人。數據庫中每一位考生的信息是由多個具有不同屬性的字段組成的,當兩個考生記錄的大多數屬性字段值相同或絕大程度相似時,就將這兩條記錄判定為相似重復記錄[3]。從這個角度看,專業發展必定帶來停考專業考生集體的遷移,而考生的集體遷移便會在數據庫中形成大量人員的相似數據重復記錄。

同樣,考生報考的多個專業之間的課程又存在向下可頂替的繼承關系,從圖5中可以看出,這個繼承關系可以是鏈狀繼承,也可以是樹狀甚至是網狀繼承,那么如果要使符合政策的考生的合格成績在申請畢業時生效,記錄成績數據中課程間的相互關系的過程,也是產生冗余數據的一個重要環節。如果能將這類重復冗余的數據加以“瘦身”,將大大簡化數據間的復雜結構,有效提升數據的檢索速度,降低系統運轉壓力。

2.多重標準數據

自學考試制度建立40多年來,從最初的全手工管理到20世紀90年代的信息系統管理,再從C/S模式升級到B/S模式,各項信息數據項采集標準在不斷提高,對數據內容的校準也日趨完善。但數據標準的每一次提升,都成為那個階段新老數據的分水嶺,于是多重數據標準慢慢成型。

如表1所示,以準考證號字段為例。通過比較發現數據標準的變化十分明顯。

表1 準考證號編碼規則演變示例

內容變化:在前三個階段的準考證號的編制中都含有了考生的專業信息,其中第一個階段的專業代碼用兩位的英文字母表示,第二個階段的專業代碼為兩位的純數字,而第三個階段為三位的純數字專業代碼,在第四個階段中準考證編號中不再體現考生的專業信息。

位數變化:準考證的位數先后經歷了四個階段,即字母與數字結合的8位字符串、8位純數字字符串、10位純數字字符串、12位純數字字符串。

位置變化:在四個階段的準考證號中都含有了考生所屬考區的信息,但不同之處在于前三個階段,考區的標志位,在第三、第四兩位體現,而在第四個階段中考區標志位被提到了前兩位。

從上面的分析可以看出,雖然字段表達內容相同,但不同數據標準同時在系統中運轉,加大了系統源代碼辨析的難度以及系統運行時對數據的兼容性要求,也勢必會提高系統運轉的錯誤率。同時,在上報國家考試中心相關數據時,還要額外增加字段轉換和補位工作,也增加了報送出錯的風險。

此外,如表2所示,考生頭像照片的數據標準也是在不斷改進中。為使對考生身份的管理更加嚴謹,自從建立管理信息系統后,頭像照片的尺寸(由180×240提高到480×640)、分辨率(由96dpi提高到300dpi)和背景色(由多色統一為淺藍色)幾個維度都在不斷地提高照片的精準度。因此,多規格的照片在數據庫中在讀取和使用時,相對低像素的照片會出現模糊不清,為日后的入場考試身份驗證環節和畢業生學歷認證帶來不必要的麻煩。

表2 考生頭像照片格式標準演變示例

3.過時無效數據

數據時效性是與時間相關的,表示數據是最新有效的,可以描述客觀實體。反之,過時無效數據是指由于其時間久遠,已不再準確、不應參與到正常處理的、已經失去使用價值的數據。自考中的過時無效數據指數據本身是真實的,但隨著時間的推移,其有效性在不斷降低。主要有以下幾類:

(1)過時的考生頭像數據。由于考生參加考試數年,其容貌變化較大,無論是繼續考試還是申請畢業,該頭像照片均已無法成為核驗其身份真實性的有效依據。

(2)不再活躍的“僵尸”數據。例如,某些院校將自考本科段的英語(二)科目合格成績作為學士學位申請的必要條件之一,因此出現有考生注冊準考證號后,僅報考英語(二)這一個科目,便不再參加該專業內的其他課程考試,成為“一次性考生”,這類考生本不應屬于自考的在籍考生范疇,因此,這些數據不應出現在各項各類統計中。

(3)陳舊的聯系方式。20世紀八九十年代初期固定電話還不普及,移動通訊的手段更是少之又少,于是在自考剛開考的相當長的一段時間內并未采集聯系電話這一數據項。在后期開發系統開始采集之后,考生提供的聯系方式多數為座機,但由于電話的升位、手機的普及,凡未及時更正的,也都成為了過時無效數據。通訊地址信息的數據變更存儲也有類似的情況。

4.缺失完整性數據

缺失完整性數據是指數據集合中的數據不能全面地、較完整地描述客觀事實,不能支持某種統計查詢、關聯計算和決策分析等應用。在自學考試制度建立初期,受當時技術手段的限制,考生從初次報考到申請畢業中間各個環節的信息采集均為手工填表、紙質管理,但因采集源不完整,又因缺乏完備的篩查手段而未得到及時更正,故而成為如今難以追溯的缺失數據。隨信息技術的不斷發展,考試的管理工作逐步由人工向計算機信息系統過渡,管理者做了大量的整理工作,嘗試將各種各類紙介質檔案轉為數字化檔案錄入系統,但在這個過程中,又會因為各種各樣的原因再次造成漏缺的數據。以考生身份證號為例,目前,考生一代、二代身份證號并存。截至2021年底,在籍考生中身份證號位數不滿18位的考生占到考生比例的36.33%,其中一大部分是因為開考初期的老考生自始至終未采集,另一部分是因為不再參加考試且沒有申請身份證號正常升位造成的。此外,早期畢業證書上均采用手貼照片的形式,而在實際系統中并未采集數字化信息,從而造成畢業生的照片信息缺失,進而導致畢業生身份認證時被質疑。隨著信息時代的發展以及信息技術在社會各行各業工作中的全面應用,這一問題也日益凸顯。

二、自學考試數據清洗的途徑與辦法

數據清洗(Data Cleaning)就是把“臟”的“洗掉”,發現并糾正數據文件中可識別錯誤的一道程序,是對數據進行重新審查和校驗的過程,是按照一定的規則刪除重復信息,糾正存在的錯誤,處理無效值和缺失值,以提高數據一致性、準確性[4]。自學考試的數據清洗,必須要從自學考試自身特點入手,采用技術層面的數據清洗,以及與考試管理方式改革緊密結合的政策調整等方法,對臟數據進行清理并防止“臟數據”的進一步累積。

(一)技術層面的數據清潔

1.重復冗余數據清洗

如上文所述,目前的自學考試按照專業管理的方式,一旦專業發生關停時,持有兩個或以上不同專業的準考證號的考生便會重新注冊新號。為避免重復的考生數據再次積累,可嘗試借鑒其他省市“一號通”概念,即一名考生自始至終僅有一個準考證號。對于這樣的考生可以采用機器自動合并、手工確認的方式,將每個考生現有的多個準考證號進行并檔操作。把多個準考證號歸并到其中一個準考證號下,并將此準考證號作為唯一準考證號在今后的考試中使用。自動合并就是機器通過分析考生姓名、身份證號和頭像照片等信息將確屬同一個考生的不同準考證號歸并到最新的一個號上,經考辦專家審核后,提交給考生端,待考生本人確認無誤,并檔正式生效。對于姓名、身份證號不能完全匹配為同一考生的,可由考生自行補充相關準考證號信息,考辦專家審核通過后并檔生效。從而,完成多號歸一的去重工作。

2.多重標準數據清潔

多重數據標準在清洗前首先要做的是統一標準,在唯一的標準下,才能有針對性地對不符合標準的數據進行過濾篩查,并制定清洗方案。根據教育部教育考試院2020年發布的《關于開展高等教育自學考試考籍管理基礎信息歸集工作的通知》中的要求,統一準考證號采集標準,報考期間凡不符合標準的考生在登錄系統時,會自動賦予新的準考證號,老準考證號下的考生個人以及成績的各項信息經過一系列審核通過后,歸并到新準考證號下,供日后使用。根據教育部教育考試院2021年發布《關于做好高等教育自學考試畢業證書電子注冊圖像采集工作的通知》中的要求,統一照片格式標準,在辦理畢業期間,凡老考生成功申請并由考區、市考辦審核通過的,須上傳符合標準的近期頭像,經過系統人像對比和人工專家審核,確屬一人的方可準予畢業,圖像被記錄到畢業生庫。新考生在注冊準考證號時,即按照此文件標準上傳圖像。對于已經畢業的考生采用按照標準掃描其畢業生登記表上的照片信息、上傳至畢業生庫中的方法,進一步完善畢業生核驗信息,為學歷認證提供基礎。

3.無效、缺失數據清洗

對于過時的無效數據,最重要的是保持數據的時效性,數據的時效性提高之后,缺失數據也會及時得到補充。為此,在考生服務系統中增加了信息更正環節。考生每次登錄時,系統都自動彈出對話框,引導考生核對、更新對時效性要求比較高的相關信息。例如,考生需要將15位身份證號升至18位時,除填寫相關信息外,還須上傳佐證材料,之后考生服務系統會向公安部門身份證認證系統申請核驗,最后通過考區和市考辦的審核合格的方為更正成功。如考生修改聯系電話,那么系統會向其手機號發送驗證信息,確保其提交信息的準確性。通過長期的、反復的、大量的更正操作,無效或缺失數據的比例會逐漸減少,在一定時間內都未申請修改的,將被其定義為“僵尸數據”,并轉移至不活躍數據表中,待日后激活使用,以提高系統運行效率。

(二)政策層面的數據清洗

1.轉變專業管理模式

自學考試多年來一直采取專業管理的模式,考生的報考信息管理是按照從專業到課程的二維結構實施的。若出現上述關、轉的專業,為了從根本上改變數據冗余,要將原來的專業管理模式調整為課程管理模式,由原來的一考生一專業一準考證號,改為一考生一準考證號多專業,即考生用唯一的準考證號選擇不同專業的課程參加考試。最后,將已取得合格成績的歷史課程與現行某專業計劃找出對應替代關系,按照該專業要求篩選合格課程申請畢業。已畢業考生所有個人及成績信息歸檔到畢業生信息中。從源頭杜絕一人多號的重復數據和冗余數據產生。

2.統一數據標準體系

在規范數據標準問題上,首先要加強數據標準的頂層設計,盡量滿足唯一性、穩定性、可拓展性、前瞻性和共享性標準規范要求。所有的業務系統均應建設在統一數據平臺基礎之上。逐步統一數字化基礎管理和安全的數據標準體系,統一與國家考辦間的標準資源,完善跨省數據標準體系。通過建立統一的數據標準體系將為自考業務的創新和事業發展營造有利的環境。

3.保障數據內容真實

從技術上增加校驗維度,提高數據標準的精度,可保證數據格式屬性的準確性。但對于數據本身的真偽,需要在其他單位或部門的配合下,才能保障其內容的真實性。因此,首先需要使用身份證識別設備或人臉識別設備等,核實新進入系統的考生身份號以及姓名的真偽,防止冒名頂替考試的事件發生。其次,需要聯合學信網,在考生畢業申請前,先確認該考生前置學歷的真偽,杜絕假冒前置學歷的現象。最后,為保證所采集數據真實有效,增加考生到考區提交佐證材料的環節。

三、結語

本文對自學考試現有“臟數據”的類型進行分析,分別從技術和政策修訂的角度初步構建了數據清洗策略,設計了數據清洗流程。在自學考試不斷發展的進程中,應當從提高清洗精準度、清洗效率和調整相關政策等方面入手,建立更加完善的臟數據發現舉證機制、審核認定機制以及糾錯更新機制等[5],以進一步提高自考數據質量,讓清潔的數據始終作為信息管理的優質基礎,為決策的制定提供有力保障。

猜你喜歡
標準信息系統
Smartflower POP 一體式光伏系統
工業設計(2022年8期)2022-09-09 07:43:20
2022 年3 月實施的工程建設標準
WJ-700無人機系統
ZC系列無人機遙感系統
北京測繪(2020年12期)2020-12-29 01:33:58
忠誠的標準
當代陜西(2019年8期)2019-05-09 02:22:48
美還是丑?
連通與提升系統的最后一塊拼圖 Audiolab 傲立 M-DAC mini
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
一家之言:新標準將解決快遞業“成長中的煩惱”
專用汽車(2016年4期)2016-03-01 04:13:43
展會信息
中外會展(2014年4期)2014-11-27 07:46:46
主站蜘蛛池模板: 日韩亚洲综合在线| 国产精品女同一区三区五区| 无码国产伊人| 国产成人精品一区二区不卡| 国产成人综合久久| 亚洲国产91人成在线| 色有码无码视频| 国产精品第5页| 黄色免费在线网址| 日韩福利视频导航| 97se综合| 91久久国产热精品免费| 国模沟沟一区二区三区| 精品无码一区二区三区在线视频| 国产精品久久久久久久久kt| 欧美国产精品不卡在线观看 | 曰韩人妻一区二区三区| 综1合AV在线播放| 激情国产精品一区| 99ri国产在线| 日本午夜在线视频| 97久久超碰极品视觉盛宴| 熟妇丰满人妻| 全部毛片免费看| 中文字幕在线看| 青草免费在线观看| 日本在线免费网站| 97在线公开视频| 亚洲精品国产日韩无码AV永久免费网 | 欧美a在线| 又爽又大又黄a级毛片在线视频| 国产第一页亚洲| 婷婷六月色| 性色在线视频精品| 美女被操黄色视频网站| 欧美日韩激情在线| 国产精品永久在线| 国产成人综合久久精品下载| 国产无码精品在线播放| 被公侵犯人妻少妇一区二区三区| 欧美成在线视频| 99精品免费在线| 99re在线视频观看| 91在线无码精品秘九色APP| 国产精品分类视频分类一区| 欧美一级爱操视频| 国产激爽大片高清在线观看| 欧美成人一级| 2021国产在线视频| 日本午夜在线视频| 久久久久亚洲Av片无码观看| 亚洲无码A视频在线| 国产在线91在线电影| 丁香综合在线| 亚洲精品国产乱码不卡| 成色7777精品在线| 亚洲另类色| 亚洲综合色婷婷中文字幕| 中国国产一级毛片| 欧美五月婷婷| 久久综合AV免费观看| 亚洲欧美精品一中文字幕| a级毛片免费网站| 五月丁香伊人啪啪手机免费观看| 久草性视频| 久久国产精品娇妻素人| 91小视频在线播放| 青青草欧美| 亚洲免费黄色网| 97精品国产高清久久久久蜜芽| 国产亚洲欧美另类一区二区| 中文字幕亚洲专区第19页| 国产嫖妓91东北老熟女久久一| 国产在线一二三区| 免费又黄又爽又猛大片午夜| 亚洲αv毛片| 欧美国产日韩在线| 国产第八页| 国产肉感大码AV无码| 九九香蕉视频| 国产丝袜精品| 国产91小视频|