付 兵,謝本貴
(長江大學a.文理學院;b.計算機科學學院,湖北 荊州434023)
教育信息化是國家信息化的重要組成部分,對提高教育質量和效益,培養創新人才具有深遠意義,是實現教育跨越式發展的必然選擇。“國家中長期教育改革和發展規劃綱要(2010-2020 年)”強調要加快教育信息化建設[1]。教育信息化首先是教學信息化,教學信息化的重頭戲在作業環節的信息化。電子作業反抄襲技術,對于減輕老師工作量、提高學生作業質量具有積極意義。
校園網已經普及,WiFi 熱點也覆蓋了90%的大學校園,基于固定和移動網絡的作業發布與提交方式已逐漸在大學教育中得以廣泛采用。教師通過網絡發布作業,其實時、便捷性等方面具有傳統紙質作業所無法比擬的優勢。但隨之而來的是電子作業抄襲現象嚴重。我們就湖北省部分高校的電子作業,走訪聽取一線教師的意見,就電子作業環節中的抄襲現象進行調查。經兩學年收集了12768 份電子作業樣本,抄襲分①網絡抄襲、②同學間抄襲或③其他抄襲,根據機器分析和人工核對,確定部分抄襲甚至完全拷貝的電子作業樣本656 份,涉嫌抄襲比例為5.1%。其中網絡抄襲、同學間抄襲及其它抄襲的比例如表1 所示。

表1 不同抄襲方式所占比例
學生抄襲作業的行為主要發生在兩種環境下:
(1)機房環境下完成老師布置的電子作業,學生之間電子文檔相互拷貝抄襲;
(2)網絡環境下,在家、在寢室或移動設備通過Internet 搜索網絡文檔,片段拷貝。
針對這兩種典型環境我們提出了反抄襲的不同策略。
計算機房是高校計算機普及教育的實驗場所,教師、實驗師針對機房的管理、提高學習效率進行了很多研究[2-4],但目前就機房環境下反抄襲研究還沒涉及。典型的機房環境是指在計算機房進行實踐教學時,老師布置的實時任務,如“計算機基礎”OFFICE 辦公系列的文字輸入、編輯排版練習等,本身電子作業的文字內容就完全一樣,這類情況采用比較文本相似度的方法是無法達到甄別抄襲作業的目的。基于信息隱藏技術的電子作業反抄襲策略能較好解決此類問題。信息隱藏技術在數字圖像版權保護方面的應用較為成熟[5-7],數字水印的設計已進入大學的實驗室教學[8-9],但電子作業防拷貝抄襲的水印嵌入的要求不同于隱蔽通信和版權保護,對信息隱藏量和魯棒性要求較高[10],其所用的水印算法要求不易察覺且兼顧大的信息嵌入量,在格式字符中嵌入機器編號、學號及時間等原創信息。
單純的文本信息隱藏對嵌入信息進行加密是為了提高信息的安全性,在電子作業文本格式中嵌入個人信息除考慮信息的安全性外還應兼顧個人隱私及人權保障等因素。我們在嵌入信息前對待嵌入信息進行加密與置亂[11]。
首先生成混沌數據,利用公式1 采用Logistic Map方法生成混沌數據:

設x0=0.1(0 <x0<1),得到實數系列:

將實數序列(2)經歸一化處理,得到二值序列函數T(x):

利用二值函數(3)得到混沌二值序列

得到的混沌二值序列(4)是原創者信息置亂,將要嵌入的的漢字和外文字符通過Unicode 和十六進制變換生成二進制數字序列:

用混沌序列(4)與二進制序列(5)進行模2 加,得到需要的新序列,即已加密二進制系列。

系列(6)即為要嵌入的秘密信息。
原創者的秘密信息嵌入算法根據作業內容的不同有多種選擇,如果電子作業是全中文可以采用“改變漢字西文字體的方法”實現信息的隱藏。將需嵌入的信息比特流每字節逐個隱藏,再根據每字節比特位的“1”和“0”的情況,分別將Word 文檔中漢字的西文字體依次相應設置成“Times New Roman”或“BasemicTimes”,每個字符隱藏1Bit 位,實現秘密信息比特流的嵌入。漢字西文字體的變化,在顯示上字體特征不發生任何變化,對嵌入的原創信息抄襲者是察覺不到的。嵌入算法還可以采用字移編碼、行移編碼、字號大小編碼、等傳統的格式化文本隱藏信息的方法[12]。
如果是中英混排的電子作業,改變漢字西文字體的方法就無能為力了,同樣對于圖多字符少的電子作業,如電子實驗報告,由于上述算法每個字符只能隱藏1Bit 的秘密信息,存在信息隱藏率低的問題,針對電子作業的特殊性,提出了針對性的“高嵌入率水印算法”。
高嵌入率水印算法同時利用字體RGB 顏色低位和下劃線RGB 顏色的部分字節來嵌入秘密信息,達到每1 個字符隱藏12 bit 秘密信息。根據人眼視錐細胞對顏色敏感度理論,人眼對藍色最不敏感,置換字符RGB 值的低位,如圖1 所示是一個字符RGB 值藍色分量的最后兩位B1、B0,綠色分量的最后一位G0、紅色分量的最后一位R0 用來嵌入原創信息,這一步每一字符實現4 bit 的嵌入量。
第二步將同一字符下劃線顏色值中的藍色分量的后4 位,下劃線顏色值中綠色分量的后2 位,下劃線顏色值中紅色分量的后2 位,用來嵌入秘密原創信息,如圖2 所示,在下劃線顏色分量中每一字符實現8 bit 的嵌入量。

圖1 嵌入秘密原創信息的字符RGB 分量

圖2 嵌入秘密原創信息的字符下劃線RGB 分量
因為一般電子作業字符顯示下劃線的幾率較少,也不引人注意,我們利用下劃線顏色值嵌入更多的秘密信息,使秘密信息嵌入率達到每1 字符12 bit。
機房環境反抄襲設計實現分:嵌入原創秘密信息和提取抄襲秘密信息兩部分。
嵌入原創秘密信息的過程是當學生完成電子作業,點擊“保存”、“另存為”和“退出”都會觸發office中VBA 的Autoclose 過程。這一過程的自動運行調用了嵌入原創秘密信息的函數HideOriginalInformation(),該函數具有在全文循環嵌入原創秘密信息的功能。
提取秘密信息的過程是當學生的電子作業被批閱時,首先就進行自動檢查字符格式的變化,是否含有他人的原創信息。本設計利用了打開文檔時自動運行的Autoopen 過程,核心設計室該過程中調用了中英文字符格式檢測函數DetectCharacterFormat()和提取秘密信息的函數GetOriginalInformation()。
由于網絡環境抄襲的來源甚廣,加之抄襲程度的不同,一篇作業可能抄襲自不同來源的多篇網絡文本,且從抄襲短句到抄襲整篇都有可能。另外網絡上與作業內容相關的網頁總是處于不斷更新、增加中。因此準確的檢測抄襲與否及抄襲程度、抄襲來源等比較困難,理想的方法是使用基于搜索引擎的技術,但是基于搜索引擎的技術需要投入的太多,對于檢測作業抄襲這種情況是得不償失的。因此采用折中方法,建立一個數據庫,存儲和課程相關的電子文檔,最典型的就是與課程內容相關的各種文獻,同時包含歷屆學生的所有作業以及當前要檢測的所有作業,每次檢測新的作業時可以自動將其加入到數據庫中。
一般來說電子作業還有以下兩個特點:①相對于學術論文等長篇文字來說,學生作業一般字數不多;②學生作業具有較高的相似性。作業的題目是教師擬定的,因此作業內容主題相對固定。對于概念性原理性的問題,學生多會照抄教科書或參考書上的原話。作業字數不多且內容高度相似的特性,在利用程序自動檢測抄襲的過程中很容易引起對作業抄襲與否的誤判。而實踐中對作業抄襲的檢測往往是檢測整篇復制或者大段復制的情況,這種情況正好對應于相似性指數非常高的情形。更細力度的抄襲檢測(比如單句話的抄襲)是沒有必要的。網絡環境下,反抄襲的策略主要是基于文本相似性檢測的。判斷文本內容相似性的方法有很多種,鑒于各種方法都有其優劣性。針對電子作業的特點,在本研究中我們嘗試將向量空間法和編輯距離法兩種方法相結合來進行作業抄襲檢測,取得了良好的效果。
向量空間法的原理是將文檔映射為向量,通過計算向量夾角的余弦即得到兩個文檔的相似性指數[13-14],向量空間法實現步驟如下:
(1) 對要比較的電子作業進行分詞。在對電子作業進行分詞時,我們首先采用MMSEG 算法進行中文分詞。如果作業中含有英文,MMSEG 算法也會將英文單詞分出但不會進行詞干提取,對于英文單詞,繼續用Porter2 算法提取詞干。最后剔除中英文的停止詞(stop words),合并MMSEG 分出的中文詞和Porter2 處理過的英文詞,得到單篇文檔的分詞詞集。合并所有作業的分詞詞集,得到構建向量空間的詞集W。為提高分詞準確性,可以在MMSEG 算法所使用的詞典中導入專業詞匯。
(2) 生成各作業的向量。上一步中得到的詞集W的元素數n 即為我們所要構建的向量空間的維數。對于每個要比較的文檔k,構建一個n 維向量Vk=(wk1,wk2,…,wkn)。如果詞集W 的第i 個元素Wi也出現在文檔k 的分詞詞集中,則wki=1,否則wki=0。
(3) 計算兩個向量V1、V2夾角θ 的余弦。以此數值作為文檔相似性指數SI1。

編輯距離法是基于編輯距離計算的。所謂編輯距離是指一個字符串轉變成另一個字符串所需要的最小編輯操作次數。這些編輯操作包括插入、刪除、替換、顛換。當編輯操作只包括前三種時,稱為Levenshtein距離,如果四種編輯操作都包括,則稱為Damerau-Levenshtein 距離[15]。編輯距離法很適合檢測作業抄襲,由編輯距離法計算兩個文檔相似性指數SI2的公式為:式中:tl 為兩個文檔總長;d 為編輯距離。

最后,通過對作業計算相似性指數SI1、SI2,當對比文檔的兩種相似性指數達到指定閥值時,則判定為疑似抄襲。
基于網絡環境反抄襲策略中提出的方法,對作業樣本進行了抄襲檢測。實驗結果表明,如果將相似性指數的臨界值設為0.91,則程序能正確判別出所有嚴重抄襲樣本。根據每次作業的不同情況,相應調整相似性指數臨界值,能得到更好的判別結果。檢測時也可限定只檢測本次作業中的樣本,這樣可以判斷本次作業中學生間相互抄襲的程度。對于疑似抄襲的作業,通過查找共同字符串及用加亮顯示等方式可進一步人工可視化判讀抄襲程度,如圖3 所示,程序截圖后對學生姓名做了馬賽克處理。

圖3 加亮顯示的抄襲檢測結果
本研究的特點在于將電子作業反抄襲分為網絡環境抄襲和機房環境抄襲,采用不同的反抄襲策略進行處理:針對機房環境下的直接部分甚至全部拷貝抄襲,采用了信息隱藏技術,創新點有:①將原創信息進行了加密,保護了同學隱私;②針對電子作業的特點設計了高嵌入率、不易察覺的信息隱藏算法;網絡環境下的反抄襲設計特點是根據電子作業的特點綜合應用向量空間法和編輯距離法對同學之間的電子作業的相似度及網絡相關主題文檔相似度進行判斷,降低了誤判率。
電子作業反抄襲研究是2011 年湖北省高等學校省級教學研究項目“計算機基礎教學融合專業應用的研究”(2011468)成果之一,在計算機基礎教學立體網絡平臺的電子作業收集、批改部分發揮了重要作用,有效杜絕了學生電子作業的多種抄襲方式。
[1] 國家中長期教育改革和發展規劃綱要(2010-2020)[M]. 北京:人民出版社,2010.
[2] 林先津. 機房實驗教學管理系統學生狀態監控的設計與實現[J]. 實驗技術與管理,2011,28(10):96-99.
[3] 王 強,張江露,何才輝.整合資源,構建高效的開放計算機實驗室[J]. 實驗技術與管理,2011,28(4):163-166.
[4] 何 俊. 計算機公共機房管理資源整合[J]. 實驗室研究與探索. 2010,29(2):65-67.
[5] Fu Bing,Zhou xianshan. Information Hiding Technique in Most Significant Bit of Still Image[C] // 2009 International Conference on Image Analysis and Signal Processing. USA: Institute of Electrical and Electronics Engineers. 2009:74-76.
[6] 周清雷,黃明磊. JPEG 圖像的信息隱藏方法[J]. 計算機工程與設計,2010,31(19):4178-4180
[7] 張 民,郭玉彬,張德偉. 基于小波系數塊能量和HVS 的FCM水印算法[J]. 微電子學與計算機,2010,27(05):139-142.
[8] 向德生,彭獻武,梁 偉. 數字水印實驗系統的設計與實現[J].實驗室研究與探索,2009,28(10):51-53.
[9] 石紅芹,呂方亮,劉遵雄. 彩色圖像的數字水印系統設計[J]. 實驗室研究與探索,2011,30(5):9-12.
[10] Fu Bing. Research on the Model of Similar Electronic Coursework Detection[C] // Third International Conference on Genetic and Evolutionary Computing. USA:Institute of Electrical and Electronics Engineers,2009:814-817.
[11] 王海春,邱寄帆,邱敦國. 一種基于Word 文檔的數字密寫設計與實現[J]. 微計算機信息,2006,22(10):47-48.
[12] 付兵. 基于Word 字符RGB 值的信息隱藏技術[J],電腦知識與技術,2007(2):78-80.
[13] Peter D. Turney ,Patrick Pantel,From frequency to meaning:vector space models of semantics [J]. Journal of Artificial Intelligence Research,2010(37):141-188.
[14] 樊旭琴;張永奎,基于詞對向量空間模型的新事件檢測方法[J]. 計算機工程與應用,2010,46(12):123-125.
[15] T. Batu,F. Ergun,J. Kilian,A. Magen,S. Raskhodnikova,R.Rubinfeld,Rahul Sami. A sublinear algorithm for weakly approximating edit distance[C] // Proceedings of the Thirty-Fifth Annual ACM Symposium on the Theory of Computing. USA:Association for Computing Machinery,2003:316-324.