鄭曉慧
(河南人民出版社,河南 鄭州 450016)
當前,越來越多的網(wǎng)絡信息技術(shù)出現(xiàn),并應用于各個領(lǐng)域當中,同時在社會需求不斷推動下,數(shù)字化的出版形式產(chǎn)生。數(shù)字出版是將網(wǎng)絡信息技術(shù)作為技術(shù)支撐,通過更具網(wǎng)絡化的傳播渠道,實現(xiàn)傳播、閱讀和生產(chǎn)方式的數(shù)字化。數(shù)字出版在發(fā)展過程中,為了不斷適應和完善,逐漸演變出了多種類型的出版方式。[1]數(shù)字出版與傳統(tǒng)出版相比更具交互性,并且傳播速度更快,可拓展面更廣,在極大程度上提高了人們對圖書的閱讀需求,也進一步充實了現(xiàn)有圖書資源。但隨著數(shù)字出版發(fā)展速度的不斷提升,在為其帶來創(chuàng)新的同時,也使得諸多問題產(chǎn)生,例如數(shù)字出版信息數(shù)據(jù)量成倍增加,對校對、編輯等都造成巨大的負擔。[2]為了進一步探究數(shù)字化校對技術(shù)在數(shù)字出版當中的應用及應用效果,本文開展下述研究。
為了提高數(shù)字出版的質(zhì)量,解決文本內(nèi)容在編輯中出現(xiàn)錯誤的次數(shù),本節(jié)提出一種針對文本編輯錯誤的校對模型。假設在編輯文本內(nèi)容時,語句中文本內(nèi)容表示為S,則S=S1,S2,S3…Sn,其中1~n表示構(gòu)成文本內(nèi)容的多個字節(jié),在此基礎(chǔ)上,采用全局檢索的方式,對其中容易存在混淆的文字進行矩陣構(gòu)建。并使用數(shù)字編輯設備中的統(tǒng)計功能項,進行全局參數(shù)的宏觀調(diào)控,確保對編輯空間內(nèi)文本數(shù)量統(tǒng)計結(jié)果的真實性與有效性。[3]為了確保文本編輯錯誤校對模型在使用中的有效性,可在圈定檢索空間后,使用文字統(tǒng)計法,進行混淆集合的人工識別與校對,人工操作編輯界面后,輸出錯誤項集合,并使用文本中的替換功能,進行修正內(nèi)容的重新校正,以此種方式,確保文本內(nèi)容中所有校正的內(nèi)容與局部修正需求匹配。但在此過程中應注意的是,在改正錯誤時,使用標注進行混淆文本的標記,并重點關(guān)注此部分文本內(nèi)容的錯誤是否完全進行了修訂,以此實現(xiàn)對文本編輯錯誤的有效校對。
根據(jù)上述論述,在明確文本編輯錯誤校對模型的基本需要后,設計如圖1所示的模型總體框架。

圖1 文本編輯錯誤校對模型總體框架結(jié)構(gòu)圖
從圖1中文本編輯錯誤校對模型總體框架結(jié)構(gòu)可以看出,檢測錯誤部分輸入的目標為需要進行校對的文本字符信息串,輸出的結(jié)果為可能存在文本錯誤的位置。[4]當將需要進行校對的文本字符信息串輸入到構(gòu)建的文本編輯錯誤校對模型當中時,根據(jù)局部文本的上下文語境,將可能存在錯誤的文本進行劃分,并將該區(qū)域作為后續(xù)錯誤檢測的重點位置區(qū)域。在對真實存在錯誤的文本進行改正后,再返回到上一階段完成對錯誤檢測結(jié)果的報告生成,并給出相應的改正建議。
按照本文上述論述內(nèi)容,完成對文本編輯錯誤校對模型的構(gòu)建后,為了確保后續(xù)錯誤檢測的精度,在檢測前還需要對數(shù)據(jù)進行平滑處理。由于需要進行校對的文本當中存在多種不同的錯誤成分類型,并且存在錯誤詞語的位置上,其左右相鄰的文本會出現(xiàn)數(shù)據(jù)稀疏的問題,上述問題的存在會造成檢測難度增加,因此從多個方面實現(xiàn)對數(shù)據(jù)的平滑處理。[5]首先,針對文本窗口縮小的問題進行數(shù)據(jù)平滑處理。圖2為文本窗口數(shù)據(jù)稀疏現(xiàn)象示意圖。

圖2 文本窗口數(shù)據(jù)稀疏現(xiàn)象示意圖
圖2中“×”符號表示為在文本窗口當中前后三個文字對出現(xiàn)了稀疏問題,“√”符合表示為文本窗口當中前后三個文字對未出現(xiàn)稀疏問題。從圖1中所示的內(nèi)容可以看出,若需要進行校對的文字當中其字符信息串0~1是按照正確的方式出現(xiàn),而字符信息串0~2在文本窗口當中出現(xiàn)了數(shù)據(jù)稀疏問題,則說明2本身是一個存在錯誤的詞語或2本身是正確的詞語,但與0~1字符信息串連接后存在錯誤。[6]針對上述存在問題,對其進行數(shù)據(jù)平滑處理,其計算公式為:

公式(1)中,a表示為平滑系數(shù);yn表示為在某一時刻n下,文本窗口平滑處理后的數(shù)據(jù)值;Sn-1表示為在前一時刻通過平滑處理后的數(shù)據(jù)值;Sn表示為經(jīng)過平滑處理后的數(shù)據(jù)值。根據(jù)上述公式,針對圖1當中存在的稀疏問題進行平滑處理,在處理的過程中,將第一次輸入的原始文本數(shù)據(jù)作為初始狀態(tài)數(shù)值,或?qū)⑶皫状屋斎氲脑紨?shù)據(jù)值的平均值作為初始狀態(tài)數(shù)值。
其次,再對聚類詞進行數(shù)據(jù)平滑處理。根據(jù)以往數(shù)字出版語言使用的經(jīng)驗得出,在文本當中存在很多同義詞或近義詞,通過其相互之間的轉(zhuǎn)換,句子本身幾乎不會存在差異,例如“觀”和“看”、“認識”和“知道”等。[7]通過近義詞之間的相互轉(zhuǎn)換,可以達到對文本數(shù)據(jù)平滑處理的效果。在進行平滑處理的過程中,還可引入同類詞預料的方法,例如如下公式(2)表示同類詞集:

公式(2)中,N表示為需要進行校對的目標文本;Xji表示為文本當中某一字符i的同類詞集。通過上述操作,對文本窗口縮小和聚類詞進行數(shù)據(jù)評價處理后,能夠確保后續(xù)錯誤檢測的準確度不受影響,提高數(shù)字化校對技術(shù)的應用性能。
在檢測前還需要將彼此容易混淆的詞語進行收集,并形成混淆集合。在一個混淆集合當中包含了容易在使用過程中與校對目標詞出現(xiàn)混淆的詞語。在錯誤檢測的過程中,引入一個分配器,用于對文本當中不同詞語進行分類。在分類器進行過程中能夠,對適合上下文語義的詞語將其取值設置為1,針對不適合上下文語義的詞語,將其取值設置為0。每個分配器都與文本上下文特征相關(guān)聯(lián),并且為每一個關(guān)聯(lián)對象設置不同的連接權(quán)值。針對需要進行校對的目標詞語進行獲取,并在該詞語上下連接的文本當中提取特征,將所有特征進行匯總,并得到如公式(3)所示的表達結(jié)果:

公式(3)中,θ表示為利用分配器進行分類后得到的結(jié)果;F表示為提取到的特征集合;w表示為分配器判定結(jié)果數(shù)值,w的取值為0或1;f表示為特征集合中的某一特征數(shù)值;ε表示為分類常數(shù)。在錯誤檢測過程中,所有連接的權(quán)值均為分配器通過多次學習獲得的。因此,權(quán)值的學習可以看作是分配器判定錯誤的時候?qū)θ≈颠M行調(diào)整的動態(tài)過程。根據(jù)學習過程中,不同類型分類器的實際表現(xiàn),為其賦予不同的可行度權(quán)值,并將其帶入到上述構(gòu)建的文本編輯錯誤校對模型當中,實現(xiàn)對錯誤文本的檢測。
首先,從最小編輯距離角度出發(fā),無論是在對自然語言進行理解還是處理的過程中,都會出現(xiàn)兩個字符之間的距離問題,這種距離與普通意義上的距離不同,是指語義距離或編輯距離。在進行文本編輯錯誤改正過程中,通過對兩個字符之間的最小編輯距離進行調(diào)整,可以實現(xiàn)對其改正。假設某一字符信息串為A,其長度對應為a,另一字符信息串為B,其長度對應為b,則此時A和B之間的編輯距離為ed(A[a],B[b])。在進行改正的過程中,編輯操作會引起“時間”問題產(chǎn)生,需要一定的“時間”才能夠縮短兩個字符信息串之間的編輯距離。在改正中,通常設定一次的編輯改正操作需要使用單位1的“時間”,一次才能夠?qū)⒕庉嬀嚯x的“時間”量的計算等價轉(zhuǎn)換為字符信息串編輯操作的次數(shù),方便對錯誤改正次數(shù)的記錄。
還可以通過易混淆集構(gòu)建的方式,對文本編輯錯誤進行改正。將所有具有與被校對詞語在某一特征上存在相似的不同詞語匯總,并構(gòu)成一個易混淆集合。這種特征可以是詞語本身含義的相同,也可以是形或音等某個方面上的相同。通過對文本編輯錯誤進行觀察,通常情況下產(chǎn)生的文本錯誤是由于文本當中正確詞語被其相應的易混淆集合當中的詞語所代替。因此,為了將其修改為正確的詞語,將易混淆集合作為重要的候選詞語集合。由于文字數(shù)量較大,因此易混淆集合在構(gòu)建時難度較高,為了降低構(gòu)建難度,利用現(xiàn)有詞典附錄擴充的方式構(gòu)建易混淆集合,以此在易混淆集合的基礎(chǔ)上完成對文本編輯錯誤的改正。按照上述內(nèi)容將完成改正后的文本輸出,并通過人工校對的方式,對其進行二次校對和三次校對,最終將完成校對的文本匯總,構(gòu)成最終出版時的圖書類型,以此完成對圖書的校對和出版。
為了探究數(shù)字化校對技術(shù)應用后的數(shù)字出版與傳統(tǒng)出版方式相比是否具備更高的應用優(yōu)勢,本文選擇以某個圖書的原始稿件作為研究對象,分別通過兩種出版方式下的校對方法,對原始稿件進行校對,并記錄兩種校對方法的應用效果。在實驗過程中,將原始稿件當中的所有文字內(nèi)容設置為開放完全測試集,該集合當中包含了200個錯誤用例,記錄兩種方法校對得到的真實錯誤數(shù)量以及合理給出改正建議的個數(shù),并通過計算得出改正建議的準確率。由于兩種校對方法在實際應用中計錯誤個數(shù)方式不同,為了確保實驗結(jié)果的公正性,對其錯誤文字計數(shù)標準進行規(guī)定:首先,針對同一頁面當中反復出現(xiàn)的錯誤文字,最多標記為四個錯誤個數(shù);其次,針對扉頁上出現(xiàn)的文字錯誤,最多標記為兩個錯誤個數(shù);最后,針對文章當中存在影響語義、不符合版面要求的文字或需要空格而未空格的錯誤,每處計1個錯誤個數(shù)。按照上述錯誤文字計數(shù)標準,記錄兩種校對方法的校對結(jié)果,并繪制成如表1所示的結(jié)果。

表1 數(shù)字化校對與傳統(tǒng)校對應用效果對比
從表1中記錄的實驗數(shù)據(jù)可以看出,盡管真實錯誤個數(shù)為50個時的校對出錯誤個數(shù)為48個,但隨著校對真實錯誤個數(shù)的增加,數(shù)字化校對能夠?qū)χ巴瓿傻男?nèi)容進行反復檢查,因此能夠確保將最終所有200個真實錯誤個數(shù)全部檢測出來。但傳統(tǒng)校對方法在完成對之前內(nèi)容的校對后,不會對其進行反復檢查,因此最終造成校對出錯誤個數(shù)與真實錯誤個數(shù)相差較大的問題產(chǎn)生。數(shù)字化校對能夠?qū)崿F(xiàn)對所有開放完全測試集中錯誤內(nèi)容的標記,并給出相應的改正意見,而傳統(tǒng)校對方法校對出錯誤個數(shù)相比較少,并且無法針對已經(jīng)發(fā)現(xiàn)的校對錯誤給出相應的改正意見。通過進一步對兩種校對方法的改正建議準確率計算得出,數(shù)字化校對的準確率高達100%,而傳統(tǒng)校對方法的準確率僅為:131÷200×100%=65.5%。因此,通過上述實驗及得出的實驗結(jié)果可以證明,數(shù)字化校對方法在應用到數(shù)字出版當中時,能夠?qū)崿F(xiàn)對所有錯誤內(nèi)容的準確校對,并給出準確率更高的改正建議。將該技術(shù)應用到數(shù)字出版當中,可進一步促進出版行業(yè)向著數(shù)字化、信息化的方向發(fā)展。
數(shù)字化校對技術(shù)不僅可以應用在出版領(lǐng)域中,還可應用于各類文字處理領(lǐng)域當中,未來隨著數(shù)字化校對技術(shù)的不斷完善,其校對應用性能也將逐漸提升,從最基礎(chǔ)的自動分詞,到語義語法分析等。盡管當前數(shù)字化校對技術(shù)的應用仍然處于剛剛起步的階段,未來還會遇到更大的困難和挑戰(zhàn)。從當前研究水平來看,仍然存在幾方面問題需要解決。例如,當前數(shù)字化校對受到錯誤實例缺少等多種條件限制;基于長詞模糊匹配對校對技術(shù)進行優(yōu)化等。在今后研究中,還將針對上述存在問題進行更加深入研究,從而進一步提高數(shù)字化校對技術(shù)的應用性能。