莫西
【摘 要】當計算機科學應用于出版領域,通過計算機視覺的圖像識別、語言判斷、邏輯處理和專家系統,模擬人的思維進行反應的智能處理編校軟件,迅速改變編輯校對的工作模式,由于編輯這一特殊職業所要求對各種錯誤的判斷能力和改錯準確程度,目前編校軟件還有一定的局限性。為了有效提高軟件的編校水平,利用互聯網匯集全球的編輯經驗,共建共享網絡編校系統。及時對語料庫的收集、整理、加工和測試,利用人工智能技術提高詞匯自動檢索過濾質量。本文根據軟件在編輯工作中不能解決的各種問題進行歸類分析,提出應對措施。
【關鍵詞】編校軟件;局限性;網絡編校
【Abstract】When the application of computer science and technology in the publishing field, using computer vision image recognition, linguistic judgment, logic processing, expert system and simulate human thinking of intelligent may responses to treatment editing software and changes in the mode of editing and proofreading rapidly. However, there are some limitations for the current series of editing software, due to the editor is special profession which was required to response to all the wrong judgment and correction accurately. In order to effectively improve the level of the software, the use of the Internet are suggested to gather the world's editorial experience and to build a shared network system, So that the corpus can be timely collected, collated, processed, tested, and automatic retrieval and filtering the quality of vocabulary can be improved by using artificial intelligence technology. According to the classification and analysis of the problems that can not be solved in the editing work, this paper puts forward the measures to deal with them.
【Key words】Editing software; Limitation; Network editing
當計算機科學應用于出版領域,編校軟件對文字的自動檢測極大地提高了工作效率,編校軟件是一種能勝任編輯復雜工作的智能型機器人的雛形。機器人是人工智能科學領域,人工智能是計算機科學的分支,集文化、歷史、藝術、哲學、心理學和計算機科學為一體的智能識別判斷處理程序。通過計算機視覺的圖像識別、語言判斷、邏輯處理和專家系統,模擬人的思維進行反應的智能處理編校軟件,需要達到的目標不僅對圖文進行自動檢測,還通過邏輯判斷出思想內容的正誤。
1 網絡編校策略
由于編輯這一特殊職業所要求對各種錯誤的判斷能力和改錯準確程度,需要長期的學習與實踐才能在相關專業領域達到一定的編輯水平。一個人的時間精力、專業水平、文化修養、知識積累、判斷能力是有限的。當編輯操作計算機上的編校軟件只能采集本人發現的問題,整理添加到本機上的錯詞庫,比較而言整個社會對相關文化知識的潛能是巨大的,利用互聯網匯集全球的編輯經驗,共建共享網絡編校系統。將編輯工作中發現的各種問題收集到網絡語料庫,有效提高軟件的編校質量。今后編輯書稿直接進入互聯網上的相關編校網站,把文件加載到網站指定的編校系統里,點擊相關命令按鈕進行編校工作,編校結果自動形成審核意見和文字編輯加工報告,下載意見、報告和修改好的書稿進行復審、終審。
在實際工作中遇見的編校軟件不能解決的,經過人工發現的錯誤問題,整理存入網站的服務器指定的數據庫,待專家審核后加入網絡語料庫,積累和加大語料庫的容量,加強語料處理的能力。以最大程度發揮全球同行的智慧充實完善編校軟件知識庫,有關文字詞句、專業術語、人名地名等專有詞匯自動檢索比對的質量就有較大的提升,網絡編校反過來又對人工編校形成有力的補充。
編校軟件根據《現代漢語詞典》最新版在傳統的二分檢索法的基礎上,建立索引和轉換知識庫,通過增加一個檢索過濾器提高效率。由于開發編校軟件的公司的財力、人力和知識水平有限,對語料庫的收集、整理、加工和應用測試等環節出現不能滿足社會發展的需要,編校軟件借助各種專業電子詞典也不能完全解決編輯在實際工作中的問題。盡管不斷推出新的版本,始終沒有突破本地計算機的版本升級方法。最近,北京黑馬飛騰科技有限公司推出的《黑馬網站查錯V18版》只是對網站上的網頁文字進行檢查,將整站和指定范圍下載到本地計算機上來操作;支持html、shtml、asp、php、jsp 等各種類型網頁。這種V18版不是真正意義上的全球共建共享的網絡編校系統。
2 編校軟件的局限性
由于目前編校軟件主要功能和優勢僅體現在詞語的編校上,在其他方面仍有局限性,還需要人工進行仔細編校。編校軟件出現的問題有以下幾個方面:
2.1 疑似錯誤
對疑似錯誤詞句標注粉色待人工排疑,如:“正當須求”、“既總發行”、“面封設計”、“函套”。
2.2 文字錯誤
①詞句的形近字錯誤,有的錯字組成的詞也是漢語中就有的詞,需要根據語言環境進行分析才能做出判斷,例如“人口”誤作“入口”,“木科”誤作“本科”,“讀法”誤作“續法”,“膠合”誤作“絞合”,“不失時機”誤作“不失時計”等。
②正確詞組在不適合的語言環境中的錯誤
如“品位”和“品味”,一般“品位”用作名詞,如“藝術品位高”,而“品味”當動詞用,如“品味人生”。類似需要判斷的有:檢查—檢察,反映—反應,權利—權力,啟示—啟事,截止—截至等。[1]遇到這些容易誤用的詞組,需要檢查具體在語言環境中的作用。
③兩詞之間相連的詞頭和詞尾前后2字組合成錯詞或組成合理的詞時,編校軟件是不能檢查出來,如:“前后勒口”把“前后”“勒口”拆分組成“后勒”并提議改成“后勤”。
④有的專業術語中的一個字不同,所代表的概念、意義就大不一樣,如果這個字用錯,校對軟件就不能發現。例如,地質學中的“侏羅紀”與“侏羅系”,“碳酸巖”與“碳酸鹽巖”,“拗陷”與“凹陷”,等等。
⑤對翻譯書稿注意人名、作品名、地名等對應統一。如某書講凱恩斯在伊頓公學的某數學老師,同一個老師,卻翻出兩個名字,第79頁為“赫斯特”,第87頁為“赫思特”。[2]在文章不同位置(如摘要、正文、插圖、表格、參考文獻等)對同一對象的寫法不一致。
⑥簡繁體的正確使用
如“繁體轉簡體”的文稿:什么字可以是簡體,什么字不可以是簡體。如:“藉口”應作“借口”,而“聲名狼藉”的“藉”不能轉為“借”;清代畫家“華喦”不能轉為“華巖”,“覆蓋”不能轉為“復蓋”,而“覆信”可轉為“復信”,“曹霑”不能轉為“曹沾”等。
⑦字母的大小寫、正斜體出現的錯誤,編校對軟件檢查不出來。
⑧字母與數字混淆,例如,把字母“I”當作數字“1”, 把字母“O”當作數字“0”。[3]
2.3 標點符號錯誤
①該用標點符號的地方沒有使用,例如“畫一十字”,其中的“十”字應該加引號。
②沒有正確使用逗號,在該用頓號或分號的地方均用了逗號。軟件能將引號、括號、書名號等的錯誤顯紅,如:有前引號而無后引號的,括號套法不規范等問題顯紅,但標點用法是否合理還需要人工去判斷。
③把冒號“:”當作比例號“:”使用。
④把一字線“一”當作破折號“——”使用。
⑤把“X”當作乘號“×”使用。
2.4 公式錯誤
公式中很多錯誤都不能被編校軟件查出來,包括正體與斜體,大寫與小寫,上角標與下角標,不符合科學規則,不符合編排規則,同一個公式在不同地方出現時的寫法不一致,等等。
2.5 插圖錯誤
插圖和表格的錯誤以及圖(表)位置錯誤,軟件都不能發現和解決插圖及表格的問題。
2.6 物理量和單位的符號錯誤
①國家標準中有明確規定的物理量,沒有使用其法定的符號。
②誤用物理量的單位,如質量的單位誤用成kN。
③沒有使用法定單位,如長度單位用了A。計量單位的錯誤:如“加溫到42度”,其“度”應改為“℃”或“攝氏度”;再如:(翻譯書稿)某人身高五英尺四寸,其錯在單位對應問題上,這里“英尺”應對“英寸”而不是“寸”等。[4]
④SI詞頭用錯,如把m寫成M. 把k寫成K . 把μ寫成u,等等。
2.7 數字的用法
編輯工作中執行GB《出版物上數字用法的規定》。分清何時用“阿碼”,何時用“漢碼”,特別是“阿碼”書寫的數值(含小數、分數、百分數和科學計數法)不能拆分轉行。[5]
2.8 編號錯誤
如圖序、表序、層次標題序號和參考文獻序號,等出現錯誤。
2.9 邏輯關系錯誤或者算式的計算錯誤
如“z=2 ,y=3 ,x>y”“1/3 338≥1/2 000”“a= 2,b=3,x=α+b=6”,等等。
2.10 病句問題
編校軟件對書稿中的思想不正確,不合邏輯、不合語法、不合修辭的錯誤無能為力。
①成分殘缺是指文稿的病句中殘缺主語、賓語、謂語的,如:從這一件平凡的小事中,說明了一個大問題。“從”、“中”二字刪除即可。
②主謂配搭不當,如:由于工人甩開膀子大干,這個廠今年的生產任務已經提前實現了。“實現”應改為“完成”。
③動賓配搭不當,如:我們一定要盡量節省不必要的開支和浪費。“浪費”刪除即可。
④狀語與中心詞配搭不當,如:他深深地保持著沉默。“深深”應改為“一直”。
⑤結構錯亂,如:廣大知識青年表現了無比的學習文化科學知識熱忱。“無比的”置于“熱忱”的前面即可。
⑥用詞不當,如:老師對我們的幫助教育的事例,可真是罄竹難書啊!貶義的“罄竹難書”應改為“不勝枚舉”。
⑦呼應混亂,如:只要經常鍛煉,才能增強體質。[6]“只要”應改為“只有”。
2.11 概括問題
書中涉及的是農民內容,如“讓法律走進大眾生活”[7]被軟件正常通過,“大眾”應改為“農民”。
2.12 版面格式不規范統一
版面格式問題無法利用編校軟件進行檢查,如版式設計的書名、章名和頁碼在天頭,又出現在其他地方,各級標題的字體、字號、色彩、空行等,只能靠人工進行核對。
3 應對措施
3.1 單機版編校軟件,在編輯文稿之前使用編校軟件對錯誤進行粗略過濾,有的在校對環節使用。對編校軟件查出來的問題需要人工進行排疑,沒有檢查出來的還需要編輯仔細審核和編輯加工,確保在文字詞句、語法修辭、公式符號、插圖表格、版式格式、思想內容等方面無差錯。專業詞匯編輯需要相關的知識與原則進行判斷,可以利用互聯網上的搜索引擎查找驗證。采用人工編輯為主與軟件編校為輔的應對策略,解決目前編校軟件局限性的問題。
3.2 互聯網操作的網絡編校系統還沒有問世之前,建議采用編校軟件多機版,授權在單位局域網內部使用,通過自帶的用戶庫管理系統,擴展和使用共享用戶詞庫。客戶端的每個編輯校對檢查出來的錯誤及時添加到局域網服務器上軟件的錯詞庫,通過集體的編輯經驗盡可能增強對錯誤詞句的檢查力度。
3.3 建立軟件機校流程制度,在流程中出現的問題,及時報送相關部門處理。
3.4 編校軟件及時升級到新版本,被人工檢查出來而軟件不能發現的各種錯誤,發送到軟件開發公司,以便收集、整理、加工和測試,充實編校軟件語料庫的。軟件開發公司可以采取技術手段,客戶在使用軟件出現標注粉色的疑似錯誤時自動發送到開發公司,由公司組織專家審核排疑。
3.5 編號一般是有規律性的,如:圖1—圖50,表1—表50,中間缺號、跳號、重號,軟件采用特定的編程就可以自動檢測出來。
3.6 插圖和表格的錯用或位置錯誤,與編號不一致問題,在計算機視覺的圖像識別沒有出來之前,只有靠編輯來核對。
3.7 對應統一問題,編校軟件自動提取相近的詞和頁碼,待編輯排疑。
3.8 通過互聯網匯集全球的編輯經驗,共建共享網絡編校系統是一種全新的觀念。軟件開發公司根據這一思路,策劃組織實施網絡編校系統的開發,可以借鑒在線翻譯和百度百科模式。軟件開發公司可以采取客戶對語料庫的貢獻分值與網絡編校使用分值的值差來獲得收益。采取這一策略極大地促進網絡編校系統的建立和完善。
4 結語
單機版、多機版編校軟件向智能型網絡編校系統發展,將是出版領域的一場革命,改變人們思維模式和工作程序。也是計算機人工智能的一次質的飛躍,不僅是對文稿問題的智能判斷,還能促進其他領域的發展。
【參考文獻】
[1][2][4][5]何敏.試論出版社編輯配備校對軟件“黑馬”后,校對存在的必要性[J].校對之友,2007(4).
[3]胡曉強,黃曉紅.輔以校對軟件條件下的編校工作重點[J].編輯學報,2012(3).
[6]游本遙.常見病句的語法錯誤[J].語文教學,1979(3).
[7]2003-2012年出版專業基礎知識(中級)試題真題與答案[J]. doc in 豆丁. http://www.docin.com/p-623720341.html.
[責任編輯:湯靜]