你有多久沒好好讀過一本實(shí)體書了?有沒有整天拿著平板電腦和手機(jī)過日子?我們?cè)絹碓劫N近電子閱讀的時(shí)代,手機(jī)里的TXT,筆記本上的DOC和HTNL,還有iPad和電紙書上的EPUB以及最常用的PDF。在所有這些格式里,PDF有著最接近實(shí)體書的閱讀體驗(yàn),但也有實(shí)體書一樣的問題——在電腦上不能方便地進(jìn)行編輯。想必大部分同學(xué)畢業(yè)論文時(shí)都檢索過不少PDF格式的期刊和論文,每當(dāng)你想摘錄這些珍貴文件的某些段落時(shí),就會(huì)發(fā)現(xiàn)一般的PDF太不給力了,閱讀軟件自帶的文字識(shí)別功能基本不堪大用,之后校對(duì)需要花的時(shí)間比重新輸入一遍也差不了多少,真是讓人內(nèi)流滿面。
有沒有什么方法讓PDF既保留出色的閱讀感,又讓它能方便編輯呢?這就是咱們今天要說的雙層PDF了。所謂雙層PDF自然是指有兩層文件的PDF了,其中一層是從普通紙質(zhì)文件掃描出來的原始圖像,也就是咱們看到的那些東西;另一層就有些門道了,這一層在內(nèi)容上沒有變化,但是它支持選擇、復(fù)制、檢索等編輯功能。使用這樣的PDF文件時(shí),我們看到的是與紙質(zhì)書毫無區(qū)別的第一層,編輯的是與TXT,DOC等性質(zhì)相似的第二層。美中不足的是這種閱讀與編輯統(tǒng)統(tǒng)完美解決的好東西在國內(nèi)資源并不豐富,本著一個(gè)Geek人吃不飽也要找事兒干的精神,今天咱就來跟大家研究研究一下怎樣自己手動(dòng)制作簡(jiǎn)易的雙層PDF。
俗語說得好:沒有好工具,再好的創(chuàng)意也出不來。制作雙層PDF不需要什么鋸、刀、斧,只需要有一臺(tái)能夠正常運(yùn)行的電腦就行。有了硬件,還要準(zhǔn)備軟件,office和PDF閱讀軟件是不能缺少的,另外還要準(zhǔn)備一個(gè)OCR(光學(xué)字符識(shí)別)軟件。一切都準(zhǔn)備妥當(dāng)后,兄弟們就可以開始挽起袖子大干一場(chǎng)了。
要制作雙層PDF,首先得要有圖層。也就是說,不管你是掃描也好,拍攝也好,或者直接在網(wǎng)上下載也好,反正首先要搞到你要做這本書的圖片,然后我們才能對(duì)圖層進(jìn)行OCR識(shí)別。正如陳老師說的,攝影的境界,你們這些玩器材的永遠(yuǎn)都不懂,方塊字的境界,外國佬也永遠(yuǎn)都不懂。所以我們放棄了臃腫不堪且不符合咱們天朝上邦國情的OCR界大佬ABBYY FineReader,而選擇使用漢王PDF OCR和清華紫光OCR軟件,這兩個(gè)土貨雖然簡(jiǎn)陋了些,但勝在夠簡(jiǎn)單易用,特別對(duì)于方塊字的識(shí)別,效果杠杠的。以漢王PDF OCR 8.1版本為例,在這兒文字內(nèi)容選用村上春樹老師的《遇見百分之百女孩》。
Step1
先聲明咱教的這個(gè)技術(shù)不是電腦基礎(chǔ)操作,僅適合對(duì)電腦操作熟練的兄弟把玩。切回正題,先在OCR軟件中打開掃描書后得到的圖片文件,然后選擇“識(shí)別”菜單內(nèi)選擇“版面分析”命令,軟件開始對(duì)當(dāng)前圖片進(jìn)行版面構(gòu)成分析,也可以按快捷鍵“FS”:版面分析后就可以在編輯框內(nèi)看到文章內(nèi)容被劃分區(qū)域、并按照閱讀順序排列并編號(hào)。如果發(fā)現(xiàn)區(qū)域切分不對(duì),可拉動(dòng)框邊調(diào)整大小,改動(dòng)編號(hào)等方式調(diào)整得與原文一致。如果原文的版面確實(shí)太復(fù)雜,就需要我們進(jìn)行手動(dòng)版面分析了。手動(dòng)版面分析也不復(fù)雜,無論左右切分還是混合排版,只要移動(dòng)光標(biāo)箭頭按照閱讀順序框選圖像上的內(nèi)容即可。遇到豎寫文字或者表格和圖像,使用“自定義”版面屬性就可以解決。
Step2
版面分析過后,就要正兒八經(jīng)地來用OCR提取文字了。選中要識(shí)別的圖片頁,使用“識(shí)別”菜單上的“開始識(shí)別”命令或者快捷鍵“F8”對(duì)所選圖像進(jìn)行版面識(shí)別,稍等片刻后識(shí)別出的文字會(huì)在上方識(shí)別窗口中出現(xiàn)。
Step3
即便是最牛哄哄的OCR軟件也不能保證百分之百的識(shí)別正確率,這時(shí)候就要對(duì)識(shí)別出的內(nèi)容進(jìn)行校對(duì)了。識(shí)別窗口同時(shí)也是一個(gè)文字編輯區(qū),可以對(duì)照下方的原始文檔對(duì)其進(jìn)行“剪切”“復(fù)制”“粘貼”以及文字修改增減等等各種常見的文字編輯。在這大家就要做一次文字校對(duì),對(duì)著正文內(nèi)容好好地找找茬吧!
Step4
校對(duì)完成后的圖像文件可以保存成Word、WPS等軟件直接處理的RTF文件(富文本格式),也可以保存成TXT、HTML以及XLS等幾種常用文檔格式。在此建議各位,保存一份RTF作為接來雙層PDF制作用,另保存一份TXT文件備用。
將OCR掃描出來的圖片的文件保存為TIF圖片格式,只需要在“漢王FPDF OCR”軟件中選擇“換名保存圖像”就可以將掃描文件保存為TIF圖片格式。怎么樣,這個(gè)雙層PDF制作用到的軟件真的很省吧,很多操作都可以在一個(gè)軟件中完成。
Step1
OCR識(shí)別結(jié)束后,只要將圖像層和文字層合體就能生成雙層PDF了。包括AdobeInDesign在內(nèi)的很多制作PDF的軟件都能夠?qū)崿F(xiàn)這個(gè)步驟。本著安裝最少軟件的“簡(jiǎn)單”的原則,在這里隆重向大家推薦使用Word實(shí)現(xiàn)圖像層與文字層合體的方法。
Step2
新建一個(gè)Word文檔,把OCR軟件識(shí)別出的文字內(nèi)容復(fù)制到到其中。建議采用前面保存的RTF格式中的文字最佳,細(xì)心的童鞋還可以再次校對(duì)一下。
將TIF圖片插入到文檔,選擇“設(shè)置圖片格式”對(duì)話框的“版式”頁面,文字環(huán)繞選擇為“襯于文字下方”。OK,一層圖片一層文字,雙層PDF的雛形這就出現(xiàn)了。
Step4
下面就到了需要非常非常有耐心的處理,調(diào)整Word文件內(nèi)文字的排版和圖片大小,讓文字和圖片重合一致。如果你對(duì)Word文檔操作相當(dāng)熟練,那么這一步就不會(huì)顯得太難。
Step5
保存文件,并將文件格式轉(zhuǎn)換為PDF。如果你的Word沒有直接另存為PDF的功能,建議安裝Adobe Acrobat ProfessionaI插件。有了它不光可以制作雙層PDF,今后你手中不必編輯但需要長(zhǎng)期存留的Word文檔都可以用PDF的格式好好地保存起來,那是相當(dāng)實(shí)用。