利用Acrobat軟件生成文本型PDF文件

2013-12-31 00:00:00馬云彤

今傳媒 2013年12期

摘要：我國網絡期刊文獻大都采用PDF格式，且以文本型（矢量模式）為主，但也有部分為圖片型（光柵模式）PDF文獻。圖片型PDF文獻無法復制、搜索、取詞，也不支持在線實時檢索、學術不端檢測等功能。利用Adobe Acrobat Professional 10.0可對掃描或其他方式生成的圖片型PDF文獻進行頁面裁剪、OCR文本識別及頁面校正，從而可以獲得頁面整潔、端正的文本型PDF文獻。

關鍵詞：Adobe Acrobat Professional 10.0；OCR文本識別；文本型；圖片型

中圖分類號：TP391.1 文獻標識碼：A 文章編號：1672-8122（2013）12-0105-02

我國網絡期刊出版采用的文件格式主要有CAJ、PDF和HTML三種[1]，其中大多數為PDF格式[2]。PDF是世界上期刊網絡版通用格式[3]，我國的中國知網（CNKI）和國家科技圖書文獻中心（NSTL）也都提供PDF格式的期刊文獻。生成PDF文檔的常用方法包括通過其他軟件中轉和通過虛擬打印機。目前期刊編輯部廣泛使用北大方正書版排版軟件，可以直接或間接生成文本型PDF文獻，其文字為矢量模式，可以進行選擇復制、搜索查找、金山詞霸取詞等操作。但在缺少原始電子文件時，則需以掃描樣刊的方式生成圖片型PDF文獻。圖片型PDF文件整個頁面為一個光柵圖像，其中的文字不能被選中 [4-5]，不僅無法復制、搜索、取詞，也不支持在線實時檢索、學術不端檢測等功能，也常會出現邊緣有多余文字以及頁面不正等情況，從而影響到讀者對文獻的閱讀利用和數據庫系統(tǒng)的正常運行。本文利用Adobe Acrobat Professional 10.0，以自國家科技圖書文獻中心（NSTL）下載的英文文獻“Relative measure index： a metric to measure the quality of journals”作為示例，對掃描（也可以是其他方式轉換）生成的圖片型（光柵模式）PDF文獻進行裁剪，通過OCR文本識別轉換為文本型（矢量模式），并同步對頁面進行校正。

一、PDF文件頁面裁剪

用Adobe Acrobat Professional 10.0打開所處理文獻，首先對頁面進行裁剪，裁剪需要逐頁進行，而對于文本識別、啟動注釋等，可以整篇同時完成。

圖1為所處理文獻的首頁，該文獻為掃描生成的圖片型PDF文件，無法進行文字選中、復制、搜索（查找）、翻譯取詞等操作，整篇文獻頁面橫置，頁面邊緣有多余文字。

點擊右上角“工具”按鈕，打開“工具”窗格，選擇“頁面”→“裁剪”路徑（如圖2所示）。用出現的十字形光標選擇裁剪區(qū)域（如圖3所示），在選擇區(qū)域內雙擊鼠標右鍵，出現“設置頁面框”對話框（如圖4所示），確定即可完成裁剪；這一步也可以單擊鼠標右鍵，點擊“設置頁面框”命令，這時即直接將裁減框外的頁面裁剪掉。

圖1 所處理的掃描生成PDF文獻（首頁）

圖2 工具—頁面—裁剪圖3 選擇裁減區(qū)域

工具窗格也可以通過菜單欄中的“視圖”→“工具”路徑打開，但不如通過工具窗格打開操作便捷、界面友好。

圖4 “設置頁面框”對話框

二、將圖片型PDF文件轉換成文本型PDF文件

打開“工具”窗格，通過“識別文本”→“在本文件中”路徑（如圖5所示），打開“識別文本”對話框（如圖6所示），點擊“編輯”按鈕，出現“識別文本-一般設置”對話框（如圖7所示），設置OCR識別的主要語言，根據筆者觀察選擇中文或英文對識別效果沒有影響，識別準確率都很高，但對生成的文本型PDF進行復制、粘貼操作中，如果設置語言與轉換語言不一致，則可能出現亂碼。分辨率選擇300dpi，設置完成后確定，即可將圖片型轉換為文本型，并同步進行頁面校正，將傾斜的頁面轉正，也可將橫置頁面轉換為豎立；通過菜單“文件”→“另存為”→“PDF”，設置路徑、重命名后加以保存。

圖5 工具窗格—識別文本圖6 “識別文本”對話框

圖7 “識別文本-一般設置”對話框

將圖片型PDF文件轉換生成文本型PDF文件還可以通過 “工具”→“文檔處理”→“優(yōu)化掃描的PDF”路徑實現，并可進行應用自適應壓縮、小文件/高質量、濾鏡、OCR識別等各項設置（如圖8所示）。經嘗試，利用默認設置即可取得良好效果，與采用“文本識別”方法基本等效，而采用多種不同設置生成的文本型PDF顯示效果差別也不明顯。

圖8 “優(yōu)化掃描的PDF”對話框

圖9顯示新生成的文獻首頁的完整頁面，頁面端正、整潔，可進行文字選中、復制等操作（如圖10所示），也可用金山詞霸取詞（如圖11所示）。

圖9 新生成的文本型PDF文獻頁面

圖10 選中和復制

圖11 金山詞霸屏幕取詞

三、結語

通過大型網絡數據庫下載已成為讀者獲得所需文獻的主要途徑。網絡期刊文獻大多采用PDF格式，以文本型為主，但仍有部分為圖片型PDF文件。圖片型PDF文件不支持以文字屬性為運行基礎的功能，例如復制、搜索、取詞以及文獻檢索、學術不斷檢測，等等。采用Adobe Acrobat Professional 10.0將圖片型PDF文件轉換為文本型PDF文件，對于讀者充分利用文獻資源和數據庫良好運行具有一定的實用意義。

筆者在閱讀PDF格式英文文獻時，習慣于采用金山詞霸屏幕取詞和翻查字典結合的方式，但是從網上獲得的PDF文獻，常為光柵模式無法取詞；將PDF文件由圖片型轉換為文本型，可以有效解決這一問題。

參考文獻：

方寶花.期刊網絡出版中的文件格式比較[J].情報技術，2005（2）.

周雪瑩.采用雙層 PDF 形式將方正書版文件制作為可檢索式 PDF 文件[J].編輯學報，2012（6）.

陳莊.網絡科技期刊插圖圖像質量調查與分析[J].科技與出版，2011（6）.

李宗紅.利用Adobe Acrobat Professional 8.0軟件實現圖片型PDF文件到文本型PDF文件的轉換[J].中國科技期刊研究，2010 （l）.

周雪瑩.對“利用Adobe Acrobat Professional 8.0軟件實現圖片PDF文件到文本型PDF文件的轉換”一文的質疑——與李宗紅老師商榷[J].中國科技期刊研究，2011（6）.

今傳媒2013年12期

今傳媒的其它文章: 淺析古希臘時期“言論自由”; 想像的時尚符號：對電玩的文化研究; 高校虛擬演播室在精品課程制作中的應用研究; 陜西高校微博現狀與對策研究; 試論我國動畫配音專業(yè)化的發(fā)展前景; 大學生自媒體思想政治工作的實踐與思考