OCR ( Optical Character Recognition,光學(xué)字符識別)是指電子設(shè)備(例如掃描儀或數(shù)碼相機)檢查紙上打印的字符,通過檢測暗、亮的模式確定其形狀,然后用字符識別方法將形狀翻譯成計算機文字的過程;即對文本資料進行掃描,然后對圖像文件進行分析處理,獲取文字及版面信息的過程。
當需要將紙質(zhì)文檔掃描并創(chuàng)建成電子文檔或?qū)ΜF(xiàn)有的電子文檔(如 PDF文檔或 PDF 文件包)進行操作時, OCR 是最常用的一種方式。
在日常工作學(xué)習(xí)中,當使用福昕高級PDF編輯器打開基于紙質(zhì)掃描或圖片的PDF文檔時,能自動檢測到并彈出以下信息框,提示是否進行 OCR。
對于 PDF中基于圖像的文本,我們可以隨時對其執(zhí)行文本識別操作~
打開福昕高級PDF編輯器,點擊“轉(zhuǎn)換” > “識別文本” > “當前文件”, 在彈出的“識別文本”對話框中,指定識別范圍。從語言列表中選擇文檔的語言,您也可以選擇多種語言。
若勾選“可檢索文件的圖像”,則識別后圖片上的文本可以被選擇并且您在檢索文本時可搜索到文檔中圖片上的文本;若勾選“可編輯文本”,則識別后編輯文本時圖片上的文本也可支持編輯。 點擊“確定”開始識別文本。PDF文本識別進程條將會彈出顯示進程,識別結(jié)束后,再執(zhí)行搜索功能,您會發(fā)現(xiàn)原來在圖片上或掃描文檔中的文本也可以被搜索到。
(1)可檢索文件的圖像:在 OCR過程中,程序?qū)D片上文本進行分析并使用與這些文本非常接近的字詞替代圖片上的文本。
替代的字詞將被放置在 PDF中一個不可見的文本層上, 從而使圖片上的文本可以被選擇和搜索。
替代過程中程序無法確定的文本將被標記為 OCR 疑似錯誤結(jié)果,并需要手動進行更正。
(2)可編輯文本:在OCR過程中, 程序?qū)D片上的文本的形狀與系統(tǒng)上安裝的近似字體進行比對后,將這些文本轉(zhuǎn)換為可編輯文本。
在日常工作學(xué)習(xí)中,當使用福昕高級PDF編輯器打開基于紙質(zhì)掃描或圖片的PDF文檔時,能自動檢測到并彈出以下信息框,提示是否進行 OCR。
對于 PDF中基于圖像的文本,我們可以隨時對其執(zhí)行文本識別操作~
打開福昕高級PDF編輯器,點擊“轉(zhuǎn)換” > “識別文本” > “當前文件”, 在彈出的“識別文本”對話框中,指定識別范圍。從語言列表中選擇文檔的語言,您也可以選擇多種語言。
若勾選“可檢索文件的圖像”,則識別后圖片上的文本可以被選擇并且您在檢索文本時可搜索到文檔中圖片上的文本;若勾選“可編輯文本”,則識別后編輯文本時圖片上的文本也可支持編輯。 點擊“確定”開始識別文本。PDF文本識別進程條將會彈出顯示進程,識別結(jié)束后,再執(zhí)行搜索功能,您會發(fā)現(xiàn)原來在圖片上或掃描文檔中的文本也可以被搜索到。
(1)可檢索文件的圖像:在 OCR過程中,程序?qū)D片上文本進行分析并使用與這些文本非常接近的字詞替代圖片上的文本。
替代的字詞將被放置在 PDF中一個不可見的文本層上, 從而使圖片上的文本可以被選擇和搜索。
替代過程中程序無法確定的文本將被標記為 OCR 疑似錯誤結(jié)果,并需要手動進行更正。
(2)可編輯文本:在OCR過程中, 程序?qū)D片上的文本的形狀與系統(tǒng)上安裝的近似字體進行比對后,將這些文本轉(zhuǎn)換為可編輯文本。