ocr識別引擎是什么? OCR引擎包含哪些部分?很多人知道ocr識別技術(shù),但是對于
ocr識別引擎并不是很了解,ocr識別引擎是ocr識別技術(shù)的核心,是ocr識別技術(shù)的關(guān)鍵,下面福昕全能王就來給大家相信介紹下吧。
ocr識別引擎是什么?
OCR引擎是指將OCR軟件的核心技術(shù)(不包含UI)整理成SDK(SOFTWARE DEVELOPMENT TOOLKIT)軟件開發(fā)包的形式,供各種應(yīng)用程序調(diào)用OCR核心技術(shù),開發(fā)OCR各種應(yīng)用軟件(如
文檔識別、名片識別、證件識別,車牌識別,移動端識別應(yīng)用等)。
OCR引擎包含哪些部分?
OCR引擎核心技術(shù)模塊主要是由下面幾個部分組成:
圖像輸入:讀取不同圖像格式文件的算法。
圖像預(yù)處理:主要包括圖像二值化,噪聲去除,傾斜較正等算法
版面分析:將文檔圖片分段落,分行的算法就叫版面分析算法
字符切割:字符切割算法主要處理因字符粘連、斷筆造成字符難以簡單切割的問題。
字符特征提取:對字符圖像提取多維的特征用于后面的特征匹配模式識別算法。
字符識別:將當(dāng)前字符提取的特征向量與特征模板庫進(jìn)行模板粗分類和模板細(xì)匹配,識別出字符的算法。
版面恢復(fù):識別原文檔的排版,按原排版格式將識別結(jié)果輸出到word或pdf等格式文檔,叫做版面恢復(fù)算法。
后處理校正: 根據(jù)特定的語言上下文的關(guān)系,對識別結(jié)果進(jìn)行較正的算法。
OCR識別率受到哪些因素的影響?
1.圖片的質(zhì)量,一般建議150dpi以上。
2.顏色,一般對彩色識別很差,黑白的圖片較高,因此建議ocr的為黑白tif格式。
3.最重要的就是字體,如果是手寫識別率很低。
國內(nèi)
OCR識別簡體差錯率為萬分之三,如果要求更高的精度需要投入更大的人工干預(yù)。繁體識別由于繁體字庫的不統(tǒng)一性(民國時期的字庫和現(xiàn)在繁體字庫不統(tǒng)一),導(dǎo)致識別困難,在人工干預(yù)下,精度能達(dá)到90%以上(圖文清晰情況下)。
ocr識別引擎是什么? OCR引擎包含哪些部分?ocr識別引擎對于ocr識別技術(shù)來說很關(guān)鍵,通常分為圖像輸入、識別、校正等幾個方面,大家可以去福昕全能王官網(wǎng)上詳細(xì)了解哦。