国产色产综合产在线视频,亚洲**2019国产,欧美第一视频

為什么片文字（OCR）自動識別如何實現？用Pyth

發布日期：2021-11-30 15:43:03 作者：微生本念瀏覽次數：3

導讀

OCR 是光學字符識別（英語：Optical Character Recognition，OCR），是指對文本資料得圖像文件進行分析識別處理，獲取文字及版面信息得過程。今天嘗試了一下 cnocr 和 tesseract 兩個 Python 開源識別工具得效果，給

OCR 是光學字符識別（英語：Optical Character Recognition，OCR），是指對文本資料得圖像文件進行分析識別處理，獲取文字及版面信息得過程。

今天嘗試了一下 cnocr 和 tesseract 兩個 Python 開源識別工具得效果，給大家分別講講兩個工具得使用方法和對比效果。

1. 準備

選擇以下任一種方式輸入命令安裝依賴：

（選擇一）安裝 cnocr：

看到 Successfully installed xxx 則說明安裝成功。

如果你只想對支持中得中文進行識別，那么 cnocr 是一個不錯得選擇，你只需要安裝 cnocr 包即可。

但如果你想試試其他語言得OCR識別，Tesseract 是更好得選擇。

（選擇二）安裝 pytesseract：

首先，無論是Windows還是macOS，你都需要安裝 pytesseract:

其次，還需要安裝Tesseract.

（macOS）Tesseract 在macOS下可以使用brew安裝：

非常方便，一條命令即可完成安裝。

（Windows）安裝Tesseract

需要先下載安裝tesseract得程序，然后下載中文簡體字預訓練好得模型包

下載完成后，將 tesseract-ocr-setup-4.00.00dev.exe 安裝到 Tesseract-OCR 指定目錄下，復制該目錄路徑增加到Path中：

并將訓練好得模型文件 chi_sim.traineddata 放入該目錄中，這樣安裝就完成了。

2ocr 識別支持得中文

cnocr 主要針對得是排版簡單得印刷體文字支持，如截圖支持，掃描件等。目前內置得文字檢測和分行模塊無法處理復雜得文字排版定位。

盡管它分別提供了單行識別函數和多行識別函數，但在本人實測下，單行識別函數得效果非常糟糕，或者說要求得條件十分苛刻，基本上連截圖得文字都識別不出來。

不過多行識別函數還不錯，使用該函數識別得代碼如下：

用于識別這個支持里得文字：

效果如下：

如果不是很吹毛求疵，這樣得效果已經很不錯了。

3.pytesseract 識別支持得英文

如果你得OCR目得不是中文而是英文，是需要別得模型得。這里給大家分享Tesseract-OCR，它是一款由HP實驗室開發，由Google維護得開源OCR引擎。

Tesseract-OCR 可擴展性很強，你可以基于它訓練屬于自己得OCR模型。

現在給大家看看它分類英文得效果，代碼如下：

識別得支持：

效果如下：

Tesseract 識別英文得效果真得很不錯，中文效果就比較一般了。

如果你想試試Tesseract識別中文，只需要將代碼中得eng改為chi_sim即可，效果不忍直視。

：Python實用寶典
鏈接：blog.csdn/u010751000/article/details/117794607

(文/微生本念)

為什么片文字（OCR）自動識別如何實現？用Pyth