CRAFT 文本检测器和 Keras CRNN 识别模型的打包灵活版本。
项目描述
kerasocr
这是Keras CRNN 实现和已发布的CRAFT 文本检测模型的稍微完善和打包的版本。它提供了用于训练文本检测和 OCR 管道的高级 API。
请参阅文档以获取更多示例,包括训练自定义模型。
入门
安装
keras-ocr
支持 Python >= 3.6 和 TensorFlow >= 2.0.0。
# To install from master
pip install git+https://github.com/faustomorales/keras-ocr.git#egg=keras-ocr
# To install from PyPi
pip install keras-ocr
使用
该软件包附带了一个易于使用的 CRAFT 文本检测模型的实现,来自这个存储库和 CRNN 识别模型来自这个存储库。
import matplotlib.pyplot as plt
import keras_ocr
# keras-ocr will automatically download pretrained
# weights for the detector and recognizer.
pipeline = keras_ocr.pipeline.Pipeline()
# Get a set of three example images
images = [
keras_ocr.tools.read(url) for url in [
'https://upload.wikimedia.org/wikipedia/commons/b/bd/Army_Reserves_Recruitment_Banner_MOD_45156284.jpg',
'https://upload.wikimedia.org/wikipedia/commons/e/e8/FseeG2QeLXo.jpg',
'https://upload.wikimedia.org/wikipedia/commons/b/b4/EUBanana-500x112.jpg'
]
]
# Each list of predictions in prediction_groups is a list of
# (word, box) tuples.
prediction_groups = pipeline.recognize(images)
# Plot the predictions
fig, axs = plt.subplots(nrows=len(images), figsize=(20, 20))
for ax, image, predictions in zip(axs, images, prediction_groups):
keras_ocr.tools.drawAnnotations(image=image, predictions=predictions, ax=ax)
比较 keras-ocr 和其他 OCR 方法
您可能想知道这个包中的模型与现有的云 OCR API 相比如何。我们在下面提供了一些指标,以及用于使用 COCO-Text 验证集中的前 1000 张图像计算它们的笔记本。我们将其限制为 1,000 次,因为在撰写本文时,Google Cloud 免费套餐每月可拨打 1,000 次。与往常一样,需要注意:
- 没有保证适用于这些数字 - 请注意并独立计算您自己的指标以验证它们。在撰写本文时,它们应该被认为是一个非常粗略的初稿。如果您发现错误,请打开一个问题。特别是,云 API 有多种选项可以用来提高其性能,并且可以以不同的方式解析响应。我可能在配置或解析中犯了一些错误。同样,如果您发现错误,请打开一个问题!
- 我们忽略标点符号和字母大小写,因为 keras-ocr 中的开箱即用识别器(由这个独立的存储库提供)也不支持。请注意,AWS Rekognition 和 Google Cloud Vision 都支持标点符号以及大写和小写字符。
- 我们忽略非英文文本。
- 我们忽略难以辨认的文字。
模型 | 潜伏 | 精确 | 记起 |
---|---|---|---|
AWS | 719 毫秒 | 0.45 | 0.48 |
GCP | 388毫秒 | 0.53 | 0.58 |
keras-ocr (比例=2) | 417毫秒 | 0.53 | 0.54 |
keras-ocr (比例=3) | 699 毫秒 | 0.5 | 0.59 |
- 精度和召回率是基于 50% 或更高的联合交集和 50% 或更高的文本与基本事实相似度计算的。
keras-ocr
延迟值是使用 Google Colab 上的 Tesla P4 GPU 计算的。scale
是指提供的参数,该参数keras_ocr.pipelines.Pipeline()
确定在推理之前应用于图像的放大。- 云提供商的延迟是通过顺序请求来衡量的,因此您可以通过同时发出多个 API 请求来显着提高速度。
- 每个条目都提供指向 JSON 文件的链接,该文件包含每次传递时所做的注释。您可以将它与笔记本一起使用来计算指标,而无需自己调用 API(尽管您被鼓励独立复制它)!
为什么不与 Tesseract 比较呢?在我尝试的每个配置中,Tesseract 在这个测试中的表现都很差。Tesseract 在扫描书籍时表现最好,而不是在这个数据集中的附带场景文本上。
高级配置
默认情况下,如果 GPU 可用,Tensorflow 会尝试获取几乎所有可用的视频内存,如果您使用 Tensorflow 和 Pytorch 运行多个模型,这很糟糕。为环境变量设置任何值MEMORY_GROWTH
都将强制 Tensorflow 仅动态分配所需的 GPU 内存。
您还可以通过将环境变量设置MEMORY_ALLOCATED
为任何浮点数来指定每个 Tensorflow 进程的限制,该值是 VRAM 与存在总量的浮点比率。
要应用这些更改,请keras_ocr.config.configure()
在您导入的文件顶部调用keras_ocr
.
贡献
要处理该项目,请先执行以下操作。这些说明可能还不适用于 Windows,但如果 Windows 用户对如何修复它有一些想法,将不胜感激(我目前没有要测试的 Windows 机器)。
# Install local dependencies for
# code completion, etc.
make init
# Build the Docker container to run
# tests and such.
make build
- 您可以让 JupyterLab 服务器运行以试验使用
make lab
. - 要在提交代码之前运行检查,您可以使用
make format-check type-check lint-check test
. - 要查看文档,请使用
make docs
.
要实现新功能,请首先提交一个建议您进行更改的问题以供讨论。
要报告问题,请提交带有示例代码、预期结果、实际结果和完整回溯的问题。
故障排除
- 这个包正在安装
opencv-python-headless
,但我更喜欢不同的opencv
风格。这是由于aleju/imgaug#473。您可以在安装后卸载不需要的 OpenCV 风格keras-ocr
。我们对不便表示抱歉。
项目详情
下载文件
下载适用于您平台的文件。如果您不确定要选择哪个,请了解有关安装包的更多信息。