Skip to main content

CRAFT 文本检测器和 Keras CRNN 识别模型的打包灵活版本。

项目描述

kerasocr文件状态

这是Keras CRNN 实现和已发布的CRAFT 文本检测模型的稍微完善和打包的版本。它提供了用于训练文本检测和 OCR 管道的高级 API。

请参阅文档以获取更多示例,包括训练自定义模型。

入门

安装

keras-ocr支持 Python >= 3.6 和 TensorFlow >= 2.0.0。

# To install from master
pip install git+https://github.com/faustomorales/keras-ocr.git#egg=keras-ocr

# To install from PyPi
pip install keras-ocr

使用

该软件包附带了一个易于使用的 CRAFT 文本检测模型的实现,来自这个存储库和 CRNN 识别模型来自这个存储库

import matplotlib.pyplot as plt

import keras_ocr

# keras-ocr will automatically download pretrained
# weights for the detector and recognizer.
pipeline = keras_ocr.pipeline.Pipeline()

# Get a set of three example images
images = [
    keras_ocr.tools.read(url) for url in [
        'https://upload.wikimedia.org/wikipedia/commons/b/bd/Army_Reserves_Recruitment_Banner_MOD_45156284.jpg',
        'https://upload.wikimedia.org/wikipedia/commons/e/e8/FseeG2QeLXo.jpg',
        'https://upload.wikimedia.org/wikipedia/commons/b/b4/EUBanana-500x112.jpg'
    ]
]

# Each list of predictions in prediction_groups is a list of
# (word, box) tuples.
prediction_groups = pipeline.recognize(images)

# Plot the predictions
fig, axs = plt.subplots(nrows=len(images), figsize=(20, 20))
for ax, image, predictions in zip(axs, images, prediction_groups):
    keras_ocr.tools.drawAnnotations(image=image, predictions=predictions, ax=ax)

标记图像示例

比较 keras-ocr 和其他 OCR 方法

您可能想知道这个包中的模型与现有的云 OCR API 相比如何。我们在下面提供了一些指标,以及用于使用 COCO-Text 验证集中的前 1000 张图像计算它们的笔记本。我们将其限制为 1,000 次,因为在撰写本文时,Google Cloud 免费套餐每月可拨打 1,000 次。与往常一样,需要注意:

  • 没有保证适用于这些数字 - 请注意并独立计算您自己的指标以验证它们。在撰写本文时,它们应该被认为是一个非常粗略的初稿。如果您发现错误,请打开一个问题。特别是,云 API 有多种选项可以用来提高其性能,并且可以以不同的方式解析响应。我可能在配置或解析中犯了一些错误。同样,如果您发现错误,请打开一个问题!
  • 我们忽略标点符号和字母大小写,因为 keras-ocr 中的开箱即用识别器(由这个独立的存储库提供)也不支持。请注意,AWS Rekognition 和 Google Cloud Vision 都支持标点符号以及大写和小写字符。
  • 我们忽略非英文文本。
  • 我们忽略难以辨认的文字。
模型 潜伏 精确 记起
AWS 719 毫秒 0.45 0.48
GCP 388毫秒 0.53 0.58
keras-ocr (比例=2) 417毫秒 0.53 0.54
keras-ocr (比例=3) 699 毫秒 0.5 0.59
  • 精度和召回率是基于 50% 或更高的联合交集和 50% 或更高的文本与基本事实相似度计算的。
  • keras-ocr延迟值是使用 Google Colab 上的 Tesla P4 GPU 计算的。scale是指提供的参数,该参数keras_ocr.pipelines.Pipeline()确定在推理之前应用于图像的放大。
  • 云提供商的延迟是通过顺序请求来衡量的,因此您可以通过同时发出多个 API 请求来显着提高速度。
  • 每个条目都提供指向 JSON 文件的链接,该文件包含每次传递时所做的注释。您可以将它与笔记本一起使用来计算指标,而无需自己调用 API(尽管您被鼓励独立复制它)!

为什么不与 Tesseract 比较呢?在我尝试的每个配置中,Tesseract 在这个测试中的表现都很差。Tesseract 在扫描书籍时表现最好,而不是在这个数据集中的附带场景文本上。

高级配置

默认情况下,如果 GPU 可用,Tensorflow 会尝试获取几乎所有可用的视频内存,如果您使用 Tensorflow 和 Pytorch 运行多个模型,这很糟糕。为环境变量设置任何值MEMORY_GROWTH都将强制 Tensorflow 仅动态分配所需的 GPU 内存。

您还可以通过将环境变量设置MEMORY_ALLOCATED为任何浮点数来指定每个 Tensorflow 进程的限制,该值是 VRAM 与存在总量的浮点比率。

要应用这些更改,请keras_ocr.config.configure()在您导入的文件顶部调用keras_ocr.

贡献

要处理该项目,请先执行以下操作。这些说明可能还不适用于 Windows,但如果 Windows 用户对如何修复它有一些想法,将不胜感激(我目前没有要测试的 Windows 机器)。

# Install local dependencies for
# code completion, etc.
make init

# Build the Docker container to run
# tests and such.
make build
  • 您可以让 JupyterLab 服务器运行以试验使用make lab.
  • 要在提交代码之前运行检查,您可以使用make format-check type-check lint-check test.
  • 要查看文档,请使用make docs.

要实现新功能,请首先提交一个建议您进行更改的问题以供讨论。

要报告问题,请提交带有示例代码、预期结果、实际结果和完整回溯的问题。

故障排除

  • 这个包正在安装opencv-python-headless,但我更喜欢不同的opencv风格。这是由于aleju/imgaug#473。您可以在安装后卸载不需要的 OpenCV 风格keras-ocr。我们对不便表示抱歉。

项目详情


下载文件

下载适用于您平台的文件。如果您不确定要选择哪个,请了解有关安装包的更多信息。

源分布

keras-ocr-0.9.1.tar.gz (42.0 kB 查看哈希

已上传 source

内置分布

keras_ocr-0.9.1-py3-none-any.whl (42.3 kB 查看哈希

已上传 py3