Skip to main content

日本漫画的OCR

项目描述

漫画 OCR

日文文本的光学字符识别,主要关注日文漫画。它使用使用 Transformers 的Vision Encoder Decoder框架构建的自定义端到端模型。

漫画 OCR 可用作通用印刷日文 OCR,但其主要目标是提供高质量的文本识别,对漫画特定的各种场景具有鲁棒性:

  • 垂直和水平文本
  • 带有假名的文本
  • 覆盖在图像上的文字
  • 各种各样的字体和字体样式
  • 低质量图像

与许多 OCR 模型不同,Manga OCR 支持在单次向前传递中识别多行文本,因此可以立即处理漫画中的文本气泡,而无需将它们拆分成行。

也可以看看:

  • 开发代码,包括用于训练和合成数据生成的代码:链接
  • 合成数据生成管道的描述+生成图像的示例:链接

项目详情


下载文件

下载适用于您平台的文件。如果您不确定要选择哪个,请了解有关安装包的更多信息。

源分布

manga-ocr-0.1.7.ta​​r.gz (65.4 kB 查看哈希

已上传 source

内置分布

manga_ocr-0.1.7-py3-none-any.whl (62.3 kB 查看哈希

已上传 py3