Skip to main content

PDF解析器和分析器

项目描述

pdfminer.6

持续集成 PyPI 版本 吉特

我们了解PDF

Pdfminer.six 是原始 PDFMiner 的社区维护分支。它是一种从 PDF 文档中提取信息的工具。它专注于获取和分析文本数据。Pdfminer.six 直接从 PDF 的源代码中提取页面中的文本。它还可用于获取文本的确切位置、字体或颜色。

它以模块化方式构建,因此 pdfminer.six 的每个组件都可以轻松替换。您可以实现自己的解释器或渲染设备,将 pdfminer.six 的强大功能用于文本分析以外的其他目的。

查看 阅读文档的完整文档

特征

  • 完全用 Python 编写。
  • 解析、分析和转换 PDF 文档。
  • PDF-1.7 规范支持。(嗯,几乎)。
  • CJK 语言和垂直书写脚本支持。
  • 各种字体类型(Type1、TrueType、Type3 和 CID)支持。
  • 支持提取图像(JPG、JBIG2、位图)。
  • 支持各种压缩(ASCIIHexDecode、ASCII85Decode、LZWDecode、FlateDecode、RunLengthDecode、CCITTFaxDecode)
  • 支持 RC4 和 AES 加密。
  • 支持 AcroForm 交互式表单提取。
  • 目录提取。
  • 标记内容提取。
  • 自动布局分析。

如何使用

  • 安装 Python 3.6 或更新版本。

  • 安装

    pip install pdfminer.six

  • (可选)安装额外的依赖项以提取图像。

    pip install 'pdfminer.six[image]

  • 使用命令行界面从 pdf 中提取文本:

    python pdf2txt.py samples/simple1.pdf

贡献

请务必阅读贡献指南

致谢

此存储库包含来自的代码pyHanko;原始许可证已包含在此处

项目详情


下载文件

下载适用于您平台的文件。如果您不确定要选择哪个,请了解有关安装包的更多信息。

源分布

pdfminer.six-20220524.tar.gz (7.4 MB 查看哈希

已上传 source

内置分布

pdfminer.six-20220524-py3-none-any.whl (5.6 MB 查看哈希

已上传 py3