PDF解析器和分析器

项目描述

pdfminer.6

我们了解PDF

Pdfminer.six 是原始 PDFMiner 的社区维护分支。它是一种从 PDF 文档中提取信息的工具。它专注于获取和分析文本数据。Pdfminer.six 直接从 PDF 的源代码中提取页面中的文本。它还可用于获取文本的确切位置、字体或颜色。

它以模块化方式构建，因此 pdfminer.six 的每个组件都可以轻松替换。您可以实现自己的解释器或渲染设备，将 pdfminer.six 的强大功能用于文本分析以外的其他目的。

查看阅读文档的完整文档。

特征

完全用 Python 编写。
解析、分析和转换 PDF 文档。
PDF-1.7 规范支持。（嗯，几乎）。
CJK 语言和垂直书写脚本支持。
各种字体类型（Type1、TrueType、Type3 和 CID）支持。
支持提取图像（JPG、JBIG2、位图）。
支持各种压缩（ASCIIHexDecode、ASCII85Decode、LZWDecode、FlateDecode、RunLengthDecode、CCITTFaxDecode）
支持 RC4 和 AES 加密。
支持 AcroForm 交互式表单提取。
目录提取。
标记内容提取。
自动布局分析。

如何使用

安装 Python 3.6 或更新版本。
安装

pip install pdfminer.six
（可选）安装额外的依赖项以提取图像。

pip install 'pdfminer.six[image]
使用命令行界面从 pdf 中提取文本：

python pdf2txt.py samples/simple1.pdf

贡献

请务必阅读贡献指南。

致谢

此存储库包含来自的代码pyHanko；原始许可证已包含在此处。

项目详情

发布历史发布通知| RSS订阅

这个版本

20220524

2022 年 5 月 24 日

20220506

2022 年 5 月 6 日

20220319

2022 年 3 月 19 日

20211012

2021 年 10 月 12 日

20201018

2020 年 10 月 18 日

20200726

2020 年 7 月 26 日

20200720

2020 年 7 月 20 日

20200517

2020 年 5 月 17 日

20200402

2020 年 4 月 1 日

20200401

2020 年 4 月 1 日

20200124

2020 年 1 月 24 日

20200121

2020 年 1 月 21 日

20200104

2020 年 1 月 4 日

20191110

2019 年 11 月 10 日

20191107

2019 年 11 月 7 日

20191020

2019 年 10 月 20 日

20181108

2018 年 11 月 8 日

20170720

2017 年 7 月 20 日

20170419

2017 年 4 月 20 日

20170418

2017 年 4 月 18 日

20160614

2016 年 6 月 14 日

20160202

2016 年 2 月 2 日

20151013

2015 年 10 月 13 日

20140915

2014 年 9 月 15 日

下载文件

下载适用于您平台的文件。如果您不确定要选择哪个，请了解有关安装包的更多信息。

源分布

pdfminer.six-20220524.tar.gz （7.4 MB 查看哈希）

已上传 2022 年 5 月 24 日 source

内置分布

pdfminer.six-20220524-py3-none-any.whl （5.6 MB 查看哈希）

已上传 2022 年 5 月 24 日 py3

pdfminer.six -20220524.tar.gz 的哈希值

pdfminer.six-20220524.tar.gz 的哈希值
算法	哈希摘要
SHA256	`5a64c924410ac48501d6060b21638bf401db69f5b1bd57207df7fbc070ac8ae2`
MD5	`6e1c43bd4f14ce8316eaa5ca75ffb885`
布莱克2-256	`7342b6b37b4d70c68dcf8f33a9858a02685f8ca5b42312e276fab56c1299967e`

pdfminer.six -20220524-py3-none-any.whl 的哈希值

pdfminer.six-20220524-py3-none-any.whl 的哈希值
算法	哈希摘要
SHA256	`7e19b857ec76bcbd35665909ad8965a481ad48d9bdff6c45f8522ee66f8a7aab`
MD5	`fc1ecd2cb85bcfcdd8f541c7c226a183`
布莱克2-256	`921cf0e976509c8d453cb0f1b360619bbc2b588ef733c32780c9e0221918b7fa`

pdfminer.six 20220524

导航

项目链接

统计数据

Meta

Maintainers

分类

项目描述

pdfminer.6

特征

如何使用

贡献

致谢

项目详情

项目链接

统计数据

元

维护者

分类器

发布历史发布通知| RSS订阅

下载文件

源分布

内置分布

pdfminer.six 20220524

导航

项目链接

统计数据

Meta

Maintainers

分类

项目描述

pdfminer.6

特征

如何使用

贡献

致谢

项目详情

项目链接

统计数据

元

维护者

分类器

发布历史 发布通知| RSS订阅

下载文件

源分布

内置分布

发布历史发布通知| RSS订阅