PDF解析器和分析器
项目描述
pdfminer.6
我们了解PDF
Pdfminer.six 是原始 PDFMiner 的社区维护分支。它是一种从 PDF 文档中提取信息的工具。它专注于获取和分析文本数据。Pdfminer.six 直接从 PDF 的源代码中提取页面中的文本。它还可用于获取文本的确切位置、字体或颜色。
它以模块化方式构建,因此 pdfminer.six 的每个组件都可以轻松替换。您可以实现自己的解释器或渲染设备,将 pdfminer.six 的强大功能用于文本分析以外的其他目的。
查看 阅读文档的完整文档。
特征
- 完全用 Python 编写。
- 解析、分析和转换 PDF 文档。
- PDF-1.7 规范支持。(嗯,几乎)。
- CJK 语言和垂直书写脚本支持。
- 各种字体类型(Type1、TrueType、Type3 和 CID)支持。
- 支持提取图像(JPG、JBIG2、位图)。
- 支持各种压缩(ASCIIHexDecode、ASCII85Decode、LZWDecode、FlateDecode、RunLengthDecode、CCITTFaxDecode)
- 支持 RC4 和 AES 加密。
- 支持 AcroForm 交互式表单提取。
- 目录提取。
- 标记内容提取。
- 自动布局分析。
如何使用
-
安装 Python 3.6 或更新版本。
-
安装
pip install pdfminer.six -
(可选)安装额外的依赖项以提取图像。
pip install 'pdfminer.six[image] -
使用命令行界面从 pdf 中提取文本:
python pdf2txt.py samples/simple1.pdf
贡献
请务必阅读贡献指南。
致谢
此存储库包含来自的代码pyHanko;原始许可证已包含在此处。
项目详情
关
pdfminer.six -20220524.tar.gz 的哈希值
| 算法 | 哈希摘要 | |
|---|---|---|
| SHA256 | 5a64c924410ac48501d6060b21638bf401db69f5b1bd57207df7fbc070ac8ae2 |
|
| MD5 | 6e1c43bd4f14ce8316eaa5ca75ffb885 |
|
| 布莱克2-256 | 7342b6b37b4d70c68dcf8f33a9858a02685f8ca5b42312e276fab56c1299967e |
关
pdfminer.six -20220524-py3-none-any.whl 的哈希值
| 算法 | 哈希摘要 | |
|---|---|---|
| SHA256 | 7e19b857ec76bcbd35665909ad8965a481ad48d9bdff6c45f8522ee66f8a7aab |
|
| MD5 | fc1ecd2cb85bcfcdd8f541c7c226a183 |
|
| 布莱克2-256 | 921cf0e976509c8d453cb0f1b360619bbc2b588ef733c32780c9e0221918b7fa |