Skip to main content

tabula-java 的简单包装器,将表格从 PDF 读入 DataFrame

项目描述

表格

构建状态 PyPI 版本 文件状态 帕特伦

tabula-pytabula-java的简单 Python 包装器,可以读取 PDF 中的表格。您可以从 PDF 中读取表格并将其转换为 pandas DataFrame。tabula-py 还允许您将 PDF 文件转换为 CSV、TSV 或 JSON 文件。

您可以查看示例笔记本并在 Google Colab 上试用,或者我们强烈建议您阅读我们的文档,尤其是常见问题解答部分。

表格示例

要求

  • Java 8+
  • Python 3.7+

操作系统

我确认在 macOS 和 Ubuntu 上工作。但是有些人确认它可以在 Windows 10 上运行。另请参阅文档以了解 Windows 10 的详细安装

用法

安装

确保您有 Java 运行时并为其设置 PATH。

pip install tabula-py

例子

tabula-py 使您能够将表格从 PDF 提取到 DataFrame 或 JSON 中。它还可以从 PDF 中提取表格并将文件保存为 CSV、TSV 或 JSON。  

import tabula

# Read pdf into list of DataFrame
dfs = tabula.read_pdf("test.pdf", pages='all')

# Read remote pdf into list of DataFrame
dfs2 = tabula.read_pdf("https://github.com/tabulapdf/tabula-java/raw/master/src/test/resources/technology/tabula/arabic.pdf")

# convert PDF into CSV file
tabula.convert_into("test.pdf", "output.csv", output_format="csv", pages='all')

# convert all PDFs in a directory
tabula.convert_into_by_batch("input_directory", output_format='csv', pages='all')

有关详细信息,请参阅示例笔记本。我也推荐阅读@aegis4048的教程文章

贡献

有兴趣帮忙吗?我很想得到你的帮助!

您可以通过以下方式提供帮助:

  • 报告错误
  • 添加或编辑文档。
  • 通过拉取请求贡献代码。另见贡献
  • 写一篇博文或tabula-py向可能受益于使用它的人传播有关信息。

贡献者

另一个支持

tabula-py您还可以通过 GitHub Sponsors 或Patreon捐款来支持我们继续开展工作。

项目详情


下载文件

下载适用于您平台的文件。如果您不确定要选择哪个,请了解有关安装包的更多信息。

源分布

tabula-py-2.5.1.tar.gz (12.5 MB 查看哈希)

已上传 source

内置分布

tabula_py-2.5.1-py3-none-any.whl (12.0 MB 查看哈希

已上传 py3