tabula-java 的简单包装器,将表格从 PDF 读入 DataFrame
项目描述
表格
tabula-py是tabula-java的简单 Python 包装器,可以读取 PDF 中的表格。您可以从 PDF 中读取表格并将其转换为 pandas DataFrame。tabula-py 还允许您将 PDF 文件转换为 CSV、TSV 或 JSON 文件。
您可以查看示例笔记本并在 Google Colab 上试用,或者我们强烈建议您阅读我们的文档,尤其是常见问题解答部分。
要求
- Java 8+
- Python 3.7+
操作系统
我确认在 macOS 和 Ubuntu 上工作。但是有些人确认它可以在 Windows 10 上运行。另请参阅文档以了解 Windows 10 的详细安装。
用法
安装
确保您有 Java 运行时并为其设置 PATH。
pip install tabula-py
例子
tabula-py 使您能够将表格从 PDF 提取到 DataFrame 或 JSON 中。它还可以从 PDF 中提取表格并将文件保存为 CSV、TSV 或 JSON。
import tabula
# Read pdf into list of DataFrame
dfs = tabula.read_pdf("test.pdf", pages='all')
# Read remote pdf into list of DataFrame
dfs2 = tabula.read_pdf("https://github.com/tabulapdf/tabula-java/raw/master/src/test/resources/technology/tabula/arabic.pdf")
# convert PDF into CSV file
tabula.convert_into("test.pdf", "output.csv", output_format="csv", pages='all')
# convert all PDFs in a directory
tabula.convert_into_by_batch("input_directory", output_format='csv', pages='all')
有关详细信息,请参阅示例笔记本。我也推荐阅读@aegis4048写的教程文章。
贡献
有兴趣帮忙吗?我很想得到你的帮助!
您可以通过以下方式提供帮助:
贡献者
- @lahoffm
- @jakekara
- @lcd1232
- @kirkholloway
- @CurtLH
- @nikhilgk
- @krassowski
- @alexandreio
- @rmnevesLH
- @red-bin
- @加莱西奥
- @red-bin
- @alexandreio
- @bpben
- @Bueddl
- @cjotade
- @codeboy5
- @manohar-voggu
- @deveshSingh06
另一个支持
tabula-py您还可以通过 GitHub Sponsors 或Patreon捐款来支持我们继续开展工作。
项目详情
下载文件
下载适用于您平台的文件。如果您不确定要选择哪个,请了解有关安装包的更多信息。
源分布
tabula-py-2.5.1.tar.gz
(12.5 MB
查看哈希)
内置分布
tabula_py-2.5.1-py3-none-any.whl
(12.0 MB
查看哈希)