Skip to main content

用于从具有行跨度的 HTML 表中提取数据的 Python 库

项目描述

py-html-table 包

这是一个简单的包,它使用 beautifulSoup 来提取具有行跨度的 HTML 表格数据。

安装

pip install py-html-table

宣布

将 py_html_table.py_html_table 导入为 pyht

参数

范围 意义 样本值
桌子 包含表格html代码的python变量 任何变量名
开始 开始报废的行数。从0开始 2
山口 表中的总列数。从 1 开始 5
输出 您需要的输出类型 列表(或)数据框(或)csv
生的 'Y' 获取表格单元格内的确切内容。'N' 仅获取文本 “Y”或“N”

注意:必须提供所有变量名称作为包的输入

使用示例

从 bs4 导入请求
import BeautifulSoup
import requests_html
import lxml.html as lh
import py_html_table.py_html_table as pyht

url = ' https://en.wikipedia.org/wiki/List_of_Presidents_of_the_United_States '
session = requests_html.HTMLSession()
r = session.get(url)
content = BeautifulSoup(r.content, 'lxml')
all_tables = content.select( ".wikitable")
table = all_tables[0]
col = 9
begin = 2
output = 'dataframe'
raw = 'N'
pyht.extract(table,begin,col,output,raw)

项目详情


下载文件

下载适用于您平台的文件。如果您不确定要选择哪个,请了解有关安装包的更多信息。

源分布

py_html_table-0.0.8.tar.gz (2.7 kB 查看哈希

已上传 source

内置分布

py_html_table-0.0.8-py3-none-any.whl (4.0 kB 图哈希)

已上传 py3