用于从具有行跨度的 HTML 表中提取数据的 Python 库

项目描述

py-html-table 包

这是一个简单的包，它使用 beautifulSoup 来提取具有行跨度的 HTML 表格数据。

安装

pip install py-html-table

宣布

将 py_html_table.py_html_table 导入为 pyht

参数

范围	意义	样本值
桌子	包含表格html代码的python变量	任何变量名
开始	开始报废的行数。从0开始	2
山口	表中的总列数。从 1 开始	5
输出	您需要的输出类型	列表（或）数据框（或）csv
生的	'Y' 获取表格单元格内的确切内容。'N' 仅获取文本	“Y”或“N”

注意：必须提供所有变量名称作为包的输入

使用示例

从 bs4 导入请求
import BeautifulSoup
import requests_html
import lxml.html as lh
import py_html_table.py_html_table as pyht

url = ' https://en.wikipedia.org/wiki/List_of_Presidents_of_the_United_States '
session = requests_html.HTMLSession()
r = session.get(url)
content = BeautifulSoup(r.content, 'lxml')
all_tables = content.select( ".wikitable")
table = all_tables[0]
col = 9
begin = 2
output = 'dataframe'
raw = 'N'
pyht.extract(table,begin,col,output,raw)

项目详情

发布历史发布通知| RSS订阅

这个版本

0.0.8

2018 年 11 月 29 日

0.0.7

2018 年 11 月 28 日

0.0.6

2018 年 11 月 28 日

0.0.5

2018 年 11 月 28 日

0.0.4

2018 年 11 月 28 日

0.0.3

2018 年 11 月 28 日

0.0.2

2018 年 11 月 28 日

下载文件

下载适用于您平台的文件。如果您不确定要选择哪个，请了解有关安装包的更多信息。

源分布

py_html_table-0.0.8.tar.gz （2.7 kB 查看哈希）

已上传 2018 年 11 月 29 日 source

内置分布

py_html_table-0.0.8-py3-none-any.whl （4.0 kB 视图哈希）

已上传 2018 年 11 月 29 日 py3

py_html_table -0.0.8.tar.gz 的哈希值

py_html_table-0.0.8.tar.gz 的哈希值
算法	哈希摘要
SHA256	`3fc62224f858b6ae34171d9bbd9e2ebf385c5f3c79e4b842fcba6ccd6a93ff1a`
MD5	`f0331d2237dfd836301818884259269e`
布莱克2-256	`13d52cd768d4b4aff7c45cc81e7280e367e2e21bf339320c7c1e26987c74d8d1`

py_html_table -0.0.8-py3-none-any.whl 的哈希值

py_html_table-0.0.8-py3-none-any.whl 的哈希值
算法	哈希摘要
SHA256	`8926da1e707e840a81e2c50d712328e5d860bfbd14f06b78c4b5b9e06f45ac95`
MD5	`3c795ad9a8b536407cd4f657fe6009ee`
布莱克2-256	`fb02eab4addb6f11bbe762e5f8b7b3d515993de4fedfd2c23611ee10d1841564`

py-html-table 0.0.8

导航

项目链接

统计数据

Meta

Maintainers

分类

项目描述

py-html-table 包

安装

宣布

参数

注意：必须提供所有变量名称作为包的输入

使用示例

项目详情

项目链接

统计数据

元

维护者

分类器

发布历史发布通知| RSS订阅

下载文件

源分布

内置分布

py-html-table 0.0.8

导航

项目链接

统计数据

Meta

Maintainers

分类

项目描述

py-html-table 包

安装

宣布

参数

注意：必须提供所有变量名称作为包的输入

使用示例

项目详情

项目链接

统计数据

元

维护者

分类器

发布历史 发布通知| RSS订阅

下载文件

源分布

内置分布

发布历史发布通知| RSS订阅