用于从具有行跨度的 HTML 表中提取数据的 Python 库
项目描述
py-html-table 包
这是一个简单的包,它使用 beautifulSoup 来提取具有行跨度的 HTML 表格数据。
安装
pip install py-html-table
宣布
将 py_html_table.py_html_table 导入为 pyht
参数
范围 | 意义 | 样本值 |
---|---|---|
桌子 | 包含表格html代码的python变量 | 任何变量名 |
开始 | 开始报废的行数。从0开始 | 2 |
山口 | 表中的总列数。从 1 开始 | 5 |
输出 | 您需要的输出类型 | 列表(或)数据框(或)csv |
生的 | 'Y' 获取表格单元格内的确切内容。'N' 仅获取文本 | “Y”或“N” |
注意:必须提供所有变量名称作为包的输入
使用示例
从 bs4 导入请求
import BeautifulSoup
import requests_html
import lxml.html as lh
import py_html_table.py_html_table as pyht
url = ' https://en.wikipedia.org/wiki/List_of_Presidents_of_the_United_States '
session = requests_html.HTMLSession()
r = session.get(url)
content = BeautifulSoup(r.content, 'lxml')
all_tables = content.select( ".wikitable")
table = all_tables[0]
col = 9
begin = 2
output = 'dataframe'
raw = 'N'
pyht.extract(table,begin,col,output,raw)
项目详情
下载文件
下载适用于您平台的文件。如果您不确定要选择哪个,请了解有关安装包的更多信息。
源分布
py_html_table-0.0.8.tar.gz
(2.7 kB
查看哈希)
内置分布
py_html_table-0.0.8-py3-none-any.whl
(4.0 kB
视图哈希)
关
py_html_table -0.0.8.tar.gz 的哈希值
算法 | 哈希摘要 | |
---|---|---|
SHA256 | 3fc62224f858b6ae34171d9bbd9e2ebf385c5f3c79e4b842fcba6ccd6a93ff1a |
|
MD5 | f0331d2237dfd836301818884259269e |
|
布莱克2-256 | 13d52cd768d4b4aff7c45cc81e7280e367e2e21bf339320c7c1e26987c74d8d1 |
关
py_html_table -0.0.8-py3-none-any.whl 的哈希值
算法 | 哈希摘要 | |
---|---|---|
SHA256 | 8926da1e707e840a81e2c50d712328e5d860bfbd14f06b78c4b5b9e06f45ac95 |
|
MD5 | 3c795ad9a8b536407cd4f657fe6009ee |
|
布莱克2-256 | fb02eab4addb6f11bbe762e5f8b7b3d515993de4fedfd2c23611ee10d1841564 |