终极站点地图解析器
项目描述
适用于 Python 3.5+ 的网站站点地图解析器。
特征
支持所有站点地图格式:
容错更常见的站点地图错误
尝试查找robots.txt中未列出的站点地图
使用快速且内存高效的 Expat XML 解析
即使有大量的站点地图层次结构也不会消耗太多内存
提供生成的站点地图树作为易于使用的对象树
支持使用自定义 Web 客户端
使用少量积极维护的第三方模块
经过合理测试
安装
pip install ultimate_sitemap_parser
用法
from usp.tree import sitemap_tree_for_homepage
tree = sitemap_tree_for_homepage('https://www.nytimes.com/')
print(tree)
sitemap_tree_for_homepage()将返回一个AbstractSitemap子类对象树,这些对象代表网站上的站点地图层次结构;请参阅AbstractSitemap 子类的参考。
如果您只想列出网站内所有站点地图中的所有页面,请考虑使用all_pages()方法:
# all_pages() returns an Iterator
for page in tree.all_pages():
print(page)
all_pages()方法将返回一个产生SitemapPage对象的迭代器;请参阅SitemapPage 的参考。
项目详情
下载文件
下载适用于您平台的文件。如果您不确定要选择哪个,请了解有关安装包的更多信息。
源分布
Ultimate_sitemap_parser-0.5.tar.gz
(20.2 kB
视图哈希)
内置分布
关
Ultimate_sitemap_parser-0.5- py2.py3 -none-any.whl 的哈希值
算法 | 哈希摘要 | |
---|---|---|
SHA256 | 806e723eeb0293c38e111822d651e987b1494ae9c08be82e73172ade667418a6 |
|
MD5 | 5479eb21fc1626a54642dc06ae9613de |
|
布莱克2-256 | ee58a6394d980bda84c44b442a3bab5ceb49626d01d4b17fbc7fe6d41b90c496 |