用于读取和解析 sitemap.xml 数据的脚本/库
项目描述
站点地图解析器
读取 url 并转换为对象的脚本和库,允许导出为 CSV 或 JSON。
根据:https ://www.sitemaps.org/protocol.html 处理站点地图
安装
pip install site-map-parser
用法
脚本使用
smapper $url > /tmp/data.csv
写入 ~/sitemap_run.log 的日志
论据
争论 | 选项 | 默认 | 信息 |
---|---|---|---|
-H | 不适用 | 不适用 | 输出参数数据 |
网址 | 例如http://www.example.com -http://www.example.com/other_sitemap.xml |
不适用 | 必需 - 要检索的站点地图数据 |
-l,--日志 | CRITICAL 或ERROR 或WARNING 或INFO 或DEBUG |
INFO |
记录到安装文件夹中的 sitemapper_run.log |
-e,--出口商 | csv 或者json |
csv |
数据的导出格式 |
图书馆使用
from sitemapparser import SiteMapParser
sm = SiteMapParser('http://www.example.com') # reads /sitemap.xml
if sm.has_sitemaps():
sitemaps = sm.get_sitemaps() # returns iterator of sitemapper.Sitemap instances
else:
urls = sm.get_urls() # returns iterator of sitemapper.Url instances
出口
有两个导出器可用:csv 和 json
CSV 导出器
from sitemapparser.exporters import CSVExporter
# sm set as per earlier library usage example
csv_exporter = CSVExporter(sm)
if sm.has_sitemaps():
print(csv_exporter.export_sitemaps())
elif sm.has_urls():
print(csv_exporter.export_urls())
JSON 导出器
from sitemapparser.exporters import JSONExporter
# sm set as per earlier library usage example
json_exporter = JSONExporter(sm)
if sm.has_sitemaps():
print(json_exporter.export_sitemaps())
elif sm.has_urls():
print(json_exporter.export_urls())
项目详情
下载文件
下载适用于您平台的文件。如果您不确定要选择哪个,请了解有关安装包的更多信息。
源分布
site-map-parser-0.3.9.tar.gz
(7.7 kB
查看哈希)
内置分布
site_map_parser-0.3.9-py3-none-any.whl
(11.3 kB
查看哈希)
关
site_map_parser -0.3.9-py3-none-any.whl 的哈希值
算法 | 哈希摘要 | |
---|---|---|
SHA256 | 8c6bba0e36189a8e6787ab4d41e769538cc4e94f1e179e09ed6c1e0af5fc3000 |
|
MD5 | 184ad547e0b7df9a5f36350341c618b8 |
|
布莱克2-256 | 1cc0efef8242d4cab1263aea30e4d0ac985278ae32ee62bb815c6e2c92b0edcf |