Skip to main content

用于读取和解析 sitemap.xml 数据的脚本/库

项目描述

站点地图解析器

读取 url 并转换为对象的脚本和库,允许导出为 CSV 或 JSON。

根据:https ://www.sitemaps.org/protocol.html 处理站点地图

安装

pip install site-map-parser

用法

脚本使用

smapper $url > /tmp/data.csv

写入 ~/sitemap_run.log 的日志

论据

争论 选项 默认 信息
-H 不适用 不适用 输出参数数据
网址 例如http://www.example.com-http://www.example.com/other_sitemap.xml 不适用 必需 - 要检索的站点地图数据
-l,--日志 CRITICALERRORWARNINGINFODEBUG INFO 记录到安装文件夹中的 sitemapper_run.log
-e,--出口商 csv或者json csv 数据的导出格式

图书馆使用

from sitemapparser import SiteMapParser

sm = SiteMapParser('http://www.example.com')    # reads /sitemap.xml
if sm.has_sitemaps():
    sitemaps = sm.get_sitemaps() # returns iterator of sitemapper.Sitemap instances
else:
    urls = sm.get_urls()         # returns iterator of sitemapper.Url instances

出口

有两个导出器可用:csv 和 json

CSV 导出器
from sitemapparser.exporters import CSVExporter

# sm set as per earlier library usage example

csv_exporter = CSVExporter(sm)
if sm.has_sitemaps():
    print(csv_exporter.export_sitemaps())
elif sm.has_urls():
    print(csv_exporter.export_urls())
JSON 导出器
from sitemapparser.exporters import JSONExporter

# sm set as per earlier library usage example

json_exporter = JSONExporter(sm)
if sm.has_sitemaps():
    print(json_exporter.export_sitemaps())
elif sm.has_urls():
    print(json_exporter.export_urls())

项目详情


下载文件

下载适用于您平台的文件。如果您不确定要选择哪个,请了解有关安装包的更多信息。

源分布

site-map-parser-0.3.9.tar.gz (7.7 kB 查看哈希

已上传 source

内置分布

site_map_parser-0.3.9-py3-none-any.whl (11.3 kB 查看哈希

已上传 py3