xpaw - 异步网页抓取框架

异步网页抓取框架

项目描述

https://travis-ci.org/jadbin/xpaw.svg?branch=master

https://coveralls.io/repos/jadbin/xpaw/badge.svg?branch=master

https://img.shields.io/badge/license-Apache2-blue.svg

主要特征

用于抓取网页的网页抓取框架
用于从网页中提取结构化数据的数据提取工具

蜘蛛示例

下面是我们的一个爬虫类示例，其作用为取百度新闻的热点闻：

from xpaw import Spider, HttpRequest, Selector, run_spider


class BaiduNewsSpider(Spider):
    def start_requests(self):
        yield HttpRequest("http://news.baidu.com/", callback=self.parse)

    def parse(self, response):
        selector = Selector(response.text)
        hot = selector.css("div.hotnews a").text
        self.log("Hot News:")
        for i in range(len(hot)):
            self.log("%s: %s", i + 1, hot[i])


if __name__ == '__main__':
    run_spider(BaiduNewsSpider)

在爬虫类中，我们定义了一些方法：

start_requests : 返回爬虫最初的请求。
parse : 处理得到的页面，这里使用Selector和 CSS Selector 语法提取到我们需要的数据。

文档

http://xpaw.readthedocs.io/

项目详情

发布历史发布通知| RSS订阅

这个版本

0.12.0

2019 年 8 月 10 日

0.11.2

2019 年 8 月 6 日

0.11.1

2019 年 7 月 29 日

0.11.0

2019 年 7 月 11 日

0.11.0b0 预发布

2019 年 6 月 27 日

0.10.4

2018 年 11 月 6 日

0.10.3

2018 年 9 月 1 日

0.10.2

2018 年 8 月 28 日

0.10.1

2018 年 7 月 18 日

0.10.0

2018 年 7 月 15 日

0.9.1

2018 年 4 月 17 日

0.9.0

2017 年 11 月 13 日

0.8.0

2017 年 11 月 5 日

0.7.1

2017 年 10 月 25 日

0.7.0

2017 年 10 月 24 日

0.6.6

2017 年 5 月 9 日

0.6.4

2017 年 5 月 5 日

0.6.3

2017 年 5 月 1 日

0.6.2

2017 年 3 月 30 日

0.6.1

2017 年 3 月 23 日

0.6.0

2017 年 3 月 16 日

下载文件

下载适用于您平台的文件。如果您不确定要选择哪个，请了解有关安装包的更多信息。

源分布

xpaw-0.12.0.tar.gz (172.2 kB 查看哈希)

已上传 2019 年 8 月 10 日 source

xpaw -0.12.0.tar.gz 的哈希值

xpaw-0.12.0.tar.gz 的哈希值
算法	哈希摘要
SHA256	`e2fb006259034f7ccc29e5c771b7c68ce796fc58426f546c4ea1d476f28ddbbf`
MD5	`0c24078f44ac38ee632d6c74d0927acd`
布莱克2-256	`09890bc209cafb6e68c97ce01c6eb27954abb024c3804c2b264cd445e6926e37`

xpaw 0.12.0

导航

项目链接

统计数据

Meta

Maintainers

分类

项目描述

主要特征

蜘蛛示例

文档

项目详情

项目链接

统计数据

元

维护者

分类器

发布历史发布通知| RSS订阅

下载文件

源分布

xpaw 0.12.0

导航

项目链接

统计数据

Meta

Maintainers

分类

项目描述

主要特征

蜘蛛示例

文档

项目详情

项目链接

统计数据

元

维护者

分类器

发布历史 发布通知| RSS订阅

下载文件

源分布

发布历史发布通知| RSS订阅