Skip to main content

异步网页抓取框架

项目描述

https://travis-ci.org/jadbin/xpaw.svg?branch=master https://coveralls.io/repos/jadbin/xpaw/badge.svg?branch=master https://img.shields.io/badge/license-Apache2-blue.svg

主要特征

  • 用于抓取网页的网页抓取框架

  • 用于从网页中提取结构化数据的数据提取工具

蜘蛛示例

下面是我们的一个爬虫类示例,其作用为取百度新闻的热点闻:

from xpaw import Spider, HttpRequest, Selector, run_spider


class BaiduNewsSpider(Spider):
    def start_requests(self):
        yield HttpRequest("http://news.baidu.com/", callback=self.parse)

    def parse(self, response):
        selector = Selector(response.text)
        hot = selector.css("div.hotnews a").text
        self.log("Hot News:")
        for i in range(len(hot)):
            self.log("%s: %s", i + 1, hot[i])


if __name__ == '__main__':
    run_spider(BaiduNewsSpider)

在爬虫类中,我们定义了一些方法:

  • start_requests : 返回爬虫最初的请求。

  • parse : 处理得到的页面,这里使用Selector和 CSS Selector 语法提取到我们需要的数据。

文档

http://xpaw.readthedocs.io/

下载文件

下载适用于您平台的文件。如果您不确定要选择哪个,请了解有关安装包的更多信息。

源分布

xpaw-0.12.0.tar.gz (172.2 kB 查看哈希)

已上传 source