异步网页抓取框架
项目描述
主要特征
用于抓取网页的网页抓取框架
用于从网页中提取结构化数据的数据提取工具
蜘蛛示例
下面是我们的一个爬虫类示例,其作用为取百度新闻的热点闻:
from xpaw import Spider, HttpRequest, Selector, run_spider
class BaiduNewsSpider(Spider):
def start_requests(self):
yield HttpRequest("http://news.baidu.com/", callback=self.parse)
def parse(self, response):
selector = Selector(response.text)
hot = selector.css("div.hotnews a").text
self.log("Hot News:")
for i in range(len(hot)):
self.log("%s: %s", i + 1, hot[i])
if __name__ == '__main__':
run_spider(BaiduNewsSpider)
在爬虫类中,我们定义了一些方法:
start_requests : 返回爬虫最初的请求。
parse : 处理得到的页面,这里使用Selector和 CSS Selector 语法提取到我们需要的数据。