本篇内容介绍了“爬虫Crawl Spider模板的用法”的有关知识,在实际案例的操作过程中,不少人都会遇到这样的困境,接下来就让小编带领大家学习一下如何处理这些情况吧!希望大家仔细阅读,能够学有所成!
1.Spider模板
import scrapy
from scrapy.linkextractors import LinkExtractor
from scrapy.spiders import CrawlSpider, Rule
class CsdnSpider(CrawlSpider):
name = 'csdn'
allowed_domains = ['www.csdn.net']
start_urls = ['https://www.csdn.net/']
rules = (
Rule(LinkExtractor(allow=r'Items/'), callback='parse_item', follow=True),
)
def parse_item(self, response):
return item
2.CrawlSpider类介绍
3.rules规则列表
语法:Rule(link_extractor, callback=None, cb_kwargs=None, follow=None, process_links=None, process_request=None),rules是Rule对象的集合,用于匹配目标网站并排除干扰;
link_extractor:是一个LinkExtractor对象,其定义了如何从爬取到的页面提取链接;
callback:从link_extractor中每获取到链接得到Responses时,会调用参数所指定的值作为回调函数,该回调 函数接收一个response作为其一个参数;
cb_kwargs:用于作为**kwargs参数,传递给callback;
follow:是一个布尔值,指爬取了之后,是否还继续从该页面提取链接,然后继续爬下去, 默认是False;
process_links:指定spider中哪个的函数将会被调用,从link_extractor中获取到链接列表时将会调用该函数 。该方法主要用来过滤;
process_request:指定处理函数,根据该Rule提取到的每个Request时,该函数将会被调用,可以对Request进 行处理,该函数必须返回Request或者None;
主要参数:
allow:满足括号中”正则表达式”的值会被提取,如果为空,则全部匹配;
deny:与这个正则表达式(或正则表达式列表)不匹配的url一定不提取;
allow_domains:会被提取的连接的;
deny_domains:一定不会被提取链接的domains;
restrict_xpaths:使用xpath表达式,和allow共同作用过滤链接;
5.爬取CSDN的文章, 且提取URL和文章标题
from scrapy.linkextractors import LinkExtractor
from scrapy.spiders import CrawlSpider, Rule
class DoubanSpider(CrawlSpider):
name = 'csdn'
allowed_domains = ['blog.csdn.net']
start_urls = ['https://blog.csdn.net']
# 指定链接提取的规律
rules = (
# follow:是指爬取了之后,是否还继续从该页面提取链接,然后继续爬下去
Rule(LinkExtractor(allow=r'.*/article/.*'), callback='parse_item', follow=True),
)
def parse_item(self, response):
print('-'*100)
print(response.url)
title = response.css('h2::text').extract()[0]
print(title)
print('-' * 100)
return None“爬虫Crawl Spider模板的用法”的内容就介绍到这里了,感谢大家的阅读。如果想了解更多行业相关的知识可以关注天达云网站,小编将为大家输出更多高质量的实用文章!