Scrapy爬虫框架中理解爬虫中间件的作用

Scrapy爬虫框架中理解爬虫中间件的作用

爬虫中间件的作用主要有三点:

  • 1.处理引擎传递给爬虫的响应
  • 2.处理爬虫传递给引擎的请求
  • 3.处理爬虫传递给引擎的数据项

通常有默认的爬虫中间件:

 #Default
['scrapy.spidermiddlewares.httperror.HttpErrorMiddleware':50
 'scrapy.spidermiddlewares.offsite.OffsiteMiddleware':500,  #不再允许的域中
 'scrapy.spidermiddlewares.referer.RefererMiddleware':700,  #网页的referre填充请求标头
 'scrapy.spidermiddlewares.urllength.UrlLengthMiddleware':800, #url长度
 'scrapy.spidermiddlewares.depth.DepthMiddleware':900   #url深度
]

分享到 :

发表评论

登录... 后才能评论