- 引擎(Scrapy)
- 用来处理整个系统的数据流处理,触发事务(根据接收到的不同数据类型调用不同的方法)
- 调度器(Scheduler)
- 调度器接收来自Spider的请求,并将它们加入到队列中,
- 这个过程涉及到对请求的去重和优先级排序
- 根据一定的策略(如优先级)从队列中取出请求发送给Downloader
- 调度器还负责过滤掉重复的请求,确保同一个资源不会被多次下载
- 这通常通过一个去重过滤器(DupeFilter)实现
- 下载器(Downloader)
- Downloader负责下载Scrapy Engine发送的所有请求, 并将网页内容返回给引擎, 由引擎再传递给Spider。
- Downloader 中间件 可以在请求发送到Downloader之前或从Downloader返回之后执行自定义的功能,例如设置代理、用户代理(User-Agent)等
- 爬虫(spiders)
- Spiders是用户编写用来从特定网站(或一组网站)提取数据的类
- 它们接收来自Downloader的响应并解析内容,提取数据(抽取项),寻找新的URL来爬取
- 把数据提交给Item Pipeline处理
- 而新的URL请求将被提交给Engine,由Scheduler进一步处理
- 管道(Item Pipeline)
- Item Pipeline负责处理由Spider提取出来的数据
- 它的主要任务包括清洗、验证和存储数据
- Pipeline是由多个阶段组成的处理管道,每个阶段都是一个Python函数或对象
- 数据在Pipeline中流经各个阶段,每个阶段都可以对数据进行处理,如去重、存储到数据库等
昆明网络营销推广报价公司
分销系统是什么意思、海外购物网站app、永久使用、不限域名、企业vi设计在市场运作中的重要性
南昌百度推广排名?
- 首页
- 建站之星如何设置模板
- 正文