目录
Item Pipeline简介功能:一、一个自己的Pipeline类二、启用一个Item Pipeline组件将item写入JSON文件将item写入MongoDBItem Pipeline简介
Item管道的主要责任是负责处理有蜘蛛从网页中抽取的Item,他的主要任务是清晰、验证和存储数据。
当页面被蜘蛛解析后,将被发送到Item管道,并经过几个特定的次序处理数据。
每个Item管道的组件都是有一个简单的方法组成的Python类。
他们获取了Item并执行他们的方法,同时他们还需要确定的是是否需要在Item管道中继续执行下一步或是直接丢弃掉不处理。
调用时间: 当Item在Spider中被收集之后,它将会被传递到Item Pipeline,一些组件会按照一定的顺序执行对Item的处理。
(资料图)
功能:
清理HTML数据验证爬取的数据(检查item包含某些字段)查重(并丢弃)将爬取结果保存到数据库中一、一个自己的Pipeline类
必须实现以下方法:
process_item(self, item**,** spider**)**
每个item pipeline组件都需要调用该方法,这个方法必须返回一个具有数据的dict,或是 Item(或任何继承类)对象, 或是抛出 DropItem 异常,被丢弃的item将不会被之后的pipeline组件所处理。
参数:
item (Item 对象或者一个dict) – 被爬取的itemspider (Spider 对象) – 爬取该item的spideropen_spider(self, spider)
当spider被开启时,这个方法被调用。参数:spider (Spider对象) – 被开启的spider
from_crawler(cls,crawler)
如果存在,则调用该类方法以从中创建管道实例Crawler。它必须返回管道的新实例。搜寻器对象提供对所有Scrapy核心组件(如设置和信号)的访问;这是管道访问它们并将其功能挂钩到Scrapy中的一种方法。
close_spider(self, spider)
当spider被关闭时,这个方法被调用参数:spider (Spider对象) – 被关闭的spider
二、启用一个Item Pipeline组件
为了启用一个Item Pipeline组件,你必须将它的类添加到 ITEM_PIPELINES 配置,就像下面这个例子:
ITEM_PIPELINES = { "myproject.pipelines.PricePipeline": 300, "myproject.pipelines.JsonWriterPipeline": 800, }
分配给每个类的整型值,确定了他们运行的顺序,item按数字从低到高的顺序,通过pipeline,通常将这些数字定义在0-1000范围内。
将item写入JSON文件
以下pipeline将所有爬取到的item,存储到一个独立地items.json 文件,每行包含一个序列化为"JSON"格式的"item":
import json class JsonWriterPipeline(object): def __init__(self): self.file = open("items.json", "wb") def process_item(self, item, spider): line = json.dumps(dict(item),ensure_ascii=False) + "\n" self.file.write(line) return item
在这里优化:
以下pipeline将所有爬取到的item,存储到一个独立地items.json 文件,每行包含一个序列化为"JSON"格式的"item":
import json import codecs class JsonWriterPipeline(object): def __init__(self): self.file = codecs.open("items.json", "w", encoding="utf-8") def process_item(self, item, spider): line = json.dumps(dict(item), ensure_ascii=False) + "\n" self.file.write(line) return item def spider_closed(self, spider): self.file.close()
针对spider里面的utf-8编码格式去掉.encode("utf-8")
item = RecruitItem() item["name"]=name.encode("utf-8") item["detailLink"]=detailLink.encode("utf-8") item["catalog"]=catalog.encode("utf-8") item["recruitNumber"]=recruitNumber.encode("utf-8") item["workLocation"]=workLocation.encode("utf-8") item["publishTime"]=publishTime.encode("utf-8")
将item写入MongoDB
from_crawler(cls, crawler)
如果使用,这类方法被调用创建爬虫管道实例。必须返回管道的一个新实例。crawler提供存取所有Scrapy核心组件配置和信号管理器;对于pipelines这是一种访问配置和信号管理器 的方式。
在这个例子中,我们将使用pymongo将Item写到MongoDB。MongoDB的地址和数据库名称在Scrapy setttings.py配置文件中;
这个例子主要是说明如何使用from_crawler()方法
import pymongo class MongoPipeline(object): collection_name = "scrapy_items" def __init__(self, mongo_uri, mongo_db): self.mongo_uri = mongo_uri self.mongo_db = mongo_db @classmethod def from_crawler(cls, crawler): return cls( mongo_uri=crawler.settings.get("MONGO_URI"), mongo_db=crawler.settings.get("MONGO_DATABASE", "items") ) def open_spider(self, spider): self.client = pymongo.MongoClient(self.mongo_uri) self.db = self.client[self.mongo_db] def close_spider(self, spider): self.client.close() def process_item(self, item, spider): self.db[self.collection_name].insert(dict(item)) return item
到此这篇关于scrapy框架ItemPipeline的使用的文章就介绍到这了,更多相关scrapy ItemPipeline内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家!
X 关闭
X 关闭
- 1亚马逊开始大规模推广掌纹支付技术 顾客可使用“挥手付”结账
- 2现代和起亚上半年出口20万辆新能源汽车同比增长30.6%
- 3如何让居民5分钟使用到各种设施?沙特“线性城市”来了
- 4AMD实现连续8个季度的增长 季度营收首次突破60亿美元利润更是翻倍
- 5转转集团发布2022年二季度手机行情报告:二手市场“飘香”
- 6充电宝100Wh等于多少毫安?铁路旅客禁止、限制携带和托运物品目录
- 7好消息!京东与腾讯续签三年战略合作协议 加强技术创新与供应链服务
- 8名创优品拟通过香港IPO全球发售4100万股 全球发售所得款项有什么用处?
- 9亚马逊云科技成立量子网络中心致力解决量子计算领域的挑战
- 10京东绿色建材线上平台上线 新增用户70%来自下沉市场