scrapy是著名的爬虫开源框架。这里是我的学习记录。

爬虫写在spider目录下的文件,item作为临时容器,settings配置,pipeline将数据存入数据库。

spider文件中,

start_request方法返回 Request,parse方法进行解析,解析后返回item,以及新的request

items 容器,收集抓取后的简单数据,提供一个类似于字典的api

itemsloader 项目加载器,将抓取到的数据进行一个函数处理,然后再填入Items

pipeline 一个实现简单方法的Python类,接收项目并执行相关操作,典型用途为清理html数据,验证抓取的数据(检查项目是否包含特定字段),检查重复,将抓取的项目存入数据库

link extractors 链接提取器,可直接提取链接,根据re进行提取。

 

分类: Scrapy

0 条评论

发表回复

Avatar placeholder

您的电子邮箱地址不会被公开。