最初版本的爬虫因为解析规则当时考虑不足,导致后续统计分析困难。

于是开始设计新爬虫。

新爬虫计划采用Web添加模式,通过表单来提供网址、标记以及一系列解析规则。

最开始设计,打算先写一个基类,然后直接继承。遇到了相关问题。于是采用了新的方案,即写一个文件创建类,直接根据要求,新建一个爬虫文件,以此完成爬虫的横向扩展。

现在新的爬虫系统就是,web添加新爬虫,scrapyd完成控制,自动脚本执行部署,完成到数据库这一步,其他交给web部分进行处理。

 

分类: 爬虫

0 条评论

发表回复

Avatar placeholder

您的电子邮箱地址不会被公开。