爬虫

chrome的selenium驱动下载

驱动官方网址:  http://chromedriver.storage.googleapis.com/index.html 国内驱动镜像: http://npm.taobao.org/mirrors/chromedriver/ chrome驱动版本对应信息: https://blog.csdn.net/cz9025/article/details/70160273

Wally
爬虫

新爬虫架构记录

最初版本的爬虫因为解析规则当时考虑不足,导致后续统计分析困难。 于是开始设计新爬虫。 新爬虫计划采用Web添加模式,通过表单来提供网址、标记以及一系列解析规则。 最开始设计,打算先写一个基类,然后直接继承。遇到了相关问题。于是采用了新的方案,即写一个文件创建类,直接根据要求,新建一个爬虫文件,以此完成爬虫的横向扩展。 现在新的爬虫系统就是,web添加新爬虫,scrapyd完成控制,自动脚本执行部署 阅读更多…

Wally