新爬虫架构记录

最初版本的爬虫因为解析规则当时考虑不足,导致后续统计分析困难。 于是开始设计新爬虫。 新爬虫计划采用Web添加模式,通过表单来提供网址、标记以及一系列解析规则。 最开始设计,打算先写一个基类,然后直接继承。遇到了相关问题。于是采用了新的方案,即写一个文件创建类,直接根据要求,新建 阅读更多…

scrapy 继承scrapy.Spider出错

项目本来打算继承scrapy.Spider写一个基类爬虫,然后其他爬虫继承这个爬虫,仅修改配置及基本规则。 但是当基类爬虫测试通过后,继承这个爬虫的爬虫,覆写name属性。 提示错误。 以为是覆写的问题,后来发现,这个继承自scrapy.Spider的爬虫基类,只要一被其他类继承 阅读更多…

Redis 初识

开启redis服务, 终端输入 redis-server。 使用Python操作redis,利用redis包 from redis import Redis r = Redis() r.sadd(key, value ) 建立链接 from redis import Redis, 阅读更多…

Scrapy 初识(v1.4 )

scrapy是著名的爬虫开源框架。这里是我的学习记录。 爬虫写在spider目录下的文件,item作为临时容器,settings配置,pipeline将数据存入数据库。 spider文件中, start_request方法返回 Request,parse方法进行解析,解析后返回i 阅读更多…

Pycharm常用操作

载入已有工程 打开Pycharm,点击 file – open, 选中一个目录即可。 随后,选择file – settings – project -project interpreter  加载本地虚拟环境 假如该目录内已有git仓库,则py 阅读更多…