Wally's blog -

新爬虫架构记录

最初版本的爬虫因为解析规则当时考虑不足，导致后续统计分析困难。于是开始设计新爬虫。新爬虫计划采用Web添加模式，通过表单来提供网址、标记以及一系列解析规则。最开始设计，打算先写一个基类，然后直接继承。遇到了相关问题。于是采用了新的方案，即写一个文件创建类，直接根据要求，新建阅读更多…

项目本来打算继承scrapy.Spider写一个基类爬虫，然后其他爬虫继承这个爬虫，仅修改配置及基本规则。但是当基类爬虫测试通过后，继承这个爬虫的爬虫，覆写name属性。提示错误。以为是覆写的问题，后来发现，这个继承自scrapy.Spider的爬虫基类，只要一被其他类继承阅读更多…

当在后台采用request.POST.dict()时，获取的dict如下：当在后台采用dict(request.POST)时，获取的dict如下： {‘start_date’: [‘2017-01-01’, &#82 阅读更多…

单文件版本回退：在左下角 version control框中，local changes 中，查看修改未提交的文件，右键，revert即可。多行右移鼠标选中，tab键多行左移鼠标选中 shift+tab键重阅读更多…

开启redis服务，终端输入 redis-server。使用Python操作redis，利用redis包 from redis import Redis r = Redis() r.sadd(key, value ) 建立链接 from redis import Redis, 阅读更多…

scrapy是著名的爬虫开源框架。这里是我的学习记录。爬虫写在spider目录下的文件，item作为临时容器，settings配置，pipeline将数据存入数据库。 spider文件中， start_request方法返回 Request，parse方法进行解析，解析后返回i 阅读更多…

载入已有工程打开Pycharm，点击 file – open, 选中一个目录即可。随后，选择file – settings – project -project interpreter 加载本地虚拟环境假如该目录内已有git仓库，则py 阅读更多…

在原环境中，安装freeze包执行 pip3 freeze > requirements.txt 此时已将虚拟环境的模块包名单存入requirements.txt中。然后将requirements.txt文件，复制到新环境中在新环境中，安装virtualenv模块。阅读更多…

在服务器上跑es时，常常需要在开发环境下进行连接。为了使得其他机器可以访问es，需要设置elasticsearch.yml文件。设置如下： network.host: 0.0.0.0 http.port: 9200 transport.host: localhost 然后就可阅读更多…

原来在django1.11及之前版本中，连接数据库，采用 pymysql方式，在__init__中添加如下内容，即可成功连接。 import pymysql pymysql.install_as_MySQLdb() 使用django2.0 时，发现提示mysqlclient版本过阅读更多…