这篇文章用来收集整理爬虫相关的资料。

相关技术

如果只想单纯的自己开发,可以使用 Python + Celery + Redis/MySQL 基本能满足 80% 的需求。

如果想要选用框架 Scrapy,pyspider,等等都是非常不错的选择,我甚至在 GitHub 上看到过 Java 的分布式爬虫。

书籍

Python 3 网络爬虫开发实战

这本书在网上有部分 gitbook,链接在这里

网上公开的部分都是无关痛痒的部分,不过提及的工具倒是可以参考一下。大部分我之前的文章也都有提及