代理池
代理可按匿名度分为透明代理、匿名代理和高匿代理。我们需要绕过网站防爬,只能使用高匿代理。
自建
如果需要的 IP 数不多,只要极其少量就可以满足需要,才可能自建代理池。
但自建代理池的成本会比直接购买代理服务高很多,所以绝大多数情况下,自建不是一个选项。
初体验
先看一下开源项目proxy_pool。
只需要修改一下数据库配置就可以运行起来。
它有两个模块:
- schedule: 定时从免费源收集代理列表,检测代理的可用性,如果不可用就会删除。
- server: 提供一个 web api,让程序可以获取和修改代理。
因为是免费的代理,所以非常不稳定,可用度大概只有不到 10%。只能用来开发测试,不能用于生产。
类似的开源项目还有一个ProxyPool,工作原理完全一致,星数稍少一点。
付费代理
proxy_pool
的作者推荐亮数据。
ProxyPool
的作者推荐Ace Data Cloud 平台上的服务。
知乎上的这篇 2021 年的文章爬虫代理哪家强?十大付费代理详细对比评测出炉!测试了一些国内的付费代理,可以参考。
亮数据
亮数据提供三种服务:
- 代理和爬虫
- 网络爬虫 api
- 网络数据集
其中,网络爬虫 api 是亮数据内置的一些常见的爬虫任务,比如爬取推特、脸书、Instagram 上面的帖子,网络数据集则是这些常见的爬虫任务的结果。
但很不幸,微博、雪球、微信公众号等国内的网站都不在支持列表里。
所以我们只能选择第一种服务。
代理和爬虫服务同样提供三种模式:
- 云服务器
- 爬虫解决方案
- 代理网络