Awesome
Free_proxy_pool
对免费代理IP网站进行爬取,收集汇总为自己的代理池。其中关键是验证代理的有效性、匿名性、去重复。</br>
- 本代理池的定位是初学者能看懂,能使用的单机库。所以不打算使用高大上的Redis或者MongoDB等数据库。抓到的代理仅与磁盘文件交互。</br>
- 本项目无需安装,下载后查看example即可学会使用。简洁易用的get_a_proxy(),便于在请求网页的参数中直接使用。</br>
- 运行所依赖的第三方库:requests、bs4、lxml、chardet。</br>
- 爬虫组件<200行代码,把高可用率的代理网站一网打尽。如果爬虫全开,一次性可以采集高匿代理300--700个。
- 下表数据仅表明各网站在某一时段的代理质量,每天不同时段会有波动,整体质量比较高。
代理网站 | 评估数 | 可用数 | 有效率 | 更新周期 |
---|---|---|---|---|
66ip | 536 | 113 | 21.1% | 10分钟 |
89ip | 600 | 79 | 11.7% | 10分钟 |
爱家网 | 1274 | 105 | 8.2% | 每天2篇 |
codebusy | 278 | 84 | 30.2% | 1分钟 |
小舒代理 | 534 | 78 | 14.6% | 每天2篇 |
小河虾 | 600 | 70 | 11.7% | 10分钟 |
如果感觉对您有帮助,欢迎给我加一个星星,或者fork。</br> 为了避免大家浪费精力,经验证无实用价值的免费代理网站列举如下,是为“黑名单”:</br>
-
http://www.xicidaili.com/nn 百度排名靠前,可用率仅1%左右。
-
http://www.kuaidaili.com/free/inha 较新的只有前5页,但可用仅1--2个。
-
更新日期:2019-11-5</br>