Awesome

Python-crawler

由于代码是比较早之前写的，抓取的网站目录结构可能有所变动
所以部分代码可能不能使用了，欢迎正在学习爬虫的大家给这个项目提PR
让更多的代码能跑起来~

从零开始系统化的学习写Python爬虫。
主要是记录一下自己写Python爬虫的经过与心得。
同时也是为了分享一下如何能更高效率的学习写爬虫。
IDE：Vscode Python版本: 3.6

知乎专栏：https://zhuanlan.zhihu.com/Ehco-python

详细学习路径：

一：Beautiful Soup 爬虫

requests库的安装与使用 https://zhuanlan.zhihu.com/p/26681429
安装beautiful soup 爬虫环境 https://zhuanlan.zhihu.com/p/26683864
beautiful soup 的解析器 https://zhuanlan.zhihu.com/p/26691931
re库正则表达式的使用 https://zhuanlan.zhihu.com/p/26701898
bs4 爬虫实践：获取百度贴吧的内容 https://zhuanlan.zhihu.com/p/26722495
bs4 爬虫实践：获取双色球中奖信息 https://zhuanlan.zhihu.com/p/26747717
bs4 爬虫实践：排行榜小说批量下载 https://zhuanlan.zhihu.com/p/26756909
bs4 爬虫实践：获取电影信息 https://zhuanlan.zhihu.com/p/26786056
bs4 爬虫实践：悦音台mv排行榜与反爬虫技术 https://zhuanlan.zhihu.com/p/26809626

二： Scrapy 爬虫框架

Scrapy 爬虫框架的安装与基本介绍 https://zhuanlan.zhihu.com/p/26832971
Scrapy 选择器和基本使用 https://zhuanlan.zhihu.com/p/26854842
Scrapy 爬虫实践：天气预报&数据存储 https://zhuanlan.zhihu.com/p/26885412
Scrapy 爬虫实践：代理的爬取和验证 https://zhuanlan.zhihu.com/p/26939527
Scrapy 爬虫实践：糗事百科&爬虫攻防 https://zhuanlan.zhihu.com/p/26980300
Scrapy 爬虫实践：重构排行榜小说爬虫&Mysql数据库 https://zhuanlan.zhihu.com/p/27027200

三：浏览器模拟爬虫

Selenium模拟浏览器 https://zhuanlan.zhihu.com/p/27115580
爬虫实践：获取快代理 https://zhuanlan.zhihu.com/p/27150025
爬虫实践：漫画批量下载 https://zhuanlan.zhihu.com/p/27155429

四：练手项目

爬虫实践：螺纹钢数据&Cookies https://zhuanlan.zhihu.com/p/27232687
爬虫实践：登录正方教务系统 https://zhuanlan.zhihu.com/p/27256315
爬虫应用： requests+django实现微信公众号后台 https://zhuanlan.zhihu.com/p/27625233
爬虫应用： 12306火车票信息查询 https://zhuanlan.zhihu.com/p/27969976
爬虫应用：利用斗鱼Api抓取弹幕 https://zhuanlan.zhihu.com/p/28164017
爬虫应用：获取支付宝账单信息 https://zhuanlan.zhihu.com/p/28537306
爬虫应用：IT之家热门段子（评论）爬取 https://zhuanlan.zhihu.com/p/28806210
爬虫应用：一号店商品信息查询程序 https://zhuanlan.zhihu.com/p/28982497
爬虫应用：搜狗输入法词库抓取 https://zhuanlan.zhihu.com/p/31186373
爬虫应用：复古网盘游戏抓取 https://zhuanlan.zhihu.com/p/32420131
爬虫应用：自动填写问卷星 https://zhuanlan.zhihu.com/p/36224375
爬虫应用：腾讯漫画下载~ https://zhuanlan.zhihu.com/p/39578774