Awesome
Bilibili_crawler 基于bilibili懒加载api爬取b站动态,视频等评论区
可以看csdn详细教程 基于bilibili懒加载api爬取b站动态,视频等评论区。 动态评论,视频评论均能爬取。 必须进行去重,爬取评论有重复的。 制作的比较简陋,希望大家提提意见。 失效时间未知!
爬取下来的uid和rpid由于数字过长,当你保存时,excel会自动省略掉后面位数/采用科学计数法,导致数据失效,百度一下怎么解决
使用方法
一:
0.修改json内容,如果您不会获取cookie等内容请使用2方式,加载浏览器较慢,一次不成功可以多次。
0.1(F12打开开发者工具,等待某个视频/动态加载完全,点击Network选项,向下滑动评论区,直到加载出一个main?oid开头的东西,oid,type,cookie均在这里面)
1.安装所需要的库,pip install -r requirements.txt
2.修改chrome driver路径 对应代码line46(如果您自己保存了cookie等内容,请用方式1,可以不设置)
3.修改需要爬取的网页,对应代码line50
4.输入你的账号密码,对应代码line58.59
5.对应你想要保存的文件夹,修改json内容(file1:主评论;file2:子评论;file3:总共评论)
二:
点击运行,选择模式1,2。
模式一在您的信息准确时,会开始爬取。
模式二程序会启动一个浏览器,自动输入账号密码,这期间不要动,直到出现验证码,需要你点一下验证码,这个点验证码速度要快一点,10s内就行,否则会识别cookie和oid失败 ,网页第一次加载卡顿可以尝试多运行几次该程序,让浏览器产生缓存加速,多试几次,程序无错误
三:
因为一页只能爬20条评论,用总评论数字/20,得到总页数,写在json的up/down,例如有10000条评论,那么up = 500#结束爬的页数
,但是因为10000是含有了子评论的总数,所以一定比500低,无伤大雅,多的网页爬不到东西,等一会就行