Home

Awesome

webporter

webporter 是一个基于垂直爬虫框架 webmagic 的 Java 爬虫应用,旨在提供一套完整的数据爬取,持久化存储和可视化展示的实践样例。

webporter 寓意“我们不生产数据,我们只是互联网的搬运工~”

如果觉得不错,请先在这个仓库上点个 star 吧,这也是对我的肯定和鼓励,谢谢了。

目前只提供了知乎用户数据的爬虫示例。不定时进行调整和补充,需要关注更新的请 watch、star、fork


webporter 的主要特色:

注意:webporter 不是爬虫框架,而是如何使用爬虫框架进行实战的样例,偏休闲性质,不建议使用在生产环境。 生产环境建议使用 webmagic 或者 scrapy

webporter 核心模块的架构和设计主要参考了 webmagic https://github.com/code4craft/webmagic

webporter 的 github 地址:https://github.com/brianway/webporter

效果展示

详细的数据分析文章请看我的博客 《爬取知乎60万用户信息之后的简单分析》

索引状态图

top 10 行业分布

仓库目录

环境要求

新手可参考我的博客 《Elasticsearch 5.0-安装使用》快速上手 Elasticsearch+Kibana

快速开始

以爬取知乎用户数据为例

1.定制配置文件

配置文件位于 webporter-collector-zhihu/src/main/resources/config.json, 示例:

{
  "site": {
    "domain": "www.zhihu.com",
    "headers": {
      "User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/53.0.2785.143 Safari/537.36",
      "authorization": "Your own authorization here."
    },
    "retryTimes": 3,
    "sleepTime": 500
  },
  "base_dir": "/Users/brian/todo/data/zhihu/"
}

仅需要修改两处:authorizationbase_dir 即可

配完就可以直接使用了。更多关于 site 的属性配置请参考 WebMagic in Action - Site Config

2.启动爬虫

依次运行 webporter-collector-zhihu 模块的下面两个类的 main 方法即可。(注意:由于这两个阶段是串行的,不要同时启动这两个类)

3.可视化

安装好 ElasticsearchKibana 后,在 Kibana 中使用 Visualize 对数据可视化即可

赞助

如果您觉得该项目对您有帮助,请扫描下方二维码对我进行鼓励,以便我更好的维护和更新,谢谢支持!

支付宝 微信

TODO


联系作者

Email: weichuyang@163.com

Lisence

Lisenced under Apache 2.0 lisence