Awesome
Apache Spark Tutorial.《跟老卫学Apache Spark开发》《循序渐进Spark大数据应用开发》源码
Apache Spark Tutorial, is a book about how to develop Apache Spark applications.
《跟老卫学Apache Spark开发》是一本 Apache Spark 应用开发的开源学习教程,主要介绍如何从0开始开发 Apache Spark 应用。本书包括最新版本 Apache Spark 3.x 中的新特性。图文并茂,并通过大量实例带你走近 Apache Spark 的世界!
本书业余时间所著,水平有限、时间紧张,难免疏漏,欢迎指正,
Summary 目录
- Spark下载、安装
- Spark应用初探
- Spark累加器LongAccumulator的使用
- Spark累加器DoubleAccumulator的使用
- Spark累加器CollectionAccumulator的使用
- 启动Spark应用的方式
- Spark广播变量
- Spark RDD入门
- Spark RDD基本操作
- Spark RDD Shuffle操作
- 深入理解Spark RDD原理
- Spark调度管理之资源分配
- Spark调度管理之作业调度
- Spark SQL概述
- Spark SQL之Dataset与DataFrame
- Spark SQL之DataFrame入门操作
- Spark SQL之Dataset入门操作
- Spark SQL之基于DataFrame创建临时视图
- Spark SQL之RDD转为Dataset
- Apache Parquet列式存储格式介绍
- Spark SQL之Apache Parquet数据源的读取和写入
- Apache Hive数据仓库介绍
- Spark SQL之使用Apache Hive
- Spark SQL之使用JDBC操作数据库
- Spark SQL之读取二进制文件
- Spark导出数据到CSV文件
- Spark SQL之时区处理
- Spark Streaming概述
- Spark Streaming统计来自Socket数据流的词频
- Spark Streaming窗口操作
- Spark Structured Streaming概述
- Spark Structured Streaming统计来自Socket数据流的词频
- Spark Structured Streaming窗口操作
- 在Spark中自定义Log4j配置
- Spark MLlib机器学习库概述
- Spark MLlib之ML Pipeline详解
- Spark MLlib之Estimator、Transformer和Param使用示例
- Spark MLlib之ML Pipeline使用示例
- Spark GraphX图计算处理概述
- Spark GraphX图计算示例
- spark-shell启动报错“WARN ProcfsMetricsGetter: Exception when trying to compute pagesize, as a result reporting of ProcessTree metrics is stopped”的解决
- Spark集群部署之集群概述
- Spark集群之提交应用到集群
- Spark集群之使用Standalone模式部署集群
- Spark集群之Standalone模式集群下的高可用方案
- Spark系列044——Spark集群之使用YARN模式部署集群
- Spark系列045——“java.lang.NoClassDefFoundError”问题的解决
- 未完待续...
Samples 示例
- Spark累加器LongAccumulator的使用
- Spark累加器DoubleAccumulator的使用
- Spark累加器CollectionAccumulator的使用
- SparkLauncher示例
- InProcessLauncherSample示例
- Broadcast 示例
- RDD基本操作示例
- RDD Transformation和Action基本操作示例
- DataFrame基本操作示例
- Dataset基本操作示例
- 基于DataFrame创建临时视图
- RDD转为Dataset
- Apache Parquet数据源的读取和写入
- 使用Apache Hive
- 使用JDBC操作数据库
- 读取二进制文件
- Spark导出数据到CSV文件
- Spark SQL时区处理
- Spark Streaming统计来自Socket数据流的词频
- Spark Streaming窗口操作
- Structured Streaming统计来自Socket数据流的词频
- Structured Streaming窗口操作
- Estimator、Transformer和Param使用示例
- ML Pipeline使用示例
- GraphX图计算示例
- 未完待续...
Get start 如何开始阅读
选择下面入口之一:
Code 源码
书中所有示例源码,移步至https://github.com/waylau/apache-spark-tutorial的 samples
目录下,代码遵循《Java 编码规范》
Book 配套书籍
如果你喜欢本开源书,也欢迎支持下该书的正式出版物,实体店及各大网店有售。
- 《循序渐进Spark大数据应用开发》(清华大学出版社)
Issue 意见、建议
如有勘误、意见或建议欢迎拍砖 https://github.com/waylau/apache-spark-tutorial/issues
Contact 联系作者
- Blog: waylau.com
- Gmail: waylau521(at)gmail.com
- Weibo: waylau521
- Twitter: waylau521
- Github : waylau