大数据完整学习目录


大数据成神之路目录

大数据开发基础篇

Java基础 NIO 并发 JVM 分布式 Zookeeper RPC Netty Linux
Java基础 NIO 并发容器 JVM 分布式 zookeeper RPC Netty Linux


大数据框架学习篇


























Hadoop Hive Spark Flink HBase Kafka Zookeeper Flume Sqoop Azkaban


大数据开发实战进阶篇

这里的文章主要是我平时发表在公众号,博客等的文章,精心挑选,以飨读者。












Flink实战进阶 Spark实战进阶 Kafka实战进阶


第一部分: 大数据开发基础篇

一、Java基础

二、NIO基础

三、Java并发容器

四、JVM深度解析和面试点

先来10篇基础热身
再来5篇详细解说

五、分布式理论基础和原理

六、大数据框架开发基础-Zookeeper

七、大数据框架开发基础-RPC

八、大数据框架基石之网路通信-Netty

第二部分:大数据框架学习篇

本部分引用了Bigdata-Notes的文章,作者是heibaiying,大佬写的文章非常好,欢迎大家关注他的博客。
我个人会持续补充更有深度和实战性的文章~

一、Hadoop

  1. 分布式文件存储系统 —— HDFS
  2. 分布式计算框架 —— MapReduce
  3. 集群资源管理器 —— YARN
  4. Hadoop 单机伪集群环境搭建
  5. Hadoop 集群环境搭建
  6. HDFS 常用 Shell 命令
  7. HDFS Java API 的使用
  8. 基于 Zookeeper 搭建 Hadoop 高可用集群
  9. Hadoop级简入门
  10. MapReduce编程模型和计算框架架构原理

二、Hive

  1. Hive 简介及核心概念
  2. Linux 环境下 Hive 的安装部署
  3. Hive CLI 和 Beeline 命令行的基本使用
  4. Hive 常用 DDL 操作
  5. Hive 分区表和分桶表
  6. Hive 视图和索引
  7. Hive常用 DML 操作
  8. Hive 数据查询详解

三、Spark

Spark Core :

  1. Spark 简介
  2. Spark 开发环境搭建
  3. 弹性式数据集 RDD
  4. RDD 常用算子详解
  5. Spark 运行模式与作业提交
  6. Spark 累加器与广播变量
  7. 基于 Zookeeper 搭建 Spark 高可用集群

Spark SQL :

  1. DateFrame 和 DataSet
  2. Structured API 的基本使用
  3. Spark SQL 外部数据源
  4. Spark SQL 常用聚合函数
  5. Spark SQL JOIN 操作

Spark Streaming :

  1. Spark Streaming 简介
  2. Spark Streaming 基本操作
  3. Spark Streaming 整合 Flume
  4. Spark Streaming 整合 Kafka
  1. Flink 核心概念综述
  2. Flink 开发环境搭建
  3. Flink Data Source
  4. Flink Data Transformation
  5. Flink Data Sink
  6. Flink 窗口模型
  7. Flink 状态管理与检查点机制
  8. Flink Standalone 集群部署

Flink当前最火的实时计算引擎-入门篇

Flink当前最火的实时计算引擎-放弃篇

五、HBase

  1. Hbase 简介
  2. HBase 系统架构及数据结构
  3. HBase 基本环境搭建 (Standalone /pseudo-distributed mode)
  4. HBase 集群环境搭建
  5. HBase 常用 Shell 命令
  6. HBase Java API
  7. Hbase 过滤器详解
  8. HBase 协处理器详解
  9. HBase 容灾与备份
  10. HBase的 SQL 中间层 —— Phoenix
  11. Spring/Spring Boot 整合 Mybatis + Phoenix

六、Kafka

Kafka基本原理 :

  1. Kafka 简介
  2. 基于 Zookeeper 搭建 Kafka 高可用集群
  3. Kafka 生产者详解
  4. Kafka 消费者详解
  5. 深入理解 Kafka 副本机制

分布式消息队列Kafka原理及与流式计算的集成 :

  1. Apache-Kafka简介
  2. Apache-Kafka核心概念
  3. Apache-Kafka安装和使用
  4. Apache-Kafka编程实战
  5. Apache-Kafka核心组件和流程(副本管理器).md)
  6. Apache-Kafka核心组件和流程-协调器
  7. Apache-Kafka核心组件和流程-控制器
  8. Apache-Kafka核心组件和流程-日志管理器

七、Zookeeper

  1. Zookeeper 简介及核心概念
  2. Zookeeper 单机环境和集群环境搭建
  3. Zookeeper 常用 Shell 命令
  4. Zookeeper Java 客户端 —— Apache Curator
  5. Zookeeper ACL 权限控制

八、Flume

  1. Flume 简介及基本使用
  2. Linux 环境下 Flume 的安装部署
  3. Flume 整合 Kafka

九、Sqoop

  1. Sqoop 简介与安装
  2. Sqoop 的基本使用

十、Azkaban

  1. Azkaban 简介
  2. Azkaban3.x 编译及部署
  3. Azkaban Flow 1.0 的使用
  4. Azkaban Flow 2.0 的使用

第三部分:大数据开发实战进阶篇

Flink实战进阶文章合集

  1. 菜鸟供应链实时技术架构演进
  2. 趣头条实战-基于Flink+ClickHouse构建实时数据平台
  3. ApacheFlink新场景-OLAP引擎
  4. 说说Flink DataStream的八种物理分区逻辑
  5. State Processor API:如何读取,写入和修改 Flink 应用程序的状态
  6. Flink滑动窗口原理与细粒度滑动窗口的性能问题
  7. 基于Flink快速开发实时TopN
  8. 使用 Apache Flink 开发实时 ETL
  9. Flink Source/Sink探究与实践:RocketMQ数据写入HBase
  10. Spark/Flink广播实现作业配置动态更新
  11. Flink全链路延迟的测量方式
  12. Flink原理-Flink中的数据抽象及数据交换过程
  13. Flink SQL Window源码全解析
  14. Flink DataStream维度表Join的简单方案
  15. Apache Flink的内存管理
  16. Flink1.9整合Kafka实战
  17. Apache Flink在小米的发展和应用
  18. 基于Kafka+Flink+Redis的电商大屏实时计算案例
  19. Flink实战-壳找房基于Flink的实时平台建设
  20. 用Flink取代Spark Streaming!知乎实时数仓架构演进
  21. Flink实时数仓-美团点评实战
  22. 来将可留姓名?Flink最强学习资源合集!
  23. 数据不撒谎,Flink-Kafka性能压测全记录!
  24. 菜鸟在物流场景中基于Flink的流计算实践
  25. 基于Flink构建实时数据仓库
  26. Flink/Spark 如何实现动态更新作业配置

Spark实战进阶文章合集

  1. 如果你在准备面试,好好看看这130道题
  2. ORC文件存储格式的深入探究
  3. 基于SparkStreaming+Kafka+HBase实时点击流案例
  4. HyperLogLog函数在Spark中的高级应用
  5. 我们常说的海量小文件的根源是什么?
  6. Structured Streaming | Apache Spark中处理实时数据的声明式API
  7. Spark面对OOM问题的解决方法及优化总结
  8. Spark 动态资源分配(Dynamic Resource Allocation) 解析
  9. Apache Spark在海致大数据平台中的优化实践
  10. Spark/Flink广播实现作业配置动态更新
  11. Spark SQL读数据库时不支持某些数据类型的问题
  12. 这个面试问题很难么 | 如何处理大数据中的数据倾斜
  13. Spark难点 | Join的实现原理
  14. 面试注意点 | Spark&Flink的区别拾遗
  15. Spark Checkpoint的运行原理和源码实现
  16. 阿里云Spark Shuffle的优化
  17. 使用Kafka+Spark+Cassandra构建实时处理引擎
  18. 基于HBase和Spark构建企业级数据处理平台
  19. SparkSQL在字节跳动的应用实践和优化实战
  20. SparkRDD转DataSet/DataFrame的一个深坑
  21. Spark和Flink的状态管理State的区别和应用
  22. Kafka+Spark Streaming管理offset的几种方法
  23. 从 PageRank Example谈Spark应用程序调优
  24. Spark调优|SparkSQL参数调优
  25. Flink/Spark 如何实现动态更新作业配置
  26. Stream SQL的执行原理与Flink的实现
  27. Spark将Dataframe数据写入Hive分区表的方案
  28. Spark中几种ShuffleWriter的区别你都知道吗?
  29. SparkSQL的3种Join实现
  30. 周期性清除Spark Streaming流状态的方法
  31. Structured Streaming之状态存储解析
  32. Spark SQL重点知识总结
  33. SparkSQL极简入门
  34. Spark Shuffle在网易的优化
  35. 广告点击数实时统计:Spark StructuredStreaming + Redis Streams
  36. Spark内存调优
  37. Structured Streaming 实现思路与实现概述
  38. Spark之数据倾斜调优
  39. 你不得不知道的知识-零拷贝
  40. Spark Streaming消费Kafka数据的两种方案
坚持原创技术分享,您的支持将鼓励我继续创作!