大数据成神之路目录
大数据开发基础篇
Java基础 | NIO | 并发 | JVM | 分布式 | Zookeeper | RPC | Netty | Linux |
---|---|---|---|---|---|---|---|---|
Java基础 | NIO | 并发容器 | JVM | 分布式 | zookeeper | RPC | Netty | Linux |
大数据框架学习篇
Hadoop | Hive | Spark | Flink | HBase | Kafka | Zookeeper | Flume | Sqoop | Azkaban |
大数据开发实战进阶篇
这里的文章主要是我平时发表在公众号,博客等的文章,精心挑选,以飨读者。
Flink实战进阶 | Spark实战进阶 | Kafka实战进阶 |
第一部分: 大数据开发基础篇
一、Java基础
- 大数据成神之路-Java高级特性增强(多线程).md)
- 大数据成神之路-Java高级特性增强(Synchronized关键字).md)
- 大数据成神之路-Java高级特性增强(volatile关键字).md)
- 大数据成神之路-Java高级特性增强(锁).md)
- 大数据成神之路-Java高级特性增强(ArrayList/Vector).md)
- 大数据成神之路-Java高级特性增强(LinkedList)
- 大数据成神之路-Java高级特性增强(HashMap).md)
- 大数据成神之路-Java高级特性增强(HashSet).md)
- 大数据成神之路-Java高级特性增强(LinkedHashMap).md)
二、NIO基础
- 大数据成神之路-Java高级特性增强-NIO大纲
- NIO概览
- Java NIO之Buffer(缓冲区).md)
- Java NIO之Channel(通道).md)
- ava NIO之Selector(选择器).md)
- Java NIO之拥抱Path和Files
三、Java并发容器
- 大数据成神之路-Java高级特性增强(并发容器大纲).md)
- 大数据成神之路-Java高级特性增强(LinkedBlockingQueue).md)
- 大数据成神之路-Java高级特性增强(LinkedBlockingDeque).md)
- 大数据成神之路-Java高级特性增强(CopyOnWriteArraySet).md)
- 大数据成神之路-Java高级特性增强(CopyOnWriteArrayList).md)
- 大数据成神之路-Java高级特性增强(ConcurrentSkipListSet).md)
- 大数据成神之路-Java高级特性增强(ConcurrentSkipListMap).md)
- 大数据成神之路-Java高级特性增强(ConcurrentLinkedQueue).md)
- 大数据成神之路-Java高级特性增强(ConcurrentHashMap).md)
- 大数据成神之路-Java高级特性增强(ArrayBlockingQueue).md)
四、JVM深度解析和面试点
先来10篇基础热身
再来5篇详细解说
- java类的加载机制java%E7%B1%BB%E7%9A%84%E5%8A%A0%E8%BD%BD%E6%9C%BA%E5%88%B6.md)
- JVM内存结构JVM%E5%86%85%E5%AD%98%E7%BB%93%E6%9E%84.md)
- GC算法 垃圾收集器GC%E7%AE%97%E6%B3%95%20%E5%9E%83%E5%9C%BE%E6%94%B6%E9%9B%86%E5%99%A8.md)
- jvm调优-命令大全jvm%E8%B0%83%E4%BC%98-%E5%91%BD%E4%BB%A4%E5%A4%A7%E5%85%A8%EF%BC%88jps%20jstat%20jmap%20jhat%20jstack%20jinfo%EF%BC%89.md)
- Java GC 分析Java%20GC%20%E5%88%86%E6%9E%90.md)
五、分布式理论基础和原理
- 分布式系统的一些基本概念
- 分布式系统理论基础一: 一致性、2PC和3PC
- 分布式系统理论基础二-CAP
- 分布式系统理论基础三-时间、时钟和事件顺序
- 分布式系统理论进阶 - Paxos
- 分布式系统理论进阶 - Raft、Zab
- 分布式系统理论进阶:选举、多数派和租约
- 分布式锁的解决方案
- 分布式锁的解决方案(二).md)
- 分布式事务的解决方案
- 分布式ID生成器解决方案
六、大数据框架开发基础-Zookeeper
七、大数据框架开发基础-RPC
八、大数据框架基石之网路通信-Netty
- 关于Netty我们都需要知道什么
- Netty源码解析-概述篇
- Netty源码解析1-Buffer
- Netty源码解析2-Reactor
- Netty源码解析3-Pipeline
- Netty源码解析4-Handler综述
- Netty源码解析5-ChannelHandler
- Netty源码解析6-ChannelHandler实例之LoggingHandler
- Netty源码解析7-ChannelHandler实例之TimeoutHandler
- Netty源码解析8-ChannelHandler实例之CodecHandler
- Netty源码解析9-ChannelHandler实例之MessageToByteEncoder
第二部分:大数据框架学习篇
本部分引用了Bigdata-Notes的文章,作者是heibaiying,大佬写的文章非常好,欢迎大家关注他的博客。
我个人会持续补充更有深度和实战性的文章~
一、Hadoop
- 分布式文件存储系统 —— HDFS
- 分布式计算框架 —— MapReduce
- 集群资源管理器 —— YARN
- Hadoop 单机伪集群环境搭建
- Hadoop 集群环境搭建
- HDFS 常用 Shell 命令
- HDFS Java API 的使用
- 基于 Zookeeper 搭建 Hadoop 高可用集群
- Hadoop级简入门
- MapReduce编程模型和计算框架架构原理
二、Hive
- Hive 简介及核心概念
- Linux 环境下 Hive 的安装部署
- Hive CLI 和 Beeline 命令行的基本使用
- Hive 常用 DDL 操作
- Hive 分区表和分桶表
- Hive 视图和索引
- Hive常用 DML 操作
- Hive 数据查询详解
三、Spark
Spark Core :
- Spark 简介
- Spark 开发环境搭建
- 弹性式数据集 RDD
- RDD 常用算子详解
- Spark 运行模式与作业提交
- Spark 累加器与广播变量
- 基于 Zookeeper 搭建 Spark 高可用集群
Spark SQL :
Spark Streaming :
四、Flink
- Flink 核心概念综述
- Flink 开发环境搭建
- Flink Data Source
- Flink Data Transformation
- Flink Data Sink
- Flink 窗口模型
- Flink 状态管理与检查点机制
- Flink Standalone 集群部署
Flink当前最火的实时计算引擎-入门篇
- Flink从入门到放弃(入门篇1)-Flink是什么-Flink%E6%98%AF%E4%BB%80%E4%B9%88%EF%BC%9F.md)
- Flink从入门到放弃(入门篇2)-本地环境搭建&构建第一个Flink应用-%E6%9C%AC%E5%9C%B0%E7%8E%AF%E5%A2%83%E6%90%AD%E5%BB%BA%26%E6%9E%84%E5%BB%BA%E7%AC%AC%E4%B8%80%E4%B8%AAFlink%E5%BA%94%E7%94%A8.md)
- Flink从入门到放弃(入门篇3)-DataSetAPI-DataSetAPI.md)
- Flink从入门到放弃(入门篇4)-DataStreamAPI-DataStreamAPI.md)
- Flink集群部署
- Flink重启策略
- Flink的分布式缓存
- Flink中的窗口
- Flink中的Time
- Flink集群搭建的HA.md)
- Flink中的时间戳和水印
- Flink广播变量
- Flink-Kafka-Connector
- Flink-Table-&-SQL实战
- 15-Flink实战项目之实时热销排行
- 16-Flink-Redis-Sink
- 17-Flink消费Kafka写入Mysql
Flink当前最火的实时计算引擎-放弃篇
- Flink漫谈系列1-概述-%E6%A6%82%E8%BF%B0.md)
- Flink漫谈系列2-watermark-Watermark.md)
- Flink漫谈系列3-state-State.md)
五、HBase
- Hbase 简介
- HBase 系统架构及数据结构
- HBase 基本环境搭建 (Standalone /pseudo-distributed mode)
- HBase 集群环境搭建
- HBase 常用 Shell 命令
- HBase Java API
- Hbase 过滤器详解
- HBase 协处理器详解
- HBase 容灾与备份
- HBase的 SQL 中间层 —— Phoenix
- Spring/Spring Boot 整合 Mybatis + Phoenix
六、Kafka
Kafka基本原理 :
分布式消息队列Kafka原理及与流式计算的集成 :
- Apache-Kafka简介
- Apache-Kafka核心概念
- Apache-Kafka安装和使用
- Apache-Kafka编程实战
- Apache-Kafka核心组件和流程(副本管理器).md)
- Apache-Kafka核心组件和流程-协调器
- Apache-Kafka核心组件和流程-控制器
- Apache-Kafka核心组件和流程-日志管理器
七、Zookeeper
- Zookeeper 简介及核心概念
- Zookeeper 单机环境和集群环境搭建
- Zookeeper 常用 Shell 命令
- Zookeeper Java 客户端 —— Apache Curator
- Zookeeper ACL 权限控制
八、Flume
九、Sqoop
十、Azkaban
第三部分:大数据开发实战进阶篇
Flink实战进阶文章合集
- 菜鸟供应链实时技术架构演进
- 趣头条实战-基于Flink+ClickHouse构建实时数据平台
- ApacheFlink新场景-OLAP引擎
- 说说Flink DataStream的八种物理分区逻辑
- State Processor API:如何读取,写入和修改 Flink 应用程序的状态
- Flink滑动窗口原理与细粒度滑动窗口的性能问题
- 基于Flink快速开发实时TopN
- 使用 Apache Flink 开发实时 ETL
- Flink Source/Sink探究与实践:RocketMQ数据写入HBase
- Spark/Flink广播实现作业配置动态更新
- Flink全链路延迟的测量方式
- Flink原理-Flink中的数据抽象及数据交换过程
- Flink SQL Window源码全解析
- Flink DataStream维度表Join的简单方案
- Apache Flink的内存管理
- Flink1.9整合Kafka实战
- Apache Flink在小米的发展和应用
- 基于Kafka+Flink+Redis的电商大屏实时计算案例
- Flink实战-壳找房基于Flink的实时平台建设
- 用Flink取代Spark Streaming!知乎实时数仓架构演进
- Flink实时数仓-美团点评实战
- 来将可留姓名?Flink最强学习资源合集!
- 数据不撒谎,Flink-Kafka性能压测全记录!
- 菜鸟在物流场景中基于Flink的流计算实践
- 基于Flink构建实时数据仓库
- Flink/Spark 如何实现动态更新作业配置
Spark实战进阶文章合集
- 如果你在准备面试,好好看看这130道题
- ORC文件存储格式的深入探究
- 基于SparkStreaming+Kafka+HBase实时点击流案例
- HyperLogLog函数在Spark中的高级应用
- 我们常说的海量小文件的根源是什么?
- Structured Streaming | Apache Spark中处理实时数据的声明式API
- Spark面对OOM问题的解决方法及优化总结
- Spark 动态资源分配(Dynamic Resource Allocation) 解析
- Apache Spark在海致大数据平台中的优化实践
- Spark/Flink广播实现作业配置动态更新
- Spark SQL读数据库时不支持某些数据类型的问题
- 这个面试问题很难么 | 如何处理大数据中的数据倾斜
- Spark难点 | Join的实现原理
- 面试注意点 | Spark&Flink的区别拾遗
- Spark Checkpoint的运行原理和源码实现
- 阿里云Spark Shuffle的优化
- 使用Kafka+Spark+Cassandra构建实时处理引擎
- 基于HBase和Spark构建企业级数据处理平台
- SparkSQL在字节跳动的应用实践和优化实战
- SparkRDD转DataSet/DataFrame的一个深坑
- Spark和Flink的状态管理State的区别和应用
- Kafka+Spark Streaming管理offset的几种方法
- 从 PageRank Example谈Spark应用程序调优
- Spark调优|SparkSQL参数调优
- Flink/Spark 如何实现动态更新作业配置
- Stream SQL的执行原理与Flink的实现
- Spark将Dataframe数据写入Hive分区表的方案
- Spark中几种ShuffleWriter的区别你都知道吗?
- SparkSQL的3种Join实现
- 周期性清除Spark Streaming流状态的方法
- Structured Streaming之状态存储解析
- Spark SQL重点知识总结
- SparkSQL极简入门
- Spark Shuffle在网易的优化
- 广告点击数实时统计:Spark StructuredStreaming + Redis Streams
- Spark内存调优
- Structured Streaming 实现思路与实现概述
- Spark之数据倾斜调优
- 你不得不知道的知识-零拷贝
- Spark Streaming消费Kafka数据的两种方案