大数据之博客推荐

发表于 2020-03-26 | 分类于大数据 | 评论数： | 阅读次数： | 阅读次数：

本文字数： 3.5k | 阅读时长 ≈ 3 分钟

大数据–博客一览

大数据零基础：

Linux And Shell:

零基础大数据入门【free视频】

1.VMware Workstation9 下安装 CentOS6.5( 安装图文教程 )
2.Linux最常用命令及快捷键整理
 3.配置多台机器SSH相互通信信任

4.Memory参数，你真的懂吗?
5.yum安装xxx包时出错，提示No package xxx available.
6.CentOS6.x使用163和epel yum源的选择
 7.Centos6.5 python2.6.6 升级到2.7.5
8.CentOS清理swap和buffer/cache

9.记录在shell脚本中使用sudo echo x > 时,抛Permission denied错误

10.Linux系统重要参数调优，你知道吗

11.大数据之必会的Linux命令

DataBase And SQL:

Hadoop:

1.Hadoop2.8.1全网最详细编译
 2.Hadoop全网最详细的伪分布式部署(HDFS)
3.Hadoop全网最详细的伪分布式部署(MapReduce+Yarn)
4.Hadoop常用命令大全01
5.Hadoop-2.7.2+zookeeper-3.4.6完全分布式环境搭建(HDFS、YARN HA)
6.Hadoop2.x 参数汇总
 7.YARN的Memory和CPU调优配置详解
 8.资源调度yarn之生产详解

9.fsimage？editlog？这些都是什么？？

10.你真的了解jps命令吗

11.Hadoop HA 的配置，你了解吗？

12.Hadoop之Yarn架构设计(command memory cpu)

13.HDFS之垃圾回收箱配置及使用

Zookeeper:

Hive:

Hive应用实战课程【buy视频】

1.Hive全网最详细的编译及部署
 2.Hive DDL，你真的了解吗？
3.Hive自定义函数(UDF)的编程开发，你会吗？
4.Hive自定义函数(UDF)的部署使用，你会吗？
5. 2min快速了解，Hive内部表和外部表

6. 5min掌握，Hive的HiveServer2 和JDBC客户端&代码的生产使用
 7.生产中Hive静态和动态分区表，该怎样抉择呢？

8.Hive中自定义UDAF函数生产小案例

9.从Hive中的stored as file_foramt看hive调优

10.你真的了解 Hive 的元数据吗？

[11.hive实战 (https://blog.csdn.net/liweihope/article/details/88584985)

SQOOP:

Sqoop应用实战课程【buy视频】

大数据进阶：

Compress And Storage Format:

1.大数据压缩格式，你们真的了解吗？
2.Hive压缩格式的生产应用

3.大数据存储格式，你们真的了解吗？
4.Hive存储格式的生产应用

5.Hive生产上，压缩和存储结合使用案例

Flume:

Kafka:

批处理ETL已亡，Kafka才是数据处理的未来【buy视频】

Scala:

Spark:

Spark零基础实战【free视频】

1.Spark2.2.0 全网最详细的源码编译
 2.Spark-2.2.0-bin-2.6.0-cdh5.12.1.tgz 编译方法总结！

3.生产改造Spark1.6源代码，create table语法支持Oracle列表分区
 4.Spark History Server Web UI配置
 5.Spark on YARN-Cluster和YARN-Client的区别

6.Spark RDD、DataFrame和DataSet的区别

7.Spark RDD、DataFrame和DataSet的区别

8.Spark不得不理解的重要概念——从源码角度看RDD

9.Spark 基本概念

10.Spark调优的关键之——RDD Cache缓存使用详解

11.Spark之序列化在生产中的应用

12.还不收藏？Spark动态内存管理源码解析！

13.Spark SQL 外部数据源（External DataSource）

14.你大爷永远是你大爷，RDD血缘关系源码详解！

15.Apache Spark 技术团队开源机器学习平台 MLflow

16.生产开发必用-Spark RDD转DataFrame的两种方法

17.最前沿！带你读Structured Streaming重量级论文！

18.Apache Spark和DL/AI结合，谁与争锋? 期待Spark3.0的到来！

19.又又又是源码！RDD 作业的DAG是如何切分的？

20.Spark Streaming 状态管理函数，你了解吗

21.Spark序列化，你了解吗

Flink:

1.数据Flink实战系列
 2.最全的Flink部署及开发案例(KafkaSource+SinkToMySQL)

Phoenix:

HBase:

Kudu:

Storm:

Hue:

Azkaban:

全网唯一Azkaban3.x应用实战【buy视频】

Rundeck:

Docker:

Harbor:

Kubernetes:

Python:

PyTorch 1.0宣布用于研究和生产AI项目

1.Python核心笔记（一）

2.Python核心笔记（二）

3.Pandas数据分析入门（一）

4.Pandas数据分析入门（二）

5.Kaggle入门经典：Titanic生还预测

7.Titanic生还预测（一）构建基本模型

7.Titanic生还预测（二）

8.Titanic生还预测（三）

9.Titanic生还预测（四）

10. Titanic生还预测（五）

Spark MLlib:

TensorFlow:

实时同步中间件:

大数据之实时数据源同步中间件–生产上Canal与Maxwell颠峰对决

Java:

1.Java可扩展线程池之ThreadPoolExecutor

2.面试常考点-Java线程池之拒绝策略

3.再谈单例设计模式

4.Java类加载方式你知道几种？

Github:

如何将我们谱写的代码供凡人瞻仰

生产项目：

线上项目: 承诺企业生产项目，而不是那种pv,uv网上搜搜的项目

1.Spark实时分析预警平台(架构+提交流程+现场排错)【free视频】
2.Spark实时分析预警平台项目(在进阶班课表)
3.Strom互联网金融实时计算与分析项目(在进阶班课表)
4.构建企业级PaaS平台项目(在进阶班课表)

线下项目: 承诺上课是直接VPN公司生产环境，直接生产环境讲解生产项目

1.基于Spark的某互联网直播平台大数据分析项目实战第3季，正在报名！单击查看前2季的目录.
2.线下班生产项目第10期，国庆节线下4天课程，正在报名！

大数据平台运维：

CDH 入门:

CDH离线部署和暴力卸载、Kerberos【free视频】

1.CDH下载各种软件包
 2.CDH4/5集群正确启动和停止顺序
 3.CDH5 快速入门手册v1.0(体系架构+目录详解)
4.CDH4/5配置文件之深度解析
 5.CDH5之Trash

CDH 案例:

1.记录一次帮网友解决CDH集群机器的时钟偏差
 2.CDH集群机器,安装多个CDH版,会出现命令找不到,如hadoop,hdfs等等
 3.CDH5.8.2安装之Hash verification failed
4.记录CDH Spark2的spark2-submit的一个No such file or directory问题
 5.记录CDH5.10一个clients.NetworkClient: Bootstrap broker ip:9092 disconnected问题

6.记录自定义kafka的parcel库,CDH安装kafka服务,无法安装过去的排雷过程
 7.记录CDH安装的一个坑:could not contact scm server at localhost:7182, giving up
8.CDH5之Found class jline.Terminal, but interface was expected
9.CDH5之Exhausted available authentication methods
10.CDH5之Unexpected error.Unable to verify database connection

11.生产CDH5配置lzo

坚持原创技术分享，您的支持将鼓励我继续创作！

本文作者： 曹理鹏@iCocos
本文链接： https://icocos.github.io/2020/03/26/大数据之博客推荐/
版权声明： 本博客所有文章除特别声明外，均采用 CC BY-NC-SA 4.0 许可协议。转载请注明出处！