大数据之博客推荐


大数据–博客一览

大数据零基础:

Linux And Shell:

零基础大数据入门【free视频】

1.VMware Workstation9 下安装 CentOS6.5( 安装图文教程 )
2.Linux最常用命令及快捷键整理
3.配置多台机器SSH相互通信信任

4.Memory参数,你真的懂吗?
5.yum安装xxx包时出错,提示No package xxx available.
6.CentOS6.x使用163和epel yum源的选择
7.Centos6.5 python2.6.6 升级到2.7.5
8.CentOS清理swap和buffer/cache

9.记录在shell脚本中使用sudo echo x > 时,抛Permission denied错误

10.Linux系统重要参数调优,你知道吗

11.大数据之必会的Linux命令

DataBase And SQL:
Hadoop:

1.Hadoop2.8.1全网最详细编译
2.Hadoop全网最详细的伪分布式部署(HDFS)
3.Hadoop全网最详细的伪分布式部署(MapReduce+Yarn)
4.Hadoop常用命令大全01
5.Hadoop-2.7.2+zookeeper-3.4.6完全分布式环境搭建(HDFS、YARN HA)
6.Hadoop2.x 参数汇总
7.YARN的Memory和CPU调优配置详解
8.资源调度yarn之生产详解

9.fsimage?editlog?这些都是什么??

10.你真的了解jps命令吗

11.Hadoop HA 的配置,你了解吗?

12.Hadoop之Yarn架构设计(command memory cpu)

13.HDFS之垃圾回收箱配置及使用

Zookeeper:
Hive:

Hive应用实战课程【buy视频】

1.Hive全网最详细的编译及部署
2.Hive DDL,你真的了解吗?
3.Hive自定义函数(UDF)的编程开发,你会吗?
4.Hive自定义函数(UDF)的部署使用,你会吗?
5. 2min快速了解,Hive内部表和外部表

6. 5min掌握,Hive的HiveServer2 和JDBC客户端&代码的生产使用
7.生产中Hive静态和动态分区表,该怎样抉择呢?

8.Hive中自定义UDAF函数生产小案例

9.从Hive中的stored as file_foramt看hive调优

10.你真的了解 Hive 的元数据吗?

[11.hive实战 (https://blog.csdn.net/liweihope/article/details/88584985)

SQOOP:

Sqoop应用实战课程【buy视频】

大数据进阶:

Compress And Storage Format:

1.大数据压缩格式,你们真的了解吗?
2.Hive压缩格式的生产应用

3.大数据存储格式,你们真的了解吗?
4.Hive存储格式的生产应用

5.Hive生产上,压缩和存储结合使用案例

Flume:
Kafka:

批处理ETL已亡,Kafka才是数据处理的未来【buy视频】

Scala:
Spark:

Spark零基础实战【free视频】

1.Spark2.2.0 全网最详细的源码编译
2.Spark-2.2.0-bin-2.6.0-cdh5.12.1.tgz 编译方法总结!

3.生产改造Spark1.6源代码,create table语法支持Oracle列表分区
4.Spark History Server Web UI配置
5.Spark on YARN-Cluster和YARN-Client的区别

6.Spark RDD、DataFrame和DataSet的区别

7.Spark RDD、DataFrame和DataSet的区别

8.Spark不得不理解的重要概念——从源码角度看RDD

9.Spark 基本概念

10.Spark调优的关键之——RDD Cache缓存使用详解

11.Spark之序列化在生产中的应用

12.还不收藏?Spark动态内存管理源码解析!

13.Spark SQL 外部数据源(External DataSource)

14.你大爷永远是你大爷,RDD血缘关系源码详解!

15.Apache Spark 技术团队开源机器学习平台 MLflow

16.生产开发必用-Spark RDD转DataFrame的两种方法

17.最前沿!带你读Structured Streaming重量级论文!

18.Apache Spark和DL/AI结合,谁与争锋? 期待Spark3.0的到来!

19.又又又是源码!RDD 作业的DAG是如何切分的?

20.Spark Streaming 状态管理函数,你了解吗

21.Spark序列化,你了解吗

1.数据Flink实战系列
2.最全的Flink部署及开发案例(KafkaSource+SinkToMySQL)

Phoenix:
HBase:
Kudu:
Storm:
Hue:
Azkaban:

全网唯一Azkaban3.x应用实战【buy视频】

Rundeck:
Docker:
Harbor:
Kubernetes:
Python:

PyTorch 1.0宣布用于研究和生产AI项目

1.Python核心笔记(一)

2.Python核心笔记(二)

3.Pandas数据分析入门(一)

4.Pandas数据分析入门(二)

5.Kaggle入门经典:Titanic生还预测

7.Titanic生还预测(一)构建基本模型

7.Titanic生还预测(二)

8.Titanic生还预测(三)

9.Titanic生还预测(四)

10. Titanic生还预测(五)

Spark MLlib:
TensorFlow:
实时同步中间件:

大数据之实时数据源同步中间件–生产上Canal与Maxwell颠峰对决

Java:

1.Java可扩展线程池之ThreadPoolExecutor

2.面试常考点-Java线程池之拒绝策略

3.再谈单例设计模式

4.Java类加载方式你知道几种?

Github:

如何将我们谱写的代码供凡人瞻仰

生产项目:

线上项目: 承诺企业生产项目,而不是那种pv,uv网上搜搜的项目

1.Spark实时分析预警平台(架构+提交流程+现场排错)【free视频】
2.Spark实时分析预警平台项目(在进阶班课表)
3.Strom互联网金融实时计算与分析项目(在进阶班课表)
4.构建企业级PaaS平台项目(在进阶班课表)

线下项目: 承诺上课是直接VPN公司生产环境,直接生产环境讲解生产项目

1.基于Spark的某互联网直播平台大数据分析项目实战第3季,正在报名!单击查看前2季的目录.
2.线下班生产项目第10期,国庆节线下4天课程,正在报名!

大数据平台运维:

CDH 入门:

CDH离线部署和暴力卸载、Kerberos【free视频】

1.CDH下载各种软件包
2.CDH4/5集群正确启动和停止顺序
3.CDH5 快速入门手册v1.0(体系架构+目录详解)
4.CDH4/5配置文件之深度解析
5.CDH5之Trash

CDH 案例:

1.记录一次帮网友解决CDH集群机器的时钟偏差
2.CDH集群机器,安装多个CDH版,会出现命令找不到,如hadoop,hdfs等等
3.CDH5.8.2安装之Hash verification failed
4.记录CDH Spark2的spark2-submit的一个No such file or directory问题
5.记录CDH5.10一个clients.NetworkClient: Bootstrap broker ip:9092 disconnected问题

6.记录自定义kafka的parcel库,CDH安装kafka服务,无法安装过去的排雷过程
7.记录CDH安装的一个坑:could not contact scm server at localhost:7182, giving up
8.CDH5之Found class jline.Terminal, but interface was expected
9.CDH5之Exhausted available authentication methods
10.CDH5之Unexpected error.Unable to verify database connection

11.生产CDH5配置lzo

坚持原创技术分享,您的支持将鼓励我继续创作!