大数据–博客一览
大数据零基础:
Linux And Shell:
1.VMware Workstation9 下安装 CentOS6.5( 安装图文教程 )
2.Linux最常用命令及快捷键整理
3.配置多台机器SSH相互通信信任
4.Memory参数,你真的懂吗?
5.yum安装xxx包时出错,提示No package xxx available.
6.CentOS6.x使用163和epel yum源的选择
7.Centos6.5 python2.6.6 升级到2.7.5
8.CentOS清理swap和buffer/cache
9.记录在shell脚本中使用sudo echo x > 时,抛Permission denied错误
DataBase And SQL:
Hadoop:
1.Hadoop2.8.1全网最详细编译
2.Hadoop全网最详细的伪分布式部署(HDFS)
3.Hadoop全网最详细的伪分布式部署(MapReduce+Yarn)
4.Hadoop常用命令大全01
5.Hadoop-2.7.2+zookeeper-3.4.6完全分布式环境搭建(HDFS、YARN HA)
6.Hadoop2.x 参数汇总
7.YARN的Memory和CPU调优配置详解
8.资源调度yarn之生产详解
12.Hadoop之Yarn架构设计(command memory cpu)
Zookeeper:
Hive:
1.Hive全网最详细的编译及部署
2.Hive DDL,你真的了解吗?
3.Hive自定义函数(UDF)的编程开发,你会吗?
4.Hive自定义函数(UDF)的部署使用,你会吗?
5. 2min快速了解,Hive内部表和外部表
6. 5min掌握,Hive的HiveServer2 和JDBC客户端&代码的生产使用
7.生产中Hive静态和动态分区表,该怎样抉择呢?
9.从Hive中的stored as file_foramt看hive调优
[11.hive实战 (https://blog.csdn.net/liweihope/article/details/88584985)
SQOOP:
大数据进阶:
Compress And Storage Format:
1.大数据压缩格式,你们真的了解吗?
2.Hive压缩格式的生产应用
3.大数据存储格式,你们真的了解吗?
4.Hive存储格式的生产应用
Flume:
Kafka:
批处理ETL已亡,Kafka才是数据处理的未来【buy视频】
Scala:
Spark:
1.Spark2.2.0 全网最详细的源码编译
2.Spark-2.2.0-bin-2.6.0-cdh5.12.1.tgz 编译方法总结!
3.生产改造Spark1.6源代码,create table语法支持Oracle列表分区
4.Spark History Server Web UI配置
5.Spark on YARN-Cluster和YARN-Client的区别
6.Spark RDD、DataFrame和DataSet的区别
7.Spark RDD、DataFrame和DataSet的区别
10.Spark调优的关键之——RDD Cache缓存使用详解
13.Spark SQL 外部数据源(External DataSource)
15.Apache Spark 技术团队开源机器学习平台 MLflow
16.生产开发必用-Spark RDD转DataFrame的两种方法
17.最前沿!带你读Structured Streaming重量级论文!
18.Apache Spark和DL/AI结合,谁与争锋? 期待Spark3.0的到来!
20.Spark Streaming 状态管理函数,你了解吗
Flink:
1.数据Flink实战系列
2.最全的Flink部署及开发案例(KafkaSource+SinkToMySQL)
Phoenix:
HBase:
Kudu:
Storm:
Hue:
Azkaban:
Rundeck:
Docker:
Harbor:
Kubernetes:
Python:
Spark MLlib:
TensorFlow:
实时同步中间件:
大数据之实时数据源同步中间件–生产上Canal与Maxwell颠峰对决
Java:
1.Java可扩展线程池之ThreadPoolExecutor
Github:
生产项目:
线上项目: 承诺企业生产项目,而不是那种pv,uv网上搜搜的项目
1.Spark实时分析预警平台(架构+提交流程+现场排错)【free视频】
2.Spark实时分析预警平台项目(在进阶班课表)
3.Strom互联网金融实时计算与分析项目(在进阶班课表)
4.构建企业级PaaS平台项目(在进阶班课表)
线下项目: 承诺上课是直接VPN公司生产环境,直接生产环境讲解生产项目
1.基于Spark的某互联网直播平台大数据分析项目实战第3季,正在报名!单击查看前2季的目录.
2.线下班生产项目第10期,国庆节线下4天课程,正在报名!
大数据平台运维:
CDH 入门:
1.CDH下载各种软件包
2.CDH4/5集群正确启动和停止顺序
3.CDH5 快速入门手册v1.0(体系架构+目录详解)
4.CDH4/5配置文件之深度解析
5.CDH5之Trash
CDH 案例:
1.记录一次帮网友解决CDH集群机器的时钟偏差
2.CDH集群机器,安装多个CDH版,会出现命令找不到,如hadoop,hdfs等等
3.CDH5.8.2安装之Hash verification failed
4.记录CDH Spark2的spark2-submit的一个No such file or directory问题
5.记录CDH5.10一个clients.NetworkClient: Bootstrap broker ip:9092 disconnected问题
6.记录自定义kafka的parcel库,CDH安装kafka服务,无法安装过去的排雷过程
7.记录CDH安装的一个坑:could not contact scm server at localhost:7182, giving up
8.CDH5之Found class jline.Terminal, but interface was expected
9.CDH5之Exhausted available authentication methods
10.CDH5之Unexpected error.Unable to verify database connection