Big-Data-Project
Hadoop2.x、Zookeeper、Flume、Hive、Hbase、Kafka、Spark2.x、SparkStreaming、MySQL、Hue、J2EE、websoket、Echarts
项目名称:新闻日志大数据处理系统
项目简介
目标
1、完成大数据项目的架构设计,安装部署,架构继承与开发、用户可视化交互设计
2、完成实时在线数据分析
3、完成离线数据分析
具体功能
1)捕获用户浏览日志信息
2)实时分析前20名流量最高的新闻话题
3)实时统计当前线上已曝光的新闻话题
4)统计哪个时段用户浏览量最高
5)报表
项目技术点
Hadoop2.x、Zookeeper、Flume、Hive、Hbase
Kafka、Spark2.x、SparkStreaming
MySQL、Hue、J2EE、websoket、Echarts
开发工具
虚拟机: VMware、centos
虚拟机ssh: SecureCRT(在windows上链接多个虚拟机)
修改源码:idea
查看各种数据:notepad++(安装NppFTP插件,修改虚拟机中配置文件,好用的一批)
所有软件下载地址:
链接:https://pan.baidu.com/s/1aF_VmdXJVIjeB0WzAtfeEQ
提取码:cuao
项目架构
图片来自于卡夫卡公司
集群资源规划
利用VMware虚拟机+centos完成,基本要求笔记本电脑内存在8G以上。
最低要去克隆出3台虚拟机,每台给2G内存。
项目实现步骤
1、第一章:项目需求分析与设计
https://www.willxu.xyz/2018/12/19/project/1%E3%80%81%E9%A1%B9%E7%9B%AE%E9%9C%80%E6%B1%82/
2、第二章:linux环境准备与设置
https://www.willxu.xyz/2018/12/19/project/2%E3%80%81linux%E9%85%8D%E7%BD%AE/
3、第三章:Hadoop2.X分布式集群部署
https://www.willxu.xyz/2018/12/19/project/3%E3%80%81hadoop%E9%83%A8%E7%BD%B2/
4、第四章:Zookeeper分布式集群部署
https://www.willxu.xyz/2018/12/29/project/4%E3%80%81zk%E9%83%A8%E7%BD%B2/
5、第五章:hadoop的高可用配置(HA)
https://www.willxu.xyz/2018/12/29/project/5%E3%80%81ha%E5%AE%9E%E7%8E%B0/
6、第六章:hadoop的HA下的高可用HBase部署
https://www.willxu.xyz/2018/12/30/project/6%E3%80%81hbase%E9%83%A8%E7%BD%B2/
7、第七章:Kafka简介和分布式部署
https://www.willxu.xyz/2019/01/01/project/7%E3%80%81kafka%E9%83%A8%E7%BD%B2/
8、第八章:Flume简介和分布式部署
https://www.willxu.xyz/2019/01/01/project/8%E3%80%81flume%E9%83%A8%E7%BD%B2/
9、第九章:Flume源码修改与HBase+Kafka集成
https://www.willxu.xyz/2019/01/20/project/9%E3%80%81flume-hbase-kfk%E9%85%8D%E7%BD%AE/
10、第十章:Flume+HBase+Kafka集成全流程测试
https://www.willxu.xyz/2019/01/20/project/10%E3%80%81flume-hbase-kfk%E8%81%94%E8%B0%83/
11、第十一章:mysql、Hive安装与集成
https://www.willxu.xyz/2019/01/22/project/11%E3%80%81mysql-hive/
12、第十二章:Hive与Hbase集成
https://www.willxu.xyz/2019/01/23/project/12%E3%80%81hive-hbase/
13、第十三章:Cloudera HUE大数据可视化分析
https://www.willxu.xyz/2019/01/26/project/13%E3%80%81hue/
14、第十四章:Spark2.X集群安装与spark on yarn部署
https://www.willxu.xyz/2019/01/30/project/14%E3%80%81spark%20on%20yarn/
15、第十五章:基于IDEA环境下的Spark2.X程序开发
https://www.willxu.xyz/2019/01/30/project/15%E3%80%81spark-idea/
16、第十六章:Spark Streaming实时数据处理
https://www.willxu.xyz/2019/02/03/project/16%E3%80%81spark-streaming1/
项目配套视频
链接:https://pan.baidu.com/s/1-PQta6SCgps91oFNTkl6Qg
提取码:sh8x