大数据之常见面试题

发表于 2020-04-04 | 分类于大数据 | 评论数： | 阅读次数： | 阅读次数：

本文字数： 3.1k | 阅读时长 ≈ 3 分钟

大数据–面试题一览

[20180524]

阐述HDFS生成文件的过程
Hadoop有哪些优化，调优点
阐述对Hive分区的理解
Hive分桶
用Spark干过什么
你们公司生产的集群规模
懂不懂CDH

[20180508] 七牛云面试题

快排
hive和hdfs之间的联系
inode和文件描述符
linux指令如何创建文件
http中header中放入key value 有什么变化
系统调用和库函数区别
http缓冲实现机智
session cookie 区别
进程间通信方式
jsp本质
http请求状状态
get post put remove
数据库join
数据库引擎
hibernate和mybiters区别
jvm垃圾回收
hive和关系型数据库区别
hive实现原理
spark与mr的区别

[20180502] 二三四五面试题

画图讲解Spark工作流程，以及在集群上和各个角色的对应关系
Spark Streaming程序代码更新后如何操作
在一个电商网站中，设计一个订单ID生成方案
spark-submit如何引入外部jar包
Spark对于OOM从什么角度下手调整
org.apache.spark.SparkExectption:Task not serializable，这个错误是什么意思？如何解决？哪些场景会出现这错误？

[20180427] 面试题

有10个文件，每个文件1G，每个文件的每一行存放的都是用户的query，每个文件的query都可能重复。要求你按照query的频度排序
有一个1G大小的一个文件，里面每一行是一个词，词的大小不超过16字节，内存限制大小是1M。返回频数最高的100个词

[20180426] 美图二面

ThriftServer的HA如何去实现，能说下实现的思路嘛
说下Zookeeper的watch机制是如何实现的嘛？
场景题：
- 现在有1个client，2个server，当我动态加入一台机器，或者删除一台机器，或者某台机器宕机了，client该如何去感知到，说下实现思路(不使用Zookeeper)
- 如何通信，说说具体实现

[20180425] 蚂蚁金服编程题

编程题A：求一个整数的平方根，不保留小数。
编程题B：
- 1.年/月/日/xxx.jpg ，文件夹以这个形式组织。
- 2.新建文件夹，将所有jpg文件拷贝到该文件夹，更名为年_月_日_xxx.jpg。
- 3.监控文件夹，如果有增加的jpg文件，自动同步到新文件夹。
- 4.jpg文件只增加不删除。

[20180424] 成都某公司面试题

谈谈你对HDFS的了解
Hadoop2.0做了哪些改动
Spark与MR的区别在哪里
知道除了Spark之外的大数据处理框架嘛
Spark shuffle，说说
StringBuilder与StringBuffer的区别
HashMap与Hashtable的区别
二叉树的数据结构是什么样的
数据库索引的实现原理
jvm垃圾收集器，挑一种讲讲

[20180423] 美图面试题

为什么选择美图，你知道美图地点在哪里嘛
介绍下你做的项目吧
数据统一管理平台，我挺感兴趣的，你说说吧
我大概知道是怎么回事了，java web这块你参与开发了吗
你刚刚项目提到了元数据，你能说说hive的元数据管理嘛，对它了解嘛
还是hive，你对hive有哪些原理性了解呢
知道AST、operator tree这些长什么样吗
那你的hive转mr过程是怎么了解的呢？
除了谓词下推，还能说说其它的优化嘛？别说数据倾斜的调优
jvm了解不，说下垃圾收集算法
平常用java和scala语言哪个多点
如果我现在要使用map集合，你觉得哪种适合多线程情况下进行访问
如何去监控线程
Spark 出现OOM，你觉得该怎么进行调优呢？不去动jvm的参数
你觉得join该怎么优化
你对未来的规划是什么？(五年内)
你也就是走技术路线咯

[20180421] 北京3+家面试题

hadoop面试:

1、hadoop集群、namenode如何做到数据同步？
2、hdfs副本存放策略
3、HA如何在挂掉一台namenode节点的状态下，自动切换到另一台？
4、mapreduce shuffle过程
5、mapreduce优化

flume面试:

1、你能二次源码修改支持parquent格式吗？

sqoop面试:

1、抽取某个数据库下的某张表+条件怎么抽取?
2、sqoop增量导入

hbase面试:

1、rowkey如何设计
2、hbase热点问题
3、协处理器
4、hbase优化
5、hbase的二级索引

hive面试:

1、数据倾斜
2、hive能加索引吗？

spark面试:

1、rdd dataset dataframe 概念
2、mapflat
3、spark资源分配

kafka面试:

1、怎么保证数据零丢失?和spark streaming结合说说看？
2、怎么解决数据重复问题？
3、某个kafka节点挂掉对生产和消费有影响吗？
4、生产大于消费 lag产生大量的滞后怎么解决？

数据库面试:

1、btree
2、索引
3、拉链表

shell面试:

1、如何查找在Linux目录下的某个文本里的包含相关内容的操作?

[20180420] 蚂蚁金服面试题

小文件的合并
MR与Spark的区别
关注哪些名人的博客
对大数据领域有什么自己的见解
平常怎么学习大数据的
StringBuilder与StringBuffer的区别
HashMap与Hashtable的区别
谈谈你对树的理解
数据库索引的实现
jvm的内存模型
jvm的垃圾收集器
jvm的垃圾收集算法
HDFS架构
HDFS读写流程
Hadoop3.0做了哪些改进
谈谈YARN
为什么项目选择使用Spark，你觉得Spark的优点在哪里
了解Flink与Storm嘛，他们与Spark Streaming的区别在哪里
1TB文件，取重复的词，top5指定的资源的场景下，如何快速统计出来

[20180419] 网易大数据面试题

说说项目
Spark哪部分用得好，如何调优
Java哪部分了解比较好
聊聊并发，并发实现方法，volatile关键字说说
HashMap的底层原理
为什么要重写hashcode和equals
说说jvm
各个垃圾收集器运用在什么情形
jvm调优
说说io
为什么考虑转行呢？是因为原专业不好就业吗？

[20180418] 数据挖掘面试题

Java字符串拼接StringBuffer和+=区别
Scala map和foreach区别
Spark groupByKey和reduceByKey区别
Spark将数据写MySQL要注意什么
Spark repartition和coalesce函数的区别
梯度下降、随机梯度下降、mini batch 梯度下降的区别
SVM原理
SVM中为什么要转成对偶问题
SVM在分类时怎么选择合适的核函数
特征共线性问题
Hive外表和内表的区别
求解字符串的所有的回文子串
贝叶斯定理
人员画像
推荐系统 svd knn

[20180417]

自我介绍
最近一个项目的架构，你所负责的模块
谈谈你对Spark的理解
在这个项目中，你觉得你做的模板中出彩的地方与哪些
Spark作业提交的流程
在工作中使用Spark遇到了哪些问题，如何解决的，请举3个例子
谈谈你对JVM的了解

坚持原创技术分享，您的支持将鼓励我继续创作！

本文作者： 曹理鹏@iCocos
本文链接： https://icocos.github.io/2020/04/04/大数据之常见面试题/
版权声明： 本博客所有文章除特别声明外，均采用 CC BY-NC-SA 4.0 许可协议。转载请注明出处！