大数据–面试题一览
[20180524]
- 阐述HDFS生成文件的过程
- Hadoop有哪些优化,调优点
- 阐述对Hive分区的理解
- Hive分桶
- 用Spark干过什么
- 你们公司生产的集群规模
- 懂不懂CDH
[20180508] 七牛云面试题
- 快排
- hive和hdfs之间的联系
- inode和文件描述符
- linux指令如何创建文件
- http中header中放入key value 有什么变化
- 系统调用和库函数区别
- http缓冲实现机智
- session cookie 区别
- 进程间通信方式
- jsp本质
- http请求状状态
- get post put remove
- 数据库join
- 数据库引擎
- hibernate和mybiters区别
- jvm垃圾回收
- hive和关系型数据库区别
- hive实现原理
- spark与mr的区别
[20180502] 二三四五面试题
- 画图讲解Spark工作流程,以及在集群上和各个角色的对应关系
- Spark Streaming程序代码更新后如何操作
- 在一个电商网站中,设计一个订单ID生成方案
- spark-submit如何引入外部jar包
- Spark对于OOM从什么角度下手调整
- org.apache.spark.SparkExectption:Task not serializable,这个错误是什么意思?如何解决?哪些场景会出现这错误?
[20180427] 面试题
- 有10个文件,每个文件1G,每个文件的每一行存放的都是用户的query,每个文件的query都可能重复。要求你按照query的频度排序
- 有一个1G大小的一个文件,里面每一行是一个词,词的大小不超过16字节,内存限制大小是1M。返回频数最高的100个词
[20180426] 美图二面
- ThriftServer的HA如何去实现,能说下实现的思路嘛
- 说下Zookeeper的watch机制是如何实现的嘛?
- 场景题:
- 现在有1个client,2个server,当我动态加入一台机器,或者删除一台机器,或者某台机器宕机了,client该如何去感知到,说下实现思路(不使用Zookeeper)
- 如何通信,说说具体实现
[20180425] 蚂蚁金服编程题
编程题A:求一个整数的平方根,不保留小数。
编程题B:
- 1.年/月/日/xxx.jpg , 文件夹以 这个形式组织。
- 2.新建文件夹,将所有jpg文件拷贝到该文件夹,更名为 年_月_日_xxx.jpg。
- 3.监控文件夹,如果有增加的jpg文件,自动同步到新文件夹。
- 4.jpg文件只增加不删除。
[20180424] 成都某公司面试题
- 谈谈你对HDFS的了解
- Hadoop2.0做了哪些改动
- Spark与MR的区别在哪里
- 知道除了Spark之外的大数据处理框架嘛
- Spark shuffle,说说
- StringBuilder与StringBuffer的区别
- HashMap与Hashtable的区别
- 二叉树的数据结构是什么样的
- 数据库索引的实现原理
- jvm垃圾收集器,挑一种讲讲
[20180423] 美图面试题
- 为什么选择美图,你知道美图地点在哪里嘛
- 介绍下你做的项目吧
- 数据统一管理平台,我挺感兴趣的,你说说吧
- 我大概知道是怎么回事了,java web这块你参与开发了吗
- 你刚刚项目提到了元数据,你能说说hive的元数据管理嘛,对它了解嘛
- 还是hive,你对hive有哪些原理性了解呢
- 知道AST、operator tree这些长什么样吗
- 那你的hive转mr过程是怎么了解的呢?
- 除了谓词下推,还能说说其它的优化嘛?别说数据倾斜的调优
- jvm了解不,说下垃圾收集算法
- 平常用java和scala语言哪个多点
- 如果我现在要使用map集合,你觉得哪种适合多线程情况下进行访问
- 如何去监控线程
- Spark 出现OOM,你觉得该怎么进行调优呢?不去动jvm的参数
- 你觉得join该怎么优化
- 你对未来的规划是什么?(五年内)
- 你也就是走技术路线咯
[20180421] 北京3+家面试题
hadoop面试:
1、hadoop集群、namenode如何做到数据同步?
2、hdfs副本存放策略
3、HA如何在挂掉一台namenode节点的状态下,自动切换到另一台?
4、mapreduce shuffle过程
5、mapreduce优化
flume面试:
1、你能二次源码修改支持parquent格式吗?
sqoop面试:
1、抽取某个数据库下的某张表+条件 怎么抽取?
2、sqoop增量导入
hbase面试:
1、rowkey如何设计
2、hbase热点问题
3、协处理器
4、hbase优化
5、hbase的二级索引
hive面试:
1、数据倾斜
2、hive能加索引吗?
spark面试:
1、rdd dataset dataframe 概念
2、mapflat
3、spark资源分配
kafka面试:
1、怎么保证数据零丢失?和spark streaming结合说说看?
2、怎么解决数据重复问题?
3、某个kafka节点挂掉对生产和消费有影响吗?
4、生产大于消费 lag产生大量的滞后怎么解决?
数据库面试:
1、btree
2、索引
3、拉链表
shell面试:
1、如何查找在Linux目录下的某个文本里的包含相关内容的操作?
[20180420] 蚂蚁金服面试题
- 小文件的合并
- MR与Spark的区别
- 关注哪些名人的博客
- 对大数据领域有什么自己的见解
- 平常怎么学习大数据的
- StringBuilder与StringBuffer的区别
- HashMap与Hashtable的区别
- 谈谈你对树的理解
- 数据库索引的实现
- jvm的内存模型
- jvm的垃圾收集器
- jvm的垃圾收集算法
- HDFS架构
- HDFS读写流程
- Hadoop3.0做了哪些改进
- 谈谈YARN
- 为什么项目选择使用Spark,你觉得Spark的优点在哪里
- 了解Flink与Storm嘛,他们与Spark Streaming的区别在哪里
- 1TB文件,取重复的词,top5指定的资源的场景下,如何快速统计出来
[20180419] 网易大数据面试题
- 说说项目
- Spark哪部分用得好,如何调优
- Java哪部分了解比较好
- 聊聊并发,并发实现方法,volatile关键字说说
- HashMap的底层原理
- 为什么要重写hashcode和equals
- 说说jvm
- 各个垃圾收集器运用在什么情形
- jvm调优
- 说说io
- 为什么考虑转行呢?是因为原专业不好就业吗?
[20180418] 数据挖掘面试题
- Java字符串拼接StringBuffer和+=区别
- Scala map和foreach区别
- Spark groupByKey和reduceByKey区别
- Spark将数据写MySQL要注意什么
- Spark repartition和coalesce函数的区别
- 梯度下降、随机梯度下降、mini batch 梯度下降的区别
- SVM原理
- SVM中为什么要转成对偶问题
- SVM在分类时怎么选择合适的核函数
- 特征共线性问题
- Hive外表和内表的区别
- 求解字符串的所有的回文子串
- 贝叶斯定理
- 人员画像
- 推荐系统 svd knn
[20180417]
- 自我介绍
- 最近一个项目的架构,你所负责的模块
- 谈谈你对Spark的理解
- 在这个项目中,你觉得你做的模板中出彩的地方与哪些
- Spark作业提交的流程
- 在工作中使用Spark遇到了哪些问题,如何解决的,请举3个例子
- 谈谈你对JVM的了解