大数据之常见面试题


大数据–面试题一览

[20180524]

  • 阐述HDFS生成文件的过程
  • Hadoop有哪些优化,调优点
  • 阐述对Hive分区的理解
  • Hive分桶
  • 用Spark干过什么
  • 你们公司生产的集群规模
  • 懂不懂CDH

[20180508] 七牛云面试题

  • 快排
  • hive和hdfs之间的联系
  • inode和文件描述符
  • linux指令如何创建文件
  • http中header中放入key value 有什么变化
  • 系统调用和库函数区别
  • http缓冲实现机智
  • session cookie 区别
  • 进程间通信方式
  • jsp本质
  • http请求状状态
  • get post put remove
  • 数据库join
  • 数据库引擎
  • hibernate和mybiters区别
  • jvm垃圾回收
  • hive和关系型数据库区别
  • hive实现原理
  • spark与mr的区别

[20180502] 二三四五面试题

  • 画图讲解Spark工作流程,以及在集群上和各个角色的对应关系
  • Spark Streaming程序代码更新后如何操作
  • 在一个电商网站中,设计一个订单ID生成方案
  • spark-submit如何引入外部jar包
  • Spark对于OOM从什么角度下手调整
  • org.apache.spark.SparkExectption:Task not serializable,这个错误是什么意思?如何解决?哪些场景会出现这错误?

[20180427] 面试题

  • 有10个文件,每个文件1G,每个文件的每一行存放的都是用户的query,每个文件的query都可能重复。要求你按照query的频度排序
  • 有一个1G大小的一个文件,里面每一行是一个词,词的大小不超过16字节,内存限制大小是1M。返回频数最高的100个词

[20180426] 美图二面

  • ThriftServer的HA如何去实现,能说下实现的思路嘛
  • 说下Zookeeper的watch机制是如何实现的嘛?
  • 场景题:
    • 现在有1个client,2个server,当我动态加入一台机器,或者删除一台机器,或者某台机器宕机了,client该如何去感知到,说下实现思路(不使用Zookeeper)
    • 如何通信,说说具体实现

[20180425] 蚂蚁金服编程题

  • 编程题A:求一个整数的平方根,不保留小数。

  • 编程题B:

    • 1.年/月/日/xxx.jpg , 文件夹以 这个形式组织。
    • 2.新建文件夹,将所有jpg文件拷贝到该文件夹,更名为 年_月_日_xxx.jpg。
    • 3.监控文件夹,如果有增加的jpg文件,自动同步到新文件夹。
    • 4.jpg文件只增加不删除。

[20180424] 成都某公司面试题

  • 谈谈你对HDFS的了解
  • Hadoop2.0做了哪些改动
  • Spark与MR的区别在哪里
  • 知道除了Spark之外的大数据处理框架嘛
  • Spark shuffle,说说
  • StringBuilder与StringBuffer的区别
  • HashMap与Hashtable的区别
  • 二叉树的数据结构是什么样的
  • 数据库索引的实现原理
  • jvm垃圾收集器,挑一种讲讲

[20180423] 美图面试题

  • 为什么选择美图,你知道美图地点在哪里嘛
  • 介绍下你做的项目吧
  • 数据统一管理平台,我挺感兴趣的,你说说吧
  • 我大概知道是怎么回事了,java web这块你参与开发了吗
  • 你刚刚项目提到了元数据,你能说说hive的元数据管理嘛,对它了解嘛
  • 还是hive,你对hive有哪些原理性了解呢
  • 知道AST、operator tree这些长什么样吗
  • 那你的hive转mr过程是怎么了解的呢?
  • 除了谓词下推,还能说说其它的优化嘛?别说数据倾斜的调优
  • jvm了解不,说下垃圾收集算法
  • 平常用java和scala语言哪个多点
  • 如果我现在要使用map集合,你觉得哪种适合多线程情况下进行访问
  • 如何去监控线程
  • Spark 出现OOM,你觉得该怎么进行调优呢?不去动jvm的参数
  • 你觉得join该怎么优化
  • 你对未来的规划是什么?(五年内)
  • 你也就是走技术路线咯

[20180421] 北京3+家面试题

hadoop面试:

1、hadoop集群、namenode如何做到数据同步?
2、hdfs副本存放策略
3、HA如何在挂掉一台namenode节点的状态下,自动切换到另一台?
4、mapreduce shuffle过程
5、mapreduce优化

flume面试:

1、你能二次源码修改支持parquent格式吗?

sqoop面试:

1、抽取某个数据库下的某张表+条件 怎么抽取?
2、sqoop增量导入

hbase面试:

1、rowkey如何设计
2、hbase热点问题
3、协处理器
4、hbase优化
5、hbase的二级索引

hive面试:

1、数据倾斜
2、hive能加索引吗?

spark面试:

1、rdd dataset dataframe 概念
2、mapflat
3、spark资源分配

kafka面试:

1、怎么保证数据零丢失?和spark streaming结合说说看?
2、怎么解决数据重复问题?
3、某个kafka节点挂掉对生产和消费有影响吗?
4、生产大于消费 lag产生大量的滞后怎么解决?

数据库面试:

1、btree
2、索引
3、拉链表

shell面试:

1、如何查找在Linux目录下的某个文本里的包含相关内容的操作?

[20180420] 蚂蚁金服面试题

  • 小文件的合并
  • MR与Spark的区别
  • 关注哪些名人的博客
  • 对大数据领域有什么自己的见解
  • 平常怎么学习大数据的
  • StringBuilder与StringBuffer的区别
  • HashMap与Hashtable的区别
  • 谈谈你对树的理解
  • 数据库索引的实现
  • jvm的内存模型
  • jvm的垃圾收集器
  • jvm的垃圾收集算法
  • HDFS架构
  • HDFS读写流程
  • Hadoop3.0做了哪些改进
  • 谈谈YARN
  • 为什么项目选择使用Spark,你觉得Spark的优点在哪里
  • 了解Flink与Storm嘛,他们与Spark Streaming的区别在哪里
  • 1TB文件,取重复的词,top5指定的资源的场景下,如何快速统计出来

[20180419] 网易大数据面试题

  • 说说项目
  • Spark哪部分用得好,如何调优
  • Java哪部分了解比较好
  • 聊聊并发,并发实现方法,volatile关键字说说
  • HashMap的底层原理
  • 为什么要重写hashcode和equals
  • 说说jvm
  • 各个垃圾收集器运用在什么情形
  • jvm调优
  • 说说io
  • 为什么考虑转行呢?是因为原专业不好就业吗?

[20180418] 数据挖掘面试题

  • Java字符串拼接StringBuffer和+=区别
  • Scala map和foreach区别
  • Spark groupByKey和reduceByKey区别
  • Spark将数据写MySQL要注意什么
  • Spark repartition和coalesce函数的区别
  • 梯度下降、随机梯度下降、mini batch 梯度下降的区别
  • SVM原理
  • SVM中为什么要转成对偶问题
  • SVM在分类时怎么选择合适的核函数
  • 特征共线性问题
  • Hive外表和内表的区别
  • 求解字符串的所有的回文子串
  • 贝叶斯定理
  • 人员画像
  • 推荐系统 svd knn

[20180417]

  • 自我介绍
  • 最近一个项目的架构,你所负责的模块
  • 谈谈你对Spark的理解
  • 在这个项目中,你觉得你做的模板中出彩的地方与哪些
  • Spark作业提交的流程
  • 在工作中使用Spark遇到了哪些问题,如何解决的,请举3个例子
  • 谈谈你对JVM的了解
坚持原创技术分享,您的支持将鼓励我继续创作!