知因智慧面试题
学长1
(1)自我介绍
(2) Hadoop是自己搭的吗,用的什么版本?hadoop、flume、kafka、sqoop、spark版本号
(3)多少台服务器?为什么?
(4)你们公司多少人?大数据组多少人?
(5)离线数据从哪儿来的?
(6)网站访问量多大?
(7)并发峰值多少?大概哪个时间点?
(8)加班多吗?
(9)Hadoop启动的时候都有哪些进程?
(10)namenode、datanode、secondnamenode怎么协作的?
(11)介绍一下Java中的Map?Map、set和list的区别?
(12)GC垃圾回收?
(13)HQL用的过程中对SQL的一些优化、hive 的优化?
(14)MapJoin的底层是怎么做的?
(15)小表join大表,多大的表算小表,多大算大表?为什么?
(16)SQL语句做过哪些优化?orderby、sortby区别?
(17)临时表和视图用过吗?说一下
(18)分区表用过吗?什么情况下用的?
(19)用的是动态分区吗?动态分区的底层原理是什么?
(20)分区和分桶都用了吗?
(21)场景:现在有张码表,需要很多次join,这个SQL要怎么写?用什么函数来解决这个问题,直接join不是最好的解决办法?
(22)用Spark做过什么?RDD、dataFrame、dataSet有什么区别?
(23)你是怎么理解RDD的?
(24)在Spark处理过程当中,影响执行效率的参数都有哪些?并行度你们设置的多少,输入的数据量多大?
(25)Sqoop用来做什么?Sqoop遇到哪些问题?
(26)Hive里边字段的分隔符用的什么?为什么用\t?有遇到过字段里边有\t的情况吗,怎么处理的?为什么不用Hive默认的分隔符,默认的分隔符是什么?
(27)ES怎么用的,用来做什么?为什么用ES?ES最大的优点,最适合解决什么样的问题?ES集群是几个节点?
(28) OLAP和OLTP的区别?
(29)impala用过吗,什么情况下用?知道impala为什么快吗?
(30)Hive都用过哪些引擎?Tez用的时候设置的容量有多大?设置了哪些参数?
(31)未来的规划?数据仓库、数据分析、底层维护、数据的标准化?
(32)为什么离职?期望薪水?
(33)你有什么想要了解的吗?
学长1
CTO给面试,
(1)APP40万的下载量,日活10万。
(2)你们一天数据量有多大:行为日志---10G(按1G/万人)
(3)你们的数据有多少维度:
(4)每个字段有多大:
(5)你们有多少个服务器:27台有左右
(6)Flume 4-5 Agent在后台服务器一块
(7)Kafka 4-5 和Flume Collect共用,数据保留7天
(8)ZK 3 可单独部署也可放在数据节点
(9)Hadoop 12-15 数仓(Hive分层)
(10)Spark 7-8 实时运算的
(11)你们一天数据分配到每个服务器,数据量有多大:
(12)Flume和kafka数据能达到2到3G
(13)Hadoop每台数据达到1G