云计算、AI、云原生、大数据等一站式技术学习平台

网站首页 > 教程文章 正文

知因智慧大数据面试题,真实面试分享

jxf315 2025-02-20 16:03:04 教程文章 25 ℃

知因智慧面试题

学长1

(1)自我介绍

(2) Hadoop是自己搭的吗,用的什么版本?hadoop、flume、kafka、sqoop、spark版本号

(3)多少台服务器?为什么?

(4)你们公司多少人?大数据组多少人?

(5)离线数据从哪儿来的?

(6)网站访问量多大?

(7)并发峰值多少?大概哪个时间点?

(8)加班多吗?

(9)Hadoop启动的时候都有哪些进程?

(10)namenode、datanode、secondnamenode怎么协作的?

(11)介绍一下Java中的Map?Map、set和list的区别?

(12)GC垃圾回收?

(13)HQL用的过程中对SQL的一些优化、hive 的优化?

(14)MapJoin的底层是怎么做的?

(15)小表join大表,多大的表算小表,多大算大表?为什么?

(16)SQL语句做过哪些优化?orderby、sortby区别?

(17)临时表和视图用过吗?说一下

(18)分区表用过吗?什么情况下用的?

(19)用的是动态分区吗?动态分区的底层原理是什么?

(20)分区和分桶都用了吗?

(21)场景:现在有张码表,需要很多次join,这个SQL要怎么写?用什么函数来解决这个问题,直接join不是最好的解决办法?

(22)用Spark做过什么?RDD、dataFrame、dataSet有什么区别?

(23)你是怎么理解RDD的?

(24)在Spark处理过程当中,影响执行效率的参数都有哪些?并行度你们设置的多少,输入的数据量多大?

(25)Sqoop用来做什么?Sqoop遇到哪些问题?

(26)Hive里边字段的分隔符用的什么?为什么用\t?有遇到过字段里边有\t的情况吗,怎么处理的?为什么不用Hive默认的分隔符,默认的分隔符是什么?

(27)ES怎么用的,用来做什么?为什么用ES?ES最大的优点,最适合解决什么样的问题?ES集群是几个节点?

(28) OLAP和OLTP的区别?

(29)impala用过吗,什么情况下用?知道impala为什么快吗?

(30)Hive都用过哪些引擎?Tez用的时候设置的容量有多大?设置了哪些参数?

(31)未来的规划?数据仓库、数据分析、底层维护、数据的标准化?

(32)为什么离职?期望薪水?

(33)你有什么想要了解的吗?

学长1

CTO给面试,

(1)APP40万的下载量,日活10万。

(2)你们一天数据量有多大:行为日志---10G(按1G/万人)

(3)你们的数据有多少维度:

(4)每个字段有多大:

(5)你们有多少个服务器:27台有左右

(6)Flume 4-5 Agent在后台服务器一块

(7)Kafka 4-5 和Flume Collect共用,数据保留7天

(8)ZK 3 可单独部署也可放在数据节点

(9)Hadoop 12-15 数仓(Hive分层)

(10)Spark 7-8 实时运算的

(11)你们一天数据分配到每个服务器,数据量有多大:

(12)Flume和kafka数据能达到2到3G

(13)Hadoop每台数据达到1G

最近发表
标签列表