网站首页 > 教程文章正文

知因智慧大数据面试题，真实面试分享

jxf315 2025-02-20 16:03:04 教程文章 70 ℃

知因智慧面试题

学长1

（1）自我介绍

（2） Hadoop是自己搭的吗，用的什么版本？hadoop、flume、kafka、sqoop、spark版本号

（3）多少台服务器？为什么？

（4）你们公司多少人？大数据组多少人？

（5）离线数据从哪儿来的？

（6）网站访问量多大？

（7）并发峰值多少？大概哪个时间点？

（8）加班多吗？

（9）Hadoop启动的时候都有哪些进程？

（10）namenode、datanode、secondnamenode怎么协作的？

（11）介绍一下Java中的Map？Map、set和list的区别？

（12）GC垃圾回收？

（13）HQL用的过程中对SQL的一些优化、hive 的优化？

（14）MapJoin的底层是怎么做的？

（15）小表join大表，多大的表算小表，多大算大表？为什么？

（16）SQL语句做过哪些优化？orderby、sortby区别？

（17）临时表和视图用过吗？说一下

（18）分区表用过吗？什么情况下用的？

（19）用的是动态分区吗？动态分区的底层原理是什么？

（20）分区和分桶都用了吗？

（21）场景：现在有张码表，需要很多次join，这个SQL要怎么写？用什么函数来解决这个问题，直接join不是最好的解决办法？

（22）用Spark做过什么？RDD、dataFrame、dataSet有什么区别？

（23）你是怎么理解RDD的？

（24）在Spark处理过程当中，影响执行效率的参数都有哪些？并行度你们设置的多少，输入的数据量多大？

（25）Sqoop用来做什么？Sqoop遇到哪些问题？

（26）Hive里边字段的分隔符用的什么？为什么用\t？有遇到过字段里边有\t的情况吗，怎么处理的？为什么不用Hive默认的分隔符，默认的分隔符是什么？

（27）ES怎么用的，用来做什么？为什么用ES？ES最大的优点，最适合解决什么样的问题？ES集群是几个节点？

（28） OLAP和OLTP的区别？

（29）impala用过吗，什么情况下用？知道impala为什么快吗？

（30）Hive都用过哪些引擎？Tez用的时候设置的容量有多大？设置了哪些参数？

（31）未来的规划？数据仓库、数据分析、底层维护、数据的标准化？

（32）为什么离职？期望薪水？

（33）你有什么想要了解的吗？

学长1

CTO给面试，

（1）APP40万的下载量，日活10万。

（2）你们一天数据量有多大：行为日志---10G（按1G/万人）

（3）你们的数据有多少维度：

（4）每个字段有多大：

（5）你们有多少个服务器：27台有左右

（6）Flume 4-5 Agent在后台服务器一块

（7）Kafka 4-5 和Flume Collect共用，数据保留7天

（8）ZK 3 可单独部署也可放在数据节点

（9）Hadoop 12-15 数仓(Hive分层)

（10）Spark 7-8 实时运算的

（11）你们一天数据分配到每个服务器，数据量有多大：

（12）Flume和kafka数据能达到2到3G

（13）Hadoop每台数据达到1G

网站首页 > 教程文章 正文

知因智慧大数据面试题，真实面试分享

知因智慧面试题

学长1

学长1

猜你喜欢

网站首页 > 教程文章正文