快捷搜索:  汽车  科技

大数据分析师题目(金九银十的100道大数据面试题)

大数据分析师题目(金九银十的100道大数据面试题)9、项目的数据量多大,集群规模多大?8、怎么判断Flume收集的延迟数据,全部收集完成?5、看过哪些Spark源码,用了什么设计模式?6、解释rdd五大特性7、SVM的缺点是什么

大数据分析师题目(金九银十的100道大数据面试题)(1)

1、gc算法有哪些,在什么地方使用?

2、join shuffle是怎么实现的,如果自己写代码怎么写?

3、topN场景,如果iterator里的记录特别多,怎么选出前10个?时间复杂度是多少?怎么写代码可以降低复杂度?

4、hdfs上有一个大的xml文件,统计学生成绩?

大数据分析师题目(金九银十的100道大数据面试题)(2)

5、看过哪些Spark源码,用了什么设计模式?

6、解释rdd五大特性

7、SVM的缺点是什么

8、怎么判断Flume收集的延迟数据,全部收集完成?

9、项目的数据量多大,集群规模多大?

10、为什么要修改taildir source源码,不修改有没有其他方案,flume版本?

11、kafka偏移量管理?

12、为什么跳槽?

13、Kafka的消息备份机制,isr,怎么保证高可靠?

14、HBase为什么不要超过三个列族(列簇),谈谈行键设计

15、Shuffle过程中的组成部分

16、where group by having order by limit 在MySQL中的执行顺序

17、常用排序算法中复杂度为O(n2)的和O(nlogn)的分别有哪些,写出一个O(nlogn)的排序,(我写的快排)它的空间复杂度是多少 ?

18、写代码,判断一个单链表是不是个环。时间复杂度,空间复杂度。怎么优化降低时间复杂度?

19、Spark什么情况下OOM,怎么解决

20、有一张学生表

学号 | 选课程号 01 | 110 02 | 120 ...

选出包含学号为‘01’的学生所选课程的所有学生的学号

21、一个文件有一百万个数字,现在内存只能存下2万个,怎么对这一百万个数字排序?

22、画出你们公司项目的架构,瓶颈在哪里?

23、流处理计算出错了,需要重算,怎么处理?24.谈谈Spark RDD 的几大特性,并深入讲讲体现在哪

25、说说你参与过的项目,和一些业务场景

26、请说说Spark的宽窄依赖

27、Spark的stage划分,task跟分区的关系

28、详细讲讲Spark的内存管理,计算与存储是如何协调的

29、rdd df ds 之间的区别 ,什么时候使用ds

30、聊聊kafka消费如何保证不会重复消费

31、你项目里说到了数据延迟和数据重跑,请你说说当时是怎么解决的,如何保障幂等性!

32、数据质量管理怎么做的

33、zk的选举机制是怎样的

34、kafka出现消息堆积怎么办

35、kafka数据重复怎么办

36、说说数仓项目的整个架构

37、为什么选用Maxwell,而不是阿里的canal?

38、canal怎么配置的,HA是怎样的

39、Maxwell为什么要二次开发?

40、Phoenix使用中遇到过哪些问题

41、Phoenix 多表join有用过吗,会怎样?

42、Spark的内存调优有涉及哪些参数

43、生产上的集群规模是多少

44、每天的数据量是多少

45、集群上有多少个作业在跑

46、数据倾斜怎么解决的

47、Spark SQL select count(1) from tmp 的执行计划是怎么走的

48、yarn的调度队列是怎样的

49、Spark job的提交流程

50、一个stage中有8个task,spark 中有两个executor,那么task是怎么分配的。(这个问题我一直没明白什么意思,后面沟通中才知道,面试官想问的是数据本地性)

大数据分析师题目(金九银十的100道大数据面试题)(3)

51、java线程池有哪些

52、java线程有哪几种

53、数组与arrayList互转的方式

54、数组的排序怎么做的

55、java中主线程需要等待多个子线程执行完成后,才能继续执行怎么做?当超过指定时间后,也继续执行怎么做?

56、一个子线层中一直在while (true) 主线程如何控制子线程退出

57、手写了两道面试官临时想出来的算法题

58、spring mvc的接收到请求后执行流程

59、requestBody和responseBody这两个注解是做什么的

60、mybatis中ResultType和ResultMap的区别

61、如何向数据库中批量插入数据

62、然后还有几个前端及前端与后端交互的问题 skip

63、10亿条数据,求top10如何优化、优化、优化(就是取前十条数据,不是组内求和)

64、HDFS的读写流程

65、HBase的读写流程

66、JVM如何调优

67、数据质量管理怎么做的?

68、Spark 广播变量在项目中如何运用的?

69、Spark 累加器在这个项目中用来做什么?

70、通过shell做监控会吗?

71、namenode和datanode挂掉了如何解决

72、Spark VS Flink VS Storm

73、Hive优化参数

74、MR的执行流程

75、说说这个实时数仓项目的执行流程

76、说说Flink的架构

77、HBase的二级索引如何构建?

78、HBase如何保证数据不丢失?

79、幂等性主要解决什么?

80、谈谈你是如何对Flume如优化的?

81、你们公司APP的埋点日志是如何收集的?

82、你们公司的数仓有几层、是哪几层、维表在哪层?

83、每天的业务量是多少?高峰和低谷是多少?

84、集群规模是怎样的?资源是如何分配的?

85、如何解决shuffle,不要回答那种网上一搜的全是互相摘抄的,有没有自己的独特解决案例?

86、你们ETL处理流程是怎样的

87、数仓项目MySQL数据是如何采集的?

88、你的离职原因是什么?

89、小文件合并是怎么合并的

90、源数据质量管理是怎么管理的

91、重跑数据的时候数据幂等是怎么做的

92、压缩格式是用的什么,文件格式是什么

对方回答,哇,gzip这个高的压缩,你们数据量很大吗?

每天的增量数据有多少?

93、优化前后的对比,大概是这个优化前后性能提高了多少

94、topic是别人定好了,是自己在spark中按照约定好的topic进行消费吗?

95、kafka对接spark offset是维护在一个表中吗?

96、mysql的存储过程会写

97、为什么要在hbase中创建一个元数据表保存每个表的字段和主键 删除的时候要查一遍,而那upsert的时候也要有主键,为什么不用!

98、phoenix盐表解决数据热点的原理

99、hbase的rowkey是怎么设计的

100、实时数仓项目预估要落地有多少数据量?

大数据分析师题目(金九银十的100道大数据面试题)(4)

猜您喜欢: