danan

发布于 2023-03-01 / 4 阅读

0

大数据基础知识汇总

1 核心技术

1.1 Linux&Shell

常用高级命令
Shell常用工具及脚本编写
Shell中单双引号的区别

1.2 Hadoop

Hadoop常用端口号
HDFS读写流程
HDFS小文件处理
HDFS的NameNode内存
Shuffle及优化
Yarn工作机制
Yarn调度器
HDFS块大小
Hadoop脑裂的原因及解决办法

1.3 Zookeeper

常用命令
选举机制
遵循的法则
Zookeeper脑裂
Zookeeper用途

1.4 Flume

组成
拦截器
选择器
监控器
数据是否会丢失
如何提高吞吐量

1.5 Kafka

架构
生产端分区分配策略
是否丢数据
ISR副本同步策略
数据重复问题
如何保证数据有序or怎么解决乱序
分区Leader选取机制
AR的顺序
日志保存时间
过期数据清理
为什么能高效读取数据
自动创建主题
副本数设定
消费者是拉取数据还是推送数据
消费端分区分配策略
消费者再平衡的条件
指定offset消费
指定时间消费

评论