大数据spark、hadoop、hive、hbase面试题及解析[通俗易懂]

大数据spark、hadoop、hive、hbase面试题及解析[通俗易懂](1)spark运行流程、源码架构(2)Hbase主键设计、hbase为何这么快?主键设计:1.生成随机数、hash、散列值2.字符串反转3.字符串拼接hbase为何快:https://blog.csdn.net/sghuu/article/details/102955969(3)Hbase读写流程,数据compact流程hbase读写流程:https://blog.csdn.n…

大家好,又见面了,我是你们的朋友全栈君。

整理的答案 后面继续更新:

(1)spark运行流程、源码架构
https://blog.csdn.net/sghuu/article/details/103547937

(2)Hbase主键设计、hbase为何这么快?
主键设计:
1.生成随机数、hash、散列值
2.字符串反转
3.字符串拼接
hbase为何快:https://blog.csdn.net/sghuu/article/details/102955969

(3)Hbase读写流程,数据compact流程
hbase读写流程:
https://blog.csdn.net/sghuu/article/details/102708098
数据compact流程;
https://blog.csdn.net/sghuu/article/details/102956773

(4)Hadoop mapreduce流程
https://blog.csdn.net/sghuu/article/details/98985583

(5)Spark standalone模型、yarn架构模型(画出来架构图)

https://blog.csdn.net/sghuu/article/details/103547937

(6)Spark算子(map、flatmap、reducebykey和reduce、groupbykey和reducebykey、join、distinct)原理

(7)Spark stage的切分、task资源分配、任务调度、master计算资源分配
spark的stage的切分是根据宽依赖划分,最起码有一个ResultStage,从后往前每遇见一个宽依赖则会切分出一个ShuffleMapStage。
task的时stage的子集,根据并行度(分区数)来衡量,分区数是多少就有多少个task
spark的任务调度分为stage级别的调度和Task级别的调度

详细介绍切分流程和任务调度:

(8)Sparksql自定义函数、怎么创建dateframe

(9)Sparkstreaming项目多久一个批次数据

(10)Kafka复制机制、分区多副本机制
https://blog.csdn.net/tryll/article/details/86627696

(11)Hdfs读写流程,数据checkpoint流程
读流程:
https://blog.csdn.net/sghuu/article/details/98127600
写数据流程:
https://blog.csdn.net/sghuu/article/details/98122393
checkpoint流程:
https://blog.csdn.net/sghuu/article/details/98196539

(12)Sparkshuffle和hadoopshuffle原理、对比

(13)Hivesql怎么转化为MapReduce任务
在这里插入图片描述

(14)Spark调优
spark的四个方面调优

(15)Spark数据倾斜解决方案
spark数据倾斜的6种解决
https://blog.csdn.net/sghuu/article/details/103710145

(16)Yarn工作流程、组成架构

https://blog.csdn.net/sghuu/article/details/102959135

(17)Zookeeper首领选取、节点类型、zookeeper实现原理

(18)hbase的ha,zookeeper在其中的作用

(19)spark的内存管理机制,spark1.6前后对比分析

(21)spark rdd、dataframe、dataset区别

(22)spark里面有哪些参数可以设置,有什么用

(23)hashpartitioner与rangePartitioner的实现

(24)spark有哪几种join

(25)spark jdbc(mysql)读取并发度优化

(26)Spark join算子可以用什么替代

(27)HBase region切分后数据是怎么分的

(28)项目集群结构(spark和hadoop集群)

(29)spark streaming是怎么跟kafka交互的,具体代码怎么写的,程序执行流程是怎样的,这个过程中怎么确保数据不丢(直连和receiver方式)

(30)kafka如何保证高吞吐的,kafka零拷贝,具体怎么做的

(31)hdfs的容错机制

(32)zookeeper怎么保证原子性,怎么实现分布式锁

(33)kafka存储模型与网络模型

(34)Zookeeper脑裂问题

Scala

(1)隐式转换

(2)柯理化

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。

发布者:全栈程序员-用户IM,转载请注明出处:https://javaforall.cn/138440.html原文链接:https://javaforall.cn

【正版授权,激活自己账号】: Jetbrains全家桶Ide使用,1年售后保障,每天仅需1毛

【官方授权 正版激活】: 官方授权 正版激活 支持Jetbrains家族下所有IDE 使用个人JB账号...

(0)


相关推荐

  • 思维导图整理大厂面试高频数组26: 合并区间中详解lambada表达式和toArray()用法, 力扣56

    思维导图整理大厂面试高频数组26: 合并区间中详解lambada表达式和toArray()用法, 力扣56此专栏文章是对力扣上算法题目各种方法的总结和归纳,整理出最重要的思路和知识重点并以思维导图形式呈现,当然也会加上我对导图的详解.目的是为了更方便快捷的记忆和回忆算法重点(不用每次都重复看题解),毕竟算法不是做了一遍就能完全记住的.所以本文适合已经知道解题思路和方法,想进一步加强理解和记忆的朋友,并不适合第一次接触此题的朋友(可以根据题号先去力扣看看官方题解,然后再看本文内容).关于本专栏所有题目的目录链接,刷算法题目的顺序/注意点/技巧,以及思维导图源文件问题请点击此链接.想进大厂.

  • 1024,节日快乐!

    1024,节日快乐!每个你不了解的新世界,都值得说一声“Hello,World!”,1024,祝大家节日快乐!少熬夜,多赚钱,护好发!

  • Winform布局美化样例

    Winform布局美化样例做了好多年Winform的程序的开发,主窗口的界面设计一般都要求做的更好一些,可以根据不同的系统功能模块进行归类整合,能使客户迅速寻找到相关功能的同时,也能感觉到整体性的美观大方,因此主窗口的界面设计总是会精益求精,力求做到更好用、更美观,这样才能吸引客户使用。目前的主体界面设计,可以使用很多控件进行美化,这样能使得开发者能够迅速开发好美观的界面,也可以使得界面总体性有一个统一、规范的基准。一般推

  • Java新手、小白入门。多敲练习代码!!!

    Java新手、小白入门。多敲练习代码!!!如果你喜欢Java,但是想学不会!我建议你没事的时候敲敲这些代码,希望对你有用!publicclassDemo{ publicstaticvoidmain(String[]args){ System.out.print(“你好\n世界”); System.out.println(“你好\tJava”); System.out.println(“1.电脑要求相对干…

  • XAMPP中apache启动不了

    XAMPP中apache启动不了问题XAMPP中apache启动不了原因端口被占用解决方案端口被占用,点击右上角的Config(前提是要管理员身份运行,不然修改不了),把80改成801,把443改为4431,改为之后,点击Apache那一列的hppd.conf->Listen80改成Listen801,hppd-ssl.conf->Listen443改成Listen4431。…

  • Cmd命令 查看端口被占用

    Cmd命令 查看端口被占用Cmd命令查看端口被占用1)第一步  打开cmd命令窗口,输入命令:netstat-ano|findstr输入端口号2)第二步  继续输入命令:tasklist|findstr第一步查询到的进程号3)第三步  根据第二步执行结果,打开任务管理器,将相应进程干掉即可…

发表回复

您的电子邮箱地址不会被公开。

关注全栈程序员社区公众号