大数据理论体系

大数据理论体系目录结构大数据是什么?大数据是如何发展起来的?大数据处理的基本流程是什么?为什么说数据不动代码动?移动计算比移动数据更划算?DAG对大数据处理有什么好处?批处理和流处理如何区分?有边界数据和无边界数据如何区分?批处理中如何提高CPU利用率?什么是事件时间和处理时间?Workflow设计模式指的什么?什么是商业智能(BI)?分布式锁是什么?如何实现?分布式事务是什么?如何实现?分布式锁和分布式事务有什么区别?CAP定理是什么?BASE理论是什么?分布式系统有哪些衡量指标?

大家好,又见面了,我是你们的朋友全栈君。

序言

2018~2021 年期间,笔者阅读了200+大数据相关的书籍和专栏。

本专栏为笔者,在多年读书笔记的基础上,结合自身的大数据开发心得体会,呕心沥血之作。

来点关注吧,万分感谢!

本专栏姊妹篇

1000个问题搞定大数据技术体系

100个问题搞定Java虚拟机

技术分享 PPT

这里分享一下笔者曾经使用过的关于大数据怎样入门的技术分享 PPT:

大数据从0到1 .pptx

目录结构

  1. 大数据是什么?
  2. 大数据有哪些特征?
  3. 大数据和云计算有什么关系?
  4. 大数据和人工智能有什么关系?
  5. 大数据是如何发展起来的?
  6. 大数据处理的基本流程是什么?
  7. 数据质量如何评测?
  8. 什么是ETL?
  9. 大数据开发主要做什么?
  10. 大数据技术框架有哪些类型?
  11. 为什么说数据不动代码动?移动计算比移动数据更划算?
  12. DAG对大数据处理有什么好处?
  13. 批处理和流处理如何区分? 有边界数据和无边界数据如何区分?
  14. 批处理中如何提高CPU利用率?
  15. 什么是事件时间和处理时间?
  16. Workflow设计模式指的什么?
  17. 分布式锁是什么?如何实现?
  18. 分布式事务是什么?如何实现?
  19. 分布式锁和分布式事务有什么区别?
  20. CAP定理是什么?
  21. BASE理论是什么?
  22. 分布式系统有哪些衡量指标?
  23. 一致性模型有哪些?
  24. SLA是什么?
  25. 如何预估系统QPS?
  26. 你怎么看待发布订阅模式的?
  27. 发布与订阅模式和观察者模式有什么不同?
  28. 分布式系统数据分片有哪些方式?
  29. 一致性哈希是什么?
  30. 为什么要将数据序列化?
  31. 数据压缩算法该如何选择?
  32. 分布式系统中序列化框架该如何选择?
  33. Protobuf是什么?
  34. Apache Thrift是什么?
  35. Apache Avro是什么?
  36. Kryo是什么?
  37. 列式存储和行式存储有什么区别?
  38. 列式存储格式该如何选择?
  39. ORCFile是什么?
  40. Parquet是什么
  41. 数据仓库是什么?
  42. 数据仓库与数据库的区别?
  43. OLTP和OLAP的区别?
  44. 数据仓库是如何分层的?
  45. 数据仓库是如何建模的?
  46. 什么是事实表和维度表?
  47. 什么是商业智能(BI)?
  48. 从系统架构角度出发,服务器该如何分类?
  49. MPPDB是什么?
  50. MPPDB和Hadoop有什么区别?
  51. 数据仓库应该选择哪种服务器架构?
  52. 并行计算模型有哪些?
  53. BSP和MapReduce有什么区别?
  54. OLAP有哪些实现方法?
  55. Cube技术是什么?
  56. NoSQL是什么?
  57. 负载均衡是什么?
  58. 负载均衡算法有哪些?
  59. 分布式系统中转发如何实现?
  60. 大数据资源调度框架有什么作用?
  61. 资源调度有什么技术难点?
  62. 多租户技术是什么?
  63. 你认为传统的Yarn、Mesos调度方案存在哪些缺陷?
  64. 什么是倒排索引?
  65. 什么是企业数据?
  66. 什么是数据湖?为什么需要数据湖?
  67. 数据湖中数据的生命周期是怎样的?
  68. 数据仓库、数据集市和数据湖有什么区别?
  69. 什么是Lambda架构?
  70. 什么是Kappa架构?
  71. 如何将Lambda架构应用到数据湖?数据湖中的功能模块有哪些?
  72. 企业数据湖面临哪些挑战?
  73. RAID技术到底是什么?
  74. 为什么需要工作流调度系统?
  75. 为什么要有消息队列/消息引擎系统?
  76. 什么是云原生数据库?
  77. 数据库领域的未来发展趋势是怎样的?

参考文献

  1. 极客时间专栏《从0开始学大数据》李智慧
  2. 极客时间专栏《大规模数据处理实战》蔡元楠
  3. 《云计算中的大数据技术与应用》 梁凡著
  4. 《大数据开发与应用》青岛英谷教育科技股份有限公司,山东工商学院编著
  5. 《大数据技术体系详解:原理、架构与实战》董西成著
  6. 《Hadoop大数据挖掘从入门到进阶实战:视频教学版》邓杰编著
  7. 《大数据架构详解:从数据获取到深度学习》朱洁,罗华霖编著
  8. 《Kafka权威指南》(美)妮哈・纳克海德( Neha Narkhede),(美)格温・沙皮拉( Gwen Shapira) (美)托德・帕利诺( Todd Paino)著;薛命灯译》/(美)妮哈・纳克海德( Neha Narkhede),(美)格温・沙皮拉( Gwen Shapira) (美)托德・帕利诺( Todd Paino)著;薛命灯译
  9. 《Hadoop大数据技术原理与应用》黑马程序员编著
  10. 《企业数据湖》(印)汤姆斯・约翰(Tomcy John),(印)潘卡・米斯拉(Pankaj Misra)著张世武,李想,张浩林译
  11. 《大数据技术及应用探究》胡沛,韩璞著
  12. 《Hadoop & Spark大数据开发实战》肖睿、雷刚跃主编
  13. CS-Notes
  14. ClickHouse官网
  15. ClickHouse深度揭秘
  16. 什么是分布式事务以及有哪些解决方案?
  17. 分布式理论(二)——Base 理论
  18. 分布式系统衡量指标
  19. 百度百科 顺序一致性模型
  20. 通俗易懂 强一致性、弱一致性、最终一致性、读写一致性、单调读、因果一致性 的区别与联系
  21. 分布式系统学习——数据分片
  22. 带着问题学习分布式系统之数据分片
  23. 百度百科 一致性哈希
  24. Apache Thrift系列详解(一) – 概述与入门
  25. 初探Protostuff的使用
  26. 高性能的序列化与反序列化:kryo的简单使用
  27. 大数据小视角2:ORCFile与Parquet,开源圈背后的生意
  28. 新一代列式存储格式Parquet
  29. Parquet的那些事(一)基本原理
  30. 再来聊一聊Parquet 列式存储格式
  31. MPP(大规模并行处理)简介
  32. MPP架构
  33. 百度百科 NoSQL
  34. 大数据里常见的几种压缩格式压缩
  35. zstd,未来可期的数据压缩算法
  36. Is zstd splitabble in hadoop/spark/etc?
  37. 阿里云李飞飞:什么是云原生数据库
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。

发布者:全栈程序员-用户IM,转载请注明出处:https://javaforall.cn/142303.html原文链接:https://javaforall.cn

【正版授权,激活自己账号】: Jetbrains全家桶Ide使用,1年售后保障,每天仅需1毛

【官方授权 正版激活】: 官方授权 正版激活 支持Jetbrains家族下所有IDE 使用个人JB账号...

(0)


相关推荐

  • Wallpaper Engine 占用GPU过高解决办法「建议收藏」

    Wallpaper Engine 占用GPU过高解决办法「建议收藏」看到本文的时候,首先你要有一个大致认识:Wallpaper中的壁纸大致分为两种:一种是实时计算渲染的,一种是视频播放渲染的。当你明白这一点的时候就不难解释为什么有的壁纸不大,但是却给人一种挖矿的感觉,有的壁纸很大却完美运行。。。。目录吐槽:解决办法:总结吐槽:今天找到了一个很好看(屌丝)的壁纸,结果应用起来,却发现电脑卡顿严重(见下图),虽说我的显卡1650不是很好,可也不至于带不动个20多MB的壁纸吧???于是乎……..我发现是我想简单了,他这个壁纸是..

  • windows密码获取 — LC5暴力激活成功教程Hash密码「建议收藏」

    windows密码获取 — LC5暴力激活成功教程Hash密码「建议收藏」​错,可以改,那,错过呢。。。—-网易云热评一、首先用QuarksPwDump导出hash值并存储到1.txtquarkspwdump–dump-hash-local–output1.txt二、下载并安装LC5并注册1、下载地址:回复2、双击lc5setup一路下一步,3、将hashgen和lc5替换了原文件4、双击lc5,并打开注册机,点击administrator三、使用方法1、点击会话,导入1.txt…

  • Eclipse自动补全设置(终极方案)

    Eclipse自动补全设置(终极方案)Eclipse自动补全、字体、护眼色、tomcat、导包1.设置字体2.设置护眼色3.设置自动补全4.配置Tomcat服务器5.配置默认JSP编码6.无法导包解决方案1.设置字体2.设置护眼色3.设置自动补全26字母和”.”均会提示:Java和Java类型补全建议+26字母异常强大的补全提示:4.配置Tomcat服务器5.配置默认JSP编码6.无法导包解决方案…

  • ibatis和Mybatis区别

    ibatis和Mybatis区别相同点: 1、都是原生SQL,都方便进行SQL代码调优 2、查询语句后面不能加“;”,否则会报“无效字符错误” 不同点: 1、ibatis传参是parameterClass,mybatis传参是parameterType 2、ibatis出参是resultClass,mybatis传参是resultType 3、ibatis参数占位符是##,mybatis占位符是

    2022年10月26日
  • mysql 10051_Zabix的10051端口无法启动如何解决?

    mysql 10051_Zabix的10051端口无法启动如何解决?启动zabbix是显示启动成功,查看端口,却发现没有10051端口1、查看zabbix的日志[root@bogonldap]#cat/tmp/zabbix_server.log’/var/lib/mysql/mysql.sock'(2)2848:20181204:084007.165databaseisdown:reconnectingin10seconds2848:2018…

    2022年10月24日
  • 史上最简单MySQL教程详解(基础篇)之多表联合查询

    史上最简单MySQL教程详解(基础篇)之多表联合查询常用术语表连接的方式数据准备student表college表内连接外连接左外连接右外连接注意事项:自连接子查询在上篇文章史上最简单MySQL教程详解(基础篇)之数据库设计范式及应用举例我们介绍过,在关系型数据库中,我们通常为了减少数据的冗余量将对数据表进行规范,将数据分割到不同的表中。当我们需要将这些数据重新合成一条时,就需要用到我们介绍来将…

发表回复

您的电子邮箱地址不会被公开。

关注全栈程序员社区公众号