大数据Lambda架构「建议收藏」

大数据Lambda架构

大家好,又见面了,我是全栈君。

1 Lambda架构介绍

         Lambda架构划分为三层。各自是批处理层,服务层,和加速层。

终于实现的效果,能够使用以下的表达式来说明。

query = function(alldata)

大数据Lambda架构「建议收藏」

1.1 批处理层(Batch Layer, Apache Hadoop)

         批处理层主用由Hadoop来实现,负责数据的存储和产生随意的视图数据。

计算视图数据是一个连续的操作,因此。当新数据到达时,使用MapReduce迭代地将数据聚集到视图中。

将数据集中计算得到的视图,这使得它不会被频繁地更新。依据你的数据集的大小和集群的规模,不论什么迭代转换计算的时间大约须要几小时。


1.2 服务层(Serving layer ,Cloudera Impala)

        服务层是由Cloudera Impala框架来实现的,总体而言,使用了Impala的主要特性。从批处理输出的是一系列包括估计算视图的原始文件。服务层负责建立索引和呈现视图。以便于它们可以被非常好被查询到。

        因为批处理视图是静态的,服务层只须要提供批量地更新和随机读,而Cloudera Impala正好符合我们的要求。为了使用Impala呈现视图。全部的服务层就是在Hive元数据中创建一个表。这些元数据都指向HDFS中的文件。随后,用户立马可以使用Impala查询到视图。

         Hadoop和Impala是批处理层和服务层极好的工具。

Hadoop可以存储和处理千兆字节(petabytes)数据,而Impala可以查询高速且交互地查询到这个数据。但是。批处理和服务层单独存在,无法满足实时性需求。原因是MapReduce在设计上存在非常高的延迟,它须要花费几小时的时间来将新数据展现给视图。然后通过媒介传递给服务层。

这就是为什么我们须要加速层的原因。


1.3 加速层 (Speed layer, Storm, Apache HBase)

         在本质上,加速层与批处理层是一样的,都是从它接受到的数据上计算而得到视图。加速层就是为了弥补批处理层的高延迟性问题,它通过Strom框架计算实时视图来解决问题。实时视图只包括数据结果去供应批处理视图。同一时候,批处理的设计就是连续反复从获取的数据中计算批处理视图,而加速层使用的是增量模型,这是鉴于实时视图是增量的。加速层的高明之处在于实时视图作为暂时量。只要数据传播到批处理中,服务层中对应的实时视图结果就会被丢掉。这个被称作为“全然隔离”,意味着架构中的复杂部分被推送到结构层次中。而结构层的结果为暂时的,大慷慨便了连续处理视图。

        令人疑惑的那部分就是呈现实时视图。以便于它们可以被查询到。以及使用批处理视图合并来获得所有的结果。

因为实时视图是增量的。加速层须要同一时候随机的读和写。为此,我将使用Apache HBase数据库。

HBase提供了对Storm连续地增量化实时视图的能力。同一时候,为Impala提供查询经批处理视图合并后得到的结果。Impala查询存储在HDFS中批处理视图和存储在HBase中的实时视图,这使得Impala成为相当完美的工具。

大数据Lambda架构「建议收藏」

 

        Lambda抽象架构也能够这样来描写叙述:

大数据Lambda架构「建议收藏」


版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。

发布者:全栈程序员-用户IM,转载请注明出处:https://javaforall.cn/115949.html原文链接:https://javaforall.cn

【正版授权,激活自己账号】: Jetbrains全家桶Ide使用,1年售后保障,每天仅需1毛

【官方授权 正版激活】: 官方授权 正版激活 支持Jetbrains家族下所有IDE 使用个人JB账号...

(0)


相关推荐

  • java jce配置_java JCE 不限密钥长度解决办法

    java jce配置_java JCE 不限密钥长度解决办法()转自http://opensourceforgeeks.blogspot.com/2014/09/how-to-install-java-cryptography.html另外,在StackOverflow上也有相关讨论,并提供了反射实现代码https://stackoverflow.com/questions/25959948/local-policy-jar-and-us-export-p…

  • 头歌MySQL数据库实训答案 有目录[通俗易懂]

    头歌MySQL数据库实训答案 有目录[通俗易懂]计算机系统综合实训头歌MySQL数据库实训平台作业,内容比较全比较多,内容仅供参考,如有错误部分希望联系我跟正,觉得有用记得点赞收藏。数据库1-MySQL数据定义与操作实战数据库2-MySQL数据管理技术实战数据库3-MySQL数据库系统设计实战数据库4-层次、网状、关系模型实战

  • 中国Java培训机构09年度排行榜

    中国Java培训机构09年度排行榜 中国Java培训机构09年度排行榜 本站是个人网站, 因此排名标准是按照本人的个人感觉而定. 此排名的顺序主要依据:办学规模,在校人数,师资稳定度(全职讲师人数),口碑,视频好评度等.受经济危机影响,目前的总趋势是学费略有降低,但就业较难,起薪很低.建议有意参加者先看各类免费视频入门,并接触从各个培训学校毕业的…

  • 计算机分子模拟聚乙烯,高分子物理实验思考题@中科大.pdf[通俗易懂]

    计算机分子模拟聚乙烯,高分子物理实验思考题@中科大.pdf[通俗易懂]高分子物理实验思考题@中科大1.为什么在计算机模拟实验1(用“分子模拟”软件构建全同立构聚丙烯分子、聚乙烯分子并计算它们末端的直线距离)中我们一再把第一个碳原子到最后一个碳原子的距离叫做末端距离,而不称通常所说的根均方末端距?2.你对计算机在高分子科学中的应用有多少了解?3.在考虑高分子链内旋转空间位阻时,高分子链的尺寸如何变化?4.在“二维高分子链形态的计算机模拟”实验中采用的是改进后…

  • 分页的sql语句_如何实现分页效果

    分页的sql语句_如何实现分页效果下文将为您介绍三种SQL分页语句写法,如果您也遇到过类似的问题,不妨一看,相信对您会有所启迪。SQL分页操作是经常会遇到的,下面就将为您介绍三种SQL分页语句,供您参考,希望对您学习SQL分页能够有所帮助。方法一(适用于SQLServer2000/2005)SELECTTOP页大小* FROMtable1 WHEREidNOTIN

  • c#获取当前应用程序所在路径

    一、获取当前文件的路径1.System.Diagnostics.Process.GetCurrentProcess().MainModule.FileName获取模块的完整路径,包括文件名。2.

    2021年12月25日

发表回复

您的电子邮箱地址不会被公开。

关注全栈程序员社区公众号