论文摘抄 – FlumeJava[通俗易懂]

论文摘抄 – FlumeJava

大家好,又见面了,我是全栈君。

本摘抄不保证论文完整性和理解准确性 敲打

原始的MapReduce。分Map,Shuffle,Reduce。

Map里包含shards。

Shuffle理解为groupByKey的事情。Reduce里包含Combiner,能够定义Sharder来控制key怎么和Reducer worker相应起来。

核心抽象和基本原语

PCollection<T>是一个不可变的bag,能够是有序的(Sequence),也能够是无序的(Collection)。PCollection能够来自于内存里的Java PCollection对象,也能够读取自文件。

 

PTable<K, V>,能够看成PCollection<Pair<K, V>>。不可变无序multi-map。

 

第一个原语是parallelDo(),把PCollection<T>变成新的PCollection<S>,处理方式定义在DoFn<T, S>里。emitFn是call-back。传给用户的process(…)。使用emitFn.emit(outElem)发射出去。parallelDo()能够在map或reduce中使用。DoFn不应该使用闭包外全局的变量。(inline function)纯操作自己的inputs。

 

第二个原语是groupByKey(),把PTable<K, V>转变成PTable<K,Collection<V>>。

 

第三个原语是combineValues(),接收input为PTable<K,Collection<V>>和一个V的符合结合律的方法,返回PTable<K, V>。

 

第四个原语是flatten()。接收一个PCollection<T>的list,返回一个PCollection<T>

衍生原语(Derived Operations)

count(),接收PCollection<T>,返回PTable<T, Integer>

实现方式为parallelDo()。groupByKey()和combineValues()

 

join(),接收PTable<K, V1>,PTable<K, V2>。返回PTable<K,Tuple2<Collection<V1>, Collection<V2>>

实现方式为,第一步,使用parallelDo()把每一个input PTable<K, Vi>变成通用的PTable<K, TaggedUnion2<V1,V2>>;第二步使用flattern来combine tables。第三步。使用groupByKey()作用于被扁平过了tables。产生PTable<K,Collection<TaggedUnion2<V1, V2>>>

 

top(),接收比較函数和N,

实现方式为parallelDo(),groupByKey()和combineValues()

延迟分析(Deffered Evaluation)

PCollection对象有两种状态,defferred或materialized。

FlumeJava.run()真正触发execution plan的物化/运行。

PObjects

PObject<T>用于存储Java对象,物化过了之后能够使用getValue()方法获得PObject的值。有点像Future。

 

operate()方法

优化器

parallelDoFusion(融合)

Producer-Consumer and Sibling Fusion。例如以下图

论文摘抄 - FlumeJava[通俗易懂]

大致是说。ABCD这几种由同一份input产生的parallelDo,能够融合起来在一个parallelDo,即A+B+C+D,里处理。一些中间结果也能够不要。

 

MapShuffleCombineReduce(MSCR) Operation

FlumeJava优化器的核心在于把ParallelDo,GroupByKey,CombineValues和Flattern的组合转换成一个个单个的MapReduce。

MSCR是一个中间层的操作,有M个input channels(每一个能够进行map操作),有R个Reduce channels(每一个能够进行shuffle,或combine。或reduce操作)。单个input channal m,接收PCollection<Tm>作为输入,运行R路output输出的ParallelDo “map”操作,产生R个PTable<Kr, Vs> outputs。每一个output channel r flatterns它的M个inputs,然后

a)  进行一次GroupByKey的“shuffle”,或CombineValues的“combine”。或Or-output的ParallelDo “reduce”。然后把结果写出到Or-output PCollections

b)  把inputs直接写出为outputs

前者这种output channel称为”Grouping” channel,后者称为”pass-through” channel。”pass-through” channel同意map的output成为一个MSCR操作的输出。

论文摘抄 - FlumeJava[通俗易懂]

每一个MSCR操作能够用一个MapReduce完毕。

它让MapReduce更加通用,体如今:

Ø  同意多个reducers和combiners。

Ø  同意每一个reducer产生多个outputs;

Ø  消除了每一个reducer必须以同样的key为input来产出output的约束;

Ø  同意pass-through形式的outputs。

所以MSCR是优化器里非常好的一个中间操作目标。

MSCR Fusion

MSCR操作产生于一些相关的GroupByKey操作集合。相关的GroupByKey操作是指产生于同样的input(如Flattern操作),或被同一个parallelDo操作制造出来的input。

这部分比較晦涩难懂啊。可是是理解核心

论文摘抄 - FlumeJava[通俗易懂]

全局优化策略

优化要达到的效果是最后的运行计划里包含尽可能少的又高效的MSCR操作。

1.  Sink Flatterns。把扁平操作下沉,如h(f(a)+f(b))=> h(f(a))+h(f(b)),即分配律,然后又能和parallelDo的融合特性结合起来,如(hof)(a)+(hog)(b)

2.  Lift CombineValues。假设CombineValues紧跟着GroupByKey操作。

3.  Insert fusion blocks。假设俩GroupByKey操作是由生产者-消费者的ParallelDo chain连起来的,ParallelDo要在GroupByKey里做上调和下移。

4.  Fuse ParallelDos。

5.  Fuse MSCRs。

针对这几个策略的实施,后面举了个样例而且描绘了详细的运行图,非常帮助理解

论文摘抄 - FlumeJava[通俗易懂]

优化的不足和未来工作

优化器没有分析用户写的方法,比方估算input和output数据量大小。

也没有改动用户的代码来做优化。

须要做一些分析避免运算的反复。及去除不必要或不合理的groupByKey。

Executor

优化完了之后是运行。眼下支持的是batch的模式提交作业。

在运行方面,FlumeJava会做方便用户开发、debug,自己主动创建删除文件。自己主动识别数据量大小调整运行并行度和改变运行模式(remote)等等事情。

全文完 :)

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。

发布者:全栈程序员-用户IM,转载请注明出处:https://javaforall.cn/115666.html原文链接:https://javaforall.cn

【正版授权,激活自己账号】: Jetbrains全家桶Ide使用,1年售后保障,每天仅需1毛

【官方授权 正版激活】: 官方授权 正版激活 支持Jetbrains家族下所有IDE 使用个人JB账号...

(0)
blank

相关推荐

  • linux下压缩与解压缩-tar和zip_linux打包命令

    linux下压缩与解压缩-tar和zip_linux打包命令linux下tar和zip压缩效率图13总结:通过测试,在本次实验中我们得出的以下几点结论:1.小文件(最好是大于0.5M,如果文件太小,在进行tar打包并压缩或者zip压缩时,其占用的磁盘空间会比源文件大很多)在进行tar打包并压缩或者zip压缩时,其占用磁盘的大小不变;中等文件(100M左右的pdf格式文件),在进行tar打包并压缩或者zip压缩时时,大约节…

  • Reaver无线破解工具——穷举PIN码破解简析

    Reaver无线破解工具——穷举PIN码破解简析部分老版路由器有WPS或叫QSS功能,并且在默认开启状态时,可使用此工具。PIN码共为8位,按431分段,总共穷举有11000种组合。通过获取到PIN码,并记住Bssid和PIN,后期可以通过一条命令爆出无线密码。容易碰到的问题:连接超时,卡住,路由自保护等。reave的进度表文件保存在/usr/local/etc/reaver/MAC地址.wpc或/etc/reaver/MAC…

  • 【《重构 改善既有代码的设计》学习笔记7】在对象之间搬移特性「建议收藏」

    本篇文章的内容来自《重构 改善既有代码的设计》一书学习笔记整理并且加上自己的浅显的思考总结!在对象之间搬移特性,核心就是: 决定把责任放在哪儿,重点关注责任,也就是尽量一个类之处理一类事情,或者是某个责任和这个类关系不大,就将此责任移动到关系大的类中。本篇内容两两放在一起,互相对比学习。也更方便理解和记忆。1、搬移函数(Move Method)&amp; 搬移字段(Move field…

  • 蓝牙音频编码方式_aac蓝牙编码

    蓝牙音频编码方式_aac蓝牙编码https://zhuanlan.zhihu.com/p/265597723早在2000年,蓝牙耳机就已经出现,但由于技术限制,只能用于通话。2008年,随着蓝牙A2DP(AdvancedAudioDistributionProfile)开始普及,立体声蓝牙耳机日渐流行。发展到现在,手机的耳机插口几近取消,双无线(TWS,TrueWirelessStereo)耳机正处于爆发期…本文从蓝牙音频传输原理讲起,从旧到新介绍五种蓝牙音频编码,最后落脚实地,介绍如何选择和配置耳机/手机的蓝牙

  • css边框渐变色和圆角_css边框颜色渐变

    css边框渐变色和圆角_css边框颜色渐变一个DIV实现圆角边框渐变<divclass=”box”></div>.box{width:713rpx;height:80rpx;border-radius:100rpx;border:5rpxsolidtransparent;background-origin:border-box;background:linear-gradient(0deg,#E24556,#E82148,#F35F77

    2022年10月27日
  • MD5加密详解_md5加密的方法

    MD5加密详解_md5加密的方法MD5加密详解 引言:我在百度百科上查找到了关于MD5的介绍,我从中摘要一些重要信息:MessageDigestAlgorithmMD5(中文名为信息摘要算法第五版)为计算机安全领域广泛使用

发表回复

您的电子邮箱地址不会被公开。

关注全栈程序员社区公众号