spark中flatMap函数用法–spark学习（基础）「建议收藏」

全栈程序员-用户IM • 2022年5月27日上午7:20 • 未分类

spark中flatMap函数用法–spark学习（基础）「建议收藏」说明在spark中map函数和flatMap函数是两个比较常用的函数。其中map：对集合中每个元素进行操作。flatMap：对集合中每个元素进行操作然后再扁平化。理解扁平化可以举个简单例子valarr=sc.parallelize(Array((“A”,1),(“B”,2),(“C”,3)))arr.flatmap(x=>(x._1+x._2)).foreach(println)输出

大家好，又见面了，我是你们的朋友全栈君。

说明

在spark中map函数和flatMap函数是两个比较常用的函数。其中
map：对集合中每个元素进行操作。
flatMap：对集合中每个元素进行操作然后再扁平化。
理解扁平化可以举个简单例子

val arr=sc.parallelize(Array(("A",1),("B",2),("C",3)))
arr.flatmap(x=>(x._1+x._2)).foreach(println)

输出结果为

A
1
B
2
C
3

如果用map

val arr=sc.parallelize(Array(("A",1),("B",2),("C",3)))
arr.map(x=>(x._1+x._2)).foreach(println)

输出结果

A1
B2
C3

所以flatMap扁平话意思大概就是先用了一次map之后对全部数据再一次map。

实际使用场景

这个场景是我曾经在写代码过程中遇到的难题，在字符串中如何统计相邻字符对出现的次数。意思就是如果有A;B;C;D;B;C字符串，则（A,B）,(C,D),(D,B)相邻字符对出现一次，(B,C)出现两次。
如有数据

A;B;C;D;B;D;C
B;D;A;E;D;C
A;B

统计相邻字符对出现次数代码如下

data.map(_.split(";")).flatMap(x=>{
      for(i<-0 until x.length-1) yield (x(i)+","+x(i+1),1)
    }).reduceByKey(_+_).foreach(println)

输出结果为

(A,E,1)
(E,D,1)
(D,A,1)
(C,D,1)
(B,C,1)
(B,D,2)
(D,C,2)
(D,B,1)
(A,B,2)

此例子就是充分运用了flatMap的扁平化功能。

版权声明：本文内容由互联网用户自发贡献，该文观点仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至举报，一经查实，本站将立刻删除。

发布者：全栈程序员-用户IM，转载请注明出处：https://javaforall.cn/140836.html原文链接：https://javaforall.cn

【正版授权，激活自己账号】： Jetbrains全家桶Ide使用，1年售后保障，每天仅需1毛

【官方授权正版激活】： 官方授权正版激活支持Jetbrains家族下所有IDE 使用个人JB账号...

赞 (0)

全栈程序员-用户IM

0 0

物联网的体系架构概述[通俗易懂]

物联网的体系架构概述[通俗易懂]物联网物联网有别于互联网，互联网的主要目的是构建一个全球性的信息通信网络，而物联网则侧重信息服务，即利用互联网、无线通信等进行业务信息的传送，服务对象由人转变为包括人在内的所有物品。物联网作为互联网的延伸，通过将智能物件整合到数字世界，面向用户提供个性化和私有化服务。物联网的体系架构应包括如下内涵：网络体系架构、技术与标准体系、资源与标识体系、产业与应用体系、服务与安全体系。（图）USNUSN体系架构是由韩国电子与通信技术研究所在2007年瑞士日内网召开的ITU下一代网络全球标准化会议（NUN-U

全栈程序员-用户IM
2022年9月15日
apk加壳加密工具(apk protect) v1.0下载「建议收藏」

apk加壳加密工具(apk protect) v1.0下载「建议收藏」apk加壳加密工具(apk_protect)是用于加密apk文件中dex文件的加密工具，加密的东西主要有字符串加密、流程加密、类名加密和api加密（未完成，后续支持)等,有于较好的保护apk文件，使之不易激活成功教程分析。__我对apk_protect在线加密的有效性进行了测试和分析，发现确实给android_apk提供了无法激活成功教程的加密壳。虽然在线加密已经是非常省时省力的了，但是仍然有不少程序员懒于折腾（尽管这已经不叫折腾了，就是上传一下再下载，比起写代码来说，这简直就是享受）。于是，意外的发现他们已经推出了懒人版

全栈程序员-用户IM
2022年6月27日
idea

idea有效激活码2021年4月【在线注册码/序列号/破解码】

idea有效激活码2021年4月【在线注册码/序列号/破解码】，https://javaforall.cn/100143.html。详细ieda激活码不妨到全栈程序员必看教程网一起来了解一下吧！

全栈程序员-用户IM
2022年3月18日
在vscode中安装python第三方库

在vscode中安装python第三方库打开vscode，点击终端，选择新建终端在弹出的窗口中输入以下命令：pipinstall第三方库的名称以安装numpy为例，输入pipinstallnumpy，点击回车，安装成功之后会显示如下信息：Requirementalreadysatisfied:numpyind:\python\lib\site-packages(1.20.3)已经满足的需求:numpy在d:python\lib\site-packages(1.20.3)…

全栈程序员-用户IM
2022年10月7日
Hadoop切分纯文本时对某一行跨两个分片这种情况的处理

Hadoop切分纯文本时对某一行跨两个分片这种情况的处理Hadoop切分纯文本时对某一行跨两个分片这种情况的处理

全栈程序员-用户IM
2022年4月23日
详解马氏距离中的协方差矩阵计算（超详细）

详解马氏距离中的协方差矩阵计算（超详细）一、概率统计基本知识1.样本均值样本均值（Mean）是在总体中的样本数据的平均值。2.样本方差方差（Variance）是度量一组数据的离散（波动）程度。方差是各个样本与样本均值的差的平方和的均值，分母除以n-1是为了满足无偏估计：3.样本标准差4.协方差协方差（Covariance）是度量两个变量的变动的同步程度，也就是度量两个变量线性相关性程度。若协方差大于0，表示一个变量增大时另一个变量也会增大，即两个变量呈正相关；若协方差小于0，表示一个变量增大时另一个变量会减小，即两个变量呈负相关

全栈程序员-用户IM
2022年6月28日

发表回复

关注全栈程序员社区公众号