利用PySpark统计相邻字符串对出现的次数

全栈程序员-用户IM • 2021年11月23日上午10:00 • 未分类

利用PySpark统计相邻字符串对出现的次数

如有文件demo.txt数据如下：

A;B;C;D;B;D;C
B;D;A;E;D;C
A;B

代码如下：

from pyspark import SparkContext


sc = SparkContext()

rdd1 = sc.textFile('demo.txt')
rdd2 = rdd1.map(lambda x: x.split(';'))


def ne(x):
    return list(zip(*[x[i:] for i in range(2)]))


rdd2.flatMap(ne).map(lambda x: (x[0] + ' , ' + x[1], 1)).reduceByKey(lambda a, b: a + b).collect()

输出结果如下：

[('A , B', 2),
 ('B , C', 1),
 ('D , B', 1),
 ('B , D', 2),
 ('D , A', 1),
 ('C , D', 1),
 ('D , C', 2),
 ('A , E', 1),
 ('E , D', 1)]

版权声明：本文内容由互联网用户自发贡献，该文观点仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至举报，一经查实，本站将立刻删除。

发布者：全栈程序员-用户IM，转载请注明出处：https://javaforall.cn/119507.html原文链接：https://javaforall.cn

【正版授权，激活自己账号】： Jetbrains全家桶Ide使用，1年售后保障，每天仅需1毛

【官方授权正版激活】： 官方授权正版激活支持Jetbrains家族下所有IDE 使用个人JB账号...

赞 (0)

全栈程序员-用户IM

0 0

如何将深度学习的float32图像转为Unit8格式以方便cv2使用

如何将深度学习的float32图像转为Unit8格式以方便cv2使用在使用Pyside2中的QImage处理深度学习模型生成的图片时，需要将float32的图像转为Unit8格式，再使用cv2处理。一开始使用网上的其他教程，如下： #模型生成 G_recon=G(self.content,True) #将(1，3，256，256)尺寸的转为(256,256,3)G_recon=((G_recon[0].cpu().detach().numpy().transpose(1,2,0)+1)/2)

全栈程序员-用户IM
2022年9月15日
pycharm安装包的操作路径「建议收藏」

pycharm安装包的操作路径「建议收藏」

全栈程序员-用户IM
2022年5月17日
MATLAB 柱状图（Bar）如何快速更改堆叠图的颜色

MATLAB 柱状图（Bar）如何快速更改堆叠图的颜色直接上成图：代码很简单：clearclccloseallX=[8,1,9,3,6,9,3,5,43,2,9,2,6,4,9,5,1];X=X’;color_matrix=[1,1,10.5,0.5,0.5];%%用矩阵存储RGB三色数据，也可以直接赋值h1=bar(X(:,1:2),1);set(h1(1),’facecolor’,color_matrix(1,:))set(h1(2)

全栈程序员-用户IM
2022年10月18日
compareTo()方法

compareTo()方法1.返回参与比较的前后两个字符串的ASCII码的差值，如果两个字符串首字母不同，则该方法返回首字母的ASCII码的差值。Stringa1=”a”;Stringa2=”c”;System.out.println(a1.compareTo(a2));//结果为-22.参与比较的两个字符串如果首字符相同，则比较下一个字符，直到有不同的为止，返回该不同的字符的asc码差值。Stringa1=”aa”;Stringa2=”ad”;System.o

全栈程序员-用户IM
2022年7月13日
idea

Navicat Premium for Mac15激活码【2022最新】

(Navicat Premium for Mac15激活码)JetBrains旗下有多款编译器工具（如：IntelliJ、WebStorm、PyCharm等）在各编程领域几乎都占据了垄断地位。建立在开源IntelliJ平台之上，过去15年以来，JetBrains一直在不断发展和完善这个平台。这个平台可以针对您的开发工作流进行微调并且能够提供…

全栈程序员-用户IM
2022年3月31日
使用pycharm的interpreter option为空解决办法「建议收藏」

使用pycharm的interpreter option为空解决办法「建议收藏」新的py文件，点击直接使用pycharm打开，运行报错，interpreteroption为空第一步：选择File，进入Settings。第二步：1.选择Project中的ProjectInterpreter。2.选择下拉中的pathon解释器，如图为3.6的解释权。3.选择Apply，使设置生效。运行代码成功。…

全栈程序员-用户IM
2022年10月26日

发表回复

关注全栈程序员社区公众号