使用R中merge()函数合并数据

在R中可以使用merge()函数去合并数据框，其强大之处在于在两个不同的数据框中标识共同的列或行。

如何使用merge()获取数据集中交叉部分

merge()最简单的形式为获取两个不同数据框中交叉部分。举例，获取cold.states和large.states完全匹配的数据。代码如下：

> merge(cold.states, large.states)
   Name Frost  Area
1  Alaska  152 566432
2 Colorado  166 103766
3 Montana  155 145587
4  Nevada  188 109889

如果你属性数据库语法SQL,你可能想merge()和数据库中JOIN功能很相似。确实如此，merge()函数的不同参数可以实现内join，left join,right join以及完整join。

merge()函数有很多参数，看起来非常吓人。但他们都几中类型参数有关：

x: 第一个数据框.
y: 第二个数据框.
by, by.x, by.y: 指定两个数据框中匹配列名称。缺省使用两个数据框中相同列名称。
all, all.x, all.y: 指定合并类型的逻辑值。缺省为false，all=FALSE (仅返回匹配的行).

最后一组参数all, all.x, all.y需要进一步解释，决定合并类型。

这里写图片描述

如何理解不同类型的合并

merge() 函数支持4种类型数据合并:

Natural join: 仅返回两数据框中匹配的数据框行，参数为：all=FALSE.

Full outer join: 返回两数据框中所有行，参数为： all=TRUE.

Left outer join: 返回x数据框中所有行以及和y数据框中匹配的行，参数为： all.x=TRUE.

Right outer join: 返回y数据框中所有行以及和x数据框匹配的行，参数为： all.y=TRUE.

如何实现完整合并(full outer join)

返回示例数据中美国的州，执行完整合并cold和large state，使用参数all=TRUE.

> merge(cold.states, large.states, all=TRUE)
      Name Frost  Area
1     Alaska  152 566432
2    Arizona  NA 113417
3   California  NA 156361
....
13     Texas  NA 262134
14    Vermont  168   NA
15    Wyoming  173   NA

两个数据框有不同的名称，所以R基于两者state的name进行匹配。Frost来自cold.states数据框，Area来自large.states.

上面代码执行了完整合并，填充未匹配列值为NA。

总结

本文详细介绍R中merge()函数参数及合并数据类型。利用sql的表连接概念进行类比，简单易懂。

发布者：全栈程序员-用户IM，转载请注明出处：https://javaforall.cn/130379.html原文链接：https://javaforall.cn

【正版授权，激活自己账号】： Jetbrains全家桶Ide使用，1年售后保障，每天仅需1毛

【官方授权正版激活】： 官方授权正版激活支持Jetbrains家族下所有IDE 使用个人JB账号...

使用R中merge()函数合并数据[通俗易懂]

使用R中merge()函数合并数据

如何使用merge()获取数据集中交叉部分

如何理解不同类型的合并

如何实现完整合并(full outer join)

总结

相关推荐

Android – 封装Fragment不依赖于Activity

map的containsKey方法

虚拟局域网vlan的最大个数_虚拟局域网的标准是

4个基本不等式的公式高中_基本不等式公式四个叫什么名字「建议收藏」

【Linux + Makefile】Makefile中的.PHONY作用以及赋值运算（各种=符号）的区别

高性能内存池_内存池化

发表回复