使用R中merge()函数合并数据[通俗易懂]

使用R中merge()函数合并数据[通俗易懂]使用R中merge()函数合并数据在R中可以使用merge()函数去合并数据框,其强大之处在于在两个不同的数据框中标识共同的列或行。如何使用merge()获取数据集中交叉部分merge()最简单的形式为获取两个不同数据框中交叉部分。举例,获取cold.states和large.states完全匹配的数据。代码如下:>merge(cold.states,large….

大家好,又见面了,我是你们的朋友全栈君。

使用R中merge()函数合并数据

在R中可以使用merge()函数去合并数据框,其强大之处在于在两个不同的数据框中标识共同的列或行。

如何使用merge()获取数据集中交叉部分

merge()最简单的形式为获取两个不同数据框中交叉部分。举例,获取cold.states和large.states完全匹配的数据。代码如下:

> merge(cold.states, large.states)
   Name Frost  Area
1  Alaska  152 566432
2 Colorado  166 103766
3 Montana  155 145587
4  Nevada  188 109889

如果你属性数据库语法SQL,你可能想merge()和数据库中JOIN功能很相似。确实如此,merge()函数的不同参数可以实现内join,left join,right join以及完整join。

merge()函数有很多参数,看起来非常吓人。但他们都几中类型参数有关:

  • x: 第一个数据框.

  • y: 第二个数据框.

  • by, by.x, by.y: 指定两个数据框中匹配列名称。缺省使用两个数据框中相同列名称。

  • all, all.x, all.y: 指定合并类型的逻辑值。缺省为false,all=FALSE (仅返回匹配的行).

最后一组参数all, all.x, all.y需要进一步解释,决定合并类型。

这里写图片描述

如何理解不同类型的合并

merge() 函数支持4种类型数据合并:

Natural join: 仅返回两数据框中匹配的数据框行,参数为:all=FALSE.

Full outer join: 返回两数据框中所有行, 参数为: all=TRUE.

Left outer join: 返回x数据框中所有行以及和y数据框中匹配的行,参数为: all.x=TRUE.

Right outer join: 返回y数据框中所有行以及和x数据框匹配的行,参数为: all.y=TRUE.

如何实现完整合并(full outer join)

返回示例数据中美国的州,执行完整合并cold和large state,使用参数all=TRUE.

> merge(cold.states, large.states, all=TRUE)
      Name Frost  Area
1     Alaska  152 566432
2    Arizona  NA 113417
3   California  NA 156361
....
13     Texas  NA 262134
14    Vermont  168   NA
15    Wyoming  173   NA

两个数据框有不同的名称,所以R基于两者state的name进行匹配。Frost来自cold.states数据框,Area来自large.states.

上面代码执行了完整合并,填充未匹配列值为NA。

总结

本文详细介绍R中merge()函数参数及合并数据类型。利用sql的表连接概念进行类比,简单易懂。

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。

发布者:全栈程序员-用户IM,转载请注明出处:https://javaforall.cn/130379.html原文链接:https://javaforall.cn

【正版授权,激活自己账号】: Jetbrains全家桶Ide使用,1年售后保障,每天仅需1毛

【官方授权 正版激活】: 官方授权 正版激活 支持Jetbrains家族下所有IDE 使用个人JB账号...

(0)


相关推荐

  • Android – 封装Fragment不依赖于Activity

    Android – 封装Fragment不依赖于Activity

  • map的containsKey方法

    map的containsKey方法map是一个key和value的键值对集合。map中的containKey(key)方法是判断该key在map中是否有key存在。如果存在则返回true,反之,返回false。程序实例:判断数组中是否有1,有的话就返回1和1所在的位置。我采用的是hashmap,在哈希表中进行添加,删除,查找等操作,性能十分之高,不考虑哈希冲突的情况下,仅需一次定位即可完成,时间复杂度为O(1),时间消耗是很少的。packageTT04;importjava.util.Has…

  • 虚拟局域网vlan的最大个数_虚拟局域网的标准是

    虚拟局域网vlan的最大个数_虚拟局域网的标准是VLAN实例1.VLAN划分实例[Huawei]interfaceEthernet0/0/1[Huawei-Ethernet0/0/1]portlink-typeaccess[Huawei-Ethernet0/0/1]portdefaultvlan10[Huawei]interfaceEthernet0/0/2[Huawei-Ethernet0/0/2]portlink-typeaccess[Huawei-Ethernet0/0/2]portdefau

  • 4个基本不等式的公式高中_基本不等式公式四个叫什么名字「建议收藏」

    4个基本不等式的公式高中_基本不等式公式四个叫什么名字「建议收藏」展开全部叫做平方平均数、算术平均数、几何平均数、调和平均数1.平方平均数:又名均方根(RootMeanSquare),英文62616964757a686964616fe78988e69d8331333431376632缩写为RMS。它是2次方的广义平均数的表达式,也可称为2次幂平均数。英文名为,一般缩写成RMS。2.算术平均数:又称均值,是统计学中最基本、最常用的一种平均指标,分为简单算术平均…

  • 【Linux + Makefile】Makefile中的.PHONY作用以及赋值运算(各种=符号)的区别

    【Linux + Makefile】Makefile中的.PHONY作用以及赋值运算(各种=符号)的区别【Linux+Makefile】Makefile中的.PHONY作用以及赋值运算(各种=符号)的区别,本文带你了解一下!

  • 高性能内存池_内存池化

    高性能内存池_内存池化文章目录项目简介内存池的概念定长内存池的实现整体框架设计threadcachethreadcache整体设计threadcache哈希桶映射对齐规则threadcacheTLS无锁访问centralcachecentralcache整体设计centralcache结构设计centralcache核心实现pagecachepagecache整体设计pagecache中获取Span申请内存过程联调threadcache回收内存centralcache回收内存pagecache回收内存释放内存过程联调大于256K

    2022年10月22日

发表回复

您的电子邮箱地址不会被公开。

关注全栈程序员社区公众号