图数据的自监督学习介绍

图数据的自监督学习介绍深度学习在解决许多复杂的机器学习问题方面一直是一个有趣的课题,特别是最近在图数据方面。然而,大多数的解决方案要么是监督或半监督,高度依赖于数据中的标签,导致过拟合和整体鲁棒性较弱。自监督学习(Self-SupervisedLearning,SSL)是一种很有前途的解决方案,它从无标记数据中挖掘有用的信息,使其成为图数据领域中一个非常有趣的选择。为什么自监督学习更适合图形数据?SSL有助于理解图形数据中存在的结构和属性信息,使用标记数据时可能会忽略这些信息对于现实世界的数据,获取带标签的图形数据非常

大家好,又见面了,我是你们的朋友全栈君。如果您正在找激活码,请点击查看最新教程,关注关注公众号 “全栈程序员社区” 获取激活教程,可能之前旧版本教程已经失效.最新Idea2022.1教程亲测有效,一键激活。

Jetbrains全系列IDE使用 1年只要46元 售后保障 童叟无欺

深度学习在解决许多复杂的机器学习问题方面一直是一个有趣的课题,特别是最近在图数据方面。然而,大多数的解决方案要么是监督或半监督,高度依赖于数据中的标签,导致过拟合和整体鲁棒性较弱。自监督学习(Self-Supervised Learning, SSL)是一种很有前途的解决方案,它从无标记数据中挖掘有用的信息,使其成为图数据领域中一个非常有趣的选择。

为什么自监督学习更适合图形数据?

SSL有助于理解图形数据中存在的结构和属性信息,使用标记数据时可能会忽略这些信息

对于现实世界的数据,获取带标签的图形数据非常昂贵且不切实际。 由于图形的常规和复杂数据结构,因此SSL前置任务在这种情况下可以更好地工作

如何在图形数据上进行自我监督学习?

自我监督模型通过执行一些前置任务来帮助学习未标记图形数据中的通用信息。 前置任务是补充任务的组合,这些任务可帮助获取监测信号,而无需手动添加注释的数据

图形数据和定义

图的定义

图是一组节点和一组边。 邻接矩阵用于表示图的拓扑。 节点和边具有自己的属性(特征)的图称为属性图。 异构图具有不止一种类型的节点或边,而同类图则相反。

下游图分析任务的类型

通过神经网络(编码器)从输入图创建嵌入,然后将其馈送到输出头以执行不同的下游任务。 下游任务有三种主要类型,可以归纳如下:

  • Node-level 节点级任务是与图形中的节点相关的不同任务,例如,节点分类,其中在少量标记节点上训练的模型会预测其余节点的标签。
  • Link-level 链接级任务专注于节点的边缘和表示形式,例如,链接预测,其目标是识别边缘之间的任何连接。
  • Graph-leve 图级任务以图形表示为目标,它们从多个图中学习并预测单个图的属性。

自监督训练

图数据的自监督学习介绍

根据图编码器,自监督的前置任务和下游任务之间的关系,自监督的训练方案可以分为以下三种类型:

  • 预训练和微调是第一种训练方案,其中在编码器中预先进行预置任务,然后在特定下游任务中进行微调。
  • 联合学习是一种将编码器与前置任务和下游任务一起进行预训练的方案。
  • 无监督表示学习,其中先使用前置任务对编码器进行预训练,然后在使用下游任务训练模型时冻结编码器的参数。 在此训练方案中,在编码器训练期间没有监督。

图自监督学习的类型

图数据的自监督学习介绍

在本节中,我们将探讨图自我监督学习中的四种不同类别的预设设计技术-

蒙版特征回归(MFR)

此技术用于计算机视觉中的图像修复,该过程是通过填充图像的蒙版像素来恢复损坏的图像的过程。 在图形数据的上下文中,节点和边的特征被零或其他标记掩盖。 此步骤之后,目标是使用图形神经网络(GNN)根据未屏蔽的数据恢复被屏蔽的特征。

就图数据而言,该分支的现有方法可以总结如下:

  • 屏蔽节点特征回归图补全—通过启用GNN从上下文中提取特征
  • AttributeMask —它的目标是重建经过PCA处理的密集特征矩阵
  • AttrMasking —通过用特殊的掩码替换边和节点的属性,强制GNN同时重建它们
  • 重构技术-从干净或损坏的输入中重构特征或嵌入,并使用它们以联合学习的方式训练编码器

辅助性能预测(APP)

该分支可用于理解底层图的结构和属性信息,提取自我监督信号。这可以使用分类或基于回归的方法来完成,如下所示

  • 基于回归的方法(R-APP)——在这种方法中,学习了图的局部属性,例如,关于图的整体结构的代表性节点属性。然后,利用这些信息可以根据图中预定义的簇预测未标记节点的属性
  • 基于分类的方法(C-APP)——与R-APP相比,这种方法依赖于构建伪标签。在训练过程中分配伪标签并使用这些自我监督标签(属性)、基于固有拓扑(基于结构)对节点进行分组、图属性预测(节点的统计属性和节点的中心性)是基于分类方法(C-APP)的一些例子。

同比例对比(SSC)

通过预测图中两个元素之间的相似性(例如,节点-节点对比或图-图对比)来学习方法的这一分支。 此方法的不同分支可以总结如下-

  • 基于上下文的方法(C-SSC)-此方法的主要思想是在嵌入空间中拉近上下文节点。 假设上下文相似的节点更可能在图中互连
  • 基于增强的方法(A-SSC)-通过这种方法从原始数据样本生成增强的数据样本,并将来自同一来源的样本视为正对,而来自不同来源的样本视为负对

跨尺度对比(CSC)

与SSC相反,此方法通过对比图中的不同元素来学习表示,例如,节点图对比,节点子图对比。

混合自我监督学习

在混合学习中,可以使用不同类型的前置任务来组合以提高性能,而不是使用单一方法。

  • 例如,GPT-GNN将MFR和C-SSC组合成一个图生成任务以预训练图神经网络

  • 使用节点特征重构(MFR)和图结构恢复(C-SSC)来预训练图变换器模型的Graph-Bert

图数据的自监督学习介绍

挑战

缺乏理论基础—现有的方法要么依赖直觉,要么依赖经验实验。一个强大的图SSL理论基础可以缩小经验SSL和图理论之间的差距

增强-由于图SSL有许多基于增强的方法,因此应进一步探索数据增强方案

复杂图的前置任务-现有方法主要用于属性图,只有少数几种方法着重于复杂图。 希望有更多的前置任务设计用于复杂图和更普遍的图

结论

图自我监督学习是一个有趣的话题,因为大多数数据都是图结构的,并且通常没有标签。 诸如此类的方法有助于提供更好的概括性和健壮的模型。 使用这些方法,我们可以了解图表中存在的结构和属性信息,而这些信息在使用标记数据时通常会被忽略。

论文地址:Graph Self-Supervised Learning: A Survey arxiv:2103.00111

作者:Gayathri Pulagam

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。

发布者:全栈程序员-用户IM,转载请注明出处:https://javaforall.cn/193994.html原文链接:https://javaforall.cn

【正版授权,激活自己账号】: Jetbrains全家桶Ide使用,1年售后保障,每天仅需1毛

【官方授权 正版激活】: 官方授权 正版激活 支持Jetbrains家族下所有IDE 使用个人JB账号...

(0)
blank

相关推荐

  • 整理:数据库设计的六个阶段详解

    整理:数据库设计的六个阶段详解按照规范设计,我们将数据库的设计过程分为六个阶段:1、系统需求分析阶段;2、概念结构设计阶段;3、逻辑结构设计阶段;4、物理结构设计阶段;5、数据库实施阶段;6、数据库运行与维护阶段;每个阶段的详细解析如下:(资料来自:数据库设计(百度文库))一、系统需求分析阶段1、需求分析的任务2、需求分析的两种方法:自顶向下和自底向上二、概念结构设计三、逻辑结构设计

  • 了解HashMap数据结构,超详细!

    了解HashMap数据结构,超详细!写在前面:小伙伴儿们,大家好!今天来学习HashMap相关内容,作为面试必问的知识点,来深入了解一波!思维导图:学习框架图1,HashMap集合简介HashMap基于哈希表的Map接口实现,是以key-value存储形式存在,即主要用来存放键值对。HashMap的实现不是同步的,这意味着它不是线程安全的。它的key、value都可以为null。此外,HashMap中的映射不是有序的。JDK1.8之前的HashMap由数组+链表组成的,数组是HashMap的主体,链表则是主要为

  • 打一辈子的工才是最大的风险

    打一辈子的工才是最大的风险

  • Java程序员,你一定需要了解的六款大数据采集平台

    Java程序员,你一定需要了解的六款大数据采集平台随着大数据越来越被重视,数据采集的挑战变的尤为突出。今天为大家介绍几款数据采集平台: ApacheFlume Fluentd Logstash Chukwa Scribe SplunkForwarder 大数据平台与数据采集任何完整的大数据平台,一般包括以下的几个过程: 数据采集 数据存储 数据处理 …

  • 笔记本计算机运行程序,这几招让你的笔记本电脑运行速度变快 必学技巧「建议收藏」

    笔记本计算机运行程序,这几招让你的笔记本电脑运行速度变快 必学技巧「建议收藏」很多电脑用户一直都被电脑慢的问题困扰着,而电脑大神根本不把电脑慢当做电脑问题,因为让电脑变快的方法有很多,而且操作都巨简单。提高电脑速度的方法也能很多而且很容易操作,一切的难,只是来源于你没有学过而已,现在就跟着小编来学那些简单又使用的电脑技能吧。让电脑速度快10倍,大概会让人觉得很不可思议吧,而实际上,你羡慕的大神可能也只是因为学会了下面的12种提高电脑速度的方法:1、定期的,对电脑内的灰尘进行…

  • span或者input的disabled(小技巧)

    span或者input的disabled(小技巧)

发表回复

您的电子邮箱地址不会被公开。

关注全栈程序员社区公众号