用Matlab筛选mirbase,一种基于miRBase数据库的无参的miRNA数据分析方法与流程

用Matlab筛选mirbase,一种基于miRBase数据库的无参的miRNA数据分析方法与流程本发明涉及转录组测序领域,具体涉及一种在miRBase数据库中无本物种参考miRNA数据的miRNA测序的数据分析方法。背景技术:miRNA是一类由内源基因编码非编码单链RNA分子,在动植物中参与转录后基因表达调控。多数miRNA以单拷贝、多拷贝或基因簇的形式存在于基因组中。miRNA在很多物种中被广泛发现,且在进化进程中高度保守,因此研究miRNA的确切功能、目的靶基因、以及其作用机制,是转录组…

大家好,又见面了,我是你们的朋友全栈君。如果您正在找激活码,请点击查看最新教程,关注关注公众号 “全栈程序员社区” 获取激活教程,可能之前旧版本教程已经失效.最新Idea2022.1教程亲测有效,一键激活。

Jetbrains全家桶1年46,售后保障稳定

1763c8b1eaa82c54cfdbe941c66b1c34.gif

本发明涉及转录组测序领域,具体涉及一种在miRBase数据库中无本物种参考miRNA数据的miRNA测序的数据分析方法。

背景技术:

miRNA是一类由内源基因编码非编码单链RNA分子,在动植物中参与转录后基因表达调控。多数miRNA以单拷贝、多拷贝或基因簇的形式存在于基因组中。miRNA在很多物种中被广泛发现,且在进化进程中高度保守,因此研究miRNA的确切功能、目的靶基因、以及其作用机制,是转录组学数据分析中的重要一环,对于了解生物体内基因的表达调控机制有重要意义。

miRNA的作用机制在动物和植物之间存在明显差异,且有的物种有丰富的miRNA参考数据,但有的物种缺乏参考数据,甚至有些物种没有参考基因组信息,这些情况下的miRNA测序的数据分析方法十分不同。由于不同物种中的miRNA有一定的保守性,因此对于没有本物种参考miRNA数据的测序结果,也可以进行分析。但是目前还没有针对无参考miRNA数据的miRNA测序数据分析工具。也没有现成的流程分析能同时分析动物和植物小RNA测序数据;尤其是没有自动化的分析平台实现小RNA测序结果的流程化分析工具,包括后续的sRNA注释,miRNA序列的特征分析,表达量分析和差异分析,靶基因位点分析,等各个步骤的自动化整合。

技术实现要素:

为了克服现有技术所存在的上述缺陷,本发明的目的在于提供一种基于miRBase数据库的无参的miRNA数据分析方法。

为了实现本发明的目的之一,所采用的技术方案是:一种基于miRBase数据库的无参的miRNA数据分析方法,包括如下步骤:

步骤一,文件准备步骤:

准备并读取config文件,读取后生成相应的shell脚本,在运行同时每一步都会有运行日志,方便结果检查;

步骤二,下机数据过滤步骤:

下机后的原始数据,去除接头,然后过滤低质量序列,即:以5个碱基长度为窗口对原始序列进行搜索,当窗口中碱基的平均测序质量低于20时,将从窗口最前端开始的部分截断并舍弃。将过滤后的数据进行去重,获得无重复的序列,并标记所有序列数量。同时对原始数据和过滤数据量进行统计,并以柱状图展示不同长度的序列的数量分布特征。过滤序列用于后续分析;

步骤三,sRNA分类注释步骤:

将去重后的序列与Rfam数据库进行blast比对,筛选出碱基错配数小于2的结果,注释出其中的非编码RNA序列,

将其余的小RNA序列与miRBase数据库中动物或植物的miRNA成熟体序列进行比对,筛选出碱基错配数小于2的结果,注释为已知的miRNA序列,同时计算测到的miRNA表达量,进行表达模式分析并命名;

步骤四,miRNA差异分析步骤:

根据上一步注释到的miRNA信息以及表达量结果,使用DESeq进行差异表达分析,并按照差异倍数(FoldChange>2)和显著性(Pvalue<0.05)筛选差异表达的miRNA,并绘制图像;

步骤五,miRNA功能和通路分析步骤:

以目标物种的mRNA的3’UTR序列或mRNA序列为目标序列,使用miRanda软件或psRobot软件对差异表达的miRNA序列,进行靶基因位点搜索;

对上一步预测到的miRNA靶基因进行GO功能和KEGG通路的富集分析,获得差异miRNA可能参与的功能和代谢通路;

步骤六,miRNA序列特征分析步骤:

对miRNA碱基偏好性进行分析;

步骤七,结果整理步骤:

将所有用于生成miRNA结题报告的统计分析结果进行整理。

在本发明的一个优选实施例中,所述文件准备步骤当中所述包含的文件中包括:下机数据位置以及对应的样本名和分组名、用于差异分析的分组、分析结果保存路径、任务名称、物种简称、测序接头序列、植物或动物的物种类型、动物或植物所有的miRNA的成熟体序列、基因组序列及其index文件的位置、用于功能注释的基因注释文件、动物的mRNA的3’UTR序列、植物的mRNA序列、GTF文件中的任意一种或多种。

在本发明的一个优选实施例中,所述sRNA分类注释步骤当中,所述miRNA的命名方式为采用物种简称-miRNA家族名称的命名方式。

在本发明的一个优选实施例中,所述sRNA分类注释步骤当中,还包括对新的miRNA预测:使用mapper.pl将剩余的序列与基因组进行比对,并使用mireap.pl对比对上的序列进行新的miRNA预测,并使用RNAfold获得结构信息。最后对所有的小RNA序列的注释结果进行统计。

在本发明的一个优选实施例中,所述miRNA差异分析步骤中,所述绘制图像包括采用R语言的ggplot2软件包绘制差异表达miRNA的火山图、MA图;采用Pheatmap包对差异表达miRNA的表达量绘制热图。

在本发明的一个优选实施例中,所述的对miRNA碱基偏好性进行分析为:分析不同长度的miRNA的首位碱基的偏好性和、或所有miRNA每个位置上的碱基偏好性。

本发明的主要创新点在于:

针对无参考miRNA数据的miRNA测序数的分析方法。

结果全面,包含涉及到的miRNA分析内容以及其他测到的小RNA信息注释。

自动整理所有分析结果,完成各个部分分析之后,自动对结果进行统计,可视化,以及归类整理,使结果排布一目了然,直接用于报告生成。

所有操作步骤可见,方便错误查询,在进行每一步分析时,都会记录所用到的命令行和参数,以及运行中产生的日志结果,一旦程序运行出错,可以快速检查错误。

附图说明

图1为本发明的流程示意图。

图2为准备文件示意图。

图3为本发明的MA图示意图。

图4为本发明的火山图示意图。

图5为本发明的热图示意图。

图6为每个序列首位碱基的分布情况示意图。

图7为所有序列每一位碱基的分布情况示意图。

具体实施方式

以下通过实施例对本发明作进一步的说明,但这些实施例不得用于解释对本发明的限制。

在步骤S1)中接受用户的小RNA测序数据,以及相关的数据库信息,然后对所有的数据进行相关的分析,得到每个样本中所有小RNA的注释信息,并对miRNA进行序列特征分析和表达量分析,以及样本间差异表达分析,功能和通路富集分析。文件准备如图2。

首先是对下机数据进行过滤和数量统计。本发明实施例中,对下机数据进行去除接头和低质量序列的过滤处理,得到高质量的测序结果。作为示例地,去除接头序列,并通过5bp的滑动窗口,对原始序列进行搜索,当窗口中碱基的平均测序质量低于20时,将从窗口最前端开始的部分截断并舍弃过滤低质量序列。然后过滤掉长度小于18或者大于36bp的序列。然后对高质量数据的重复序列进行归纳,得到所有的无冗余序列。并对原始数据和高质量进行数量统计。

接下来先通过比对注释出ncRNA序列。作为示例的,使用Blast将这些序列与Rfam数据库比对,注释其他如rRNA,tRNA,snRNA,snoRNA等非编码RNA信息。然后使用perl脚本对结果筛选出碱基错配数小于2的结果,注释出其中的非编码RNA序列。

然后注释出miRNA序列。作为示例的,将其余的小RNA序列与miRBase数据库中该物种的miRNA成熟体序列进行Blast比对,筛选出碱基错配数小于2的结果,注释为已知的miRNA序列,同时计算测到的miRNA表达量,进行表达模式分析。

然后从剩余的序列预测新的miRNA信息。作为示例的,使用mapper.pl将剩余的序列与基因组进行比对,并使用mireap.pl对比对上的序列进行新的miRNA预测,并使用RNAfold获得结构信息。最后对所有的小RNA序列的注释结果进行统计。若无参考基因组数据,则跳过新miRNA预测的步骤。

对于之前检测到的保守miRNA序列根据其表达量,进行差异表达分析。作为示例的,使用DESeq进行差异表达分析,并按照差异倍数(FoldChange>2)和显著性(Pvalue<0.05)筛选差异表达的miRNA。同时采用R语言的ggplot2软件包绘制差异表达miRNA的火山图(直观了解差异miRNA的分布情况)和MA图(评估文库标准化的好坏)。采用Pheatmap包对差异表达miRNA的表达量绘制热图,参见图3、4、5。

根据序列相似性,对筛选到的显著差异表达的miRNA进行靶基因预测。作为示例的,以本物种的mRNA的3’UTR序列(若是植物则直接采用mRNA序列)为目标序列,使用psRNATarget或者psRobt软件对差异表达的miRNA序列,进行靶基因位点搜索。然后通过超几何检验计算靶基因富集到哪些GO功能和KEGG代谢通路上,从而了解这些差异miRNA所发挥的功能。

还对预测到的保守的miRNA序列进行序列特征分析,包括碱基偏好性分析,保守性分析和家族分析。作为示例的,采用perl脚本,先对不同长度的miRNA序列,分别统计第一位碱基的种类分布数量;以及所有miRNA每个位置上的碱基种类分布数量,并使用R语言画图展示结果。然后将该物种的miRNA序列与近缘物种进行比对,找出物种间存在的保守性miRNA,并标记之间的相似度。根据每个miRNA的家族信息,找出在近缘物种中是否包含对应家族的miRNA信息。

参见图6、7,图6为每个序列首位碱基的分布情况;图7为所有序列每一位碱基的分布情况;

最终整理所有的分析结果,所所有分析内容按类别排放在不用目录下。作为示例的,将原始数据单独存放;将数据过滤的统计结果,序列长度分布图形单独存放;将所有小RNA的注释结果及注释结果统计都单独存放;将miRNA序列特征分析结果单独存放;将miRNA表达量以及差异表达相关的分析内容单独存放;将差异表达的miRNA对应的靶基因预测结果,以及功能和通路富集分析结果单独存放。

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。

发布者:全栈程序员-用户IM,转载请注明出处:https://javaforall.cn/209981.html原文链接:https://javaforall.cn

【正版授权,激活自己账号】: Jetbrains全家桶Ide使用,1年售后保障,每天仅需1毛

【官方授权 正版激活】: 官方授权 正版激活 支持Jetbrains家族下所有IDE 使用个人JB账号...

(0)


相关推荐

  • 900万!!!!!!!!这也太强了吧!!!我的老天!!!!!!!!!!

    900万!!!!!!!!这也太强了吧!!!我的老天!!!!!!!!!!大家好,我是二哥呀!之前在送书的时候做了一个小调查,问题是:“你是怎么认识二哥的?”我以为从知乎上了解的多一些,没想到,CSDN上的最多,看来二哥还是在CSDN上更有影响力一些,这个结果多少让我感到有些意外,因为我最近在知乎上更新得更勤快一些。写这篇文章的时候,我去CSDN上看了一眼我的主页。访问量突破了900万!按照目前的增长速度来看,年底突破1000万访问量应该没啥大问题。另外还有一些数据我觉得也挺牛逼的:原创文章数量957篇;作者总榜第12名;作者周榜第

  • 两位数乘法的速算方法(一)「建议收藏」

    两位数乘法的速算方法(一)「建议收藏」两位数乘法的速算方法一、范围讲的是两位自然数的相乘,即如何计算ABXCD的相乘结果,例如86X32。 二、ABXCD相乘的专业说法AB叫被乘数CD叫乘数三、原理设两位数分别是10A+B,10C+D,其乘积为S,根据多项式展开:S=(10A+B)X(10C+D)=10Ax10C+BX10C+10AXD+BXD。所谓速算,就是根据其中一些相等或者互补的关系,简化

  • web基础知识_Web开发基础

    web基础知识_Web开发基础传统身份验证的方法:HTTP是一种没有状态的协议,也就是它并不知道是谁是访问应用。这里我们把用户看成是客户端,客户端使用用户名还有密码通过了身份验证,不过下回这个客户端再发送请求时候,还得再验证一下。解决的方法就是,当用户请求登录的时候,如果没有问题,我们在服务端生成一条记录,这个记录里可以说明一下登录的用户是谁,然后把这条记录的ID号发送给客户端,客户端收到以后把这个ID号存储在C…

  • 联想笔记本键盘亮了屏幕不亮怎么办_电脑开机显示器和键盘都不亮

    联想笔记本键盘亮了屏幕不亮怎么办_电脑开机显示器和键盘都不亮联想电脑显示器不亮怎么办联想电脑显示器不亮解决方法一:1、开机后,我们先不管显示器是否能正常的亮或显示,我们先再次按主机上的重启键,然后我们按一下键中的“numlock”键,也就是台式键盘右边的数字开关切换键。2、如数字开关键上面的数字锁定灯可以正常的亮或正常的灭,这时就说明电脑主机一般没啥事儿了,基本上可以确定是由显示器本身的问题了。3、如无法显示正常的灯亮和灯灭的话,那么基本可以说明是电脑机…

  • npm 更改为淘宝镜像的方法[通俗易懂]

    npm更改为淘宝镜像的方法1、命令行临时使用指定镜像(淘宝)npm–registryhttps://registry.npm.taobao.orginstallexpress2、命令行永久更改使用指定镜像(淘宝)npmconfigsetregistryhttps://registry.npm.taobao.org以后npminstallexp…

  • Jave2-Java音频视频编码器

    Jave2-Java音频视频编码器文章目录Jave2-Java音频视频编码器Jave2是什么Installation and requirementsJave2 怎么玩支持的操作系统+要求支持 Maven/Gradle实战演练将arm文件转为mp3文件使用监听器监听转换进度-高级一点的用法问题收集Jave2 总结Jave2是什么JAVE2(Java音频视频编码器)库是ffmpeg项目上的Java包装器。 开发人员可以利用JAVE2将音频和视频文件从一种格式转码为另一种格式。 在示例中,您可以将AVI

发表回复

您的电子邮箱地址不会被公开。

关注全栈程序员社区公众号