R实战 | NGS数据时间序列分析(maSigPro)

article/2025/9/14 10:21:49

8d84c0cefff917d360ec46dd6d77e44b.png

masigpro
05e3a65b6eba16b0355332a6ff9e63b6.png

跟着Cell学作图 | 6.时间序列分析(Mfuzz包)

一个答疑教程

8900b2ba912f1fc6ccfd746072f28341.png
maSigPro 流程

示例数据

#BiocManager::install('maSigPro')
library(maSigPro)
# 载入示例数据
data(data.abiotic) 
data.abiotic[1:5,1:5]
data(edesign.abiotic)
head(edesign.abiotic)
> data.abiotic[1:5,1:5]Control_3H_1 Control_3H_2 Control_3H_3 Control_9H_1 Control_9H_2
STMDF90   0.13735714   -0.3653065  -0.15329448   0.44754535  0.287476796
STMCJ24           NA           NA           NA           NA           NA
STMJH42   0.07864449    0.1002328  -0.17365488  -0.25279484  0.184855409
STMDE66   0.22976991    0.4740975   0.46930716   0.37101059 -0.004992029
STMIX74   0.14407618   -0.4801864  -0.07847999   0.05692331  0.013045420
> head(edesign.abiotic)Time Replicate Control Cold Heat Salt
Control_3H_1    3         1       1    0    0    0
Control_3H_2    3         1       1    0    0    0
Control_3H_3    3         1       1    0    0    0
Control_9H_1    9         2       1    0    0    0
Control_9H_2    9         2       1    0    0    0
Control_9H_3    9         2       1    0    0    0

注意:data.abiotic是已经标准化过的基因表达矩阵

建立回归模型

生成回归矩阵(makeDesignMatrix)

design <- make.design.matrix(edesign.abiotic, degree = 2)
design$groups.vector

示例数据有三个时间的,故考虑二次回归模型(degree = 2)。

> design$groups.vector[1] "ColdvsControl" "HeatvsControl" "SaltvsControl" "Control"      [5] "ColdvsControl" "HeatvsControl" "SaltvsControl" "Control"      [9] "ColdvsControl" "HeatvsControl" "SaltvsControl"

寻找重要基因(p.vector)

F检验确定回归方程的显著性,采用BH的校正方式,校正多重假设检验的p值。

校正后的p值小于p.vector的参数Q的基因就作为候选基因,进行下一步的分析。通过fit$SELEC可以得到候选基因的表达量信息。

fit <- p.vector(data.abiotic, # 标准化的表达矩阵 design, # 实验设计的矩阵 make.design.matrix 生成Q = 0.05, # 显著性水平MT.adjust = "BH", min.obs = 20 # 最低表达样本数 不应小于(degree+1)xGroups+1 )
fit$i # 显著性基因的数量 
fit$SELEC # 显著性基因表达矩阵

寻找显著性差异(T.fit)

上述的回归方程是基于所有的自变量的组合构建的,接下来就是通过逐步回归法确定最佳的自变量组合。

tstep <- T.fit(fit, # p.vector结果step.method = "backward", alfa = 0.05) # 在逐步回归中用于变量选择的显著性水平

在挑选最佳的自变量组合时,通过每种自变量组合对应的回归模型的拟合优度值R-squared来进行判断,R-squared取值范围为0到1,数值越大,越接近1,回归模型的效果越好。

获取显著性基因列表(get.siggenes)

sigs <- get.siggenes(tstep, # T.fit结果rsq = 0.6, # 逐步回归中的R-squared截至值vars = "groups")
# vars参数有3种
# all  每个基因直接给出一个最佳的回归模型
# groups  只给出不同实验条件下相比control组中的差异基因
# each 会给出时间点和实验条件的所有组合对应差异基因列表
names(sigs)
names(sigs$sig.genes$ColdvsControl)
sigs$sig.genes$ColdvsControl$sig.profiles # 查看cold vs control的结果

结果可视化

韦恩图(suma2Venn)

suma2Venn(sigs$summary[, c(2:4)]) # 左图
suma2Venn(sigs$summary[, c(1:4)]) # 右图
# 这个韦恩图面积大小与数量不成比例 较普通
2026ba124c9c3b70297390f13e0846dc.png

see.genes()

see.genes(sigs$sig.genes$ColdvsControl, # 差异基因表达矩阵show.fit = T, # 是否显示回归拟合线(虚线)dis =design$dis, # 回归设计矩阵cluster.method="hclust" , # 聚类方法cluster.data = 1, k = 9) # 聚类数目
52b389377c72ef8e1734128676debbf1.png

这一步生成两个图,如图可分别查看。注意调整图片显示区域大小,以免报错。

fd3098ef7247c21d696df4c586f26497.png
Cluster Analysis ColdvsControl significant genes
0eb955d289df9bdc2c76e03a26197fdb.png
Expression Profiles ColdvsControl significant genes

PlotGroups()

选择某一特定genes的表达进行可视化。

# 选取STMDE66基因
STMDE66 <- data.abiotic[rownames(data.abiotic)=="STMDE66", ]
PlotGroups (STMDE66, edesign = edesign.abiotic)
0f6b76a220c59c207ff6d78b7d4af04d.png

# 添加回归拟合线
PlotGroups (STMDE66, edesign = edesign.abiotic, show.fit = T, dis = design$dis, groups.vector = design$groups.vector)
60edbdb3a7819fcb9c5dff41c3256e1a.png

示例数据和代码领取

点赞在看 本文,分享至朋友圈集赞20个保留30分钟,截图发至微信mzbj0002领取。

木舟笔记2022年度VIP可免费领取

木舟笔记2022年度VIP企划

权益:

  1. 2022年度木舟笔记所有推文示例数据及代码(在VIP群里实时更新)。

    d128e8edf12507048a7bcea8c54bed10.png
  2. 木舟笔记科研交流群

  3. 半价购买跟着Cell学作图系列合集(免费教程+代码领取)|跟着Cell学作图系列合集。

收费:

99¥/人。可添加微信:mzbj0002 转账,或直接在文末打赏。

63238b8c5888c6834ae41a8f93b52b26.png

参考

Bioconductor - maSigPro(https://bioconductor.org/packages/release/bioc/html/maSigPro.html)

往期内容

  1. (免费教程+代码领取)|跟着Cell学作图系列合集

  2. Q&A | 如何在论文中画出漂亮的插图?

  3. Front Immunol 复现 | 4. 使用estimate包评估肿瘤纯度

  4. R绘图 | 气泡散点图+拟合曲线

  5. 跟着 Cell 学作图 | 桑葚图(ggalluvial)

  6. R绘图 | 对比条形图+连线

  7. R绘图 | 一幅小提琴图的美化之旅

  8. R实战 | 给聚类加个圈圈(ggunchull)

  9. R绘图 | 描述性统计常用图(散点图+柱状图+饼图)


02ff08bebb7d7a14628fdfe676fe2c79.png
木舟笔记矩阵

http://chatgpt.dhexx.cn/article/5DQ3rRTd.shtml

相关文章

NGS数据分析实践:03. 涉及的常用数据格式[5] - vcf格式

NGS数据分析实践&#xff1a;03. 涉及的常用数据格式[5] - vcf格式 6. vcf格式6.1 vcf格式整体描述6.2 第8列INFO详解6.3 第9列FORMAT详解6.4 vcf文件简单解读 系列文章&#xff1a; 二代测序方法&#xff1a;DNA测序之靶向重测序 NGS数据分析实践&#xff1a;00. 变异识别的基…

生信小白学习日记Day4Day5——NGS基础 NGS分析注释(BWA软件)

2019年5月30日&#xff0c;晚上&#xff0c;心情变好&#xff0c;好几天没更新了&#xff0c;看到男朋友在学一款软件&#xff0c;我也近朱者赤&#xff0c;来继续注释Day2-2中NGS分析流程中的一个重要软件——BWA NGS基础 NGS分析注释 BWA 对应于NGS分析流程的这两步&…

NGS数据分析实践:00. 变异识别的基本流程

NGS数据分析实践&#xff1a;00. 变异识别的基本流程 变异识别过程可以分成3大块&#xff1a;1. 原始数据质控&#xff1b;2. 数据预处理&#xff1b;3. 变异识别。大致可以细分为6个部分&#xff1a;(1) 原始测序数据的质控&#xff1b;(2) read比对&#xff0c;排序和标记PCR…

如何用软件模拟NGS数据

如何用软件模拟NGS数据 为了评价一个工具的性能&#xff0c;通常我们都需要先模拟一批数据。这样相当于有了参考答案&#xff0c;才能检查工具的实际表现情况。因此对于我们而言&#xff0c;面对一个新的功能&#xff0c;可以先用模拟的数据测试下不同工具的优缺点。有如下几个…

生信小白学习日记Day2——NGS基础 illumina高通量测序原理

2019年5月26日&#xff0c;周日&#xff0c;小雨 说明&#xff1a;阅读生信宝典和查阅文章的总结&#xff0c;原文请关注公众号生信宝典&#xff0c;参考的博文都附有链接&#xff0c;仅供参考。 生信宝典 NGS基础——高通量测序原理 本文介绍了测序文库构建原理、链特异性文…

NGS数据分析实践:05. 测序数据的基本质控 [2] - MultiQC

NGS数据分析实践&#xff1a;05. 测序数据的基本质控 [2] - MultiQC 2. MultiQC2.1 帮助信息及运行代码2.2 报告解读2.3 小结 文接上篇&#xff1a;NGS数据分析实践&#xff1a;05. 测序数据的基本质控 [1] - FastQC 2. MultiQC NGS技术的进步催生了新的实验设计、分析类型和极…

NGS数据分析实践:03. 涉及的常用数据格式[2] - sam/bam格式

NGS数据分析实践&#xff1a;03. 涉及的常用数据格式[2] - sam/bam格式 2. sam和bam格式 系列文章&#xff1a; 二代测序方法&#xff1a;DNA测序之靶向重测序 NGS数据分析实践&#xff1a;00. 变异识别的基本流程 NGS数据分析实践&#xff1a;01. Conda环境配置及软件安装 NGS…

NGS数据过滤之trimmomatic

NGS 原始数据过滤对后续分析至关重要&#xff0c;去除一些无用的序列也可以提高后续分析的准确率和效率。Trimmomatic 是一个功能强大的数据过滤软件。 Trimmomatic 介绍 Trimmomatic 发表的文章至今已被引用了 2810 次&#xff0c;是一个广受欢迎的 Illumina 平台数据过滤工具…

NGS基础:测序原始数据批量下载

生物或医学中涉及高通量测序的论文&#xff0c;一般会将原始测序数据上传到公开的数据库&#xff0c;上传方式见测序文章数据上传找哪里&#xff1b;并在文章末尾标明数据存储位置和登录号,如 The data from this study was deposited in NCBI Sequence Read Archive under acc…

NGS之数据格式

生物信息中常见的几种数据格式有:fasta、fastq、bam、sam、vcf、bed、gff。 参考&#xff1a;http://www.biotrainee.com/thread-42-1-1.html FASTQ 参考&#xff1a;https://en.wikipedia.org/wiki/FASTQ_format fastq格式是文本格式。它有对应序列字符的质量分数&#xff…

生信小白学习日记Day3——NGS基础 NGS分析注解(质量分析软件)

2019年5月27日&#xff0c;天气舒适&#xff0c;忙碌一天之后开始今天的生信学习。今天就昨天Day2-2的一些标记加以查询说明&#xff0c;仅供参考。 NGS基础 NGS分析注解 1. 质量分析软件 昨天提到&#xff0c;拿到数据后可以通过一些软件来评估测序质量的好坏&#xff0c;…

NGS 数据过滤之 Trimmomatic

NGS Trimmomatic 支持多线程&#xff0c;处理数据速度快&#xff0c;主要用来去除 Illumina 平台的 Fastq 序列中的接头&#xff0c;并根据碱基质量值对 Fastq 进行修剪。软件有两种过滤模式&#xff0c;分别对应 SE 和 PE 测序数据&#xff0c;同时支持 gzip 和 bzip2 压缩文…

NGS基础名词解释(1)

什么是高通量测序&#xff1f; 高通量测序技术&#xff08; High-throughput sequencing &#xff0c; HTS &#xff09;是对传统 Sanger 测序&#xff08;称为一代测序技术&#xff09;革命性的改变 , 一次对几十万到几百万条核酸分子进行序列测定 , 因此在有些文献中称其为…

【评测】NGS建库试剂盒

NGS建库试剂 一、基本信息&#xff1a; 1、产品名称&#xff1a;SynplSeq DNA Library Prep Kit for Illumina 2、货号及规格 3、保存条件&#xff1a;-20℃ 二、产品描述&#xff1a; 1、产品介绍 文库构建是NGS测序的关键环节。SynplSeq DNA Library Prep Kit for illu…

NGS分析流程

NGS实验步骤 核酸提取与检测、文库构建与文库检测、上机测序 生信分析步骤 1. 质量分析 fastqc、multiqc、SolexaQA 测序数据的质量好坏会影响我们的下游分析。但不同的测序平台其测序错误率的图谱都是有差别的。因此&#xff0c;非常建议在我们分析测序数据之前先搞清楚如…

生信小白学习日记Day2-2——NGS基础 NGS分析

2019年5月26日下午&#xff0c;无意中看到hanli0902的关于NGS分析的博文https://blog.csdn.net/hanli1992/article/details/82790386有很多需要学习的地方&#xff0c;在这里贴一些并就不理解之处做些笔记&#xff0c;仅供参考。 NGS基础——NGS分析 NGS 分析步骤 1. 质量分析…

NGS实验室设计

NGS&#xff08;Next-Generation Sequencing&#xff09;实验室是进行高通量测序研究的场所&#xff0c;其规划布局需要考虑实验室的功能需求、设备需求、安全性、通风与空调、废弃物处理等多方面的因素。以下是NGS实验室规划布局需要考虑的几个方面&#xff1a; 1、实验室空间…

【gis技术】web墨卡托投影和经纬度直投的差别

本文不适用于不知道投影概念的人。 web墨卡托投影 是以经度0&#xff0c;纬度90为原点&#xff0c;x正轴朝东&#xff08;右&#xff09;&#xff0c;y轴朝南&#xff08;下&#xff09;&#xff1b; 格网分割为2*2格网划分&#xff0c;如图 经纬度直投的原点和轴向与前者一致…

墨卡托投影坐标系(Mercator Projection)原理

Web墨卡托投影坐标系&#xff1a; 以整个世界范围&#xff0c;赤道作为标准纬线&#xff0c;本初子午线作为中央经线&#xff0c;两者交点为坐标原点&#xff0c;向东向北为正&#xff0c;向西向南为负。 X轴&#xff1a;由于赤道半径为6378137米&#xff0c;则赤道周长为2*P…

网络墨卡托投影的前世今生

谷歌地图、微软地图、百度地图、腾讯地图、高德地图等网络地图所使用的投影都是网络墨卡托投影&#xff08;Web Mercator&#xff09;&#xff0c;尽管我们喜欢把百度地图、高德地图称之为火星坐标系&#xff0c;不过它们还是没逃出网络墨卡托投影的手心。 网络墨卡托投影由墨卡…