Juicer实战详解

article/2025/9/11 20:59:31

欢迎关注”生信修炼手册”!

Juicer软件的运行是非常简单的,只需要设置几个参数就可以了,本文利用官网的小的测试测试数据集来展示该软件的基本用法。

1. 下载测试数据

从以下链接下载测试数据集

https://github.com/aidenlab/juicer/wiki/Running-Juicer-on-a-cluster

这里选用的是红框标记的小的测试数据集,如果想要体验完整的分析功能,可以option1提供的测试数据

wget http://juicerawsmirror.s3.amazonaws.com/opt/juicer/work/HIC003/fastq/HIC003_S2_L001_R1_001.fastq.gz
wget http://juicerawsmirror.s3.amazonaws.com/opt/juicer/work/HIC003/fastq/HIC003_S2_L001_R2_001.fastq.gz

样本的原始序列放置在软件安装目录的work/sample/fastq目录下,sample替换成自己定义的名称。

2. 运行

这里我没有下载官方提供的参考基因组,而是采用了UCSC下载的基因组。对于自己下载的参考基因组,首先建立bwa的索引,为了方便管理,统一将基因组序列和索引文件放在软件安装目录的references文件夹下,用法如下

cd references
wget http://hgdownload.soe.ucsc.edu/goldenPath/hg19/bigZips/hg19.fa.gz
gunzip hg19.fa.gz
bwa index hg19.fa hg19.fa

其次建立酶切图谱,放置在restriction_sites目录下,用法如下

python  misc/generate_site_positions.py HindIII hg19 references/hg19.fa

第一个参数根据实际使用的内切酶来选择,酶切图谱生成之后,可以在输出文件的基础上,生成染色体大小文件, 用法如下

awk 'BEGIN{OFS="\t"}{print $1, $NF}'  hg19_HindIII.txt > hg19.chrom.sizes

其实也可以从UCSC直接下载物种对应的染色质长度文件,对于其他来源的基因组文件,用上述方式更加通用。hg19.chrom.sizes文件的内容如下

chr1    249250621
chr2    243199373
chr3    198022430
chr4    191154276

该文件决定了最终的Hi-C图谱包含的染色体名称,对于一些random, unplace_scaffold序列,可以直接在该文件中去除,这样在不会出现在最终结果中。
准备好样本的原始序列和参考基因组的文件之后,就可以运行juicer了。用法如下

juicer.sh \
-z references/hg19.fa \
-p restriction_sites/hg19.chrom.sizes \
-y restriction_sites/hg19_HindIII.txt \
-d /home/pub/software/juicer/work/HIC003/ \
-D /home/pub/software/juicer \
-t 5

-z参数指定参考基因组fasta所在路径,在该路径下必须同时存在对应的bwa索引;-p参数指定染色体长度文件;-y指定基因组酶切图谱的路径;-d指定样本原始文件存放的路径;-D指定软件的安装路径,-t指定bwa比对使用的线程数,默认是使用全部线程。

需要注意的是, 在指定文件路径时,最好指定成绝对路径,特别是fastq文件所在路径。因为软件运行过程中会使用软链接,相对路径会出错。

软件运行完成之后,在样本对应的目录下,会生成以下目录

  1. splits

  2. aligned

splits目录下存放的是中间结果,由于hi-C数据量很大,所以会将原始序列拆分成很多份,并行运算,加快速度。默认每份包含22.5M的reads, 当然这个可以通过-C参数调整,该参数指定拆分文件的行数,默认是90000000, 注意fastq文件4行代表一条序列,所以这个参数的值必须是4的倍数。拆分后序列的R1和R2端分别通过bwa比对基因组,然后合并,筛选嵌合体序列,去重复,生成预处理后的结果文件。

aligned目录下存放的是最终结果,包含了可以导入juicebox的后缀为hic的图谱文件, inter.hicinter_30.hic, 30表示通过MAPQ > 30进行过滤之后的结果。完整流程还会进行后续处理,包括识别TAD, 染色质环等结构。其中识别染色质环的HICCUPs算法必须通过GPU加速运行才可以,所以没有安装GPU卡的普通服务器无法运行这个步骤。

从上述过程可以看到,juicer的使用确实非常简单。由于Hi-C数据的测序量非常大,以及后续分析算法的复杂度,对服务器计算资源的要求相当高,必须高性能服务器才能满足要求,而该软件所需的GPU卡成本也非常高,一块的成本在2万元左右,这些因素一定程度制约了Hi-C的普及和发展。

·end·

—如果喜欢,快分享给你的朋友们吧—

扫描关注微信号,更多精彩内容等着你!


http://chatgpt.dhexx.cn/article/nT9jdsxc.shtml

相关文章

Juicer: 辅助基因组组装

Juicer: 辅助基因组组装 Juicer 导读 本文主要对处理HiC数据的Juicer程序进行一个简短的介绍,并展示如何利用Juicer进行基因组组装中染色体挂载的第一步。 1. 介绍 算法介绍 Juicer[1] 是一款能够提供一键式分析Loop-Resolution的程序。 特点 只需一次单击&#xff…

如何同步数据库数据

第一步 打开mysql的客户端 这里使用navicat,连接数据库,等到navicat主页面,双击需要操作的数据库连接 第二步 登录到数据库主页面后,点击左侧的数据库链接,打开数据库,可以看到可以操作的所有数据库 第三…

Logstash数据同步

Logstash 是 Elastic 技术栈中的一个技术,它是一个数据采集引擎,可以从数据库采集数据到 ES 中。可以通过设置 自增 ID 主键 或 更新时间 来控制数据的自动同步: 自增 ID 主键:Logstatsh 会有定时任务,如果发现有主键…

数据同步-数据库间的双向同步

当业务侧需要MongoDB降配、活动数据迁移时都需要应用切换数据库实例进行发版,发版过程中需最大程度保证新旧数据库数据一致,这就涉及到了一种同步技术-数据双向同步。在同步过程中遇到了一些可能会产生问题或引发思考的点,希望利用这篇文档进…

什么是数据实时同步,为什么数据实时同步很重要

随着云成为前所未有的数据供应渠道,数据准确性、一致性和隐私性的重要性与日俱增。看似轻微的数据错误或故障可能会产生重大负面影响。但是,​对数据进行排序并将其与现有​,然后定期解析数据实时同步,同时保持数据完整性&#xf…

数据同步工具的研究(实时)

数据同步工具的研究(实时同步): FlinkCDC、Canal、Maxwell、Debezium ——2023年01月17日 ——Yahui Di 1. 常用CDC方案比较 2. FlinkCDC FlinkCDC的简介: Flink CDC 连接器是 Apache Flink 的一组源连接器,使用变…

聊聊数据同步

一、简述 数据同步,这是一个很宽泛的概念,在互联网或者传统软件公司,一定会遇到数据同步的场景。数据同步一般会遇到的问题诸如同步时延、数据一致性、性能低、强依赖于中间件、失败后无法补偿等。本文笔者试图简要总结下常见的数据同步场景&…

大数据的数据同步方式

一、全量覆盖 不需要分区,同步时直接覆盖插入。适用于数据不会有任何新增和变化的情况。比如地区、时间、性别等维度数据,不会变更或变更不影响业务,可以只保留最新值 二、仅新增同步 每天新增一个日期分区,同步并存储当天的新…

DataLink 数据同步平台

文章目录 一、数据同步平台概述核心能力工作原理详细流程 二、快速接入部署中间件程序配置创建数据库表启动应用注意事项 三、扩展:四种 CDC 方案比较优劣 一、数据同步平台 在项目开发中,经常需要将数据库数据同步到 ES、Redis 等其他平台,通…

数据同步之全量同步与增量同步

一、什么是数据同步 业务数据是数据仓库的重要数据来源,我们需要每日定时从业务数据库中抽取数据,传输到数据仓库中,之后再对数据进行分析统计。 为保证统计结果的正确性,需要保证数据仓库中的数据与业务数据库是同步的&#xff0…

你了解数据同步吗?

1.写在前面 本篇博客参考《操作系统实战 45 讲》 上篇博客主要介绍的是程序放在什么地方,开发操作系统要了解的最核心的硬件——CPU、MMU、Cache、内存,知道了它们的工作原理。在程序运行中,它们起到了至关重要的作用。 在开发我们自己的操…

数据库同步有哪些方式?【怎么保障目标和源数据一致性】

文章目录 摘要一、几种主流的数据库同步方式二、架构及工作原理三、全量同步和实时增量同步机制四、源和目标五、举例:Oracle 数据实时同步到 Elasticsearch六、目标和源数据一致性七、异构数据类型转换八、总结 摘要 数据库同步有3大难题: 1是如何保障…

数据技术篇之数据同步

第3章 数据同步 1.数据同步基础 直连同步 (1)什么是直连同步?直连同步是指通过定义好的规范接口 API 和基于动态链接库的方式直接连接业务库,如 ODBC/JDBC 等规定了统 一规范的标准接口,不同的数据库基于这套标准接口…

聊聊数据同步方案

文章目录 常用的数据同步方案数据库迁移场景数据同步场景应用代码中同步定时任务同步通过MQ实现同步通过CDC实现实时同步 CDC(change data capture,数据变更抓取)Canal基于日志增量订阅&消费支持的业务工作原理Mysql主备复制实现Canal架构…

大数据之路——数据同步

三、数据技术篇—— 数据同步 3.1 数据同步基础 3.1.1 直连同步3.1.2 数据文件同步3.1.3 数据库日志解析同步 3.2 数据仓库同步方式3.2.1 批量数据同步3.2.2 实时数据同步 3.3 同步遇到的问题3.3.1 分库分表3.3.2 增量全量同步的合并3.3.3 数据漂移的处理 有多种不同应用场景&…

关于数据同步的几种实现

关于数据同步的几种实现 概述 关于数据同步主要有两个层面的同步,一是通过后台程序编码实现数据同步,二是直接作用于数据库,在数据库层面实现数据的同步。通过程序编码实现数据同步,其主要的实现思路很容易理解,即有…

数据同步技术

本次旨在分享数据同步技术的相关知识点,包括数据同步概述、数据同步工具、数据库、数据同步到大数据平台。 首先来介绍一下数据同步的概念: 数据同步是为保持数据源与目的地数据一致性而进行的数据传输、处理的过程。 数据同步的场景: 1、主…

几种常见的数据同步方式

数据仓库的特性之一是集成,即首先把未经过加工处理的、不同来源的、不同形式的数据同步到ODS层,一般情况下,这些ODS层数据包括日志数据和业务DB数据。对于业务DB数据而言(比如存储在MySQL中),将数据采集并导入到数仓中(通常是Hive…

内网穿透frpc ,frps的使用

情况是这样的,公司内网中一个设备接了路由器下发的地址,内网地址是192.168.1.100,可以访问我的台式机,但我的台式机访问192.168.1.100是无法连通的 这种情况下,在我机器上运行frps.exe,frps.ini如下 [com…

Frp内网穿透——frps服务端部署

由于现在IPv4地址的短缺,在国内不可能每个设备都会分配到一个公网IP,因此从公网中访问自己的私有设备向来是一件难事儿。本次带大家了解一下frp内网穿透的服务端教学,让你也能够部署一个内网穿透服务。 frp简介 通俗的说,frp是一…