Juicer软件的安装详解

article/2025/9/11 20:57:09

欢迎关注”生信修炼手册”!

软件安装是生物信息实战中最基础的技能之一,只有确保软件安装无误,后续使用起来才会得心应手,不会有很多的bug。juicer软件提供了Hi-C数据一键化分析的pipeline, 这样高度的封装使得用户操作起来更加简便,当然分析能力强大的同时其依赖的软件就会越多,安装过程的复杂程度也会有所提高,本文主要记录下该软件的安装过程,可以分为以下几个步骤

1. 安装依赖软件

juicer核心采用java语言进行开发,同时内置了perl, python, bash等开发的脚手架脚本。在序列比对环节使用了bwa软件,而后续操作比对产生的bam文件,会用到samtools软件。所以需要安装以下软件

  1. java

  2. perl

  3. python

  4. GNU utils

  5. bwa

  6. samtools

这些软件是生信领域的基本软件,其安装过程就不详细展开了。

2. 建立目录结构

juicer软件要求一个固定的目录结构,新建一个名为juicer的目录,该目录即为软件的安装目录,在该目录下必须有以下4个子目录

references目录用于存放参考基因组相关文件,work用于存放样本的序列文件和分析结果,scripts用于存放软件运行所需的脚本,restriction_sites用于存放参考基因组酶切图谱。

3. 下载juicer源代码

从github上下载juicer和jcuda的源代码,放置到scripts目录下。juicer可以在单机或者集群系统上运行,其中间脚本也对应了不同的系统,示意如下

其中的CPU目录就是单机服务器,而AWS, LSF, PBS等对应公有云和不同的集群系统。以CPU为例,下载过程如下

# 下载源代码
git clone https://github.com/aidenlab/juicer.git
# 重命名为scripts目录
ln -s juicer/CPU scripts
cd scripts/common
wget https://hicfiles.tc4ga.com/public/juicer/juicer_tools.1.9.9_jcuda.0.8.jar
ln -s juicer_tools.1.9.9_jcuda.0.8.jar  juicer_tools.jar

4. 准备参考基因组文件

reference目录下为参考基因组相关文件,其实就是对应的fasta序列文件和bwa 索引,示意如下

hg19.fasta
hg19.fasta.sa
hg19.fasta.ann
hg19.fasta.amb
hg19.fasta.pac
hg19.fasta.bwt

自己根据需要从UCSC,NCBI等数据库中下载基因组fasta文件,并用bwa建立索引就可以了。

restriction_sites目录下参考基因组酶切图谱,通过jucier内置的generate_site_positions.py脚本可以产生,该脚本位于源代码中的misc目录下,支持直接输出以下4种内切酶的酶切图谱

  1. HindIII

  2. DpnII

  3. MboI

  4. Sau3AI

用法如下

generate_site_positions.py HindIII hg19  hg19.fasta

第一个参数为内切酶的名称,第二个参数为自定义的基因组版本,第三个参数为基因组fasta文件的路径,输出文件的名称为第二个参数和第一个参数用下划线链接,后缀为txt, 上述代码的输出文件为

hg19_HindIII.txt

5. 准备样本的fastq序列

执行完前4步软件就已经安装好了,软件运行时对样本文件的存放位置也有要求,必须位于work目录下,以样本名作为一个子目录,序列文件存放于fastq目录下,示意如下

/opt/juicer/work/MBR19/fastq
/opt/juicer/work/MBR19/fastq/chr19_R1.fastq.gz
/opt/juicer/work/MBR19/fastq/chr19_R2.fastq.gz

关于安装成功后的目录结构,可以参考以下链接

https://bcm.app.box.com/v/juicerawsmirror/folder/11284128669

juicer的安装过程算不上复杂,就是注意事项有很多,操作起来较为繁琐,只需要按照以上步骤耐心操作,还是可以快速安装成功的。

·end·

—如果喜欢,快分享给你的朋友们吧—

扫描关注微信号,更多精彩内容等着你!


http://chatgpt.dhexx.cn/article/LlxvjcPZ.shtml

相关文章

Juicer实战详解

欢迎关注”生信修炼手册”! Juicer软件的运行是非常简单的,只需要设置几个参数就可以了,本文利用官网的小的测试测试数据集来展示该软件的基本用法。 1. 下载测试数据 从以下链接下载测试数据集 https://github.com/aidenlab/juicer/wiki/Running-Juicer…

Juicer: 辅助基因组组装

Juicer: 辅助基因组组装 Juicer 导读 本文主要对处理HiC数据的Juicer程序进行一个简短的介绍,并展示如何利用Juicer进行基因组组装中染色体挂载的第一步。 1. 介绍 算法介绍 Juicer[1] 是一款能够提供一键式分析Loop-Resolution的程序。 特点 只需一次单击&#xff…

如何同步数据库数据

第一步 打开mysql的客户端 这里使用navicat,连接数据库,等到navicat主页面,双击需要操作的数据库连接 第二步 登录到数据库主页面后,点击左侧的数据库链接,打开数据库,可以看到可以操作的所有数据库 第三…

Logstash数据同步

Logstash 是 Elastic 技术栈中的一个技术,它是一个数据采集引擎,可以从数据库采集数据到 ES 中。可以通过设置 自增 ID 主键 或 更新时间 来控制数据的自动同步: 自增 ID 主键:Logstatsh 会有定时任务,如果发现有主键…

数据同步-数据库间的双向同步

当业务侧需要MongoDB降配、活动数据迁移时都需要应用切换数据库实例进行发版,发版过程中需最大程度保证新旧数据库数据一致,这就涉及到了一种同步技术-数据双向同步。在同步过程中遇到了一些可能会产生问题或引发思考的点,希望利用这篇文档进…

什么是数据实时同步,为什么数据实时同步很重要

随着云成为前所未有的数据供应渠道,数据准确性、一致性和隐私性的重要性与日俱增。看似轻微的数据错误或故障可能会产生重大负面影响。但是,​对数据进行排序并将其与现有​,然后定期解析数据实时同步,同时保持数据完整性&#xf…

数据同步工具的研究(实时)

数据同步工具的研究(实时同步): FlinkCDC、Canal、Maxwell、Debezium ——2023年01月17日 ——Yahui Di 1. 常用CDC方案比较 2. FlinkCDC FlinkCDC的简介: Flink CDC 连接器是 Apache Flink 的一组源连接器,使用变…

聊聊数据同步

一、简述 数据同步,这是一个很宽泛的概念,在互联网或者传统软件公司,一定会遇到数据同步的场景。数据同步一般会遇到的问题诸如同步时延、数据一致性、性能低、强依赖于中间件、失败后无法补偿等。本文笔者试图简要总结下常见的数据同步场景&…

大数据的数据同步方式

一、全量覆盖 不需要分区,同步时直接覆盖插入。适用于数据不会有任何新增和变化的情况。比如地区、时间、性别等维度数据,不会变更或变更不影响业务,可以只保留最新值 二、仅新增同步 每天新增一个日期分区,同步并存储当天的新…

DataLink 数据同步平台

文章目录 一、数据同步平台概述核心能力工作原理详细流程 二、快速接入部署中间件程序配置创建数据库表启动应用注意事项 三、扩展:四种 CDC 方案比较优劣 一、数据同步平台 在项目开发中,经常需要将数据库数据同步到 ES、Redis 等其他平台,通…

数据同步之全量同步与增量同步

一、什么是数据同步 业务数据是数据仓库的重要数据来源,我们需要每日定时从业务数据库中抽取数据,传输到数据仓库中,之后再对数据进行分析统计。 为保证统计结果的正确性,需要保证数据仓库中的数据与业务数据库是同步的&#xff0…

你了解数据同步吗?

1.写在前面 本篇博客参考《操作系统实战 45 讲》 上篇博客主要介绍的是程序放在什么地方,开发操作系统要了解的最核心的硬件——CPU、MMU、Cache、内存,知道了它们的工作原理。在程序运行中,它们起到了至关重要的作用。 在开发我们自己的操…

数据库同步有哪些方式?【怎么保障目标和源数据一致性】

文章目录 摘要一、几种主流的数据库同步方式二、架构及工作原理三、全量同步和实时增量同步机制四、源和目标五、举例:Oracle 数据实时同步到 Elasticsearch六、目标和源数据一致性七、异构数据类型转换八、总结 摘要 数据库同步有3大难题: 1是如何保障…

数据技术篇之数据同步

第3章 数据同步 1.数据同步基础 直连同步 (1)什么是直连同步?直连同步是指通过定义好的规范接口 API 和基于动态链接库的方式直接连接业务库,如 ODBC/JDBC 等规定了统 一规范的标准接口,不同的数据库基于这套标准接口…

聊聊数据同步方案

文章目录 常用的数据同步方案数据库迁移场景数据同步场景应用代码中同步定时任务同步通过MQ实现同步通过CDC实现实时同步 CDC(change data capture,数据变更抓取)Canal基于日志增量订阅&消费支持的业务工作原理Mysql主备复制实现Canal架构…

大数据之路——数据同步

三、数据技术篇—— 数据同步 3.1 数据同步基础 3.1.1 直连同步3.1.2 数据文件同步3.1.3 数据库日志解析同步 3.2 数据仓库同步方式3.2.1 批量数据同步3.2.2 实时数据同步 3.3 同步遇到的问题3.3.1 分库分表3.3.2 增量全量同步的合并3.3.3 数据漂移的处理 有多种不同应用场景&…

关于数据同步的几种实现

关于数据同步的几种实现 概述 关于数据同步主要有两个层面的同步,一是通过后台程序编码实现数据同步,二是直接作用于数据库,在数据库层面实现数据的同步。通过程序编码实现数据同步,其主要的实现思路很容易理解,即有…

数据同步技术

本次旨在分享数据同步技术的相关知识点,包括数据同步概述、数据同步工具、数据库、数据同步到大数据平台。 首先来介绍一下数据同步的概念: 数据同步是为保持数据源与目的地数据一致性而进行的数据传输、处理的过程。 数据同步的场景: 1、主…

几种常见的数据同步方式

数据仓库的特性之一是集成,即首先把未经过加工处理的、不同来源的、不同形式的数据同步到ODS层,一般情况下,这些ODS层数据包括日志数据和业务DB数据。对于业务DB数据而言(比如存储在MySQL中),将数据采集并导入到数仓中(通常是Hive…

内网穿透frpc ,frps的使用

情况是这样的,公司内网中一个设备接了路由器下发的地址,内网地址是192.168.1.100,可以访问我的台式机,但我的台式机访问192.168.1.100是无法连通的 这种情况下,在我机器上运行frps.exe,frps.ini如下 [com…