bioinformatics小技巧

article/2025/3/17 20:15:12

文章目录

    • 1. 软件安装
        • 1.1 linux上python2的安装
        • 1.2 Mercurial 安装及使用
        • 1.3 tRNAscan的安装和使用
        • 1.4 Linux上安装miniconda
    • 2.数据下载
        • 2.1 linux上通过ftp下载一个文件夹下的全部文件
        • 2.2 GEO数据库数据下载
    • 3.操作系统
        • 3.1 Windows下将R设置为环境变量。
        • 3.2 Linux 下怎样快速查看一个超大文件夹的文件总大小?
        • 3.3 调节VNC Viewer的分辨率
        • 3.4 服务器上的jupyter notebook找不到服务器怎么办?
        • 3.5 服务器上如何使用matlab的可视化界面?
    • 4. Perl
        • 4.1 查看perl中已安装的包:
    • 5. Python
        • 5.1 ImportError: /lib64/libm.so.6: version `GLIBC_2.23' not found
        • 5.2 argparse模块用法实例详解
    • 6. 宏基因组分析流程技巧
        • 6.1 MetaPhlAn2数据库安装
        • 6.2 metagenemark的使用
        • 6.3 微生物组与PCA
        • 6.4 微生物组lefse分析
    • 7. R语言使用技巧
        • 7.1 根据两列来合并表格
        • 7.2 R语言绘图
        • 7.3 网络构建与分析初探
    • 8. 序列分析技巧
        • 8.1 序列平均长度和长度分布统计

1. 软件安装

1.1 linux上python2的安装

Installing a custom version of Python 2:
https://help.dreamhost.com/hc/en-us/articles/115000218612-Installing-a-custom-version-of-Python-2

1.2 Mercurial 安装及使用

参考:https://blog.csdn.net/moonspiritacm/article/details/80863421

1.3 tRNAscan的安装和使用

参考:https://www.plob.org/article/7905.html

1.4 Linux上安装miniconda

参考:https://docs.conda.io/projects/conda/en/latest/user-guide/install/linux.html

2.数据下载

2.1 linux上通过ftp下载一个文件夹下的全部文件

How to recursively download a folder via FTP on Linux [closed]
https://stackoverflow.com/questions/113886/how-to-recursively-download-a-folder-via-ftp-on-linux
代码为:

wget -r -nH --cut-dirs=5 -nc ftp://user:pass@server//absolute/path/to/directory

测试案例:

wget -r -nH --cut-dirs=5 -nc ftp://ftp.ebi.ac.uk/pub/databases/chembl/KinaseSARfari/latest/

2.2 GEO数据库数据下载

GEO 数据介绍及在线下载:https://www.jianshu.com/p/74d570cb8c29
Download Geo Tar File Automatically From Linux/Unix:https://www.biostars.org/p/61329/

3.操作系统

3.1 Windows下将R设置为环境变量。

参考:https://stackoverflow.com/questions/47539125/how-to-add-rtools-bin-to-the-system-path-in-r

library(devtools)
Sys.setenv(PATH = paste("F:/software/R-3.6.1/bin", Sys.getenv("PATH"), sep=";"))
Sys.setenv(BINPREF = "F:/software/R-3.6.1/mingw_$(WIN)/bin/")

3.2 Linux 下怎样快速查看一个超大文件夹的文件总大小?

参考:https://www.v2ex.com/t/515218

 du -h --max-depth=1

3.3 调节VNC Viewer的分辨率

xrandr -s 1360x768

3.4 服务器上的jupyter notebook找不到服务器怎么办?

ifconfig

输出结果中包含:inet 192.168.1.2 netmask 255.255.255.0 broadcast 192.168.1.255

jupyter notebook --no-browser --ip=192.168.1.2

3.5 服务器上如何使用matlab的可视化界面?

ssh -X node02  #以可视化界面的方式连接到node02
matlab         #启动matlab

4. Perl

4.1 查看perl中已安装的包:

find `perl -e 'print "@INC"'` -name '*.pm' -print

5. Python

5.1 ImportError: /lib64/libm.so.6: version `GLIBC_2.23’ not found

conda create -n tf-cpu tensorflow

安装了python3.6.10和tensorflow-base-2.2.

5.2 argparse模块用法实例详解

参考:https://zhuanlan.zhihu.com/p/56922793

6. 宏基因组分析流程技巧

6.1 MetaPhlAn2数据库安装

参考:https://groups.google.com/g/metaphlan-users/c/7TfY_h-SELQ

#下载数据库(已下载,位于/home1/jialh/tools/metaphlan2/metaphlan2/metaphlan2_databases/mpa_v20_m200.tar)
https://bitbucket.org/biobakery/metaphlan2/downloads/
#解压
tar -xvf mpa_v20_m200.tar
#再解压
bzip2 -dk mpa_v20_m200.fna.bz2
#建立bowtie2的索引
bowtie2-build --threads 4 mpa_v20_m200.fna mpa_v20_m200

6.2 metagenemark的使用

参考:
(1)metagenemark(注意-m后面有分隔):https://www.jianshu.com/p/f9b085e30d94
(2)MetaGeneMark秘钥更新:https://www.jianshu.com/p/bff284d04c3e

6.3 微生物组与PCA

参考:223.主成分分析PCA
https://blog.csdn.net/woodcorpse/article/details/106866501

6.4 微生物组lefse分析

参考:https://github.com/biobakery/biobakery/wiki/lefse
注意事项:
(1)lefse适用于python 2.7环境。
(2)部分代码名称发生变化,如下图所示:
在这里插入图片描述
工作目录:/home1/jialh/mNetwork/MNDnetwork/PRJEB17784/lefse

lefse-format_input.py 03biom_transform.txt 03biom_transform.in -c 2 -s -1 -u 1 -o 1000000run_lefse.py -l 3 03biom_transform.in 03biom_transform.reslefse-plot_res.py --dpi 300 --feature_font_size 12 03biom_transform.res 03biom_transform.png

注意可能的报错:

AttributeError: Unknown property axis_bgcolor

原因:matplotlib == 2.2.0 起把部分功能函数移除了,我们需要回退 matplotlib 版本。
解决办法: pip install matplotlib==1.5
参考:https://www.yuque.com/shenweiyan/cookbook/kefse-install

7. R语言使用技巧

重要学习资源:
(1)Data Analysis(R/Python/数据分析):https://www.zhihu.com/column/Data-AnalysisR
(2)R语言中文社区:https://www.zhihu.com/column/Ryuyanshequ
(3)林茂廷老師《ggplot2 介紹》: https://bookdown.org/tpemartin/minicourse_ggplot2/#section-1.1

7.1 根据两列来合并表格

参考:https://stackoverflow.com/questions/6709151/how-do-i-combine-two-data-frames-based-on-two-columns

7.2 R语言绘图

(1)ggraph的使用

  • 一文读懂 ggraph 的使用: https://r.bio-spring.info/2019/12/04/ggraph-manual/
  • ggraph画网络图: https://www.shenxt.info/zh/post/2019-11-27-r-ggraph/

(2)分层边缘捆绑标签图增加标签(Add labels to Hierarchical Edge Bundling)
参考:

  • 分层边聚合图:https://www.r-graph-gallery.com/311-add-labels-to-hierarchical-edge-bundling.html
  • R数据可视化21:Edge Bundling图: https://www.jianshu.com/p/3990496e7e47

7.3 网络构建与分析初探

(1)Correlation matrix : R function to do all you need: http://www.sthda.com/english/wiki/wiki.php?id_contents=7572
(2)将edge lists转化为有权的邻接矩阵:https://stackoverflow.com/questions/16584948
(3)Correlation between OTUs with SparCC: https://rachaellappan.github.io/16S-analysis/correlation-between-otus-with-sparcc.html

8. 序列分析技巧

8.1 序列平均长度和长度分布统计

参考:https://bioinformatics.stackexchange.com/questions/4911/calculating-read-average-length-in-a-fastq-file-with-bioawk-awk/4918

awk '{if(NR%4==2) {count++; bases += length} } END{print bases/count}' <fastq_file>

参考:https://www.biostars.org/p/72433/

awk 'NR%4 == 2 {lengths[length($0)]++} END {for (l in lengths) {print l, lengths[l]}}' file.fastq

http://chatgpt.dhexx.cn/article/Ad7MWwPk.shtml

相关文章

brat标注的ann文件,转为BIO序列标注

这个地方真的好少有人写到&#xff0c;踩了好久的坑都不知道怎么解决。 首先&#xff0c;在用brat自带的转换序列标注的文件时&#xff0c;运行程序 1、python2 anntoconll.py ../data/data_new/corpoa.txt 报错&#xff1a; File "anntoconll.py", line 154, in…

BIO学习笔记

视频地址&#xff1a;https://www.bilibili.com/video/BV1gz4y1C7RK?fromsearch&seid15021234423448500976 2. JAVA BIO深入剖析 Java BIO 就是传统的 java io 编程&#xff0c;其相关的类和接口在 java.io。 BIO(blocking I/O) &#xff1a; 同步阻塞&#xff0c;服务器…

BIO实例

使用 BIO 模型编写一个服务器端&#xff0c;监听 6666 端口&#xff0c;当有客户端连接时&#xff0c;就启动一个线程与之通讯。要求使用线程池机制改善&#xff0c;可以连接多个客户端.服务器端可以接收客户端发送的数据(telnet 方式即可)。 图 代码演示&#xff1a; package…

利用 bioconda 管理生物信息软件

利用 bioconda 管理生物信息软件 如需视频讲解&#xff0c;请移步&#xff1a;一只小蛮要 【要知道 bioinfo】利用 bioconda 管理生物信息软件 1 了解 conda&#xff0c;anaconda&#xff0c;miniconda&#xff0c;bioconda 1.1 conda conda是一个软件模块管理工具&#xff…

IMex和IntAct数据库简介

欢迎关注微信公众号《生信修炼手册》! 蛋白质相互作用的数据库非常的多&#xff0c;比如DIP, MINT, IntAct, BioGRID等&#xff0c;不同数据库中的信息存在了大量的冗余&#xff0c;而且在不同数据库之间进行检索也非常的费力&#xff0c;为了减少不同数据库的冗余&#xff0c…

【Bio】基础生物学 - 基因 gene

文章目录 1. DNA 脱氧核糖核酸、RNA 核糖核酸1.1 核苷酸1.2 脱氧核糖核酸1.3 核糖核酸 2. 基因2.1 基因组2.2 染色体2.3 基因与脱氧核苷酸的牵连2.4 基因与DNA的牵连2.5 基因与染色体的牵连 Ref 1. DNA 脱氧核糖核酸、RNA 核糖核酸 1.1 核苷酸 核苷酸 (Nucleotide) \blue{\tex…

Bioedit 使用

1. 下载&#xff1a; 地址一搜就有&#xff0c;软件界面如下 BioEdit Download - Research software utility for creating and editing biological sequences 2. 酶切位点分析 构建过表达质粒、双荧光素酶质粒必用功能。以人的MYOD1基因为例 &#xff0c;分析酶切位点。 &…

BIO~~

BIO~~ 第一章 Java的I/O演进之路2.1 I/O 模型基本说明2.2 I/O模型Java BIOJava NIOJava AIO 2.3 BIO、NIO、AIO 适用场景分析 第三章 JAVA BIO深入剖析3.1 Java BIO 基本介绍3.2 Java BIO 工作机制3.3 传统的BIO编程实例回顾客户端案例如下服务端案例如下小结 3.4 BIO模式下多发…

python处理数据的一些代码

提示&#xff1a;文章写完后&#xff0c;目录可以自动生成&#xff0c;如何生成可参考右边的帮助文档 文章目录 一、如何读取txt文件&#xff0c;将其转化为DataFrame格式二、给DataFrame添加列名三、删除指定行四、读取csv文件&#xff0c;不让第一行成为列名五、读取DataFram…

BioGRID:蛋白质相互作用数据库

欢迎关注微信公众号《生信修炼手册》! BioGRID数据库是一个老牌经典的蛋白质相互作用数据库&#xff0c;在今年9月份刚刚分布了最新版本3.5.165&#xff0c;该版本从66,164篇文献中整理出了1,607,037个蛋白质相互作用&#xff0c;28,093个嵌合体信息以及726,378个转录后修饰PTM…

(NCRE网络技术)中小型网络系统总体规划与设计方法-知识点

欢迎您阅读此系列文章&#xff0c;文章参考自《全国计算机等级考试三级教程.网络技术》。内容为NCRE三级网络技术主要知识点以及常考点&#xff0c;此知识点总结参照《三级网络技术考试大纲(2018年版)》。阅读此系列文章可以帮助您快速、轻松考取相应证书&#xff01;祝您阅读愉…

Linux系统如何查看服务器带宽及网络使用情况

文章目录 前言  linux查看服务器带宽具体方法  一、使用speedtest-cli命令查看下载和上传最大流量值  二、查看网卡、网络的详情   1.查看服务器网络端口   2.ethtool命令查看宽带大小 三、nload命令实时统计网卡带宽使用率  四、dstat -n命令实时监测网络的状态…

计算机网络的组成及其逻辑结构

提示&#xff1a;文章写完后&#xff0c;目录可以自动生成&#xff0c;如何生成可参考右边的帮助文档 目录 前言 一、计算机网络的组成 计算机系统&#xff1a; 数据通信系统 网络软件及网络协议 二、计算机网络的逻辑结构 资源子网 通信子网 总结 前言 计算机网络是在20世纪6…

Linux中centos修改系统时间并写到硬件,Linux中centos设置定时自动同步网络时间

文章目录 前言一、centos修改系统时间并写到硬件1.1查看当前的系统时间1.2修改系统时间1.3查看硬件时间1.4同步系统时间和硬件时间1.5本地时间写入硬件时间 二、centos设置定时自动同步网络时间2.1安装ntpdate工具2.2CentOS安装/操纵crontab2.3启动crontab并查看状态2.4写一个c…

计算机网络的发展简史

目录 前言一、互联网发展历史1. 第一阶段&#xff1a;ARPANET2. 第二阶段&#xff1a;三级结构互联网3. 第三阶段&#xff1a;多层次ISP互联网 二、中国互联网的发展简史1. 发展阶段2. 公共网络 总结 前言 时间是2022年的6月&#xff0c;当真正的注意到现在的时间时不禁感叹时…

浅谈网络舆情监测系统中爬虫的设计及系统架构

前言 说到网络舆情监测想必很多人都不陌生。可以跟大家这么说吧。爬虫所能带来的商业价值适用并深存于所有小-中-大企业中,尤其做网络舆情的大数据公司所有的业务基本都必须依托于爬虫来开展它的战略布局,毕竟有了米才能做饭嘛~ 不信的话我简单的来采访一下做舆情项目的相关…

基于java的网络在线考试管理系统的设计与实现--毕业开题报告

基于java的网络在线考试管理系 统的设计与实现开题报告–毕业设计 最近grace刚完成毕业设计 通过了赶紧来给宝贝们分享我的成果哈哈 设计题目&#xff1a;基于java的网络在线考试管理系统的设计与实现 一、选题依据&#xff1a; 1.国内外有关的研究动态 在线考试系统在国内…

校园网系统集成方案设计

校园网系统集成方案设计 第一篇的文章献给我的网络系统集成大作业&#xff0c;这篇文章是关于校园网系统集成方案的设计&#xff0c;文章有很多不足仅限于我目前的水平。 第一章 前言 随着经济的发展&#xff0c;信息起着越来越重要的作用。计算机、网络和多媒体等信息技术的…

VM虚拟机上的网络设置

1. 前言 一般Linux编程时,经常都会使用虚拟机跑Linux系统,VMware Workstation Pro 虚拟机里的系统不管是Linux、还是windows、还是其他系统想要上网就必须配置好虚拟网络连接方式。VMware Workstation 支持共享、桥接,选择网卡的方法自定义上网方式。 如果虚拟机里的系统想…

Cisco Packet Tracer 网络系统工程实训大作业【附网络拓扑图】

文章目录 前言网络拓扑图资源项目基本要求项目一项目二项目三 实验原理静态路由基本原理VLAN基本原理OSPF的基本原理 项目的实现项目一的设计与实现网络拓扑图接口信息配置流程连通性测试 项目二的设计与实现网络拓扑图接口信息配置流程连通性测试 项目三的设计与实现网络拓扑图…