NAR|北大/中科院计算所团队发布基因功能富集分析平台KOBAS-i

article/2025/8/26 20:53:54

近日,国际知名期刊《核酸研究》(Nucleic Acids Research,IF:16.971)在线发表了北京大学孔雷课题组与中国科学院计算技术研究所赵屹研究员课题组合作开发的基因功能富集平台KOBAS-i (网址http://kobas.cbi.pku.edu.cn/ 或http://bioinfo.org/kobas),文章题为“KOBAS-i: intelligent prioritization and exploratory visualization of biological functions for gene enrichment analysis”。

KOBAS是国际上最早的发布的基因通路富集工具之一,最初的版本由北大魏丽萍教授带领的生物信息团队设计和开发。最早的standalone版算法于2005年发表于Bioinformatics 杂志,该版本包括一个KO-Based注释系统和基于Over Representation Analysis (ORA)方法的富集分析算法。KOBAS 的Server版 1.0 和2.0分别于2006年和2011年在Nucleic Acids Research上发布,在基因集合富集分析领域内有较大影响力,总的SCI引用超过2000次,属于国产生物信息软件的佼佼者。

本次升级的版本KOBAS-i是由中科院计算所的团队与北大团队合作完成。与以往不同的是,此版本未沿用数字版本命名的方式,而是命名为KOBAS-i,在这里i的含义是 intelligent version,表明与既往两个版本相比,KOBAS-i在算法上有显著的升级该版本除了保留之前版本的ORA富集分析算法,还增加了基于机器学习算法的整合富集分析算法。开发团队成员表示,未来KOBAS将在AI驱动的代谢通路分析算法上不断寻求创新。

KOBAS-i的功能更新主要解决了现有富集分析工具存在的三大问题。

基因功能富集分析领域长期存在的一个问题是,现存的众多富集分析工具在同一数据集上结果差异较大,KOBAS-i则利用机器学习算法为解决此问题提供了一个全新的思路。在KOBAS-i出现之前,功能富集分析算法有三大主流方法。ORA方法最早被提出,应用范围也最广。该方法的优点是算法简洁易实现,对输入数据要求较低,只需要输入一个基因列表就能工作。但ORA方法的缺点有两方面,一是ORA 假设各基因是相互独立的,不会互相影响,这是不符合真实世界实际情况的;二是ORA 输入的基因列表通常是根据p-value等指标来人为选定阈值从整体基因中选取,因而结果会受选取值的影响。

为了解决人为设定p-value阈值影响分析结果的问题,研究人员提出了Functional Class Scoring(FCS)方法。FCS算法的代表是GSEA方法,给定一个排好序的基因列表L和一个预先定义好的基因集合S(通常是同属一个信号或代谢通路的基因,或者在同一 GO 目录下的基因等)。GSEA的目标是判断 S 中的成员基因是随机分布在列表 L 中,还是倾向于集中在列表的头部或者尾部。相比于ORA算法,FCS输入的是全部基因列表L及其表达量等信息。因此FCS解决了人为设定p-value阈值影响分析结果的问题,但其算法仍然假定各基因之间是独立的,互相之间不会影响表达量。

为了解决基因之间互相关联的问题,研究人员又提出了Pathway Topology Based(PT)方法。PT分析方法考虑了基因在Pathway中的上下游关系,或者基因之间的相互作用关系,并利用这些信息对基因进行综合打分,然后仍然利用ORA或者FCS方法对打分后的基因进行富集分析。PT方法虽然考虑了基因之间存在的相互影响关系,但由于现有知识的局限,PT方法整合的基因相互作用网络通常是不完整和有局限性的,因此不同的PT方法在分析同一数据集时,结果差异也比较大。这样研究人员在使用和选择不同的富集分析工具时,得到的分析结果也往往不一致,如何采信不同的结果,往往依赖于用户的主观判断,这就给研究带来实际的困难。

为了解决这个问题,KOBAS-i引入了团队前期发表的集成学习算法CGPS,这是首个基于通路和表型的先验知识构建的GSE(gene set enrichment)集成分析算法。CGPS整合了七种广泛使用的FCS方法:GSEA、GSA、PADOG、PLAGE、GAGE、GLOBALTEST和SAFE,以及两个著名PT方法:GANPA和CEPA,并将上述方法的评分用集成学习生成一个综合评分,命名为R score。R score是基因集与实验分组的相关性度量,越大的 R score值表示更高相关性。利用R score,用户可以统一客观的度量不同富集分析方法的结果。CGPS不仅是一种统计集成模型,同时还是一种数据学习模型,能够智能地从已知通路和样本之间的关系中学习。与十种广泛使用的单独方法和两种集成方法相比,CGPS中的R score在120个模拟数据集和45个真实数据集上,能特异性发现其他GSE方法遗漏的生物学功能。

基因功能富集分析领域需要解决的另一问题是如何合理的归类富集分析结果。基因功能富集分析往往会得到几十甚至上百个可能与研究者实验分组相关的代谢通路,这就给研究人员进行进一步研究带来很大困难。如果能有合适的算法帮助研究者对代谢通路进行合理聚类和归并,将能使帮助研究者排除噪声,聚焦其所关心的具体生物学问题。KOBAS-i通过对富集分析结果进行智能聚类,推出新形式的功能富集图cirFunMap。为了帮助用户理解富集分析结果和聚焦关键生物学功能,KOBAS-i拓展了下游的交互探索可视化的过程,首次在线定义并集成了代谢通路聚类的可视化策略,以landscape的形式呈现不同的富集条目,及条目之间的关联。用户可以在提交的数据富集完成后,以个体视角交互式的方法探索并筛选数据中所隐藏的功能。在文章中,研究团队给出了一个利用阿尔茨海默病的基因列表和芯片表达谱数据,分别进行富集并绘制出cirFunMap图的demo,其可视化图能够简洁而清晰表示出功能富集的结果。

基因功能富集分析领域存在的一个通常容易被忽视,但非常重要的问题是注释数据库的更新问题。如果分析工具所使用的注释数据库不能及时更新,将会导致用户无法得到全面的分析结果,进而会影响研究的顺利进行。KOBAS-i整合了最新的KEGG数据库,将支持的物种从1327扩展到5944个,为5944个物种提供KEGG功能通路信息,71个物种提供GO注释信息。KOBAS-i支持Gene Symbols、Entrez ID、Fasta等多种形式作为输入进行功能富集分析。同时,为了降低单机版安装的复杂度,KOBAS-i提供了另一种无需安装的Docker镜像版本。在网站的服务方面,KOBAS-i放弃原有的PHP实现,改为接口化REST API的设计,以备后续的权限化、以及远程接口化的调用。任务的排队机制进一步梯度化,将BLAST任务和富集任务进行分队列调度,能够实现近乎实时化的富集结果的输出。

此外,为了克服可能的网络故障,除了原有的官方地址http://kobas.cbi.pku.edu.cn/,KOBAS研发团队还新构建了一个镜像服务地址http://bioinfo.org/kobas。KOBAS-i工作流程与操作指南详见文章原文:http://academic.oup.com/nar/article/49/W1/W317/6292104。 

猜你喜欢

10000+:菌群分析 宝宝与猫狗 梅毒狂想曲 提DNA发Nature Cell专刊 肠道指挥大脑

系列教程:微生物组入门 Biostar 微生物组  宏基因组

专业技能:学术图表 高分文章 生信宝典 不可或缺的人

一文读懂:宏基因组 寄生虫益处 进化树

必备技能:提问 搜索  Endnote

文献阅读 热心肠 SemanticScholar Geenmedical

扩增子分析:图表解读 分析流程 统计绘图

16S功能预测   PICRUSt  FAPROTAX  Bugbase Tax4Fun

在线工具:16S预测培养基 生信绘图

科研经验:云笔记  云协作 公众号

编程模板: Shell  R Perl

生物科普:  肠道细菌 人体上的生命 生命大跃进  细胞暗战 人体奥秘  

写在后面

为鼓励读者交流、快速解决科研困难,我们建立了“宏基因组”专业讨论群,目前己有国内外5000+ 一线科研人员加入。参与讨论,获得专业解答,欢迎分享此文至朋友圈,并扫码加主编好友带你入群,务必备注“姓名-单位-研究方向-职称/年级”。PI请明示身份,另有海内外微生物相关PI群供大佬合作交流。技术问题寻求帮助,首先阅读《如何优雅的提问》学习解决问题思路,仍未解决群内讨论,问题不私聊,帮助同行。

学习16S扩增子、宏基因组科研思路和分析实战,关注“宏基因组”

点击阅读原文,跳转最新文章目录阅读


http://chatgpt.dhexx.cn/article/XDUqQI7j.shtml

相关文章

linux下kegg注释软件,网页工具KOBAS进行KEGG富集分析

KOBAS的介绍 KOBAS是北大生物信息中心研发的一个网页工具,用来基因/蛋白功能注释(注释模块)和功能基因集富集(富集模块)。以下是KOBAS的英文介绍: KOBAS 3.0 is a web server for gene/protein functional annotation (Annotate module) and functional …

KOBAS 3.0学习

在线通路注释,一般使用DAVID、KASS、KOBAS等工具。 Kobas : KOBAS(基于KEGG Orthology Based Annotation System)是用于基因/蛋白质功能注释(注释模块)和功能集富集(Enrichment module)的Web服…

KOBAS数据库使用指南

KOBAS(KEGG Orthology Based Annotation System),,是由北京大学魏文丽课题组开发的数据库,主要功能是用于基因/蛋白质功能注释和功能富集。随着数据量不断增加,KOBAS至今为止共经历了3次升级,除…

盒须图

盒须图会表示出数据的散布情况 1.找到中位数 2.找到小于中位数的数据中的中位数 3.找到大于中位数的数据中的中位数 得到下四分位数和上四分位数 视频链接:https://www.bilibili.com/video/av45395982?p9

Echarts -盒须图的使用说明

画盒须图需要dataTool.js !function(e,t){"object"typeof exports&&"object"typeof module?module.exportst(require("echarts")):"function"typeof define&&define.amd?define(["echarts"],t):"ob…

关于油气田完整周期的筛选与盒须图的制作

1.筛选具有完整周期的油气田: 具有完整周期的油气田包括三个标签: - discovery year-勘探时间- fid year-建产时间,(FID是投资决策的意思)- production start year-开发时间(透视表数据来自于原数据&#x…

Matplotlib 盒须图 (Box-and-whisker plot)

– Start import numpy as np import matplotlib.pyplot as plt from random import sampledata np.random.normal(0, 1, 100)# 盒须图 plt.boxplot(data, vertFalse); plt.show()– 更多参见:Matplotlib 精萃 – 声 明:转载请注明出处 – Last Update…

113Echarts - 盒须图(Boxplot Light Velocity)

效果图 源代码 <!DOCTYPE html> <html><head><meta charset"utf-8"><title>ECharts</title><!-- 引入 echarts.js --><script src"js/echarts.min.js"></script><script src"dist/extensi…

举个栗子!Tableau 技巧(84):使用盒须图查看你的数据分布

关于盒须图 英文&#xff1a;Box-plot&#xff0c;又称为箱形图、盒式图或箱线图&#xff0c;是一种用作显示一组数据分散情况资料的统计图。在各种领域经常被使用&#xff0c;较多用于品质管理。 如果你想显示一组数据的分布情况&#xff1a;例如&#xff1a;一目了然地理解数…

echart自定义图分享之自定百分比的(箱线图/盒须图)

echarts自定义图之自定百分比的(箱线图/盒须图)&#xff1a; 分享一些自己在工作中遇到的非常规图 创作原因&#xff1a;因客户需要指定样式的箱线图图&#xff08;七分位&#xff0c;存在非固定分位&#xff1a;10%&#xff0c;90%&#xff0c;并且能查看每个分位的具体值&a…

echarts-箱线图(盒须图)

搞了一套和官网不同的option&#xff0c;也能渲染出效果来&#xff0c;虽然我不知道这个箱线图有啥意义啊哈哈哈~ 需求&#xff1a;填充背景色(中间的横线我是真的无能为力了&#xff0c;有搞出来的小伙伴欢迎留言) 剩下的一些自定义轴刻度显示、tooltip的自定义就很常规了。。…

echarts盒须图颜色填充

在使用echarts中的boxplot时&#xff0c;我们常常有将特定盒子换成不同颜色标记出来的需求&#xff0c;series中的color会默认从option.color中按顺序获取&#xff0c;默认颜色&#xff1a;[#5470c6, #91cc75, #fac858, #ee6666, #73c0de, #3ba272, #fc8452, #9a60b4, #ea7ccc]…

【Tableau 图表大全21】之箱型图(盒须图)

文章目录 箱型图样式构建箱形图GIF演示 箱型图样式 箱形图&#xff0c;也称为箱须图&#xff0c;用于显示沿轴的分布。它通常分别在列和行上有一个维度和一个度量。尽管 Tableau 中的"显示我"功能只需单击一下即可创建箱形图&#xff0c;但我将在这篇博客文章中演示如…

QT实现绘制箱须图(盒须图)

QT实现绘制箱须图 项目简介项目技术项目展示主要源码片段解析项目简介 显示了如何创建箱须图。 显示了如何从文件中读取非连续数据,对其进行排列并查找箱须图的中位数。 项目技术 qt5.12,QtCharts模块,c++ 项目展示 主要源码片段解析 为了显示两家公司的股份偏差,我们首…

盒须图 python_什么是盒须图?

盒须图 python What the heck is a box and whisker chart, and why would you need one? Well, Im not a statistician, but heres my overview. 盒子和晶须图到底是什么,为什么您需要一个? 好吧,我不是统计学家,但这是我的概述。 A box and whisker chart can give you…

echarts 盒须图配置

下载依赖包地址 cv工程师&#xff1a; <!DOCTYPE html> <html><head><meta charset"utf-8"><title>ECharts</title><!-- 引入 echarts.js --><script src"./js/echarts.min.js"></script><scri…

matplotlib实现多个子图的盒须图

效果展示&#xff1a; 代码&#xff1a; import numpy as np import pandas as pd import matplotlib.pyplot as plt from pylab import * plt.figure(figsize(7.8,6.8)) plt.rcParams[font.sans-serif] [Arial Unicode MS]data {W: [1,2,3,4,5,6,7,8,10],H: [1,2,3,10,5,6…

Qt数据可视化(QBoxPlotSeries盒须图)

目录 创建盒须图类 设置盒须图数据 计算中间值 源代码 widget.cpp 实现效果如下: QBoxPlotSeries类以方框和胡须图表的形式显示数据。 “长方体绘图”系列充当长方体和胡须项目的容器。多个系列中的项目根据其索引值分组。 QBarCategoryAxis类用于将类别添加到图表的轴。…

八、Echart图表 之 series盒须图(箱体图)基本使用与配置大全

&#x1f353; 作者主页&#xff1a;&#x1f496;仙女不下凡&#x1f496; &#x1f353; 前言介绍&#xff1a;以下&#x1f447;内容是我个人对于该技术的总结&#xff0c;如有不足与错误敬请指正&#xff01; &#x1f353; 欢迎点赞&#x1f44d; 收藏⭐ 留言&#x1f4…

保姆式教学:用Tableau制作盒须图(箱线图)

盒须图&#xff08;箱线图&#xff09;是一种常用的统计图形&#xff0c;用来显示数据的位置、分散程度和异常值等。箱线图主要包括6个统计量&#xff1a;下线、第一四分位数、中位数、第三四分位数、上限和异常值。通过绘制盒须图&#xff0c;观测数据在同类群体中的位置&…