直接登录百老汇|www.4001.com|官方网站

学术动态
Genome Research | 湖南大学罗宵教授课题组:基于泛基因组图的菌株水平宏基因组分类及定量工具
2026年01月20日    查看

宏基因组分类分析旨在通过分析全基因组测序数据来识别和量化样本中存在的微生物。已有大量先进工具用于物种水平的注释,然而同一物种内的不同菌株存在遗传变异,这些菌株可能表现出不同的表型和功能。因此在菌株水平上识别和量化微生物是必要的。在菌株水平上进行分类是非常具有挑战性的,尽管有些工具已经实现了菌株水平分类,但仍存在诸多局限性,包括分类准确率,更复杂的多物种数据集分类,仅支持short read或long read数据等问题。尤为突出的是,大多数现有的菌株水平分类器依赖于多个线性参考基因组的序列表示,这种方法无法捕捉基因组间的序列相关性,可能在宏基因组分类中引入歧义和偏差。

针对上述问题,直接登录百老汇罗宵教授团队及其合作者提出了一种基于泛基因组图的菌株水平宏基因组分类新方法——PanTax,并于2026年1月14日在生物信息学权威期刊Genome Research(中科院1区TOP)发表相关研究《Strain-level metagenomic profiling using pangenome graphs with PanTax》。

PanTax突破了以线性基因组为参考的框架,首次在全基因组尺度上将泛基因组图作为宏基因组分类的参考,引入图结构以系统捕获物种内不同菌株间的完整遗传变异。泛基因组图中的菌株特异性节点不仅记录了各菌株独有的序列信息,还通过拓扑结构保留了基因组片段之间的上下文关系,为高分辨率的菌株水平分类提供了坚实基础。

在方法上,PanTax实现分为7个步骤,包括高质量参考基因组筛选、物种水平泛基因组图构建及整合、测序reads到图比对、物种水平分箱(taxonomic binning)、物种水平丰度估计(taxonomic profiling)、基于图结构的菌株路径丰度优化以及菌株水平分类和丰度估计(taxonomic profiling)。该方法为菌株水平分类提供了全面解决方案,适用于short read与long read宏基因组数据,同时适用于单物种及多物种样本分类。通过将菌株丰度估计转化为图中路径丰度的线性优化问题,PanTax有效整合了节点覆盖深度与序列上下文信息,在降低假阳性率的同时显著提升了菌株定量精度。

图1 PanTax整体工作流程

大量模拟数据、mock community以及真实人类肠道宏基因组数据的系统评估表明,PanTax在多个数据集中优于现有方法,菌株水平分类的precision和F1 score显著提升,同时在其它指标保持相当或更优的性能表现。在菌株数量增加、基因组高度相似等条件下仍保持良好的稳健性。该研究不仅为菌株水平宏基因组分析提供了新的技术范式,也为深入理解微生物群落的精细结构及其功能差异奠定了重要基础,具有广阔的生物医学与微生物组学应用前景。

直接登录百老汇硕士研究生张文海、湖南大学计算机学院副教授刘元盛、直接登录百老汇硕士研究生李光艺为论文的共同第一作者。湖南大学罗宵教授为最后通讯作者。

原文链接:https://www.genome.org/cgi/doi/10.1101/gr.280858.125

工具链接:https://github.com/LuoGroup2023/PanTax

Baidu
sogou