这项研究发表在9月14日的《细胞系统》杂志上,它允许更紧凑地表示基因组数据,其灵感来自于单词,而不是字母,为语言模型提供了浓缩的构建块。研究人员表示可以在一台普通的笔记本电脑上快速组装整个基因组和元基因组,包括微生物基因组。这种能力对于评估与疾病和细菌感染(如败血症)有关的肠道微生物组的变化至关重要,以便能够更迅速地治疗疾病并拯救生命。
自人类基因组计划以来,基因组组装项目已经取得了长足的进步,该计划在2003年完成了第一个完整人类基因组的组装,耗资约27亿美元,经过十多年的国际合作。但是,尽管人类基因组组装项目不再需要几年的时间,它们仍然需要几天的时间和大量的计算机能力。第三代测序技术提供了数万个碱基对的高质量基因组序列,然而使用如此巨大数量的数据进行基因组组装已被证明具有挑战性。
为了比目前的技术更有效地进行基因组组装,包括在所有可能的读数对之间进行配对比较,研究人员转向了语言模型。根据德布鲁恩图的概念(一种用于基因组组装的简单、高效的数据结构),研究人员开发了一个最小化空间德布鲁恩图(mdBG),它使用称为最小化器的核苷酸短序列,而不是单核苷酸。
研究人员开发的最小化器空间德布鲁恩图只存储了总核苷酸的一小部分,同时保留了整体的基因组结构,使它们的效率比经典德布鲁恩图高几个数量级。研究人员将他们的方法应用于组装黑腹果蝇的真正HiFi数据(它具有几乎完美的单分子读取精度),以及太平洋生物科学公司(PacBio)提供的人类基因组数据。
当他们评估所得到的基因组时,Berger及其同事发现使用mdBG软件所需的时间比其他基因组组装程序少33倍,内存用量少8倍。他们的软件对HiFi人类数据进行基因组组装的速度比Peregrine组装器快81倍,内存用量少18倍,比hifiasm组装器快338倍,内存用量少19倍。
原创文章,作者:3628473679,如若转载,请注明出处:https://blog.ytso.com/158644.html