一种功能类似于谷歌搜索的计算工具已经证明了它的前景——可以廉价且容易地搜索生物序列数据。开发该工具的瑞士团队表示,在一项原理验证研究中,他们利用该工具成功索引了10%世界已知DNA、RNA和蛋白质序列,同样的方法也可以用于完成其余部分。
日前,该进展在预印本平台bioRxiv上公布。这款名为MetaGraph的计算工具,可以将公开的序列数据组织并压缩为可搜索的格式,就像互联网搜索引擎对网页及其内容所做的那样。由此产生的索引可供下载,也可通过门户网站获得,用户可以扫描包含数万亿对碱基对和数十亿个氨基酸的序列。
没有参与该工作的美国马里兰大学的计算生物学家Rob Patro说,这项研究“是一项巨大成就,是对所有公开的测序数据进行索引这一重大挑战的里程碑。”这样的资源可以助力无数领域的研究,从鉴定新病毒到揭示与疾病相关的RNA序列。虽然MetaGraph并不是唯一一个旨在实现这一目标的项目,但该团队已经创建了迄今最大的索引,并且使用成本相对较低。
Patro指出,目前,存储DNA、RNA和蛋白质序列数据的存储库呈指数级增长。序列读取档案(SRA)是一个由美国国立卫生研究院国家生物技术信息中心(NCBI)及其合作者运营的基因数据库,包含了来自人类和其他动物、植物和细菌等生物体的超过5万亿个碱基对(50 PB碱基)。
目前的生物信息学工具无法同时扫描这么多数据,尤其是对于那些尚未组装成基因组的序列,研究人员必须缩小序列集合的范围。一些研究小组希望通过将较大数据库中的序列压缩成更有组织的数据结构或索引来解决这个问题,以便在可下载文件或在线门户中轻松搜索。
2020年,瑞士苏黎世联邦理工学院的生物信息学家AndréKahles和计算机科学家Gunnar R?tsch及其同事展示了MetaGraph的早期版本。该团队使用称为德布鲁因图的数学结构表示序列之间的重叠,从SRA中索引了100多万条记录,总计约3 PB。
现在,该团队利用MetaGraph的改进版本索引来自SRA和其他数据库的5个pb碱基,包括来自微生物、真菌、植物、人类和人类肠道微生物组的序列。新发布的工具可以将几十太字节的数据压缩到大约10gb——小到足以在一台个人电脑上运行。构建初始索引是很困难且昂贵的,所有SRA都要花费数十万美元,但现在用户可以比现有技术更便宜地查询数据集。
英国诺丁汉特伦特大学的生物信息学家和微生物学家Lesley Hoyles说,这项工作“非常令人兴奋”。随着数据存储库的规模不断膨胀,“任何可以减少计算存储和能源成本的东西……对全世界的研究人员来说都是一个巨大优势。”Hoyles说,这种方法可以减少低收入和中等收入国家的科学家进行基因组研究的障碍。“工作可以在便宜的笔记本电脑上轻松完成。”
无独有偶,其他研究小组也在取得进展。去年,法国巴斯德研究所从欧洲研究委员会获得了200万欧元,启动了IndexThePlanet项目,对SRA中的所有数据进行编目。NCBI的研究人员正在开发索引工具Pebblescout。“目前这是一个非常活跃的领域。”英国巴斯大学的计算生物学家Zamin Iqbal说。他曾参与“所有细菌”项目,该项目旨在收集细菌序列数据,使其更容易搜索。
Patro认为,由于受MetaGraph索引大小的限制,其在一些特别大的任务上可能比其他工具慢,比如同时从一个样本中查找数百万个序列。他补充说,目前还不清楚如何最好地用新的序列数据更新索引。还有一个挑战是为项目提供资金,以及随之而来的所有计算成本。事实上,该工具最终是否被广泛采用,将部分取决于“如何解决社会和行政方面的问题,即如何使用如此大量的资源”。
Kahles和R?tsch对此表示赞同,他们希望这项工作能激励其他团体,以及NCBI或SRA等更大的组织的参与,并帮助索引剩余90%的序列数据,供研究人员使用。
(责编:赵珊)