“人工智能+”赋能科学研究有新进展。记者12日从中国科学院自动化所获悉,该所和中国科学院生物物理所等单位的科研人员以人工智能技术赋能原位结构生物学,提出了一种基于弱监督深度学习的快速准确颗粒挑选方法DeepETPicker。这种方法仅需要少量人工标注颗粒训练,即可实现对生物大分子快速准确的定位识别。相关研究成果在线发表于《自然·通讯》杂志。
蛋白质等生物大分子的结构与功能,会随着细胞生理状态的变化不断进行动态调整。原位结构生物学是在接近自然生理状态下研究生物大分子结构和功能的科学,而原位冷冻电镜是原位结构生物学研究中的关键手段,能够在接近生理条件下高分辨率地观察样品的特点。
使用原位冷冻电镜研究生物大分子涉及多个步骤,如样品制备、数据采集、电子断层重建、颗粒挑选、粒子平均等。在这些步骤中,生物大分子的颗粒挑选,即定位识别,是关键一步。
由于原位冷冻电镜图像信噪比极低,并存在重建伪影,因此图像中会出现成千上万个目标颗粒。“手动挑选这些目标颗粒极为耗时费力,现有自动挑选方法也受到多方面限制,比如人工标注量高、计算成本高和颗粒质量不理想等。因此,科研人员希望开发出更加快速准确的颗粒挑选方法。”论文共同通讯作者、中国科学院自动化所研究员杨戈介绍。
最新提出的快速准确颗粒挑选方法DeepETPicker通过优选简化标签来替代真实标签,并采用了更高效的模型架构、更丰富的数据增强技术、重叠分区策略和平均池化-非极大值抑制技术来提升小训练集时模型的性能,其挑选速度比现有的聚类后处理方法快数十倍。
同时,为方便用户使用,研究团队还推出操作简洁、界面友好的开源软件,以辅助用户完成图像预处理、颗粒标注、模型训练与推理等操作。
研究团队还将DeepETPicker与目前性能最优的颗粒挑选方法在多种冷冻电子断层扫描数据集上进行性能评估对比。结果表明,DeepETPicker在仿真与真实数据集上均可实现快速准确的颗粒挑选,其综合性能明显优于现有的其他方法,生物大分子结构重建的分辨率也达到了专家人工挑选颗粒进行结构重建的水平。
(责编:赵珊)