英国《自然·机器智能》杂志15日发表一项计算生物学突破,包括加拿大英属哥伦比亚大学在内的研究团队研发了一种自动化、生成式的机器学习方法,可以仅利用质谱就确定未知的新型精神药物(又称人造毒品)的化学结构,了解这些结构能帮助法医实验室更快识别出疑似的人造毒品。
每年有大量新型精神药物出现在非法市场上,这些药物会造成与已知非法药物相近的精神效果,但其合成方式使其在化学上与已知非法药物有所不同,这些药物规避了现有的毒品法规,甚至难以被侦测。法医实验室使用质谱分析法在查封药片或粉末中识别已知人造毒品。但是,要弄清一种全新人造毒品的结构,通常需要化学专家工作数周或数月,并且需要用到多种实验技术。
加拿大英属哥伦比亚大学研究人员迈克尔·斯金奈德及其同事,此次使用全球各地法医实验室众包的保密数据,训练了一个机器学习模型。他们所使用的算法也被称为深度神经网络,其灵感来自于人脑的结构和功能。机器学习产生了结构和性质都类似于近期人造毒品的分子。该模型随后产生了一个数据库,包含十亿种潜在新型精神药物的结构。用模型训练结束后新收集的数据测试该模型,发现这一方法可以仅用质谱就确定未知人造毒品。在准确结构难以精准确定的实例中,该模型建议的结构,与未知人造毒品非常相似。
研究人员发现,该模型还可帮助人们了解到哪些分子更有可能出现在市场上,哪些不太可能。研究人员总结说,用其他数据集训练的类似的生成方法,也可以帮助识别其他特定领域未知分子的结构,例如识别新型兴奋剂或者环境污染物。
研究资深作者、阿尔伯塔大学计算科学教授戴维·维斯哈特表示,这一模型意义有点类似2002年的科幻电影《少数派报告》,其可以对即将发生的犯罪活动有所预知,从而帮助显著减少犯罪,“从本质上讲,这一新成果为执法机构和公共卫生计划提供了一个所谓‘先机’,让他们知道需注意什么。”
斯金奈德表示,该模型仅仅通过精确的质谱测量就阐明整个化学结构,而将数十亿个结构的列表缩小到10个候选结构,大大加快了化学家识别新药物的速度。(记者张梦然)