AI助力基因组学发展的现状与挑战

2023-07-15 来源:旧番剧
2022年3月31日,《科学》杂志连发6篇论文,记录国际科学团队完成世界第一个完整的、无间隙的人类基因组序列,首次揭示了高度相同的节段重复基因组区域及其在人类基因组中的变异,在科学史上具有里程碑式的重大意义。

AI助力基因组学发展的现状与挑战


但基因组数据的复杂性对于临床应用来说,仍然构成了相当大的挑战。在这个后人类基因组序列的世界中,人类疾病的易感性不仅仅是特定突变引起特定基因功能障碍的结果,而往往是由非编码区域的遗传变异、基因组的三维结构以及DNA和蛋白质分子的化学修饰(表观基因组)的遗传变异引起的。
因此,要充分利用基因组数据进行治疗和诊断决策,需要整合编码和非编码区域的线性DNA序列数据、三维基因组结构信息和表观基因组。而关于这些不同基因组特征的信息可能来自完全不同的数据模态,如DNA测序、成像和各种生化检测。此外,要进行更准确的治疗和诊断决策还需要将基因组数据与医学信息和患者数据结合进行多维分析。

AI助力基因组学发展的现状与挑战


AI助力基因组学发展的现状
AI系统具有捕捉大型数据集和不同数据模态组合中的复杂模式的能力,或可成为解决上述一系列挑战,推动精准治疗和诊断决策的强大工具。下文将以AI助力分析基因组非编码区域的信息、AI结合多元数据类型解读基因组数据以及AI解释液体活检数据三方面典型用例,阐释AI助力基因组学的发展现状。
1. 解读非编码遗传变异
与疾病相关的大多数遗传变异位于基因组的非编码区域。目前,科研人员已经完成了第一个完整的、无间隙的人类基因组序列,下一阶段的研究和分析将产生大量非编码基因数据。然而,与分配给已知基因的编码区域遗传变异相比,非编码遗传变异更加复杂且不易解读。编码区域的变异可以基于对特定基因功能的了解进行解释,所以分析过程相对简单。而非编码变异需根据基因组的三维结构和表观基因组来调控不同的基因,因此,解读非编码变异是一项高度复杂的任务,需要超越传统数据分析的新方法作为支撑。

AI助力基因组学发展的现状与挑战


在此背景下,AI模型的快速发展为之提供了富有希望的可能性。2020年,牛津大学研究团队就曾提出一个名为DeepC的AI模型,可以使用兆碱基规模的迁移学习准确预测拓扑相关域(TADs)。TADs是基因组的3D核组织的基本单位,通过控制基因调控区域与目标基因在三维空间中的相互作用,对基因表达起到贡献作用。DeepC使用迁移学习方法和组织特异性的Hi-C数据来训练模型,从DNA序列的百万碱基(Mb)窗口预测基因组的折叠方式,从而可以预测原始序列的变异如何影响三维基因组结构。

AI助力基因组学发展的现状与挑战


目前,DeepC已被用于研究“为什么有些人的COVID-19症状很轻,而另一些人则会经历严重的呼吸衰竭甚至死亡”等问题,通过DeepC识别引起COVID-19呼吸衰竭的单核苷酸非编码变异和作用基因,科学家们已经找到了答案。
2. 结合不同数据模态解读基因组数据
AI能够结合大量基因组数据和其他医学及临床数据进行综合分析,使数据分析结果更准确、更易得。2022年11月,Moor等人发表论文,提出了医学人工智能的新范式,称为通用医学人工智能(GMAI)。GMAI模型能够使用非常少量或没有特定任务的标记数据执行各种任务。通过在大型、多样化的数据集上进行自我监督构建,灵活地解释不同医学模态组合,包括来自成像、电子健康记录、实验室结果、基因组学、图表或医学文本的数据。模型还能够进一步产生强表达能力的输出,例如自由文本解释、口头建议或图像注释,展示出高级医学推理能力。

AI助力基因组学发展的现状与挑战


基因组医学中最活跃的创新涉及简化数据分析以实现高效临床决策以及结合各种类型的基因组数据综合分析,如原始核酸序列数据、表观基因组数据、结构基因组信息和原生核酸的成像信息等。类似GMAI这样的新兴AI模型,其应用潜力是无穷的,将为科研工作者提供高效准确的多维数据分析、提供临床决策支持、成为新型多功能医学助手。
3. 解读液体活检数据
液体活检,尤其是对循环游离DNA(cfDNA)的分析,在临床治疗和诊断方面同样具有巨大潜力。目前已有多种非侵入性的疾病筛查和治疗反应监测方法。最近,学术界对cfDNA(Circulating free DNA)的分析已经超越了检测原始DNA序列的变异,包括甲基化水平和结构信息等。cfDNA简称循环游离DNA或者细胞游离DNA,是液体活检中最应用广泛的分析指标。正常生理情况下,cfDNA主要来源于衰老凋亡细胞基因组DNA的降解,当机体发生疾病时,如恶性肿瘤、外伤、器官移植排异、组织器官衰竭和感染重大疾病等,异常坏死细胞会释放大量DNA进入血液循环,cfDNA指标也将随之上升。

AI助力基因组学发展的现状与挑战


在临床研究的不断积累与支撑之下,cfDNA已被广泛用于液体活检、无创产前筛查(NIPT)、用药指导、以及感染性疾病诊断等领域。而从cfDNA获得数据的复杂性是传统数据分析无可比拟的。近年来,AI模型越来越多地被用于解读来自cfDNA的基因组数据,让通过无创手段完成肿瘤筛查、预后评估、识别组织来源等成为可能。

AI助力基因组学发展的现状与挑战


AI助力基因组医学发展的机遇与挑战
通过上述用例,我们已经看到AI在人类基因组数据基础上开发新的治疗和诊断方法,并推动基因组医学行业的创新和增长的巨大潜力。尽管当前新AI模型用于解读基因组数据的效果令人兴奋,但若要将AI成熟地用于基因组医学还需要一段时间。
基因组学中人工智能的重要最终用户是政府组织、制药公司、生物技术公司、学术机构、研究中心、医疗保健提供者以及我们每个人。
如何让学术界、产业界和全社会完全信任和接受AI系统;如何继续加强AI技术开发和大数据获取及训练手段,确保AI所提供的数据质量;如何加强对AI的监控等问题,需要科研机构、企业、医院和政府之间继续深化合作,共同思考解决路径。让人工智能在精准医学、诊断、药物发现和开发以及农业、动物研究等更多场景,发挥更积极的作用。
参考资料:
1.https://www.natlawreview.com/article/sequencing-impact-how-ai-boosting-genomic-medicine
2.https://www.ncbi.nlm.nih.gov/pmc/articles/PMC7610627/
3.https://www.technologynetworks.com/neuroscience/articles/what-is-cfdna-348855
4.https://mp.weixin.qq.com/s/hY94YeSbJKyK6fLmNXuoyA
-END-
本文由情境科技原创整编
转载请注明来源
情境科技专注于数据驱动的科学和前沿技术情报,深刻理解客户面临的问题并围绕任务输出产品和工程思维,为公共机构、商业企业和非营利组织提供价值。

猜你喜欢
动漫推荐
免责声明:动漫番剧数据来源网络!本站不收费,无vip,请勿上当!

www.jiufanju.com-旧番剧