Nature Medicine:人工智能模型可以帮助确定患者的癌症发生在哪里
来源:生物通
对于一小部分癌症患者,医生无法确定他们的癌症起源于何处。这使得为这些患者选择治疗方法变得更加困难,因为许多癌症药物通常是针对特定癌症类型开发的。
麻省理工学院(MIT)和丹娜法伯癌症研究所(Dana-Farber Cancer Institute)的研究人员开发的一种新方法,可能会让人们更容易确定这些神秘癌症的起源位置。利用机器学习,研究人员创建了一个计算模型,可以分析大约400个基因的序列,并利用这些信息来预测给定肿瘤在体内的起源位置。
使用这个模型,研究人员表明,在大约900名患者的数据集中,他们可以准确地对至少40%的未知来源的肿瘤进行高可信度的分类。这种方法使有资格接受基因组指导的靶向治疗的患者数量增加了2.2倍,这是基于他们的癌症起源。
“这是我们论文中最重要的发现,这个模型可以潜在地用于帮助治疗决策,指导医生对原发不明的癌症患者进行个性化治疗,”麻省理工学院电子工程和计算机科学研究生Intae Moon说,他是这项新研究的主要作者。
哈佛医学院和丹娜-法伯癌症研究所的医学副教授亚历山大·古谢夫(Alexander Gusev)是这篇发表在《自然医学》杂志上的论文的资深作者。
神秘的起源
在3%到5%的癌症患者中,特别是那些肿瘤已经全身转移的患者,肿瘤学家没有一种简单的方法来确定癌症的起源。这些肿瘤被归类为未知原发癌(CUP)。
这种知识的缺乏常常使医生无法给病人提供“精确”的药物,这些药物通常被批准用于已知有效的特定癌症类型。这些靶向治疗往往比用于广泛癌症的治疗更有效,副作用更少,这些治疗通常用于CUP患者。
Gusev说:“每年都有相当多的人患上这些原发不明的癌症,因为大多数治疗方法都是以特定部位的方式获得批准的,你必须知道原发部位才能使用它们,所以它们的治疗选择非常有限。”
穆恩是计算机科学与人工智能实验室(Computer Science and Artificial Intelligence Laboratory)的下属机构,他与古谢夫共同担任顾问。穆恩决定分析丹娜-法伯医院例行收集的基因数据,看看它是否可以用来预测癌症类型。这些数据包括大约400个基因的基因序列,这些基因在癌症中经常发生突变。研究人员根据近3万名被诊断患有22种已知癌症类型之一的患者的数据训练了一个机器学习模型。这组数据包括来自纪念斯隆凯特琳癌症中心和范德比尔特-英格拉姆癌症中心以及丹娜-法伯的患者。
然后,研究人员在大约7000个以前从未见过的肿瘤上测试了这个模型,这些肿瘤的起源位置是已知的。研究人员将该模型命名为OncoNPC,该模型能够预测它们的起源,准确率约为80%。对于高可信度预测的肿瘤(约占总数的65%),其准确率上升到大约95%。
在这些令人鼓舞的结果之后,研究人员使用该模型分析了大约900例CUP患者的肿瘤,这些肿瘤都来自达纳-法伯。他们发现,对于其中40%的肿瘤,该模型能够做出高可信度的预测。
然后,研究人员将该模型的预测与现有数据中对肿瘤子集的种系或遗传突变的分析进行了比较,这可以揭示患者是否具有遗传易感性,从而患上某种特定类型的癌症。研究人员发现,与任何其他类型的癌症相比,该模型的预测更有可能与生殖系突变最强烈预测的癌症类型相匹配。
指导药物决策
为了进一步验证模型的预测,研究人员将CUP患者的生存时间数据与模型预测的癌症类型的典型预后进行了比较。他们发现,被预测患有预后较差的癌症(如胰腺癌)的CUP患者的生存时间相应较短。与此同时,预测患有通常预后较好的癌症(如神经内分泌肿瘤)的CUP患者的生存时间更长。
该模型的预测可能有用的另一个迹象来自研究中分析的CUP患者接受的治疗类型。根据肿瘤学家对癌症起源的最佳猜测,这些患者中约有10%接受了靶向治疗。在这些患者中,那些接受了与模型预测的癌症类型一致的治疗的患者,比那些接受了与模型预测的癌症类型不同的典型治疗的患者表现得更好。
利用这个模型,研究人员还确定了另外15%的患者(增加2.2倍),如果他们的癌症类型已知,他们本可以接受现有的靶向治疗。相反,这些患者最终接受了更普通的化疗药物。
“这可能使这些发现更具临床可操作性,因为我们不需要新药获得批准。我们要说的是,这些人现在可以接受已经存在的精确治疗。”Gusev说。
研究人员现在希望扩展他们的模型,包括其他类型的数据,如病理图像和放射学图像,以使用多种数据模式提供更全面的预测。这也将为该模型提供肿瘤的全面视角,使其不仅能够预测肿瘤的类型和患者的预后,甚至可能预测最佳治疗方案。