学术干货详细信息

Nature正刊重磅!微软、华盛顿大学发布首个全切片数字病理学模型GigaPath

2024-06-04124

近年来,数字病理学的蓬勃发展成为了精准医学加速突破的重要组成部分。在癌症护理过程中,利用全切片成像技术将肿瘤组织样本转换为高分辨率的数字图像,已经成为常规技术。高达十亿像素级别的病理学图片包含多样的肿瘤微环境信息,为癌症分型诊断,生存率分析以及精准免疫治疗提供了前所未有的契机。

近期,生成式人工智能革命为准确感知、分析病理学图片中的海量信息提供了强有力的解决方案。与此同时,多模态生成式人工智能技术的突破更将助力从时空多尺度理解数字病理学图片并与其他生物医学模态相融合,从而更好刻画患者疾病演变、发展过程,协助医生进行临床诊断和治疗。

然而,由于数字病例学图片的大规模、高像素、特征复杂等特点,从计算角度高效处理和理解其中的复杂模式十分具有挑战性。每张全切片数字化转型之后将包含数十亿像素,其面积达到自然图像的十几万倍,应用现有的计算机视觉模型难度较大。

传统的视觉模型,如 Vision Transformer,其计算复杂度随着输入图片的大小的增加快速上升。同时,临床医学数据具有跨尺度、多模态和高噪声等特点,而现有的病理学模型大多基于标准公开数据集,依然同现实世界的应用具有不小的距离。

为此,来自微软研究院、美国 Providence 的医疗网络和华盛顿大学的研究人员,共同提出了首个全切片尺度的数字病理学模型 GigaPath。GigaPath 模型采取两阶段的级联结构,和微软研究院近期开发的 LongNet 架构,高效解决了十亿像素级别图像的处理和理解问题。

Providence 的研究人员收集到旗下 28 家美国医院的 3 万病人授权的 17 万张全切片数字病理学图片,共计 13 亿张病理学图块。微软,华盛顿大学,Providence 的研究人员合作将 GigaPath 在这些真实世界数据上进行了大规模预训练。

实验结果表明,GigaPath 在 26 个任务,包含 9 个癌症分型和 17 项病理组学任务,在其中 25 项任务取得领先效果,在 18 项任务中显著高于现有方法。研究人员相信,该研究展示了全切片尺度层面的建模和大规模真实世界数据的预训练极其重要,同时,GigaPath 也将为更加先进的癌症护理和临床发现提供全新可能。值得一提的是,GigaPath 的模型和代码已经开源,研究人员欢迎世界各地的研究者一道探索和使用 GigaPath。

论文标题:A whole-slide foundation model for digital pathology from real-world data

作者单位:微软潘海峰、华盛顿大学王晟Providence团队

论文链接:https://www.nature.com/articles/s41586-024-07441-w

模型链接:https://huggingface.co/prov-gigapath/prov-gigapath

代码链接:https://github.com/prov-gigapath/prov-gigapath

Nature正刊重磅!微软、华盛顿大学发布首个全切片数字病理学模型GigaPath