病理图像公共数据分析还能发7分+纯生信?台湾成功大学谢孙源团队用深度学习超强buff斩获高分!

生信内卷怎么破?

小云建议:两条腿甚至三条腿走路!常规生信领域用创新思路、分析手段和验证实验破圈,临床医生建议用临床数据库分析和孟德尔随机化开辟新领地,那针对生信算法相关团队就更推荐利用“深度学习”通道在“病理图像分析”和“影像组学分析”方向发光发热~ ~(ps:小云之前就推荐过生信+病理分析、深度学习病理图像分析、影像组学等新思路,还没有看到的朋友,抓紧恶补一下哦),这些可都是冲刺高分生信的好机会,咱们可不能直接放过···

今天小云就用一个7分+的纯生信文章来给朋友们看看别的团队是怎么用“深度学习”这个生信MVP选手高频发文的!该文章由台湾成功大学谢孙源教授团队在2023年10月最新发表于J Transl Med.杂志:利用2大公共数据库(NCT和TCGA)中的组织病理图像数据构建深度学习模型用来预测肿瘤预后。分析主体在于深度学习模型的构建和分析,分析手段上首先创新性就很高;其次,分析目标是公共病理图像,相较于常规转录组数据也是高创新性的数据类型,所以双层叠加的创新性靠4张图拿下7分+文章也就不在话下啦!深度学习联合病理图像分析方向发文空间相当大,对这个思路感兴趣的朋友千万不要错过哟!

  • 题目:一种新的基于深度学习的算法结合组织病理学特征和组织面积从全切片图像预测结直肠癌生存率
  • 杂志:J Transl Med.
  • 影响因子:IF=7.4
  • 发表时间:2023年10月

研究背景

病理图像的评估被认为是癌症诊断和预后的金标准,许多病理特征有助于预测结直肠癌的预后。许多用于选择组织病理学图像的方法,例如来自感兴趣区域(ROI)的样本图像补片或片段组织学或全切片图像(WSIs),已被用于开发生存模型。由于gigapixel WSIs表现出不同的组织学表现,获得临床预后和可解释的特征仍然具有挑战性。因此,作者提出了一种新的基于深度学习的算法,结合组织面积和组织病理学特征来预测癌症生存期。

数据来源

数据集/队列 数据库 数据类型 样本信息
TCGA-COAD Xena 病理图像+临床信息 福尔马林固定的石蜡包埋(FFPE) H&E染色的完整切片图像(WSIs)
NCT-CRC-HE-100K NCT 病理图像数据 FFPE·的H&E染色的病理图像片段

研究思路

首先从WSIs中进行patches采样,使用NCT-CRC-HE-100K数据集来训练基于patches的ResNet50组织分类器,并使用该模型将采样的patches分类为不同的组织类型(ADI、BACK、DEB、LYM、MUC、MUS、NORM、STR和TUM)(图1A)。然后使用DeepConvSurv模型提取肿瘤、淋巴细胞、间质和粘液的组织病理学特征(图1B)。通过评估肿瘤、淋巴细胞和间质的面积和比率,从组织图像中检索组织面积特征(图1C)。最后使用提取的组织病理学和组织面积特征,训练六个生存模型来预测患者预后风险,将C指数作为模型评估指标(图1D)。

图1 研究设计图

主要结果

1. 基于DeepConvSurv模型的组织病理学特征识别

作者使用患者的总体存活率(OS)数据为每个patch分配标签,并使用预训练的DeepConvSurv模型从组织中提取特征(图2)。为了确定哪种组织组合与存活率最相关,作者为所有组织组合训练了6个生存模型,结果显示,肿瘤、淋巴细胞、基质和粘液的组合达到了最佳效果,并且这些组织类型也具有临床意义(表1)。作者将这四种组织类型(具有32个特征)结合起来,从而获得4 × 32 = 128个组织病理学特征。

图2 DeepConvSurv模型的架构

表1 通过五重交叉验证的组织病理学特征的表现

2. 从组织图像中提取组织面积特征

作者将WSI裁剪成patches,使用预训练的ResNet50分类器将patches分为四类(肿瘤、淋巴细胞、间质和其他),利用分类结果将不同的颜色映射到不同组织的patches上,得到组织图像。最后使用闭合操作和连通分量分析图像处理技术来提取组织面积特征(图3)。最终提取了五个临床预后相关且可解释的组织面积特征,包括最大肿瘤面积、肿瘤内淋巴细胞、肿瘤周围淋巴细胞、肿瘤周围内淋巴细胞比率和总基质面积(表2)。然后通过最大选择等级统计方法确定5个组织面积特征的临界点,并将患者将患者分成两组,使用Kaplan Meier方法计算存活曲线。结果显示,组织面积特征对存活率有显著影响(图4)。

图3 提取组织区域特征的图像处理技术

表2 组织面积特征信息

图4 基于组织面积特征的KM生存分析

3. 基于组织病理学特征和组织面积特征的癌症存活预测

通过合并128个组织病理学特征和5个组织区域特征,获得了最终的133个特征。为了评估特征的预后能力,作者使用了六个生存模型:LASSO-Cox、 RIDGE-Cox、EN-Cox、SSVM、RSF和GBRT,并利用C指数评估预测性能。使用k-means通过五重交叉验证进行性能比较,结果显示本研究建立的各种生存模型都取得了比WSISA(一种最先进的基于WSI的生存预测方法)更好的性能,其中使用组织病理学特征的最佳性能是使用LASSO-Cox模型,使用结合组织病理学特征和组织面积特征的最佳性能是使用RIDGE-Cox模型,并且使用组织区域特征改善了仅使用组织病理学特征的C指数(表3)。

表3 使用K-means通过五重交叉验证进行性能比较

文章小结

这个文章利用公共病理图像数据构建深度学习模型用来预测肿瘤预后。不论是深度学习的分析方法,还是病理图像数据的选用,都是在打破常规求创新,所以才能4张图就发到7分+纯生信!想发高分生信的小伙伴,这个思路相当不错,可以码住学起来啦!

小云有话说

小云公众号持续为大家带来最新生信思路,想复现这种思路或者定制更多创新性思路欢迎直接call小云,云生信团队竭诚为您的科研助力!

1. 11分+“深度学习模型”范文——公共病理图像分析联合突变打造高分纯生信!突破内卷的利器,快来分杯羹!

2. 1个月即接收,不走寻常路的生信+公共病理图像分析!聚焦“免疫冷热肿瘤”,超简单的分析拿下6分+,真香了!

3. 13分+纯生信只需5张图!DNA甲基化搭上流行病学,原来TCGA+GEO数据库还能这么玩!

4. 汕头大学医学院附属肿瘤医院马长春团队:4张图拿下7分+,CAR细胞治疗打赢肿瘤免疫突围战!

5. 1区9分+的NHANES 数据库纯生信分析,南昌大学二附院沈云峰团队原来是这么做临床预测的!