国自然必追热点-巨噬细胞联合“101种组合机器学习”拿下7.7分纯生信文章,抓紧上车!

巨噬细胞是一种位于组织内的白血球,源自单核细胞,而单核细胞又来源于骨髓中的前体细胞。有两种发挥不同功能的型,分别是具有促炎作用的M1型和具有抗炎作用的M2型,它们在机体的某些器官或代谢反应中可能发挥相反的作用。因此巨噬细胞的代谢与功能的变化对多种疾病或者肿瘤的发生或治疗有着不可或缺的影响。

近年来,有关巨噬细胞的研究已经成为热点之一,并得到大量国家基金资助。对巨噬细胞进行相关研究的高分文章也层出不穷,想发高分文章的小伙伴还不抓住这个机会快快上车!!!

今天小云跟小伙伴们分享一篇7.7分巨噬细胞结合机器学习的纯生信文章,纯生信文章为什么能发到7.7分呢?小云带小伙伴们一起探索一下吧~

  1. 本研究抓住巨噬细胞这个国自然大热点就已经抓住高分文章的尾巴啦~
  2. 本文使用组合10种机器学习的方式(共101种组合)在训练集和测试集中挑选最佳算法组合的方式,不但大幅提升了工作量,也让审稿人眼前一亮。

据小云了解,目前已有几篇高分文章采用这种方法或类似思路,证明方法虽复杂但还是易复现的,生信小白看到这么多机器学习方法也不要被劝退哦~勇往直前的借鉴这种研究思路去发表高分SCI吧~(ps:不知道怎么创新的小伙伴可以来找小云!这里有最新的生信研究方向,还有一大波的可复现的创新思路,感兴趣的直接扫码联系我噢!)。

  • 题目:基于机器学习的组合开发预测肺腺癌预后和免疫疗法反应的巨噬细胞相关模型
  • 杂志:Archives of Medical Research
  • 影响因子:IF=7.7
  • 发表时间:2023年11月

研究背景

肺癌是确诊率第二高的恶性肿瘤,也是2020年癌症死亡的主要原因,约占确诊癌症病例的11.4%,占癌症相关死亡病例的18%。在所有肺癌病例中,约40%为肺腺癌(LUAD)。巨噬细胞在LUAD的肿瘤免疫微环境(TIME)形成和癌症进展中起着至关重要的作用。然而,很少有研究全面系统地描述LUAD中巨噬细胞的特征。本研究旨在利用机器学习算法构建LUAD的共识MRI。对LUAD进行风险分层、预后判断和药物预测。

数据来源

数据集/数据集 数据库 数据类型 详细信息
TCGA-LUAD TCGA RNA-seq数据 507个肺腺癌癌组织样本转录组数据,预后信息
GSE189487 GEO scRNA-seq数据 6个肺腺癌癌组织样本
GSE30219 GEO RNA-seq数据 88个肺腺癌癌组织样本
GSE31210 GEO RNA-seq数据 226个肺腺癌癌组织样本
GSE72094 GEO RNA-seq数据 398个肺腺癌癌组织样本
GSE91061 GEO RNA-seq数据 98个接受抗PD-L1和抗CTLA4药物治疗的患者的转录组和临床数据

研究思路

利用GSE189487数据集中的单细胞RNA测序数据确定703个巨噬细胞相关基因,在TCGA、GSE30219、GSE31210和GSE72094数据集中,开发了一种基于10种算法的机器学习模型,以构建巨噬细胞相关指数(MRI)。使用多种算法评估了MRI与TIME和免疫疗法相关生物标记物的关系。利用GSE91061数据集评估MRI在预测免疫治疗反应中的作用。

主要结果

1. 单细胞分析鉴定细胞类群和巨噬细胞相关基因

首先,利用“Seurat”包对scRNA-seq数据进行质控后,获得17,579个高质量的细胞用于后续分析(图1A);其次,使用Seurat包中的“LogNormalize”函数对数据进行归一化处理(图1B);接着,为了可视化细胞群,使用UMAP分析对细胞进行聚类,得到11个类群(图1C);然后,使用“SingleR”包注释细胞类型,结果显示,0、2、3、4、7、8和10群被确定为巨噬细胞,1、5和9群被确定为上皮细胞(图1D)。最后使用Seurat包的“FindAllMarkers”函数识别每个类群的标记基因,得到703个巨噬细胞相关基因。(ps:单细胞分析也可以用小云新开发的零代码生信分析小工具实现,云生信分析工具平台包含超多零代码分析和绘图小工具,上传数据一键出图,感兴趣的小伙伴欢迎来尝试哟,网址:http://www.biocloudservice.com/home.html)

图1 单细胞分析鉴定细胞类群和巨噬细胞相关基因

2. WGCNA鉴定关键模块

利用R包“WGCNA”基于703个巨噬细胞相关基因构建WGCNA,以确定与LUAD患者生存状态和生存时间相关的关键模块。设定软阈值β为0.85(图2A),共生成了五个模块供进一步分析,每个模块之间的相关性如图2B所示,五个不同颜色模块的聚类树见图2C。选择了与LUAD患者预后正相关性和负相关性最高的绿松石模块(212个基因)和灰色模块(46个基因)进行进一步研究(图2D)。

图2 WGCNA鉴定关键模块

3. LUAD中与巨噬细胞相关亚型的鉴定

根据WGCNA筛选的258个巨噬细胞相关基因,在TCGA-LUAD数据集中采用NMF聚类算法对LUAD患者进行分子亚型分类。K=2被确定为最佳值(图3A)。图3B显示了共识矩阵的热图。在TCGA数据集中,亚组1中的LUAD患者的总生存率高于亚组2中的患者(图3C)。GSE30219、GSE31210和GSE72094数据集中也得到了类似的结果。图3D、3F和3H显示了相应的共识矩阵的热图,进一步进行生存分析表明,在GSE30219(图4E)、GSE31210(图4G)和GSE72094(图4I)数据集中,与亚组2相比,亚组1与LUAD更好的临床结果相关。

图3 LUAD中与巨噬细胞相关亚型的鉴定

  1. 机器学习

通过单变量Cox分析,获得62个与LUAD预后显著相关的巨噬细胞相关基因,基于这62个巨噬细胞相关预后基因进行机器学习,并建立MR模型。在TCGA-LUAD数据集中,通过leave-one-out交叉验证框架拟合了101种预测模型。结果表明,由Lasso和plsRCox方法组合建立的预后模型是最佳模型(图4A),偏差概率在Lasso回归中达到最小值(图4B)。对Lasso系数不为零的22个巨噬细胞相关基因进行plsRCox回归(图4C)。根据这22个巨噬细胞相关基因的回归系数及其表达模式,计算出了每位LUAD患者的MRI评分,以MRI评分的平均值为分界点,将LUAD患者分为MRI评分高和低两组,发现TCGA数据集(图4D)、GSE30219数据集(图4E)、GSE31210数据集(图4F)和GSE72094数据集(图4G)中,高MRI评分组的LUAD患者总生存率低。

图4 机器学习

  1. 免疫微环境分析

对六种肿瘤免疫亚型研究显示,在低MRI评分组中,C3亚型所占比例最大,而在高MRI评分组中,C2亚型所占比例最高(图5A)。ESTIMATE算法用于评估高MRI评分组和低MRI评分组的免疫评分、ESTIMATE评分和基质评分(图5B)。低MRI评分组中B细胞、iDCs、肥大细胞、T辅助细胞和TILs的得分均高于高MRI评分组(图5D)。低MRI评分组与APC-co-inhibition、MHC-class-I、parainflammation和type-I-IFN-reponse相关,而高MRI评分组与T-cell co-stimulation和type-II-IFN-reponse相关(图5E)。

图5 免疫微环境分析

  1. 药物敏感性分析

使用“oncoPredict”软件包计算常见化疗药物和靶向药物的IC50值(图6F),IC50值越低,药物敏感性越高,结果表明,高MRI评分组的LUAD可能对化疗和靶向治疗更敏感。利用PubChem展示了一些药物的三维结构,如图6G。

图6 药物敏感性分析

文章小结

这篇文章可谓是紧跟当前研究潮流,既利用了101种爆火的机器学习组合,同时又抓住了国自然热点“巨噬细胞”,7.7分的纯生信文章可谓手到擒来。看到别的团队蹭蹭蹭地发文,你是不是也蠢蠢欲动啦?把握住“机器学习”方向做生信分析,不要太适合科研人员哟,小伙伴们快学起来吧!也可直接扫码联系小云做思路设计/复现或定制个性化分析噢~

小云有话说

小云公众号持续为大家带来最新生信思路,想复现这种思路或者定制更多创新性思路欢迎直接call小云,云生信团队竭诚为您的科研助力!