单细胞数据挖掘也卷上天了?11分+纯分析最新报道:这个R包解锁单细胞挖掘新姿势啦!






单细胞数据挖掘也卷上天了?11分+纯分析最新报道:这个R包解锁单细胞挖掘新姿势啦!

小途  生信果  2024-05-02 19:00:10

癌症的基因调控网络是相关生信分析的重头戏,找到一个基因或一条信号通路能抑制肿瘤细胞的生长甚至存活,临床上就可能多出至少一种治疗癌症的手段。单细胞测序或空间转录组更容易将肿瘤的发展细化研究,但是具体操作起来还是有点难度的哟~~~
好的分析工具能为我们的文章添彩不少。小途今天带来一份大礼SCORPION,这个工具可以更好地处理我们的单细胞测序数据,无论是自测数据还是挖掘的公共数据,研究基因调控网络甚至是信号通路简直“一键获取”,工具也开发为R包供大家使用啦!
(https://CRAN.R-project.org/package=SCORPION)。学会使用新R包就能让文章更上一层楼啦,快来快来:
1.开发SCORPION算法,并证明相对PIDC、PPCOR等12种类似算法的优越性
2.应用两项数据集评估SCORPION对转录因子调控网络发生变化的检测能力
3.对公开的scRNA-seq数据应用SCORPION工具,构建转录组基因调控网络,证明对细胞分型和疾病分类的实用性    
4.根据结直肠癌CRC的单细胞转录组测序数据,使用SCORPION分析不同程度的病变组织细胞的基因调控网络变化,表征影响患者生存的肿瘤内特征,识别新的生物标志物和靶标。
现成的工具奉上,小途讲完大家可要好好试试呢!想用类似的生信工具为自己的文章锦上添花?又怎样和热点话题整合分析?或是担心选题拉跨?小途的服务大礼包一定能为你的SCI之路披荆斩棘!~

l题目:基于高通量单细胞转录组学数据的基因调控网络的群体水平比较
l杂志:nature computational science
l影响因子:IF=11.3
l发表时间:2024年3
研究背景
真核生物中基因表达受到转录因子的严格调控,调控相互作用的改变可能导致异常表达谱和病变表型。转录组学数据可以通过检查基因的共表达模式来推断基因调控网络,这些基因是相同调控程序的一部分。利用sc或snRNA-seq数据中的基因表达变异性,在单个样本中推断出每种细胞类型或细胞状态的基因调控网络是可能的。    
为了确定导致群体内样本间表型变化的一致机制模式,转录因子及其靶基因相互作用之间的生物学变异性应该理想地跨多个样本进行建模。使用sc或snRNA-seq的高通量数据来创建可比较的基因调控网络是一项艰巨的任务,这类数据高度稀疏,并且文库准备过程中的非生物学因素经常影响数据,需要开发高效的技术。
          
数据来源
数据集
数据库
数据类型
详细内容
GSE132465
GEO
scRNA-seq
23例原发性CRC患者和10份匹配的正常粘膜样本的63,689个细胞的单细胞 3′ RNA 测序数据
GSE144735
GEO
scRNA-seq
6CRC患者的核心和边缘肿瘤区域以及匹配的正常粘膜的27,414个细胞的单细胞3′ RNA测序数据
HRA000979
GSA
scRNA-seq
 5名CRC患者的 scRNA-seq 数据
E-MTAB-8107
ArrayExpress
scRNA-seq
卵巢癌、结直肠癌和乳腺癌的单细胞 RNA 测序
GSE178318
GEO
scRNA-seq
治疗和未治疗患者的CRC肝转移的单细胞表达谱
              
研究思路
作者提出了SCORPION (single-cell Oriented Reconstruction of PANDA individual Optimized gene regulatory Networks),这是一个使用单细胞/细胞核RNA-seq数据粗粒度来降低稀疏性并提高检测这些数据中相关结构能力的工具,使用调节网络重建算法(PANDA)将生成的粗粒度数据用于重建基因调节网络。利用合成数据发现SCORPION优于现有的12种基因调控网络重建技术。通过监督实验,作者发现SCORPION可以准确识别野生型和转录因子干扰细胞之间调节网络的差异。使用含200,436个来自结直肠癌和邻近健康组织的细胞的scRNA-seq测序图谱,证明了SCORPION在群体水平分析中的可扩展性。SCORPION检测到的肿瘤内和肿瘤间区域之间的差异与已有的对大多数结肠癌的染色体不稳定途径(CIN)疾病进展的理解一致,并阐明了可能影响患者生存的表型调节因子。
主要结果          
1.  SCORPION算法
SCORPION通过五个迭代步骤,从单细胞转录组数据中生成可比较的、完全连接的、加权的和定向的转录组基因调控网络,适用于群体水平的研究(图1a)。
首先通过折叠k个在多维RNA-seq数据的低维表示中识别的最相似的细胞。第二步构建三个不同的初始未细化网络:共同监管网络、合作网络和监管网络。之后设计一个修改版本的谷本相似性用于解释连续值来生成可用性网络(Aij),表示从基因j到转录因子i的信息流。此外通过计算合作网络与监管网络的相似度,生成责任网络(Rij),表示从转录因子i流向基因j的信息。在第四步中计算可用性和责任网络的平均值,并更新监管网络。合作和共同监管网络在第五步中使用更新的监管网络中包含的新信息进行更新。步骤3到步骤5迭代重复,直到网络之间的汉明距离达到用户定义的阈值(默认0.001)。(ps:评分模型可以看看原文献是怎么做的,深度神经网络可是独特的加分项哦!    
图1  SCORPION去稀疏化的概述和基准
          
2.  与现有方法的比较
作者测试SCORPION与其他算法的性能,使用BEELINE对网络构建算法进行了系统比较。对SCORPION进行12种不同算法的测试和比较。SCORPION产生的基因调控网络的精确度和灵敏度提高18.75%。此外使用七个与网络构建相关的不同指标的其他方法相比,SCORPION始终平均排名第一(图1b)。
由于将转录因子结合的先验信息纳入调控网络重建算法可以提高对调控的预测。作者测试SCORPION在合成数据上的优化方法后,将完整的SCORPION框架——SuperCells和信息在先前的监管、合作和共同监管网络之间传递——直接应用于整理的真实数据集,并评估生成的基因监管网络的生物学相关性。    
          
3.  检测转录因子活性的变化
作者使用两个数据集评估SCORPION。数据集一通过双敲除实验检测Hnf4α和Hnf4γ转录因子在小鼠肠上皮中的冗余作用。数据集二研究DUX4转录因子过表达在人胚胎干细胞(ESCs)的体外人受精卵基因组激活样转录过程中的作用。
数据集一构建了两个独立的单细胞基因调控网络,作者使用两个网络中重叠的2990个基因的调控机制的子网络进行比较,关注Hnf4α和Hnf4γ转录因子边缘权重的差异。观察到受干扰的转录因子与其靶基因之间的链接权重发生了变化(图2a,e)。配对的权重差异显著,且下调趋势一致(图2b,f)。敲除Hnf4α和Hnf4γ后分别发现221和211个大变化(图2c,g),突出了84个共享基因的激活信号降低(下调)。使用转录因子与其靶基因间的连接权重的配对差异进行GSEA时,发现Hnf4α和Hnf4γ扰动对降低与肠细胞同性发育相关的典型标记基因的表达有显著影响(图2d,h),与数据集的原结论一致。
对数据集二,作者也构建两个独立的基因调控网络,模拟WT人类ESCs的调控机制及DUX4转录因子过表达的影响(图2l)。比较两个网络中DUX4的转录因子活性时,作者注意到转录因子过表达前后链接权重分布的变化(图2j),DUX4与其靶基因之间的连接权的成对差异显著向正方向移动(图2k),诱导其靶基因上调。利用DUX4及其靶基因之间的连锁权的配对差异进行GSEA,发现这些与8c样细胞中高表达基因的过表达呈正相关(图2m)。综上SCORPION可以检测到转录因子活性的实验靶向变化,并代表这些变化对由此产生的基因调控网络的影响。   
图2  评估SCORPION检测转录因子活性变化及其对靶基因影响的能力
4.  反映细胞身份和疾病状态
作者收集5个公开的scRNA-seq数据,质控后保留200,439个(图3a-d)。使用典型标记注释细胞后,用SCORPION为图谱中每个样本中的每种细胞类型生成基因调控网络,共构建了560个转录组基因调控网络,每个网络中622个转录因子对17,425个靶基因(总计10,838,350个链接)的调控作用。作者使用网络的度(从所有转录因子到一个基因的权重之和)生成包含在网络中的信息的t分布随机邻居嵌入(t-SNE)低维表示。发现无论哪个组织,相同类型的细胞网络都会聚集在一起(图3e)。(ps:不同工具的对比可以提高文章说服力哦,想了解学习的快来@小途哟~~    
图3  结直肠癌和邻近健康组织转录组和基因调控网络的低维表示
          
5.  揭示结直肠癌的发展模式
作者将重点研究结直肠癌中驱动上皮细胞疾病进展的分子机制。在四种组织中选择了149个单细胞基因调控网络,用线性回归研究了622个转录因子与15,325个靶基因之间的9,532,150个链接。作者推断健康的邻近组织(编码为1)沿边界过渡转化为恶性组织(编码为2),肿瘤核心组织(编码为3)和转移组织(编码为4)的疾病信号将增加。计算β系数并对每个环节的多重测试P值进行了相关调整(图4a),发现5,202,588个链接的β绝对值大于0,并将这些β系数作为生成的代表结直肠癌进展的网络中的权重(图5)。一些确定的相互作用具有结直肠肿瘤生长和发展所必需的致癌转化模式一致的方向(图4a)。计算转录因子的总体关联作为每个转录因子与其靶基因的所有β系数的(外度)总和。作者发现在结直肠癌发生过程中与之最相关的10个转录因子和输出度降低的前10个相关转录因子(图4b)。作者还通过线性回归,使用聚合权重向量表示每个基因在疾病进展期间的变化率,然后用癌症的标志评估基因集富集。发现Hedgehog信号、Wnt/βcatenin信号等结直肠癌CIN通路上调。
接下来作者证明SCORPION在识别不同条件下基因调控网络差异方面的潜力。独立计算每个网络中622个转录因子中的每个转录因子的转录因子靶向(out度)(图6a)。比较两组发现118个转录因子在右侧结直肠癌中活性增强,而在左侧结直肠癌中靶向性增强的转录因子为287个(图6b)。在左侧结直肠癌的前十大活性转录因子中(图6c),未折叠蛋白反应相关的转录因子NFYA和CEBPG显著富集。在右侧的细胞中(图6d),肿瘤坏死因子(TNF)信号相关的转录因子通过核因子κB。分析中发现的左右两侧结直肠癌差异最显著的驱动因素分别是ZNF350和NFKB2。    
交叉验证部分,首先比较TCGA-COAD和TCGA-READ中左侧和右侧结直肠癌的原发肿瘤患者NFKB2表达的平均生存率,证实了NFKB2表达水平与患者平均生存率的相关性(图6 e)。随后比较了这两种转录因子在肠左侧和右侧原发性结直肠肿瘤中的表达水平(图6f,g)。综上强调SCORPION不仅能够识别影响患者生存的肿瘤内特征,还能够识别新的生物标志物和适当的靶标,为患者开发药物选择。
图4  结直肠癌进展过程中上皮细胞差异网络分析    
图5  结直肠癌进展的基因调控网络
   
图6  左右两侧结直肠癌上皮细胞的调节差异

文章小结
心动了吗!羡慕了吗!名副其实的SCORPION工具,在其他方向的生信分析中也是能大放异彩的呢!有做相似类型研究的小伙伴可要抓紧了,说不定小途下一篇就要向大家推送你的文章哦!想为自己的单细胞转录组数据分析再提提速?或者想应用在其他的疾病分析吗?专业的小途一定帮你实现冲分!

小果还提供思路设计、定制生信分析、文献思路复现;有需要的小伙伴欢迎直接扫码咨询小果,竭诚为您的科研助力!


定制生信分析

服务器租赁

扫码咨询小果


往期回顾

01

1024G存储的生信服务器,两人成团,1人免单!

02

单个数据库用腻了?多数据库“组合拳”带你打开免疫浸润新思路!

03

孟德尔随机化的准备工作,GWAS数据的网站下载方法

04

跟着小果学复现-手把手带你拿下IF=46.9Nature 级别的主成分分析(PCA)图!!