利用gatk进行变异检测的n步走战略之一
生信人R语言学习必备
立刻拥有一个Rstudio账号
开启升级模式吧
(56线程,256G内存,个人存储1T)

GATK(Genome Analysis Toolkit)是由Broad Institute开发的一款广泛使用的基因组分析软件。
它被广泛用于变异检测、变异过滤、注释等基因组数据分析任务中。GATK提供了一套强大的算法和工具,支持多种变异检测和基因组分析任务,如SNP和indel检测、CNV检测、基因组重排、变异标记和注释等。GATK已经成为广泛使用的高通量测序数据分析工具之一,尤其在人类基因组项目和癌症研究中得到广泛应用。
GATK主要提供以下几个方面的功能
1.数据预处理:包括质量控制、序列比对和比对质量控制、局部重比对、碱基质量控制等。
2.变异检测:包括SNP和indel检测、CNV检测等。
3.基因组注释:对检测到的变异进行注释,包括基因型注释、功能注释、变异频率注释等。
4.基因组重排:对基因组进行分块,提高分析效率。
5.基因组分析管道:整合各种分析步骤,提供一条完整的基因组分析流程。
本期小果就带大家感受一下gatk的魅力!数据还是之前处理过的拟南芥20个样本的数据集。
先安装一下软件:
conda create --name gatk -y
conda activate gatk
conda install -c bioconda gatk -y
# 使用GATK工具的CreateSequenceDictionary命令创建fasta文件的字典文件
gatk CreateSequenceDictionary
-R /media/desk16/iyun003/download/ninanjie_data/GCF_000001735.4_TAIR10.1_genomic.fna
-O /media/desk16/iyun003/GBS_test/ERR_SRA/tair_gatk_index/tair_gatk.dict
上期已经利用bwa将基因组比对到参考基因组上了,我们等会直接调用这部分数据。
使用gatk的sortsam对sam文件进行排序,注意修改文件路径哦:
# 定义参考序列文件路径
REF=/media/desk16/iyun003/download/ninanjie_data/GCF_000001735.4_TAIR10.1_genomic.fna
# 循环读取样本名
for sample in $(cat /media/desk16/iyun003/GBS_test/ERR_SRA/sample.txt); do
# 打印样本名
echo ${sample}
# 使用GATK的SortSam工具对SAM格式数据进行排序
gatk SortSam
-I /media/desk16/iyun003/GBS_test/ERR_SRA/tair_sam/${sample}.sam
-O /media/desk16/iyun003/GBS_test/ERR_SRA/tair_sam/${sample}.sort.bam
-R $REF
-SO coordinate --CREATE_INDEX
done
看一下结果,怎么样,你的结果有没有跑出来呢?
好啦,今天的内容暂时就到这里了,我们下期继续!
欢迎使用:云生信 – 学生物信息学 (biocloudservice.com)
如果想用服务器可以联系微信:18502195490(快来联系我们使用吧!)

扫码加小果
领取生信大礼包
点击“阅读原文”立刻拥有
↓↓↓