一、检查测序数据质量(验货一定要仔细)
1、建立工作目录和其他相关目录(略)
work_dir=/home4/sjshen/project/m6a/GSE29714_Cell
mkdir $work_dir
cd $work_dir
mkdir 0.0_fastq
mkdir 0.1_fastqc
mkdir 0.2_fastq_cut
mkdir 0.3_fastqc_cut
mkdir 1.1_hisat2
mkdir 1.2_bwa
Tips:在shell编程中,$ 符号意味着变量,是最常用符号之一
2、下载公共数据(略)
根据文献找到数据下载地址 GSE29714 SRP007335
wget -i download_list.txt 即可下载
3、解压公共数据(略)
cd ./SRA
for i in *.2
do
echo $i
mv $i ${i/.2/.sra}
done
#--------------------------------------------------------------------
for i in *.sra
do
echo $i
nohup fastq-dump --gzip --split-3 $i -O ../0.0_fastq > ${i}.log &
done
Tips1:在shell编程中,for循环是常用函数之一,需配合 do 和 done 使用 Tips2:在shell编程中,echo非常重要,他就是”print“! Tips3:在shell编程中,* 是通配符,非常重要,学习正则表达式(你会打开新世界的大门),另外 * 也要谨慎使用(rm -rf * 你懂得) Tips4:fastq-dump是最常用的公共数据解压软件,隶属于sra-toolkit(ncbi),其中–gzip;–split-3(最实用参数);-O 等参数较常用 Tips5:nohup可以将标准输出写到一个文件中以便复查,&表示放后台(可配合fg/bg命令,和Ctrl+Z/Ctrl+C等)
4、重命名数据(不要怕烦,不然你会后悔的o(╥﹏╥)o)
fastq_dir=$work_dir/0.0_fastq
echo $fastq_dir
cd $fastq_dir
mv SRR496283.fastq.gz C57BL6_Brain_Sample_1_MeRIP-SYSY.fastq.gz
mv SRR496284.fastq.gz C57BL6_Brain_Sample_1_Non-IP_Control.fastq.gz
mv SRR496285.fastq.gz C57BL6_Brain_Sample_2_Non-IP_Control.fastq.gz
mv SRR496286.fastq.gz C57BL6_Brain_Sample_2_MeRIP-NEB.fastq.gz
mv SRR496287.fastq.gz C57BL6_Brain_Sample_2_MeRIP-SYSY.fastq.gz
mv SRR494613.fastq.gz HEK293T_Sample_1_Non-IP_Control.fastq.gz
mv SRR494614.fastq.gz HEK293T_Sample_1_MeRIP-SYSY.fastq.gz
mv SRR494615.fastq.gz HEK293T_Sample_2_Non-IP_Control.fastq.gz
mv SRR494616.fastq.gz HEK293T_Sample_2_MeRIP-SYSY.fastq.gz
mv SRR494617.fastq.gz HEK293T_Sample_3_Non-IP_Control.fastq.gz
mv SRR494618.fastq.gz HEK293T_Sample_3_MeRIP-NEB.fastq.gz
Tips:基于GEO数据库和SraRunInfo.csv修改
5、测序原始数据质控
fastq_dir=$work_dir/0.0_fastq
cd $fastq_dir
for i in *.fastq.gz
do
echo $i
(nohup fastqc -o ../0.1_fastqc -f fastq ./$i >../0.1_fastqc/${i}.fastqc.log) &
done
#--------------------------------------------------------------------
fastqc_dir=$work_dir/0.1_fastqc
cd $fastqc_dir
multiqc -d ./ -dd 5 -n 1.fastq_qc
Tips1:fastqc是最常用的质控软件,由babraham出品,这家机构是个宝,你这辈子绕不过他的,参数非常简便 fastQC真的很fast
Tips2:multiqc这款软件是集成可视化各类质控的软件,特别好用,一起来解读一下结果 mutiqc真的很multi