一、检查测序数据质量(验货一定要仔细)

1、建立工作目录和其他相关目录(略)

work_dir=/home4/sjshen/project/m6a/GSE29714_Cell
mkdir $work_dir
cd $work_dir

mkdir 0.0_fastq  
mkdir 0.1_fastqc  
mkdir 0.2_fastq_cut  
mkdir 0.3_fastqc_cut  
mkdir 1.1_hisat2
mkdir 1.2_bwa

Tips:在shell编程中,$ 符号意味着变量,是最常用符号之一

 

2、下载公共数据(略)

根据文献找到数据下载地址 GSE29714 SRP007335

wget -i download_list.txt 即可下载

 

3、解压公共数据(略)

cd  ./SRA
for i in *.2
do
echo $i
mv $i ${i/.2/.sra}
done
#--------------------------------------------------------------------
for i in *.sra
do 
echo $i
nohup fastq-dump --gzip --split-3 $i -O ../0.0_fastq > ${i}.log &
done

Tips1:在shell编程中,for循环是常用函数之一,需配合 do 和 done 使用 Tips2:在shell编程中,echo非常重要,他就是”print“! Tips3:在shell编程中,* 是通配符,非常重要,学习正则表达式(你会打开新世界的大门),另外 * 也要谨慎使用(rm -rf * 你懂得) Tips4:fastq-dump是最常用的公共数据解压软件,隶属于sra-toolkit(ncbi),其中–gzip;–split-3(最实用参数);-O 等参数较常用 Tips5:nohup可以将标准输出写到一个文件中以便复查,&表示放后台(可配合fg/bg命令,和Ctrl+Z/Ctrl+C等)

 

4、重命名数据(不要怕烦,不然你会后悔的o(╥﹏╥)o)

fastq_dir=$work_dir/0.0_fastq
echo $fastq_dir
cd $fastq_dir

mv SRR496283.fastq.gz C57BL6_Brain_Sample_1_MeRIP-SYSY.fastq.gz
mv SRR496284.fastq.gz C57BL6_Brain_Sample_1_Non-IP_Control.fastq.gz
mv SRR496285.fastq.gz C57BL6_Brain_Sample_2_Non-IP_Control.fastq.gz
mv SRR496286.fastq.gz C57BL6_Brain_Sample_2_MeRIP-NEB.fastq.gz
mv SRR496287.fastq.gz C57BL6_Brain_Sample_2_MeRIP-SYSY.fastq.gz
mv SRR494613.fastq.gz HEK293T_Sample_1_Non-IP_Control.fastq.gz
mv SRR494614.fastq.gz HEK293T_Sample_1_MeRIP-SYSY.fastq.gz
mv SRR494615.fastq.gz HEK293T_Sample_2_Non-IP_Control.fastq.gz
mv SRR494616.fastq.gz HEK293T_Sample_2_MeRIP-SYSY.fastq.gz
mv SRR494617.fastq.gz HEK293T_Sample_3_Non-IP_Control.fastq.gz
mv SRR494618.fastq.gz HEK293T_Sample_3_MeRIP-NEB.fastq.gz

Tips:基于GEO数据库和SraRunInfo.csv修改

 

5、测序原始数据质控

fastq_dir=$work_dir/0.0_fastq
cd $fastq_dir
for i in *.fastq.gz
do
echo $i
(nohup fastqc -o ../0.1_fastqc -f fastq ./$i >../0.1_fastqc/${i}.fastqc.log) &
done
#--------------------------------------------------------------------
fastqc_dir=$work_dir/0.1_fastqc
cd $fastqc_dir
multiqc -d ./ -dd 5 -n 1.fastq_qc

Tips1:fastqc是最常用的质控软件,由babraham出品,这家机构是个宝,你这辈子绕不过他的,参数非常简便 fastQC真的很fast

  《=== fastqc报告示例 ===》

 

Tips2:multiqc这款软件是集成可视化各类质控的软件,特别好用,一起来解读一下结果 mutiqc真的很multi

  《=== multiqc报告示例 ===》


   

下一页