五、Sample QC (发错货这事,有时挺常见的)

除了 早期测序质控,比对后质控,还有一个质控——实验质控(带生物学意义的质控) deeptools真的很deep

1、preparation(两种模式——全基因组|特定区域)

work_dir=/home4/sjshen/project/m6a/GSE29714_Cell
hisat2_bam_dir=$work_dir/1.1_hisat2/mouse/position_sorted_bam

echo $hisat2_bam_dir
cd $hisat2_bam_dir

(nohup multiBamSummary bins  -p 60 --bamfiles $hisat2_bam_dir/*bam -out ./deeptools/results_whole_region.npz ) &
(nohup multiBamSummary BED-file --BED ./mm10.RefSeq.bed  -p 60 --bamfiles $hisat2_bam_dir/*bam -out ./deeptools_qc/results_gene_region.npz ) &

Tips1:multiBamSummary是deeptools套件的一个函数,主要用于生成下游质控的初始文件 Tips2:默认划bins是10kb一个bin Tips3:mm10.RefSeq.bed 来自 UCSC TABLE broswer

2、Correlation

plotCorrelation -in results_gene_region.npz --corMethod spearman --skipZeros --plotTitle "Spearman Correlation of Read Counts gene region" \
--labels SYSY-MeRIP-rep1 input-rep1 NEB-MeRIP-rep2 SYSY-MeRIP-rep2 input-rep2 --colorMap PiYG \
--whatToPlot heatmap  --plotNumbers -o heatmap_SpearmanCorr_readCounts_gene_region.png --outFileCorMatrix SpearmanCorr_readCounts_gene_region.tab &

plotCorrelation -in results_gene_region.npz --corMethod spearman --skipZeros --plotTitle "Spearman Correlation of Read Counts gene region" \
--labels SYSY-MeRIP-rep1 input-rep1 NEB-MeRIP-rep2 SYSY-MeRIP-rep2 input-rep2 --log1p \
--whatToPlot scatterplot -o heatmap_SpearmanCorr_readCounts_gene_region_2.png &

Tips1:spearman 和 pearson 是最常用的方法,pearson更容易受异常值影响 Tips2:用于判断异常样本 Tips3:文件名太长可以用 –labels 修改 Tips4:可修改颜色

 

heatmap

scatterplot

3、PCA

cd  $hisat2_bam_dir/deeptools_qc

plotPCA --transpose --markers 'o' '>' 'o' 'o' '>' -in results_gene_region.npz -o PCA_readCounts_gene_region.png -T "PCA of read counts gene region" --outFileNameData PCA_readCounts_data_gene_region.tab &

plotPCA --transpose --markers 'o' '>' 'o' 'o' '>' -in results_whole_region.npz -o PCA_readCounts_whole_region.png -T "PCA of read counts whole region" --outFileNameData PCA_readCounts_data_whole_region.tab &

Tips1:PCA是一种降维方法,他将样本的诸多差异(基因|bins|…)浓缩到二维,其中PC1和PC2是区别最大的前两个维度 Tips2:默认取前1000个影响因素 Tips3:用于判断异常样本 Tips4:文件名太长可以用 –labels 修改

 

gene_region范围计算

whole_region范围计算

4、fragment length

work_dir=/home4/sjshen/project/m6a/GSE29714_Cell
hisat2_bam_dir=$work_dir/1.1_hisat2/mouse/position_sorted_bam

for i in $hisat2_bam_dir/*.bam
do
echo $i
(nohup bamPEFragmentSize -p 20 -hist ${i##*/}fragmentSize.png -T "Fragment size of SE MeIP-seq data" --maxFragmentLength 200 --bamfiles  $i  --samplesLabel  ${i##*/}) > ./${i##*/}fragmentSize.log &
done

Tips:主要用于判断片段超声情况,一般m6A大约在100-200nt

5、other

plotFingerprint
plotCoverage
#这两个函数主要检查抗体富集和reads覆盖度,仅供参考


   

上一页
下一页