sanzi服务器上共享目录及文件命名原则

 

共享目录一: /home1/DATA

在这个目录下只存放实验数据与特定数据,目前我建立了六个目录:

clean_reads

只存放clean好的测序read数据。

microarray

只存放芯片数据。

raw_reads

只存放raw的测序read数据。

Illumina_iGenome

存放从Illumina iGenome下载的bowtie2 indexbowtie indexBWA indexgtf文件。并已经相应解压好一份。从目录名可以判断哪个是哪个。为了节省空间,不要每个人都下载一份并解压,需要哪个文件,可从这个目录中拷。

public_data

从网上下载的他人已发表的数据。

temp

存放临时文件。

 

 

 

每套数据(如同个项目的数据)建立一个目录,把所有数据放在这个目录下。目录命名原则:1. 对于我们自己实验室生产的数据,命名为 org_desc_datatypeorg为物种名,desc为该数据的简单描述,datatype为数据类型(如是ChIP-seq,还是RNA-seqRIP-seq等)。坚持一个原则,就是见名知义。新用户通过看到目录名就基本知道这套数据是什么。如,fly_1-4h_embryonic_nucl_ChIP_seq表示果蝇14小时胚胎核小体ChIP-seq数据。

2. 对于合作者提供的数据,与1中相似,只是目录名开始部分为合作者的姓(全拼,第一个字母大写)加上名的每个汉字拼音大写首字母,如我的姓名用JiangCZ表示。如,SunFY_rat_aflatoxin_liver_cancer_RNA_seq表示SunFY组生产的大鼠喂黄曲霉素导致肝癌的肝脏RNA-seq数据。

 

由于每套数据有多个样品,上传数据的同学必需写一个说明文件,统一以命名为README.txt。在这个文件中简单说明实验的设计,每个样本对应哪个数据文件,最好再说明是ChIP-seq,还是RNA-seqRIP-seq?方法是single-end,还是pair-end测序?测多长?

 

 

共享目录二: /home1/gz_DATA

clean_reads

只存放clean好的测序read数据。未解压数据,逐渐废弃。

raw_reads

只存放raw的测序read数据。未解压数据,逐渐废弃。

Project_share

 

video

20122nd CSHL-Asia Epigenetics, Chromatin & Transcription会议视频

 

 

共享目录三: /home/share

这个目录存放共用的非实验数据与资料等,包括参考基因组,基因注释文件,大家写的脚本/程序等。目前我建立了几个目录:

ann

各种模式生物的基因注释文件。

blastdb

blast常用的数据库。

bowtie2_index

bowtie2用的index文件。

BWAIndex

bwa用的index文件。

chrom_seq

各种模式生物的单条染色体序列。

codes

大家自己写的脚本,用与他人分享。每个人以自己的名的每个汉字拼音首字母加上姓的全拼建立一个目录来存放个人脚本。目录名全部小写。如,czjiang

DragonStar2013

2013年在复旦大学举办的IBW龙星教程。[史偈君提供。]

Ebook

电子书或手册等

GeneTrack-1.0.3

Genetrack软件?

genetrack_track

genetrack显示基因、顺式调控元件等各种feature的数据文件。

genetrack_index

genetrack预测核小体或蛋白结合位点的数据文件。

genome

各种物种的参考基因组

gtf

各种物种gtf格式的基因注释文件。很多生物信息软件要用到。如tophatcuffdiff等在分析RNA-seq数据时要用到。

journal_club

存放JCppt文件名统一格式: JC_姓名_YYYY_MM_DD.ppt。如,DuYH_2015_03_12.ppt表示杜艳华2015312日组会的ppt文件。

lab_meeting

存放组会的ppt文件名统一格式: 姓名_YYYY_MM_DD.ppt。如,CaoXK_2012_02_22.ppt表示曹鑫恺2012222日组会的ppt文件。

refGene

下载自UCSC的各种物种的参考基因。

software

存放各种常用软件。下面又建立多个子目录: BioTools存放生物软件;OS存放操作系统,如Linux等;Programming存放编程软件,如PythonR等;OtherTools存放其它软件,如EditPlusEndNoteOrigin等。

test_data

一些软件的测试数据。

 

 

 

 

 

如果需要在上述的/home1/DATA/home/share下面建立一级目录,要事先和我联系。为了尽可能地让资源共享,方便大家使用,提高效率,大家务必遵守以上原则。

 

:

sanzi服务器上跑bowtietophat时需要用index文件,它们都放在/usr/local/src/bowtie-0.12.7/indexes/这个目录中;bowtie2tophat2需要用index2文件,它们都放在/home1/share/bowtie2_index/这个目录中,因此你们都可共用这些index文件。为了能在运行上述软件时直接用这些index文件,你们需要在各自的帐号主目录下的“.bashrc”文件末尾加入:

alias ls="ls --color=auto"

export BOWTIE_INDEXES="/usr/local/src/bowtie-0.12.7/indexes/"

export BOWTIE2_INDEXES="/home/share/bowtie2_index/"

 

#为了能运行sratoolkit各种命令

export PATH="$PATH:/usr/local/src/sratoolkit.2.4.5-2-centos_linux64/bin"

 

#为了能运行blast各种命令和用blast database

export PATH="$PATH:/usr/local/src/ncbi-blast-2.2.30+/bin"

export BLASTDB=”/home/share/blastdb”

 

注意“=”号间不能有空格。最后一个“/”是必需的。其中alias这行是为了在用ls命令显示目录内容时用彩色显示。

 

 

已安装有的软件列表:

软件名与版本号

运行命令

安装路径

说明

perl v5.8.8

perl

/usr/bin/

 

python2.6.6

python

/usr/local/bin/python2.6

系统自带

python2.7.7

python27

/usr/local/src/Python-2.7/bin/python

胡健安装

Java_1.7.0_75

java

/usr/java/jre1.7.0_75

 

R-2.14.2

R

/usr/local/src/R-2.14.2

曹鑫恺安装

 

 

 

 

bedtools v2.23.0

bedtools

/usr/local/src/bedtools2

 

blast-2.2.30+

多命令

/usr/local/src/ncbi-blast-2.2.30+

 

bowtie-0.12.7

bowtie

/usr/local/src/bowtie-0.12.7/

 

bowtie2-2.2.4

bowtie2

/usr/local/src/bowtie2-2.2.4/

 

cufflinks-1.3.0

见下面注释

/usr/local/src/cufflinks-1.3.0.Linux_x86_64

 

cufflinks-2.2.1

见下面注释

/usr/local/src/cufflinks-2.2.1.Linux_x86_64

 

bwa-0.7.12

bwa

/usr/local/src/bwa-0.7.12

 

fastqc_v0.11.2

fastqc

/usr/local/src/FastQC

 

fastx_toolkit-0.0.14

多命令

/usr/local/bin

 

GATK-3.3-0

见下面注释

/usr/local/src/GATK3.3.0

 

liftOver

liftOver

/usr/local/bin

 

macs2.1.0.20140616

macs2

/usr/bin/macs2

胡健安装

picard-tools-1.129

见下面注释

/usr/local/src/picard-tools-1.129

 

samtools-0.1.18

samtools

/usr/local/src/samtools-0.1.18

曹鑫恺安装

sratoolkit.2.4.5

多命令

/usr/local/src/sratoolkit.2.4.5-2-centos_linux64

 

TopHat v1.3.3

tophat

/usr/local/bin/tophat

 

tophat-2.0.13

tophat2

/usr/local/src/tophat-2.0.13

 

 

 

 

 

cd /usr/local/bin

ln -s /usr/local/src/bowtie2-2.2.4/bowtie2  bowtie2

ln -s /usr/local/src/bowtie2-2.2.4/bowtie2-build  bowtie2-build

ln -s /usr/local/src/bowtie2-2.2.4/bowtie2-inspect  bowtie2-inspect

 
ln -s /usr/local/src/cufflinks-2.2.1.Linux_x86_64/cuffcompare cuffcompare2
ln -s /usr/local/src/cufflinks-2.2.1.Linux_x86_64/cuffdiff cuffdiff2
ln -s /usr/local/src/cufflinks-2.2.1.Linux_x86_64/cufflinks cufflinks2
ln -s /usr/local/src/cufflinks-2.2.1.Linux_x86_64/cuffmerge cuffmerge2
ln -s /usr/local/src/cufflinks-2.2.1.Linux_x86_64/cuffnorm cuffnorm2
ln -s /usr/local/src/cufflinks-2.2.1.Linux_x86_64/cuffquant cuffquant2
ln -s /usr/local/src/cufflinks-2.2.1.Linux_x86_64/gffread gffread2
ln -s /usr/local/src/cufflinks-2.2.1.Linux_x86_64/gtf_to_samgtf_to_sam2
 
picard使用方式: (详见: http://broadinstitute.github.io/picard/ 
java jvm-args -jar /usr/local/src/picard-tools-1.129/picard.jar PicardCommandName OPTION1=value1 OPTION2=value2...

 

GATK使用方式: (详见: https://www.broadinstitute.org/gatk/guide/best-practices

java -jar /usr/local/src/GATK3.3.0/GenomeAnalysisTK.jar --help

 

cufflinks-1.3.0有如下命令:

cuffcompare,  cuffdiff,  cufflinks,  cuffmerge,  gffread,  gtf_to_sam

 

cufflinks-2.2.1有如下命令:

cuffcompare2,  cuffdiff2,  cufflinks2,  cuffmerge2,  cuffnorm2,  cuffquant2,  gffread2,  gtf_to_sam2

 

liftOver主要用来转换不同版本基因组之间的坐标。使用方法:

liftOver oldFile map.chain newFile unmapped

oldFile and newFile are in bed format by default, but can be in GFF. The map.chain file has the old genome as the target and the new genome as the query. The map.chain files can be downloaded here. Click the species, then click “LiftOver files”, then choose the right liftOver file.

 

 

已安装有的bowtiebowtie2 index列表:(下载自Illumina_iGenome)

bowtie2 index

 

bowtie index

Species

Index_name

所含染色体

 

Species

Index_name

所含染色体

Human

hg19

chr1~22, X, Y, M

 

Human

hg19

chr1~22, X, Y, M

Mouse

mm9

chr1~19, X, Y, M

 

Mouse

mm9

chr1~19, X, Y, M

Rat

rn5

chr1~20, X, M

 

Rat

rn5

chr1~20, X, M

Rat

 

 

 

Rat

rn4

chr1~20, X, M

Drosophila

dm3

chr2L, 2R, 3L, 3R, 4, X, M, 2LHet, 2RHet, 3LHet, 3RHet, XHet, YHet

 

Drosophila

dm3

chr2L, 2R, 3L, 3R, 4, X, M, 2LHet, 2RHet, 3LHet, 3RHet, XHet, YHet

Drosophila

dm3_6chr

chr2L, 2R, 3L, 3R, 4, X

 

Drosophila

dm3_6chr

chr2L, 2R, 3L, 3R, 4, X

Drosophila

dm3_Het

chr2LHet, 2RHet, 3LHet, 3RHet, XHet, YHet

 

Drosophila

dm3_Het

chr2LHet, 2RHet, 3LHet, 3RHet, XHet, YHet

Drosophila

 

 

 

Drosophila

d_melanogaster_fb5_22

dm3一样,但是染色体名不含”chr”字符

Zebra fish

danRer7

chr1~25, M

 

Zebra fish

danRer7

chr1~25, M

Yeast

 

 

 

Yeast

 

 

E. coli

 

 

 

E. coli

e_coli

 

chmod 775 /usr/local/src/bowtie2-2.2.4/bowtie2

grep ">" /usr/local/src/bowtie-0.12.7/indexes/hg19.fa | less

bowtie2-inspect -n mm9

[czjiang@sanzi bowtie2_index]$ pwd

/home/share/bowtie2_index

bowtie2-build /home/share/genome/dm3_6chr.fa dm3_6chr

bowtie2-build /home/share/genome/dm3_Het.fa dm3_Het

ln -s /home/share/genome/dm3_6chr.fa dm3_6chr.fa

ln -s /home/share/genome/dm3_Het.fa dm3_Het.fa

 

 

已安装有的bwa index列表:(下载自Illumina_iGenome,安装路径: /home/share/BWAIndex)

version0.6.0

 

version0.5.x

Species

Index_name

所含染色体

 

Species

Index_name

所含染色体

Human

hg19

chr1~22, X, Y, M

 

Human

 

 

Mouse

mm9

chr1~19, X, Y, M

 

Mouse

 

 

Rat

rn5

chr1~20, X, M

 

Rat

 

 

Drosophila

dm3

chr2L, 2R, 3L, 3R, 4, X, M, 2LHet, 2RHet, 3LHet, 3RHet, XHet, YHet

 

Drosophila

 

 

Drosophila

dm3_6chr

chr2L, 2R, 3L, 3R, 4, X

 

Drosophila

 

 

Drosophila

dm3_Het

chr2LHet, 2RHet, 3LHet, 3RHet, XHet, YHet

 

Drosophila

 

 

Drosophila

 

 

 

Drosophila

 

 

Zebra fish

danRer7

chr1~25, M

 

Zebra fish

 

 

Yeast

 

 

 

Yeast

 

 

E. coli

 

 

 

E. coli

 

 

Note: the BWA index scheme changed at version 0.6.0 which is different from versions 0.5.x.

[czjiang@sanzi BWAIndex]$ pwd

/home/share/BWAIndex

bwa index -a bwtsw -p dm3_6chr /home/share/genome/dm3_6chr.fa

bwa index -a bwtsw -p dm3_Het /home/share/genome/dm3_Het.fa

ln -s /home/share/genome/dm3_6chr.fa dm3_6chr.fa

ln -s /home/share/genome/dm3_Het.fa dm3_Het.fa

 

 

已安装的gtf列表:(下载自Illumina_iGenome,版本2014-05-23,安装路径: /home/share/gtf)

Species

gtf_name

所含染色体

Human

hg19_full.gtf

chr1~22, X, Y, chr1_gl000191_random, chr1_gl000192_random , chr4_ctg9_hap1, chr4_gl000193_random, chr4_gl000194_random, chr6_apd_hap1, chr6_cox_hap2, chr6_dbb_hap3, chr6_mann_hap4, chr6_mcf_hap5, chr6_qbl_hap6, chr6_ssto_hap7, chr7_gl000195_random, chrUn_gl000211, chrUn_gl000212, chrUn_gl000213 , chrUn_gl000215 , chrUn_gl000218, chrUn_gl000219, chrUn_gl000220, chrUn_gl000222, chrUn_gl000223, chrUn_gl000227 , chrUn_gl000228, chr17_ctg5_hap1, chr17_gl000205_random, chr19_gl000209_random

Human

hg19.gtf

chr1~22, X, Y

Mouse

mm9_full.gtf

chr1~19, X, Y, chr1_random, chr4_random, chr5_random, chr7_random, chr8_random, chr9_random, chr13_random, chr17_random, chrX_random, chrY_random, chrUn_random

Mouse

mm9.gtf

chr1~19, X, Y

Rat

rn5_full.gtf

chr1~20, X, chr1_AABR06109382_random, chr1_AABR06109393_random, chr2_JH620298_random, chr4_AABR06109730_random, chr7_AABR06109980_random, chr7_AABR06109985_random, chr10_JH620370_random, chr11_random, chr12_random, chr13_random, chr14_random, chr15_random, chr16_random, chr17_random, chr18_random, chr19_random, chr20_AABR06110665_random, chrX_AABR06110762_random, chrX_AABR06110835_random

Rat

rn5.gtf

chr1~20, X

Rat

rn4_full.gtf

chr1~20, X, chr1_random, chr2_random, chr3_random, chr4_random, chr5_random, chr6_random, chr7_random, chr8_random, chr9_random, chr10_random, chr11_random, chr12_random, chr13_random, chr14_random, chr15_random, chr16_random, chr17_random, chr18_random, chr19_random, chr20_random, chrX_random, chrUn_random

Rat

rn4.gtf

chr1~20, X

Drosophila

dm3_full.gtf

chr2L, 2R, 3L, 3R, 4, X, 2LHet, 2RHet, 3LHet, 3RHet, XHet, YHet, U, Uextra

Drosophila

dm3_6chr_Het.gtf

chr2L, 2R, 3L, 3R, 4, X, 2LHet, 2RHet, 3LHet, 3RHet, XHet, YHet

Drosophila

dm3_6chr.gtf

chr2L, 2R, 3L, 3R, 4, X

Zebra fish

danRer7_full.gtf

chr1~25, Zv9_NA#, Zv9_scaffold#

Zebra fish

danRer7.gtf

chr1~25

Yeast

 

 

 

 

 

:hg19的版本为2014-06-02rn4的版本为2011-08-30

cut -f1 /home/share/gtf/dm3_6chr.gtf | sort | uniq | less

 

 

已安装的refGene列表:(下载自UCSC,安装路径: /home/share/refGene)

Species

refGene_filename

assembly

下载日期

Human

refGene-hg19.tab

Feb. 2009 (GRCh37/hg19)

2015-03-06

Mouse

refGene-mm10.tab

Dec. 2011 (GRCm38/mm10)

2015-03-06

Mouse

refGene-mm9.tab

July. 2007 (NCBI37/mm9)

2015-03-06

Rat

refGene-rn6.tab

Jul. 2014 (RGSC 6.0/rn6)

2015-03-06

Rat

refGene-rn5.tab

Mar. 2012 (RGSC 5.0/rn5)

2015-03-06

Rat

refGene-rn4.tab

Nov. 2004 (Baylor 3.4/rn4)

2015-03-06

Drosophila

refGene-dm6.tab

Aug. 2014 (BDGP R6+ISO1 MT/dm6)

2015-03-06

Drosophila

refGene-dm3.tab

Apr. 2006 (BDGP R5/dm3)

2015-03-06

Zebra fish

refGene-danRer7.tab

Jul. 2010 (Zv9/danRer7)

2015-03-08

Yeast

sgdGene-sacCer3.tab

Apr. 2011 (SacCer_Apr2011/sacCer3)

2015-03-06

 

 

 

 

:含有常规染色体、异染色体、random、未组装到染色体上的contig等。

 

 

已安装的ann列表:(来自下载自UCSCrefGene,安装路径: /home/share/ann)

Species

filename

Note

Human

hg19-5most-TSS-NM_only.tab

只包含名字以NM_开头的refGene。每个基因只给出TSS最靠5’端(即最上游)的转录本。

Human

hg19-5most-TSS-NR_only.tab

只包含名字以NR_开头的(不编码蛋白的RNA)refGene。每个基因只给出TSS最靠5’端(即最上游)的转录本。

Human

hg19-3most-TTS-NM_only.tab

只包含名字以NM_开头的refGene。每个基因只给出TTS最靠3’端(即最下游)的转录本。

Human

hg19-3most-TTS-NR_only.tab

只包含名字以NR_开头的(不编码蛋白的RNA)refGene。每个基因只给出TTS最靠3’端(即最下游)的转录本。

Human

hg19-unique-TSS-NM_only.tab

只包含名字以NM_开头的refGene。每个基因所有TSS坐标不同的转录本都给出,TSS坐标相同的转录本只给出第一个遇到的。

Human

hg19-unique-TSS-NR_only.tab

只包含名字以NR_开头的(不编码蛋白的RNA)refGene。每个基因所有TSS坐标不同的转录本都给出,TSS坐标相同的转录本只给出第一个遇到的。

Human

hg19-unique-TTS-NM_only.tab

只包含名字以NM_开头的refGene。每个基因所有TTS坐标不同的转录本都给出,TTS坐标相同的转录本只给出第一个遇到的。

Human

hg19-unique-TTS-NR_only.tab

只包含名字以NR_开头的(不编码蛋白的RNA)refGene。每个基因所有TTS坐标不同的转录本都给出,TTS坐标相同的转录本只给出第一个遇到的。

Mouse

mm9-…

命名原则同hg19

Rat

rn6-…

命名原则同hg19

Rat

rn5-…

命名原则同hg19

Rat

rn4-…

命名原则同hg19

Drosophila

dm3-…

命名原则同hg19

Zebra fish

danRer7-…

命名原则同hg19

 

 

 

: mm10dm6、与sacCer3由于格式不同,暂缓给出。研究TSS附近的核小体、HMTF的分布情况,用#-5most-TSS-NM_only.tab#-unique-TSS-NM_only.tab即可。

 

 

已安装有的blast database列表:(下载自NCBI,安装路径: /home/share/blastdb)

db name

note

16SMicrobial.tar.gz

Bacterial and Archaeal 16S rRNA sequences from BioProjects 33175 and 33117

cdd_delta.tar.gz

Conserved Domain Database sequences for use with stand alone deltablast

human_genomic.*tar.gz

Human RefSeq (NC_######) chromosome records with gap adjusted concatenated NT_ contigs

pdbaa.*tar.gz

Sequences for the protein structure from the Protein Data Bank

vector.tar.gz

Vector sequences from 2010, see Note 2 in section 4.

UniVec

For screening for vector contamination

 

 

 

 

For screening for vector contamination, use the UniVec database:

    ftp://ftp.ncbi.nlm.nih.gov/pub/UniVec/

[root@sanzi blastdb]#pwd

/home/share/blastdb

/usr/local/src/ncbi-blast-2.2.30+/bin/update_blastdb.pl 16SMicrobial

blastdbcheck -db pdbaa

makeblastdb -input_type fasta -title UniVec -dbtype nucl -in /home/czjiang/temp/UniVec #[db数据生成在UniVec所在目录,而不是当前工作目录!]

Building a new DB, current time: 03/04/2015 11:37:05

New DB name:   /home/czjiang/temp/UniVec

New DB title:  UniVec

Sequence type: Nucleotide

Keep Linkouts: T

Keep MBits: T

Maximum file size: 1000000000B

Adding sequences from FASTA; added 4626 sequences in 0.634187 seconds.