lifehpc服务器上共享目录及文件命名原则

 

共享目录一: /homea1/DATA

在这个目录下只存放实验数据与特定数据,目前我建立了五个目录:

clean_reads

只存放clean好的测序read数据。不存放压缩文件!

microarray

只存放芯片数据。

Illumina_iGenome

存放从Illumina iGenome下载的bowtie indexBWA indexgtf文件。并已经相应解压好一份。从目录名可以判断哪个是哪个。为了节省空间,不要每个人都下载一份并解压,需要哪个文件,可从这个目录中拷。

public_data

从网上下载的他人已发表的数据。

temp

存放临时文件。

 

每套数据(如同个项目的数据)建立一个目录,把所有数据放在这个目录下。目录命名原则:1. 对于我们自己实验室生产的数据,命名为 org_desc_datatypeorg为物种名,desc为该数据的简单描述,datatype为数据类型(如是ChIP-seq,还是RNA-seqRIP-seq等)。坚持一个原则,就是见名知义。新用户通过看到目录名就基本知道这套数据是什么。如,fly_1-4h_embryonic_nucl_ChIP_seq表示果蝇14小时胚胎核小体ChIP-seq数据。

2. 对于合作者提供的数据,与1中相似,只是目录名开始部分为合作者的姓(全拼,第一个字母大写)加上名的每个汉字拼音大写首字母,如我的姓名用JiangCZ表示。如,SunFY_rat_aflatoxin_liver_cancer_RNA_seq表示SunFY组生产的大鼠喂黄曲霉素导致肝癌的肝脏RNA-seq数据。

 

由于每套数据有多个样品,上传数据的同学必需写一个说明文件,统一以命名为README.txt。在这个文件中简单说明实验的设计,每个样本对应哪个数据文件,最好再说明是ChIP-seq,还是RNA-seqRIP-seq?方法是single-end,还是pair-end测序?测多长?

 

 

共享目录二: /homea1/share

这个目录存放共用的非实验数据与资料等,包括参考基因组,基因注释文件,大家写的脚本/程序等。目前我建立了几个目录:

ann

各种模式生物的基因注释文件。

bowtie_indexes

bowtietophat要用的indexgenome序列文件。

codes

大家自己写的脚本,用与他人分享。每个人以自己的名的每个汉字拼音首字母加上姓的全拼建立一个目录来存放个人脚本。目录名全部小写。如,czjiang

genome

各种物种的参考基因组

gtf

各种物种gtf格式的基因注释文件。很多生物信息软件要用到。如tophatcuffdiff等在分析RNA-seq数据时要用到。

lib

放一些编程语言或软件所需的库、模块或包。

test_data

一些软件的测试数据。

 

 

 

 

 

如果需要在上述的/homea1/DATA/homea1/share下面建立一级目录,要事先和我联系。为了尽可能地让资源共享,方便大家使用,提高效率,大家务必遵守以上原则。

 

 

:

lifehpc服务器上跑bowtietophat时需要用index文件,它们都放在/homea1/share/bowtie_indexes/这个目录中,因此你们都可共用这些index文件。为了能在运行上述软件时直接用这些index文件,你们需要在各自的帐号主目录下的“.bashrc”文件末尾加入:

alias ls="ls --color=auto"

export BOWTIE_INDEXES="/homea1/share/bowtie_indexes/"

 

注意“=”号间不能有空格。最后一个“/”是必需的。其中alias这行是为了在用ls命令显示目录内容时用彩色显示。