Las bases de datos Fasta estan instaladas en /scratch/DB. Los archivos aqui presentes son principalmente del sitio ftp de NCBI. Tratamos de realizar las actualisaciones por loe menos 2 veces al semestre.
/ftp://ftp.ncbi.nlm.nih.gov/blast/db/FASTA/ .
nr.gz | non-redundant protein sequence database with entries from GenPept, Swissprot, PIR, PDF, PDB, and RefSeq
nt.gz | nucleotide sequence database, with entries from all traditional divisions of GenBank, EMBL, and DDBJ; excluding bulk divisions (gss, sts, pat, est, htg) and wgs entries. Partially non-redundant.
swissprot.gz | swiss-prot database (last major release)
Se genera tambien una serie de archivos por clados, a partir de nt y nr:
XX-in-nt.fasta.gz : Secuencias nucleotidos de bacteria, fungi, human, phage o virus desde nt.
XX-in-nt-50bp.fasta.gz: Misma que la anterior, pero con secuencias >= 50bp
XX-in-nr.fasta.gz : proteinas de bacteria, fungi, human, phage o virus desde nr.
XX-in-nr-50bp.fasta.gz : Misma que la anterior, pero con secuencias >= 50aa