NR clusterizado al 90%

Acabamos de realizar una clusterizacion de la base de  datos de nr (proteinas de NCBI), al 90% de identidad. Para ello se uso el programa MMseq2 para tal tarea.

Se pudo llegar a reducir de 56% el tamaño original de la bd:

  • nr: 538 645 943 seqs
  • nr-clust : 232 490 369 seqs.

Este archivo clusterizado se formateo para Blastp, con mismo nombre: nr-clust.

Espero que eso les ayude en sus investigacion.

PD: estamos tratando de realizar lo mismo con los nucleotidos.

 

Esta entrada fue publicada en Sin categoría. Enlace permanente.

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos necesarios están marcados *