Acabamos de realizar una clusterizacion de la base de datos de nr (proteinas de NCBI), al 90% de identidad. Para ello se uso el programa MMseq2 para tal tarea.
Se pudo llegar a reducir de 56% el tamaño original de la bd:
- nr: 538 645 943 seqs
- nr-clust : 232 490 369 seqs.
Este archivo clusterizado se formateo para Blastp, con mismo nombre: nr-clust.
Espero que eso les ayude en sus investigacion.
PD: estamos tratando de realizar lo mismo con los nucleotidos.