







Rocío Bautista Moreno, PhD – Unidad de Bioinformática – SCBI – Universidad de Málaga
Desde que fuimos capaces de descifrar nuestro código genético 🧬 siempre nos ha interesado conocer y entender la información que contenía, máxime cuando dicha información determina nuestra propia existencia. En este código los nucleótidos de las moléculas de ácidos nucleicos se describen en base a cinco letras: A, T, C, G y U; mientras que los aminoácidos de las proteínas se definen en base a 23 letras.

Estudiar y comparar estas cadenas de código 📑 permitió grandes avances en el conocimiento científico. Sin embargo, no fue tarea sencilla. Comparar miles y miles de caracteres necesitaba un poco de ayuda 🖥 .
Así que, en 1985, David J. Lipman y William R. Pearson desarrollaron un software 💾 que facilitaba la búsqueda de patrones similares mediante alineamientos entre códigos, es decir, entre secuencias, y lo denominaron FASTA, ¿a qué te empieza a sonar 😳 🤔?

FASTA significaba FAST-All, ‘rápido en todo’, ya que realizaba alineamientos en cualquier tipo de código, nucleótidos o proteínas. Se utilizaba FAST-P para trabajar con códigos de aminoácidos, y FAST-N para trabajar con códigos de nucleótidos. Ni que decir tiene que este formato no tiene nada que ver con el acrónimo FASTA, Fraternidad de Agrupaciones Santo Tomás de Aquino, nombre de una Universidad privada 🏫 en Mar de la Plata, Argentina 🤯🤪.

El formato del archivo de entrada de este software fue rápidamente implementado en otras herramientas de búsqueda de patrones o de alineamientos, como: BLAST, Clustal, etc. Os habréis dado cuenta que originalmente no se diseño como formato para el almacenaje de códigos genéticos. Sin embargo, a día de hoy, es el estándar, y todo se lo debemos al legado de 👉 Lipman&Pearson 👏. En el FASTA cada secuencia se presentada en un conjunto de líneas de no más de 80 caracteres. La primera comenzaba con el símbolo ‘>’ seguido de una descripción. Las líneas posteriores contenían la secuencia en sí misma. Un fichero con múltiples secuencias se obtenía concatenando archivos FASTA, los denominados Multifasta.

Los caracteres del código podían mostrarse en mayúsculas o minúsculas, podían contener – o *, lo que nunca estaba permitido en las secuencias son caracteres numéricos.
Hoy en día, las extensiones del formato FASTA, como contenedor de secuencias, han ido evolucionando y no existe un estándar. Podemos encontrar ficheros FASTA con extensiones .fasta, .fa, .fna, .faa, .ffn, .frn. Esa forma de presentar las secuencias nucleotídicas y aminoacídicas es el estándar en todos los estudios bioinformáticos de análisis de secuencias. Así que por favor, nunca ⛔️ utilicéis un .docx para trabajar con secuencias.
Esperamos que hayáis aprendido algunos datos curiosos. ¡Os esperamos en la próxima entrada!