+34 697 815 915 info@divulganatura.com
Seleccionar p√°gina
FacebooktwitterredditlinkedinFacebooktwitterredditlinkedin

Rocío Bautista Moreno, PhD РUnidad de Bioinformática РSCBI РUniversidad de Málaga

Desde que fuimos capaces de descifrar nuestro c√≥digo gen√©tico ūüߨ siempre nos ha interesado conocer y entender la informaci√≥n que conten√≠a, m√°xime cuando dicha informaci√≥n determina nuestra propia existencia. En este c√≥digo los nucle√≥tidos de las mol√©culas de √°cidos nucleicos se describen en base a cinco letras: A, T, C, G y U; mientras que los amino√°cidos de las prote√≠nas se definen en base a 23 letras.

Estudiar y comparar estas cadenas de c√≥digo ūüďĎ permiti√≥ grandes avances en el conocimiento cient√≠fico. Sin embargo, no fue tarea sencilla. Comparar miles y miles de caracteres necesitaba un poco de ayuda ūüĖ•¬†.

As√≠ que, en 1985, David J. Lipman y William R. Pearson desarrollaron un software ūüíĺ que facilitaba la b√ļsqueda de patrones similares mediante alineamientos entre c√≥digos, es decir, entre secuencias, y lo denominaron FASTA, ¬Ņa qu√© te empieza a sonar ūüė≥ ūü§Ē?

FASTA significaba FAST-All, ‚Äėr√°pido en todo‚Äô,¬† ya que realizaba alineamientos en cualquier tipo de c√≥digo, nucle√≥tidos o prote√≠nas. Se utilizaba FAST-P para trabajar con c√≥digos de amino√°cidos, y FAST-N para trabajar con c√≥digos de nucle√≥tidos. Ni que decir tiene que este formato no tiene nada que ver con el acr√≥nimo FASTA, Fraternidad de Agrupaciones Santo Tom√°s de Aquino, nombre de una Universidad privada ūüŹę en Mar de la Plata, Argentina ūü§Įūü§™.

El formato del archivo de entrada de este software fue r√°pidamente implementado en otras herramientas de b√ļsqueda de patrones o de alineamientos, como: BLAST, Clustal, etc. Os habr√©is dado cuenta que originalmente no se dise√Īo como formato para el almacenaje de c√≥digos gen√©ticos. Sin embargo, a d√≠a de hoy, es el est√°ndar, y todo se lo debemos al legado de ūüĎČ Lipman&Pearson ūüĎŹ. En el FASTA cada secuencia se presentada en un conjunto de l√≠neas de no m√°s de 80 caracteres. La primera comenzaba con el s√≠mbolo ‘>’ seguido de una descripci√≥n. Las l√≠neas posteriores conten√≠an la secuencia en s√≠ misma. Un fichero con m√ļltiples secuencias se obten√≠a concatenando archivos FASTA, los denominados Multifasta.

Los caracteres del c√≥digo pod√≠an mostrarse en may√ļsculas o min√ļsculas, pod√≠an contener – o *, lo que nunca estaba permitido en las secuencias son caracteres num√©ricos.

Hoy en d√≠a, las extensiones del formato FASTA, como contenedor de secuencias, han ido evolucionando y no existe un est√°ndar. Podemos encontrar ficheros FASTA con extensiones .fasta, .fa, .fna, .faa, .ffn, .frn. Esa forma de presentar las secuencias nucleot√≠dicas y aminoac√≠dicas es el est√°ndar en todos los estudios bioinform√°ticos de an√°lisis de secuencias. As√≠ que por favor, nunca¬† ‚õĒÔłŹ utilic√©is un .docx para trabajar con secuencias.

Esperamos que hayáis aprendido algunos datos curiosos. ¡Os esperamos en la próxima entrada!