+34 697 815 915 info@divulganatura.com
Seleccionar página
FacebooktwitterredditlinkedinFacebooktwitterredditlinkedin

En #bioinformática 💻 es usual trabajar con secuencias de #DNA o de #RNA 🧬. Esas secuencias deben tener un identificador que nos permita trabajar con las mismas; sin embargo, en muchas ocasiones no sabemos de dónde proceden estos identificadores. Así que, abramos hilo🧶👇:

👉Los identificadores tipo ‘RefSeqIDs’ son IDs únicos de secuencias de referencia que proceden de la base de datos del NCBI (National Center for Biotechnology Information, https://ncbi.nlm.nih.gov). Se trata de identificadores comprobados y no redundantes. Suelen mostrase con dos letras seguidas de un número. La nomenclatura NG* nos indica una región genómica, la NM* nos indica un mRNA, la NR* nos indica un RNA no codificante, la NP* nos indica una proteína. Cuando estos identificadores comienzan por X* nos están indicando un modelo predictivo. Estos tipo de identificadores son muy utilizados en bases de datos cruzadas. Ejemplo: NM_007294 (mRNA BCRA1).

👉Los identificadores tipo ‘GeneIDs’ son IDs numéricos únicos desde el NCBI. Se deducen a partir de señales de comienzo, fin y/o sitios de procesamiento de exones en una secuencia genómica. No es una anotación descriptiva. El GeneID es igual al EntrezGeneID. GeneID:672(BRACA1).

👉Los identificadores tipo ‘GenNames’ son el nombre del gen y, en muchas ocasiones, se nos presenta como ‘gene symbol’, una abreviatura única de cada gen. Suelen ser nombres cortos y tienen su propias reglas de nomenclatura. En muchas ocasiones pueden tener uno o varios alias, por lo que no es recomendable su uso cuando queremos trabajar con identificadores únicos.

👉Los identificadores tipo ‘EnsemblIDs’ proceden de la base de datos EMBL (EMBL’s European Bioinformatics Institute, https://ebi.ac.uk). Son identificadores únicos y su nomenclatura tiene un significado concreto. La primera parte, ‘ENS’, indica que es un tipo de identificador EnsemblID, las tres letras siguientes indican la especie, las siguientes letras indican el tipo de molécula: E para exón, G para gen, P para proteína. Ejemplo: ENSMUSG(número).

👉Los identificadores tipo ‘UniGenes’ (Unigene cluster ID) son un ID procedente del NCBI en el cual se clusterizaban las secuencias de mRNA del mismo gene. En 2019 se dejó de dar soporte por lo que no es recomendable su uso.

👉Para convertir unos identificadores en otros existen una serie de herramientas, una de las mas utilizadas es Biomart(https://rdocumentation.org/packages/biomaRt/versions/2.28.09).

Esperamos que ahora cuando te enfrentes a una lista de IDs de genes o transcritos puedan identificar fácilmente cuál es su procedencia, en otra ocasión hablaremos de los identificadores proteicos. ¡Nos vemos en el siguiente hilo del @scbi_uma! #Bioinformatics #Genes