Notación de los ácidos nucleicos

La notación de los ácidos nucleicos que se utiliza actualmente fue formalizada por primera vez por la Unión Internacional de Química Pura y Aplicada (IUPAC) en 1970.[1]​ Esta notación, universalmente aceptada, utiliza los caracteres romanos G, C, A y T para representar los cuatro nucleótidos que suelen encontrarse en los ácidos desoxirribonucleicos (ADN). Dada la rápida expansión del papel de la secuenciación, la síntesis y el análisis genéticos en la biología, los investigadores se han visto obligados a desarrollar notaciones alternativas para apoyar aún más el análisis y la manipulación de los datos genéticos. Estas notaciones suelen aprovechar el tamaño, la forma y la simetría para lograr estos objetivos.

Notación IUPAC

editar
Símbolos básicos degenerados de la IUPAC[2]
Descripción Símbolo Bases representadas Bases

complementarias[nota 1]

No. A C G T
Adenina A 1 A T
Citosina C C G
Guanina G G C
Timina T T A
Uracilo U U A
Débil W 2 A T W
Fuerte S C G S
Amino M A C K
Ceto K G T M
Purine R A G Y
Pyrimidina Y C T R
No es A[nota 2] B 3 C G T V
No es C[nota 2] D A G T H
No es G[nota 2] H A C T D
No es T[nota 2] V A C G B
Cualquier base N 4 A C G T N
Cero Z 0 Z
  1. Es decir, aquí se leen las bases representadas al revés.
  2. a b c d Representado por la letra siguiente (excluyendo la U).

Los símbolos de las bases BBC en bioquímica son una representación IUPAC[2]​ para una posición en una secuencia de ADN que puede tener múltiples alternativas posibles. No deben confundirse con las bases no canónicas porque cada secuencia particular tendrá de hecho una de las bases regulares. Se utilizan para codificar la secuencia de consenso de una población de secuencias alineadas y se emplean, por ejemplo, en el análisis filogenético para resumir en una sola múltiples secuencias o para las búsquedas BLAST, aunque los símbolos IUPAC degenerados están enmascarados (ya que no están codificados).

Según el sistema de la IUPAC, las nucleobases se representan con las primeras letras de sus nombres químicos: guanina, citosina, adenina y timina.[1]​ Esta taquigrafía también incluye once caracteres de "ambigüedad" asociados a cada posible combinación de las cuatro bases del ADN.[3]​ Los caracteres de ambigüedad se diseñaron para codificar las variaciones posicionales con el fin de informar sobre los errores de secuenciación del ADN, las secuencias de consenso o los polimorfismos de un solo nucleótido. La notación de la IUPAC, incluidos los caracteres de ambigüedad y los mnemónicos sugeridos, se muestra en la Tabla 1.

A pesar de su amplia y casi universal aceptación, el sistema de la IUPAC tiene una serie de limitaciones, derivadas de su dependencia del alfabeto romano. La escasa legibilidad de los caracteres romanos en mayúsculas, que son los que generalmente se utilizan para mostrar los datos genéticos, puede ser la principal de estas limitaciones. El valor de las proyecciones externas para distinguir las letras está bien documentado.[4]​ Sin embargo, estas proyecciones están ausentes en las letras mayúsculas, que en algunos casos sólo se distinguen por sutiles señales internas. Por ejemplo, las letras C y G mayúsculas que representan la citosina y la guanina. Estos caracteres suelen constituir la mitad de los caracteres de una secuencia genética, pero se diferencian por una pequeña tilde interna (según el tipo de letra). Sin embargo, estos caracteres romanos están disponibles en el conjunto de caracteres ASCII más utilizado en las comunicaciones textuales, lo que refuerza la ubicuidad de este sistema.

Otra de las deficiencias de la notación de la IUPAC se debe a que sus once caracteres de ambigüedad se han seleccionado entre los restantes caracteres del alfabeto romano. Los autores de la notación se esforzaron por seleccionar caracteres de ambigüedad con mnemotecnia lógica. Por ejemplo, la S se utiliza para representar la posibilidad de encontrar citosina o guanina en los loci genéticos, ya que ambas forman fuertes interacciones de unión entre cadenas. A la inversa, las interacciones BBC de la timina y la adenina se representan con una W. Sin embargo, no se dispone de mnemotecnias tan convenientes para los demás caracteres de ambigüedad que aparecen en la Tabla 1. Esto ha dificultado el uso de los caracteres de ambigüedad y puede explicar su limitada aplicación.

Notaciones alternativas visualmente mejoradas

editar

Los problemas de legibilidad asociados a los datos genéticos codificados por la IUPAC han llevado a los biólogos a considerar estrategias alternativas para mostrar los datos genéticos. Estos enfoques creativos para visualizar las secuencias de ADN se han basado generalmente en el uso de símbolos distribuidos espacialmente y/o formas visualmente distintas para codificar largas secuencias de ácidos nucleicos. Se han intentado notaciones alternativas para las secuencias de nucleótidos, pero la aceptación general ha sido escasa. A continuación se resumen varios de estos enfoques.

Proyección de pentagramas

editar
 
La proyección de pentagramas utiliza puntos distribuidos espacialmente para mejorar la legibilidad de las secuencias de ADN.

En 1986, Cowin et al. describieron un método novedoso para visualizar la secuencia de ADN conocido como la proyección de pentagrama.[5]​ Su estrategia consistía en codificar los nucleótidos como círculos en una serie de barras horizontales similares a las notas de un pentagrama musical. Como se ilustra en la Figura 1, cada hueco en el pentagrama de cinco líneas correspondía a una de las cuatro bases del ADN. La distribución espacial de los círculos permitía distinguir las bases individuales y comparar las secuencias genéticas con mayor facilidad que los datos codificados por la IUPAC.

El orden de las bases (de arriba abajo, G, A, T, C) se elige de modo que la hebra complementaria pueda leerse girando la proyección al revés.

Símbolos geométricos

editar

Zimmerman et al. adoptaron un enfoque diferente para visualizar los datos genéticos.[6]​ En lugar de basarse en círculos distribuidos espacialmente para resaltar las características genéticas, explotaron cuatro símbolos geométricamente diversos que se encuentran en una fuente informática estándar para distinguir las cuatro bases. Los autores desarrollaron una sencilla macro de WordPerfect para traducir los caracteres de la IUPAC a los símbolos visualmente más distintivos.

DNA Skyline

editar

Con la creciente disponibilidad de editores de fuentes, Jarvius y Landegren idearon un nuevo conjunto de símbolos genéticos, conocido como la fuente DNA Skyline, que utiliza bloques cada vez más altos para representar las diferentes bases de ADN.[7]​ Aunque recuerda a la proyección de pentagramas distribuida espacialmente de Cowin et al., la fuente DNA Skyline es fácil de descargar y permite la traducción a y desde la notación IUPAC simplemente cambiando la fuente en la mayoría de las aplicaciones estándar de procesamiento de textos.

Notaciones ambigráficas

editar
 
AmbiScript utiliza ambigramas para reflejar las simetrías del ADN y respaldar la manipulación y el análisis de datos genéticos.

Los ambigramas (símbolos que transmiten un significado diferente cuando se ven en una orientación distinta) se han diseñado para reflejar las simetrías estructurales que se encuentran en la doble hélice del ADN.[8]​ Al asignar caracteres ambigráficos a bases complementarias (por ejemplo, guanina: b, citosina: q, adenina: n, y timina: u), es posible complementar las secuencias de ADN simplemente girando el texto 180 grados.[9]​ La notación ambigráfica del ácido nucleico también facilita la identificación de los palíndromos genéticos, como los sitios de restricción de las endonucleasas, como secciones de texto que pueden girarse 180 grados sin cambiar la secuencia.

Un ejemplo de notación de ácidos nucleicos ambigua es AmbiScript, una notación de ácidos nucleicos diseñada racionalmente que combina muchas de las características visuales y funcionales de sus predecesoras.[10]​ Su notación también utiliza caracteres desplazados espacialmente para facilitar la revisión visual y el análisis de los datos genéticos. AmbiScript también se diseñó para indicar las posiciones ambiguas de los nucleótidos mediante símbolos compuestos. Esta estrategia pretendía ofrecer una solución más intuitiva al uso de caracteres de ambigüedad propuesto por primera vez por la IUPAC.[3]​ Al igual que las fuentes DNA Skyline de Jarvius y Landegren, las fuentes AmbiScript pueden descargarse y aplicarse a los datos de secuencia codificados por la IUPAC.

Véase también

editar

Referencias

editar
  1. a b IUPAC-IUB Commission on Biochemical Nomenclature (1970). «Abbreviations and symbols for nucleic acids, polynucleotides, and their constituents». Biochemistry (journal) 9 (20): 4022-4027. doi:10.1021/bi00822a023. 
  2. a b Nomenclature Committee of the International Union of Biochemistry (NC-IUB) (1984). «Nomenclature for Incompletely Specified Bases in Nucleic Acid Sequences». Nucleic Acids Research 13 (9): 3021-3030. PMC 341218. PMID 2582368. doi:10.1093/nar/13.9.3021. 
  3. a b Nomenclature Committee of the International Union of Biochemistry (NC-IUB) (1986). «Nomenclature for incompletely specified bases in nucleic acid sequences. Recommendations 1984». Proc. Natl. Acad. Sci. USA 83 (1): 4-8. Bibcode:1986PNAS...83....4O. PMC 322779. PMID 2417239. doi:10.1073/pnas.83.1.4. 
  4. Tinker, M. A. 1963. Legibility of Print. Iowa State University Press, Ames IA.
  5. Cowin, J. E.; Jellis, C. H.; Rickwood, D. (1986). «A new method of representing DNA sequences which combines ease of visual analysis with machine readability». Nucleic Acids Research 14 (1): 509-15. PMC 339435. PMID 3003680. doi:10.1093/nar/14.1.509. 
  6. Zimmerman, P. A.; Spell, M. L.; Rawls, J.; Unnasch, T. R. (1991). «Transformation of DNA sequence data into geometric symbols». BioTechniques 11 (1): 50-52. PMID 1954017. 
  7. Jarvius, J.; Landegren, U. (2006). «DNA Skyline: fonts to facilitate visual inspection of nucleic acid sequences». BioTechniques 40 (6): 740. PMID 16774117. doi:10.2144/000112180. 
  8. Hofstadter, Douglas R. (1985). Metamagical Themas: Questioning the Essence of Mind and Pattern. New York: Basic Books. ISBN 978-0465045662. (requiere registro). 
  9. Rozak, D. A. (2006). «The practical and pedagogical advantages of an ambigraphic nucleic acid notation». Nucleosides, Nucleotides & Nucleic Acids 25 (7): 807-813. PMID 16898419. S2CID 23600737. doi:10.1080/15257770600726109. 
  10. Rozak, David A.; Rozak, Anthony J. (2008). «Simplicity, function, and legibility in an enhanced ambigraphic nucleic acid notation». BioTechniques 44 (6): 811-813. PMID 18476835. doi:10.2144/000112727. Archivado desde el original el 25 de octubre de 2016. Consultado el 20 de abril de 2021.