¿Qué es lo que contiene nuestro genoma?
Por Lluís Montoliu Parece una pregunta sencilla: ¿qué es lo que hay en nuestro genoma? ¿Qué albergan los núcleos de nuestras células? Probablemente, muchas personas, rápidamente responderían que, efectivamente, lo que encontramos en el núcleo de nuestras células, en nuestros genomas, es información genética, el ácido desoxirribonucleico (ADN) o su símbolo internacional DNA, constituido por grupos de letras A, G, T o C, que corresponden a adenina, guanina, timina y citosina, las bases nitrogenadas que forman el código genético.  Pero, ¿cuántas letras como esas hay en nuestro genoma? Aproximadamente unos tres mil millones de letras (3x109), en cada núcleo de cada célula de nuestro cuerpo. Lo que también sabemos es que estas letras no están elegidas ni ordenadas al azar, sino que contienen información genética, las pautas de lectura de nuestros genes, tienen un sentido, como palabras en un libro (en el que tampoco las 28 letras del alfabeto están distribuidas al azar sino organizadas en palabras, con sentido), que dirigirán la síntesis posterior de nuestras proteínas, las que finalmente realizarán múltiples funciones en nuestras células. Sigamos con las preguntas: ¿cuántos genes tenemos en nuestro genoma?Esta pregunta ya empieza a ser un poco más difícil de contestar, pues la respuesta depende fundamentalmente de cómo definamos un gen.¿Qué es un gen? El concepto ha evolucionado desde las primeras propuestas clásicas, basadas en nuestro conocimiento inicial de genética bacteriana, hasta los genes actuales en nuestros genomas. La definición de gen actual incluye no solamente aquellas secuencias de DNA que codifican para la información que dirigirá la síntesis de proteínas sino también todas las secuencias de DNA adicionales, necesarias para que las primeras puedan ejecutar correctamente su función. Así pues, en la actualidad, combinando nuestro conocimiento de muchos genes con las predicciones bioinformáticas de secuencias de DNA que pudieran comportarse como genes, se ha llegado a un consenso y hemos acordado que nuestro genoma contiene entre 22 000 y 25 000 genes. (Utilizaré la estimación de 25 000 genes para el resto de este recurso, pues suele ser el número más frecuentemente utilizado en la actualidad.) Este es un número aparentemente reducido de genes, inesperadamente pequeño, pues las primeras estimaciones del número de genes que debía contener nuestro genoma hablaban de unos 100 000 genes. Estas previsiones se confirmaron como inciertas, excesivas, y el número real de genes que tenemos es cuatro veces inferior.  
Otros organismos menos complejos que nosotros tienen números relativamente similares de genes. Por ejemplo, el gusano Caenorhabditis elegans (en la foto en movimiento), con apenas un millar de células en su cuerpo, tiene un número de genes muy similar, unos 20 500 genes. El genoma de la mosca de la fruta (foto de la derecha), o del vinagre, la Drosophila melanogaster, tiene unos 14 000 genes. Sigamos progresando. Si nuestro genoma tiene tres mil millones de letras y en ellas está la información de unos veinticinco mil genes, podríamos asumir o deducir que la mayor parte del genoma está dedicada a contener las pautas de lectura de estos genes. Es decir, podríamos deducir el tamaño promedio de un gen dividiendo el número de letras que tiene nuestro genoma por el número de genes. Haciendo la división saldría en aproximadamente 120 000 letras por cada gen. Sin embargo, esto no es así. A pesar de que existen genes que ocupan grandes segmentos de alguno de nuestros cromosomas, la mayor parte de nuestros genes tienen un tamaño muy inferior a este promedio y se sitúan entre 5000 y 20 000 letras por cada gen, lo cual nos deja con una gran cantidad del genoma aparentemente no asociada a ningún gen. Parecería que tenemos más letras de las que en realidad necesitamos. En el párrafo anterior ya hemos visto, mediante una simple operación matemática, que en contra de lo que esperaríamos, una buena parte del genoma no parece contener información asociada a genes. Inicialmente podríamos pensar que la mayor parte del genoma debería contener información génica. Pero en realidad ocurre justamente lo contrario. Apenas un 2% de nuestro genoma, unos 60 millones de letras, es lo que ocupan las secuencias de todos esos 25 000 genes. Por lo tanto, ahora tenemos un problema, esto es: ¿cómo explicamos el resto, la inmensa mayoría del genoma, el 98% restante que parece no contener información genética? ¿Para qué tenemos toda esta inmensa cantidad de letras adicionales que aparentemente no contienen información genética útil? Durante muchos años, antes e incluso poco después de la obtención de la secuencia completa de nuestro genoma, descubrimiento que tuvo lugar en el año 2001, y del de especies de mamífero similares a nosotros, como el ratón, bastantes investigadores consideraban que todas estas letras adicionales, sin aparente función ni información eran basura genética, restos de procesos evolutivos anteriores, nada de lo que tuviéramos que preocuparnos, algo accesorio (e incomprensible) que se consideraba secundario, no esencial.
Sin embargo, otros investigadores, entre los que me cuento, considerábamos que todas las secuencias de DNA habían llegado a nuestros días tras superar los continuos procesos de selección evolutiva. Es decir, si las tenemos con nosotros, si forman parte de nuestro genoma, es por algún motivo importante, contengan o no información génica, codifiquen o no para genes. El hecho de que no sepamos interpretar ni entendamos para qué tenemos tantas letras en nuestro genoma si aparentemente no las usamos no es óbice para desdeñarlas, para ignorarlas. En nuestro caso, en mi laboratorio, y en el de otros muchos colegas de profesión, estas letras adicionales representaban un acicate y suscitaron nuestra curiosidad, nuestro interés de forma explícita. El proyecto ENCODE A escala internacional se creó un consorcio de investigadores e instituciones, con el nombre de proyecto ENCODE, cuyo objetivo principal era descubrir qué información genética contenía esta gran parte, mayoritaria, de nuestros genomas para la cual no teníamos una información razonable. Los resultados del proyecto ENCODE y los de muchos otros grupos de investigación han permitido dilucidar qué es lo que contienen nuestros genomas, más allá de la información de genes. Una primera revisión de este 98% de secuencias, la parte mayoritaria de nuestro genoma, nos permite constatar que encontramos en ella secuencias de DNA denominadas repetidas, o repetitivas, grupos de letras cuya presencia se repite decenas o centenares de miles de veces en el genoma. Hay muchos de estos elementos repetidos, de diferentes tipos, agrupados en distintas familias, entre las que destacan los elementos móviles, o transposones, fragmentos de DNA que son capaces de saltar, de forma autónoma o con ayuda de otros, entre diferentes localizaciones del genoma. Esta plasticidad del genoma, lejos de representar un peligro para los organismos, les aporta el grado necesario de variabilidad genética, de capacidad de adaptación a nivel genómico, a un entorno siempre cambiante. Esto es, la presencia de estos elementos móviles y su capacidad para saltar, unir e interrumpir secuencias de DNA faculta a las mismas para adquirir nuevas funciones (y perder otras, también), lo cual resulta, a veces, en combinaciones inesperadas, mejor adaptadas a los requisitos del organismo para completar su ciclo vital, y, por ello, los portadores de algunos de estos genomas alterados son los que logran transmitir su información genética con mayor eficacia a su descendencia. Con el tiempo, estos genomas mejor adaptados son los que la evolución fija por selección natural. Este es un proceso de cambio continuo. Y esta es una de las primeras funciones que podemos atribuirle a estas secuencias mayoritarias del genoma, repetitivas, el que sean un verdadero motor para la evolución. Pero no acaba ahí la relevancia de estas secuencias mayoritarias de nuestro genoma. Los resultados del proyecto ENCODE y de otros muchos investigadores determinaron que en ellas, en estas secuencias intergénicas (que es así como deben denominarse) se encuentran elementos reguladores de la expresión génica, los interruptores que determinan cuándo un gen debe empezar a funcionar, cuándo debe dejar de hacerlo, cuándo debe encenderse y apagarse, en qué células, en qué momento del desarrollo del organismo es importante que actúe, y cuando debe silenciarse, etc… En definitiva, nada menos que el manual de instrucciones de funcionamiento de los genes. Por lo tanto, allí ocultas, entre el 98% de secuencias de nuestro genoma, dispersas entre secuencias repetitivas, tenemos otro conjunto de secuencias de DNA, de elementos reguladores, que dirigen la expresión, la función, de los genes, que determinan cuándo deben actuar. Por lo tanto, es en el 98% del genoma donde encontramos las secuencias necesarias para ejecutar el programa de genes que reside en el 2% restante del genoma.
En nuestro cuerpo tenemos más de 200 tipos celulares distintos, y cada uno de ellos utiliza algunos, no todos, de estos 25 000 genes que poseen todas las células. Es decir, una célula muscular debe activar, por ejemplo, la transcripción del gen de la miosina, proteína constituyente de la fibra muscular, mientras que una célula neuronal debe activar la transcripción del gen de un neurotransmisor, que permite la comunicación entre neuronas, y una célula del páncreas debe poder activar el gen que determina la síntesis de la hormona insulina. En el DNA del núcleo de estos tres tipos de células musculares, neuronales o glandulares coexisten los tres genes indicados(miosina, neurotransmisor, insulina), pero solamente funciona el que corresponde: solo se transcribe uno en cada tipo celular. El gen de la miosina en la fibra muscular, el gen del neurotransmisor en la neurona y el gen de la insulina en la célula glandular. ¿Cómo es posible?
Los tipos de secuencia Los genes están esencialmente constituidos por secuencias que dirigen la transcripción de la secuencia de DNA (que denominamos promotores); por secuencias que codifican para información génica que acabará convertida en proteínas (que denominamos exones, frecuentemente separados por otras secuencias que no contienen información genética codificante, denominadas intrones) y finalmente por secuencias que determinan el final de la transcripción, que permiten completar la síntesis del RNA que saldrá del núcleo y se dirigirá al citoplasma de la célula para ser traducido y convertido en proteína (a estas secuencias las denominamos terminadores). Ahora bien, con todo ello no basta para que un gen se transcriba en una célula determinada, y no en otra, o empiece a funcionar en algún momento del desarrollo embrionario, y luego se apague en la vida adulta del organismo, cuando ya no es necesario.
Para que el gen funcione (se transcriba) adecuadamente necesitamos otras secuencias de DNA, que pueden estar situadas a gran distancia del propio gen, muy alejadas, y que permitan o interrumpan su función. Son los denominados elementos reguladores de la expresión génica, los verdaderos interruptores que permiten encender y apagar los genes. Existen determinadas proteínas que llamamos factores nucleares o factores de transcripción que detectan estos elementos reguladores y, al interaccionar con ellos, hacen que el gen con el que están asociados empiece a funcionar o se apague. En el primer caso, hablamos de facilitadores o potenciadores de la expresión génica; en el segundo caso hablamos de represores o silenciadores de la función génica. Combinando potenciadores y represores, encendiendo y apagando un gen, cada célula decide en cada momento si un gen tiene que estar activo o inactivo. Y esto es tremendamente importante, esto es lo que permite generar organismos tan complejos como un ser humano, o como cualquier otro ser vivo. Entre los diferentes tipos de elementos reguladores que existen en el 98% de nuestro genoma, además de potenciadores y represores, destacan igualmente los aisladores, o fronteras génicas. Dado que los elementos reguladores circundantes a un gen son los que determinan dónde debe ejecutar su función, podría parecer lógico que todos los genes que deben actuar, por ejemplo, en una célula del hígado estuvieran agrupados, en un mismo lugar del genoma, en el mismo cromosoma. Sin embargo, la lectura atenta de nuestros genomas nos descubre que al lado de este gen que debe funcionar en el hígado, encontramos otro gen que debe funcionar en las neuronas, y justo al lado, otro gen que debe funcionar en el riñón, etc. Es decir, en realidad los 25 000 genes de nuestro genoma están mayoritariamente entremezclados. Genes vecinos tienen funciones diferentes. ¿Cómo consigue el genoma aclararse? ¿Cómo puede un gen funcionar sin interferir con la función de su vecino ni recibir de este influencia alguna? La respuesta está en los aisladores genómicos o fronteras, elementos reguladores (de nuevo presentes en el 98% de nuestro genoma) que delimitan nuestros genes, que los flanquean, y que impiden que la acción positiva de los potenciadores, y negativa de los represores, se extienda más allá del gen que deben regular, es decir, afectando únicamente al gen a regular sin alterar el patrón de expresión, el patrón de funcionamiento de los genes vecinos. Los aisladores son similares a los puntos ortográficos de final de frase, que permiten separar frases consecutivas. Sin estos puntos no entenderíamos el significado de una frase pues lo confundiríamos con palabras que, en realidad, pertenecen ya a otra frase que viene a continuación. Nuestros genomas contienen genes (que ocupan el 2% de nuestro genoma) e instrucciones para ejecutar programas que usan estos genes (que se encuentran en el 98% restante de nuestro genoma). Cada célula de nuestro cuerpo usa un conjunto distinto de genes en un determinado momento. La elección de qué genes usará en cada momento viene determinada por las instrucciones incluidas en los elementos de regulación, que encenderán o apagarán los genes según corresponda. Finalmente, las fronteras génicas garantizan que cada gen funciona de forma autónoma e independiente de sus vecinos, sin interferencias.
Mutaciones y enfermedades asociadas a los genes Cuando algún gen incorpora alguna variación en su secuencia que determina un cambio en la proteína que codifica y esta pasa a dejar de ser activa, deja de ser funcional, decimos que el gen ha incorporado una mutación. Esta es la base molecular de muchas enfermedades de origen genético, de muchas patologías. Sin embargo, cuando se intenta diagnosticar la presencia de estas mutaciones en genes asociados a determinadas enfermedades, mediante secuenciación (mediante la lectura automatizada de la secuencia de DNA de los genes) a veces no se encuentran mutaciones. Esto ocurre en aproximadamente un 20% de pacientes de cada enfermedad. ¿Dónde están estas mutaciones? Efectivamente, en los elementos reguladores, en las secuencias intergénicas, en potenciadores, represores o aisladores, o en cualquier otro elemento de regulación. Se puede alterar la función de un gen y condicionar la aparición de una enfermedad no solamente cambiando la secuencia del propio gen (del 2% del genoma), sino alterando alguno de los elementos reguladores del gen (presentes en el 98% del genoma). Haciendo que este gen se active o apague de forma errónea, en células distintas o en momentos diferentes del desarrollo. Por lo tanto, la existencia de información muy relevante para la función de los genes, más allá de las propias secuencias de los mismos, es probablemente el resultado más importante del proyecto ENCODE, que completa el proyecto Genoma Humano anterior, y nos permite entender no una pequeña parte del genoma sino su práctica totalidad.
|