GATTACA y coronavirus

Hace un par de semanas salió un estudio digno de comentar. Se trata de un estudio realizado por el Instituto de Salud Carlos III y que en estos momentos es un preprint, es decir, un borrador de artículo científico, todavía no revisado. Hablan de la transmisión del coronavirus en España y del origen, y varios medios de comunicación se hicieron eco:

El análisis genético sugiere que el coronavirus ya circulaba por España a mediados de febrero (El País)

Investigadores españoles concluyen que el coronavirus entró en España a mediados de febrero (ABC)

La secuenciación genética de virus y los árboles filogenéticos

Vamos a empezar con una introducción de cómo se hacen estas cosas, para los que no sabéis de qué va esto del análisis genético. Vamos a imaginar una secuencia, por ejemplo… GATTACA (así al azar). Eso es una secuencia de ADN. Muchos de los virus que nos afectan a los humanos codifican sus genes en ARN, así que nuestra secuencia se volvería GAUUACA.

Ahora vamos a asumir que el virus en origen, el primero que afectó a un humano, tenía esa secuencia. Y un tiempo más tarde encontramos dos virus, en dos esquinas diferentes del mundo, que tienen una secuencia que es GAUGACA. Sabemos que se ha producido una mutación. Eso pasa porque, como ya sabemos que el virus se copia muy rápido, al copiarse rápido comete errores de vez en cuando. Y en lugar de 7 nucleótidos (letras), tiene 29902. Por eso sería muy poco probable que en dos sitios el cambio fuese exactamente el mismo, asumiríamos que uno viene del otro, pero al ser iguales, la única forma que tenemos de saber cual apareció primero, sería saber cuando se aisló cada uno. Si en lugar de ser los dos iguales, tuviésemos GAUGACA y GAUGAGA, ya sabríamos el orden independientemente de la fecha, porque el que tiene dos cambios, viene por acumulación: GAUUACA muta a GAUGACA que muta a GAUGAGA. El último vendría, muy muy probablemente, del segundo. El problema es que como hay muchos virus por el mundo y nos faltan pasos intermedios, hay que hacer muchos números para poner todo junto, porque recordemos que analizamos los cambios en más de 29000 letras. Por suerte, el virus muta poco.

Para saber las letras hay que secuenciar el virus, que es un proceso que lleva varios días (y es caro), y por eso no se hace con todos. Pero muchos países han contribuido con secuencias, de forma que se ha podido construir un mapa parcial, una especie de árbol genealógico del virus. Si queréis curiosear, podéis visitar la versión interactiva en GISAID.

Filodinámica en España

Ahora vamos a ver qué dice el artículo: Phylodynamics of SARS-CoV-2 transmission in Spain

Analizando más de 5000 secuencias en Europa (más las de China), se pueden sacar muchas conclusiones, y ver de dónde vienen las españolas. Lo primero es que el árbol filogenético del virus tiene tres ramas principales, que han llamado S, V y G:

  • S: está principalmente en América del Norte
  • V: en Asia y Europa
  • G: principalmente en Europa

¿Dónde cae el primer caso en España? Ahí viene el problema. Los dos primeros casos que se diagnosticaron fueron en La Gomera y en Mallorca. El primero se sabía que venía de Alemania y el segundo de Reino Unido, pero esos casos se controlaron y no contagiaron a sus contactos. Poco después, durante el mes de febrero, fueron goteando casos en Tenerife, Cataluña, Castellón y Madrid, pero todos estaban ligados a viajes previos a Italia. Pero en los días siguientes empezaron a aparecer muchos más casos y se empezó a sospechar de transmisión dentro de España. Y descubrimos que alguien que había muerto el día 13 de Febrero (y había sido tratado previamente), tenía el virus. Se había perdido la trazabilidad de los casos.

Para saber de dónde vienen los casos tenemos que mirarlos grupo por grupo, aunque a grandes rasgos ya podríamos sacar algunas conclusiones, yo voy directa a los grupos, que por cierto, se llaman “clados”.

El clado S, o por dónde no los veíamos venir

El origen de este clado sabemos que está en Shanghai y se detectó en una muestra de finales de enero. El MRCA (most recent common ancestor, papá virus) de España es de mediados de febrero. Los investigadores no han podido trazar muy bien su entrada en Europa porque los resultados analizando todas las muestras o sólo las de Europa salen ligeramente diferentes, pero apuntan a los Países Bajos o a Inglaterra a mediados de enero (fecha teórica calculada sobre el 18 de enero). El análisis de datos dice, en cualquier caso, que es muy poco probable que entrase directamente a España desde Shanghai, aunque quizá sí desde Asia. En Europa se localizó en una muestra del 24 de enero en Francia.

El clado V, o dónde podemos tener un poco de culpa

El origen de este clado no se puede determinar muy bien, porque las cuentas dicen que apareció sobre el 23 de diciembre (y no se estaban secuenciando virus todavía porque oficialmente… virus, qué virus). A finales de enero se recogieron muestras de este grupo en Francia, de unos turistas chinos. Se divide en dos grupos (subclados). El primero tiene origen en Inglaterra a principios de febrero y el segundo en Noruega o en España (aunque Noruega tiene un poco más de probabilidad). Surgió sobre el 10 de febrero (el subgrupo, se entiende) y claramente faltan datos en medio. Quizá si van apareciendo más secuencias se pueda rellenar el hueco.

El clado G, la madre de la pandemia

Como dije antes, estos se encuentran principalmente en Europa. Representan la mitad de las secuencias que hay, y tenemos más datos sobre ellos. El análisis dice que apareció en Inglaterra sobre el 20 de enero. Sabemos que de allí pasó a Alemania, porque el primero brote que hubo en Alemania deriva de éste. Las secuencias del G que hay en España no tienen una fuente común, no derivan unas de otras simplemente, por lo que tuvo que haber varias entradas diferentes, siendo la primera sobre el 18 de febrero. Aquí hay que destacar también un detalle, y es que pese a que sabemos que hay conexión con el brote de Alemania, se pierde el hilo por el camino porque los alemanes casi no han depositado secuencias, así que los investigadores han tenido que conectar los hilos un poco a ciegas. Si los alemanes añaden más secuencias, quizá se pueda aclarar qué pasó exactamente.

Conclusiones

Tras todo lo dicho, creo que podemos concluir que:

  • El virus entró a España desde Europa
  • Los análisis apuntan a Inglaterra, Países Bajos y Alemania
  • Como mínimo, el virus estaba en España a mediados de febrero
  • Dadas las estimaciones de antepasados comunes, el virus circulaba libremente cuando no sabíamos ni que existía
  • El análisis se limita a los genomas disponibles, falta información
  • Si hay más secuencias, se podrá dibujar mejor el árbol filogenético

Aunque no he revisado en detalle las cuentas porque es algo que se sale de mi campo de conocimiento, los datos coinciden con el árbol de GISAID, así que no se lo han inventado, y lo que queda es que se revise si las fechas aproximadas y los intervalos de confianza que dan tienen sentido. En cualquier caso, tras leer esto, os animo a que volváis a leer las noticias que enlacé al principio y sobretodo a reflexionar si habría sido posible evitar que entrase en España. Curiosamente, ambos periódicos cambiaron sus titulares al poco tiempo… pero yo os he puesto los originales, porque lo primero que se interpreta es lo que es…

Este post apareció primero en mi newsletter, a la que por un módico precio puedes suscribirte para recibir comentarios de las últimas novedades científicas: La newsletter de Carmela. Si prefieres esperar a que los posts lleguen aquí, también puedes apoyar mi trabajo invitándome a un café en Ko-fi:

Deja un comentario