sábado, 8 de febrero de 2025

Una IA de biología se adelantó 500 millones de años de evolución y creó una proteína que no existía

 

Científicos de EvolutionaryScale, una compañía que desarrolla Inteligencia Artificial (IA) para entender la biología, logró que uno de sus modelos de lenguaje grande (LLM) creara una nueva proteína que no existe en la naturaleza.Lo más impresionante es que, para que las condiciones naturales por sí mismas crearan esta proteína, tendrían que pasar unos 500 millones de años de evolución.

EvolutionaryScale creó un modelo de IA al que llamaron ESM3, que es capaz de programar y crear bajo un concepto al que llaman “código de la vida”. Esto bajo la premisa de que la biología sería “programable” a niveles que los científicos aún no logran entender.Esta se parece solo en un 58% a la proteína que más se le acerca de las ya existentes. “A partir de la tasa de diversificación de las GFP encontradas en la naturaleza, estimamos que esta generación de una nueva proteína fluorescente es equivalente a simular más de 500 millones de años de evolución“, explican.

Con esta capacidad, ESM3 se convirtió en el primer modelo de IA generativa para biología que puede razonar simultáneamente sobre la secuencia, estructura y función de las proteínas.

¿Cómo lo hicieron? Básicamente, como funcionan todos los modelos de lenguaje grande: entrenamiento. Los científicos la entrenaron con datos de miles de millones de proteínas para mostrarle la diversidad de la Tierra, “desde la selva amazónica hasta las profundidades de los océanos”, aseguran.Además, lo hicieron “a escala”. Esto significa que a medida que aumentan los parámetros, datos y cómputo, la IA va desarrollando capacidades emergentes. Así es como funcionan los modelos de lenguaje grandes comúnmente, pero esto encaja perfectamente con la biología misma.

“Los modelos de lenguaje operan sobre unidades discretas o tokens. Para crear uno que pueda razonar sobre tres de las propiedades biológicas fundamentales de las proteínas (secuencia, estructura y función), tuvimos que transformar la estructura y la función tridimensionales en alfabetos discretos y construir una forma de escribir cada estructura tridimensional como una secuencia de letras. Esto permite entrenar ESM3 a escala, desbloqueando capacidades generativas emergentes. El vocabulario de ESM3 une secuencia, estructura y función, todo dentro del mismo modelo de lenguaje”, señala EvolutionaryScale.

No hay comentarios:

Publicar un comentario