Autor: Saeed Taghavi – Investigador con doctorado en Fisíca en el Instituto Zapata-Briceño de Neurociencia
La neurociencia ha avanzado históricamente a través de la especialización: investigadores de la visión, del lenguaje o de la audición han desarrollado modelos en relativo aislamiento. TRIBE v2, una colaboración entre Meta FAIR y École Normale Supérieure – PSL, cuestiona esta fragmentación proponiendo un enfoque único e integrado.
En lugar de generar texto o imágenes como la mayoría de los modelos de inteligencia artificial, TRIBE v2 predice patrones de actividad cerebral. Si se le proporciona un fragmento de película, una frase hablada, una pieza musical o un párrafo de texto, devuelve una estimación de cómo respondería la corteza cerebral.
Un mapa unificado del cerebro
Entrenado con datos de resonancia magnética funcional (fMRI) a gran escala de cientos de sujetos expuestos a contenido naturalista, TRIBE v2 aprende una correspondencia única entre estímulos visuales, auditivos y lingüísticos.
El beneficio práctico es inmediato: experimentos clásicos de neurociencia —como presentar rostros para identificar el área fusiforme facial, o comparar frases con listas de palabras para estudiar redes del lenguaje— pueden ahora ejecutarse de forma computacional, sin necesidad de recopilar nuevos datos.
Cuando los autores aplicaron directamente paradigmas experimentales estándar al modelo, este fue capaz de reproducir patrones corticales bien establecidos que nunca había visto explícitamente durante su entrenamiento.
Qué predice (y qué no)
TRIBE v2 predice señales BOLD, es decir, las respuestas hemodinámicas medidas mediante fMRI. Estas constituyen un indicador indirecto y temporalmente impreciso de la actividad neuronal, con un retraso de varios segundos.
En otras palabras, el modelo permite estimar dónde se activa el cerebro de forma general, pero no cómo procesa la información en tiempo real.
Además, el modelo trata al cerebro como un receptor pasivo de estímulos. Sin embargo, los cerebros reales no funcionan así: la atención, las expectativas y los objetivos conductuales modulan profundamente el procesamiento de la información, y TRIBE v2 no captura estos factores.
Por ello, puede ser una buena aproximación en condiciones de percepción pasiva, pero presenta limitaciones importantes cuando se trata de cognición activa o poblaciones clínicas.
De herramienta de laboratorio a capa de ingeniería
Las primeras aplicaciones sugieren usos más amplios. Investigadores ya han combinado TRIBE v2 con sistemas de generación musical mediante IA para explorar cómo el ritmo y la valencia emocional activan redes corticales, sin necesidad de realizar una sola sesión de neuroimagen.
Esta lógica podría extenderse a otros ámbitos como la creación de contenido, el diseño de interfaces o la educación: evaluar el grado de implicación neural de un estímulo de forma computacional antes de invertir en estudios experimentales costosos.
Una herramienta útil, no una revolución
TRIBE v2 predice respuestas promedio a nivel poblacional, no individuales, y generaliza mejor a estímulos similares a aquellos con los que fue entrenado.
Lo que ofrece es una nueva capa computacional reproducible entre el diseño de estímulos y la recogida de datos. Utilizado con criterio, puede hacer que los programas experimentales sean más eficientes y estén mejor guiados por hipótesis.
El prefiltrado computacional no sustituye al trabajo experimental: lo hace más inteligente.
La cuestión clave sigue abierta: ¿son sus predicciones lo suficientemente fieles como para influir en las decisiones reales de los investigadores? Para responderla, será imprescindible una validación sistemática frente a datos neuronales reales.
Para explorar la demo:
https://aidemos.atmeta.com/tribev2
Para leer el artículo original:
https://ai.meta.com/research/publications/a-foundation-model-of-vision-audition-and-language-for-in-silico-neuroscience/