MIENTRAS TODOS HABLAMOS DE AGENTES IA, EL DINERO PONE EL FOCO EN LOS WORLD MODELS

¿Por qué los «modelos del mundo» son la apuesta tecnológica más seria de la que casi nadie habla todavía?, ¿y por qué quien lo entienda antes va a jugar con ventaja?

Caí hace unos días en un artículo que me llegó por casualidad y que me dejó pensando bastante más de lo que esperaba. Se titula «World Models: The Next Leap Beyond LLMs» (medium.com), y aunque lo firma alguien metido en la parte más técnica de este tema, hay una idea suya que me ha hecho reflexionar desde entonces. Viene a decir algo muy sencillo. La IA que ya conocemos, la de los grandes modelos de lenguaje, es brillante recordando y redactando. Los modelos del mundo son el paso siguiente, el que la hará capaz de prever lo que va a pasar y de actuar en consecuencia. Lo leí, paré, y me puse a tirar del hilo, porque esa distinción, recordar frente a actuar, me pareció de esas cosas que cambian el tablero de juego.

Esto es lo que he podido entender después de seguir investigando sobre el tema, y por qué creo que merece la pena que le prestemos atención antes de que sea evidente. Porque hay un detalle que me ronda desde que empecé a tirar del hilo: mientras la conversación de estos meses gira entera alrededor de los agentes de IA, que son la tendencia del momento, el dinero de verdad, el de quienes más saben de esto, está apostando por algo radicalmente diferente.

Os lo cuento como lo he digerido yo, que no me considero un experto tecnólogo, sino alguien al que le gusta traducir hacia dónde van las cosas y qué significan para una empresa o un negocio. Y lo que he encontrado me parece de las pocas cosas que de verdad merecen la etiqueta de «luces largas», porque no es una mejora de lo que ya tenemos, es un cambio de paradigma.

La IA que usamos sabe de palabras, no de consecuencias

Conviene empezar por reconocer el límite de lo que tenemos, porque es justo ahí donde empuja lo nuevo. Los modelos que usamos hoy aprendieron leyendo prácticamente todo el texto que existe en internet, y por eso son tan buenos contándonos cosas, redactando, resumiendo, encontrando patrones en lo que ya se ha escrito. Pero tienen una carencia que se nota cada vez más: entienden de palabras, no de consecuencias. Saben describir el mundo con una soltura asombrosa, y a la vez no tienen ni idea de qué ocurre cuando alguien actúa sobre él.

Es, salvando las distancias, la diferencia entre quien se ha leído todos los manuales de una fábrica y quien lleva veinte años trabajando dentro de ella. El primero te lo explica todo de memoria. El segundo sabe, sin pensarlo, que, si fuerzas esa máquina a esa hora del turno de noche, en quince minutos tienes la línea parada. Esa segunda forma de saber, la que nace de haber actuado y haber vivido el resultado, es exactamente la que la IA actual no tiene.

Y hay un dato que lo dibuja mejor que cualquier explicación técnica. El texto de internet se ha agotado como material de aprendizaje, hasta el punto de que OpenAI llegó a ofrecer quinientos millones de dólares por una plataforma donde los usuarios comparten vídeo de sus partidas de videojuegos. Pagar esa cifra por vídeo de gente jugando parece una excentricidad, hasta que entiendes el motivo: el vídeo interactivo es lo único que le enseña a una máquina cómo se desarrolla el mundo cuando alguien hace algo y ese algo tiene efectos (medium.com).

Lo que viene tiene nombre, y no es ChatGPT 2.0

El siguiente salto se llama «modelos del mundo», en inglés world models, y lo primero que me costó asumir, y por eso insisto, es que no es una versión mejorada de la IA que ya conocemos. Es otra cosa, construida con otra lógica.

En lugar de aprender de texto, estos modelos aprenden de vídeo y de interacción. Observan miles de horas de cómo se comporta un entorno cuando alguien actúa sobre él, y con eso construyen una especie de motor de la realidad, un simulador con el que puedes hacer la pregunta que la IA de hoy no sabe responder de verdad. La pregunta es «¿y si hago esto?», y la respuesta ya no es un texto plausible, sino una consecuencia coherente que puedes ver desplegarse. Dicho en una sola frase, y me quedo con esta: La IA de hoy te dice qué hacer. Un modelo del mundo te enseña qué pasa si lo haces, antes de que pase de verdad. Ahí está, entera, la diferencia que importa.

Si alguien quiere la explicación un poco más a fondo, ese mismo artículo con el que abría es un buen sitio por donde empezar.

No lo digo yo, lo dice el dinero

Podría ser una moda más, de esas que llenan titulares en enero y desaparecen en marzo, y por eso fui a mirar lo único que rara vez miente, que es dónde está invirtiendo la gente que más sabe.

Yann LeCun, uno de los nombres más respetados de la IA mundial y hasta hace poco jefe de inteligencia artificial de Meta, dejó la compañía a finales de 2025 para fundar una empresa dedicada en exclusiva a esto, con una ronda inicial de más de mil millones de dólares. Su argumento es tan sencillo como demoledor: los modelos de lenguaje predicen texto, no realidad física, y esa brecha limita lo que pueden hacer en cualquier industria que funcione con hechos y no con palabras (IBM.com). No es un caso aislado. World Labs, la empresa de Fei-Fei Li, otro de los pesos pesados de este campo, cerró otra ronda de mil millones en febrero de 2026 con NVIDIA, AMD y Autodesk dentro, y que una empresa de diseño industrial como Autodesk sea de las que más aporta dice bastante sobre el porqué de esto (techloy.com).

Mientras tanto, Google DeepMind presentó en agosto de 2025 un modelo, Genie 3, capaz de generar mundos interactivos realistas en tiempo real a partir de una sola frase de texto, y apenas medio año después, en febrero de 2026, Waymo lo adoptó para entrenar sus coches autónomos dentro de un mundo simulado en lugar de jugarse cada aprendizaje en una carretera real (deepmind.google). Cuando este perfil de personas empuja en la misma dirección y con estas cifras, lo prudente no es comprar nada todavía, pero sí prestar atención antes de que sea una realidad para el resto del mundo.

Para qué sirve esto cuando bajas a la realidad de una empresa

Aquí es donde a mí me interesa de verdad, porque las luces largas sin aterrizaje son humo. Y lo que se está perfilando, ordenándolo de lo más maduro a lo más incipiente, dibuja un mapa bastante claro.

Lo primero y más potente es la posibilidad de ensayar una decisión antes de tomarla. Un modelo del mundo permite probar qué pasaría con una operación, una cadena de suministro o un proceso, y ver la consecuencia simulada antes de mover una sola pieza en la realidad. Es el viejo sueño del gemelo digital, con la diferencia decisiva de que este no se limita a representar el sistema, sino que reacciona a lo que tú haces, igual que reaccionaría el mundo real (venturebeat.com). Y esto es justo por donde están empezando los primeros sectores, la aviación, la medicina, la conducción autónoma, porque permiten practicar situaciones de alto riesgo en un entorno seguro y realista tantas veces como haga falta, sin que un error cueste recursos, dinero o vidas (research.aimultiple.com). El salto de la simulación al mundo físico es inmediato. En robótica y automatización, poder entrenar a una máquina dentro de un mundo simulado y llevarla después al mundo real con pocos ajustes se traduce, para cualquier empresa, en aprender más rápido, gastar mucho menos y no arriesgar ni a equipos ni a personas. Es justo lo que está haciendo Waymo con su flota.

Y queda una cuarta aplicación que casi nadie está señalando y que a mí me parece la más interesante para quien quiera ir por delante. Muchísimas empresas tienen guardadas montañas de vídeos que hoy no utilizan para nada, las cámaras de sus tiendas, las grabaciones de inspección, las imágenes de planta, el material de las cámaras de a bordo de su flota. Ese vídeo pasivo, que ahora mismo no es más que un coste de almacenamiento, es precisamente la materia prima de estos modelos, que aprenden de lo que ya existe en abundancia y solo necesitan añadir un poco de datos de interacción donde de verdad importa (venturebeat.com). Y aquí está la parte accionable, la que de verdad separa al que va por delante: no hace falta comprar nada todavía, basta con dejar de tratar ese vídeo como un coste y empezar a tratarlo como un activo, ordenarlo, etiquetar lo que importa y, sobre todo, no borrarlo. Porque lo que hoy ocupa disco y molesta en la factura de almacenamiento, mañana es justo el material con el que tu empresa va a entrenar. Dicho de otro modo, hay compañías que tienen un activo valioso durmiendo en sus servidores y todavía no lo saben.

La pregunta que da sentido a todo lo demás

No hace falta una gran estrategia para empezar a pensar dónde te toca esto, basta con hacerse una pregunta honesta, que es ¿dónde te sale más caro equivocarte de verdad y con qué frecuencia tomas esa decisión? Cuando lo planteas así, casi se ordena solo. Si tu empresa vive de operaciones donde un fallo físico sale caro o es peligroso, este nuevo modelo te pega de lleno. Si tomas decisiones que pesan muchísimo, pero se dan pocas veces, una inversión grande, un cambio de proceso, la gestión de una crisis, poder ensayar el escenario antes vale oro, precisamente porque no hay ninguna otra forma de practicarlo. Y si acumulas vídeo o datos de interacción que hoy no explotas, tienes ya entre manos el activo del que hablaba. Con que respondas que sí a una sola de esas tres cosas, ya sabes por dónde mirar, y mirar ahora es justo lo que separa al que va un paso por delante del que está a dos pasos por detrás.

Conviene no dejarse llevar

Sería deshonesto venderos esto como una solución cerrada, habría que cogerlo con pinzas y esperar hacia dónde evoluciona. Estos modelos siguen siendo frágiles. La propia comunidad que los investiga dedica sesiones enteras de sus congresos a analizar sus fallos, porque pierden coherencia tras unos minutos de uso, se «olvidan» de los objetos que dejan de estar a la vista y se rompen en cuanto la situación se aleja de lo que vieron durante el entrenamiento (ICLR 2026 Workshop World Models). Estamos en el principio del camino, no en la meta, y quien os asegure que el año que viene esto estará resolviendo vuestra operación, exagera. Pero quien os diga que es más de lo mismo, sencillamente no ha mirado dónde está yendo el dinero ni con quién.

Hacia dónde creo que vamos

Comparto mi lectura sabiendo que todavía no es consenso, que para eso son las luces largas. Creo que el gran salto de la IA en los próximos años no será que escriba mejor, sino que entienda consecuencias, y que pasaremos poco a poco de una IA que nos aconseja a una IA con la que podemos ensayar antes de actuar. Y eso reordena la ventaja competitiva de una forma silenciosa, porque no se la va a llevar quien compre primero la herramienta, entre otras cosas porque aún no hay gran cosa que comprar, sino quien llegue preparado. El que haya empezado a ordenar y a entender el valor de sus datos de interacción, el que tenga identificadas las dos o tres decisiones donde simular la consecuencia le ahorraría más, el que esté siguiendo de cerca a quienes están construyendo esto. La innovación, casi siempre, es ver antes lo que después le parecerá obvio a todo el mundo, y aquí hay una de esas cosas que dentro de un tiempo nos parecerán evidentes.

Una pregunta concreta, y os aseguro que no es retórica porque me interesa de verdad vuestra respuesta: en vuestra empresa, ¿cuál es la decisión que más caro os sale equivocarse y que hoy tomáis prácticamente a ciegas, sin poder ensayarla antes? Porque ahí, exactamente en esa decisión, es donde esto os va a impactar primero, y donde empieza la ventaja del que se adelante.

Felipe Ynzenga

Deja un comentario Cancelar la respuesta

MAGNIFICA HUMANITAS: LA ENCÍCLICA DEL PAPA LEÓN XIV QUE CONVIERTE EL JUICIO HUMANO EN LO ÚNICO QUE NO PODEMOS DELEGAR EN LA IA