Los mejores modelos de IA, clasificados — Ranking de junio de 2026 para texto, programación, agentes, imagen y vídeo (con fuentes)

Última verificación: 2026-06-15 (SGT/MYT) · Próxima actualización: mediados de julio de 2026. Mindber Data Drop v2026.06. Cada cifra se atribuye a su fuente publicada y su fecha — consulta Método y fuentes más abajo. Los precios son combinados/ilustrativos y cambian con frecuencia; verifícalos contra los precios vigentes de cada proveedor antes de comprometer presupuesto.

Por Mindber Research · Seguimiento de modelos de IA. Cifras contrastadas con los rankings citados el 2026-06-15.

Cómo lo evaluamos: Análisis editorial asistido por IA que agrega resultados publicados de rankings independientes (Artificial Analysis, vals.ai, Scale AI SEAL, tbench.ai, τ²-bench, LMArena) y páginas de precios de los proveedores, a fecha de junio de 2026. Mindber no ejecutó sus propios benchmarks privados y esto no es una prueba práctica del producto. Cada número se atribuye a su origen y fecha; cualquier cifra que no pudimos confirmar contra una fuente activa se descartó, no se adivinó.

La respuesta corta: no existe un único "mejor modelo de IA" en junio de 2026 — existe un mejor modelo por tarea, por presupuesto. Ahora mismo Claude Fable 5 encabeza la capacidad bruta, GPT-5.5 lidera en agentes de programación, Gemini 3.1 Pro es la mejor relación calidad-precio de la frontera, los modelos de pesos abiertos (MiniMax-M3, DeepSeek V4, Qwen3.7 Max) cierran casi toda la brecha por una fracción del precio, Nano Banana 2 y GPT Image lideran en imagen, y Veo 3.1 / Kling 3.0 lideran en vídeo ahora que Sora 2 ha sido retirado.

A continuación encontrarás el desglose completo — y, lo que es más importante, la parte que la mayoría de los rankings omite: qué cifras son reales y cuáles ignorar. Para ver la perspectiva en vivo de Mindber sobre el mismo panorama, consulta el ranking de Model Arena y el ranking semanal de LLM; para comparar dos modelos cara a cara en precio y capacidad, usa la herramienta de comparación.

Tres cifras que definen junio de 2026

Claude Fable 5 — cabeza del Intelligence Index de Artificial Analysis, ~8 puntos por delante del nivel de relación calidad-precio

Artificial Analysis, junio de 2026

83.4%

Codex CLI sobre GPT-5.5 — el líder en programación con agentes en Terminal-Bench 2.1, por delante de Claude Code sobre Opus 4.8 (78.9%)

tbench.ai, junio de 2026

~$0.18

DeepSeek V4 Pro combinado por cada 1M de tokens — calidad cercana a la frontera a aproximadamente una décima parte del precio de los principales modelos cerrados

Artificial Analysis, junio de 2026

Resumen — mejor modelo por categoría (junio de 2026)

Tarea	Mejor opción	Mejor alternativa por valor	La cifra que importa
Texto y razonamiento	Claude Fable 5	Gemini 3.1 Pro / Qwen3.7 Max	AA Intelligence Index 65 vs 57
Programación (modelo)	Claude Fable 5 / Opus 4.8	DeepSeek V4 / MiniMax-M3	SWE-bench Verified — pero lee la advertencia
Agente de programación (herramienta)	GPT-5.5 (Codex CLI)	Claude Opus 4.8 (Claude Code)	Terminal-Bench 2.1: 83.4% vs 78.9%
Agente general / uso de herramientas	GPT-5.5	Familia GLM-5 (tareas de atención al cliente)	Depende del benchmark — no hay ganador universal
Imagen	Nano Banana 2	Seedream 5.0 (volumen)	Arena de preferencia humana + coste por imagen
Vídeo	Veo 3.1 (cinematográfico + audio)	Kling 3.0 (~$0.10/seg)	Sora 2 está cerrando — migra fuera de él
Más barato con calidad de frontera	DeepSeek V4 Pro	MiniMax-M3	~$0.18–0.22 combinado /1M tokens
Salida más rápida	Mercury 2	Gemini 3.1 Flash-Lite	~889 t/s vs ~326 t/s

Cifras de capacidad: Artificial Analysis Intelligence Index, junio de 2026 (381 modelos). Programación: vals.ai SWE-bench Verified + Scale AI SEAL. Agentes: tbench.ai Terminal-Bench 2.1. Atribuimos cada número a su fuente y fecha — consulta Método más abajo.

Qué cambió este mes

La frontera volvió a moverse a finales de mayo y principios de junio:

Claude Fable 5 pasó a disponibilidad general el 9 de junio de 2026 ($10 / $50 por 1M de tokens, contexto de 1M de tokens). Debutó en el #1 del Artificial Analysis Intelligence Index (65) y en lo más alto de SWE-bench Verified (95.0%). Desglosamos el acceso, las salvaguardas y los prompts en la guía de Claude Fable 5, y puedes ver el enfoque de la propia Anthropic en su anuncio.
Claude Opus 4.8 se lanzó el 28 de mayo de 2026 ($5 / $25). Registra un 88.6% en SWE-bench Verified y un 74.6% en Terminal-Bench 2.1 — el punto más fuerte de relación precio-capacidad de la línea Claude. Consulta su ficha de puntuación y la calculadora de costes de Opus 4.8 para las cuentas del punto de equilibrio.
GPT-5.5 (23 de abril de 2026) es el modelo predeterminado de uso diario de OpenAI, con una caída reportada de ~60% en las alucinaciones frente a GPT-5.4. Actualmente lidera la programación con agentes vía Codex; las tarifas vigentes están en la página de precios de OpenAI.
Sora 2 está siendo retirado. OpenAI cerró la web/app de Sora el 26 de abril de 2026; la API se cierra el 24 de septiembre de 2026. No inicies nuevos flujos de vídeo sobre él.
Los pesos abiertos casi alcanzaron a los demás. DeepSeek V4, MiniMax-M3 y Qwen3.7 Max ahora se sitúan a ~0.2 puntos de Gemini 3.1 Pro en SWE-bench Verified — a aproximadamente una décima parte del precio por token.

La conclusión principal: la cima de la tabla es ahora una meseta, no una brecha. Las decisiones interesantes en 2026 tienen que ver con coste, velocidad y encaje — no con perseguir la fila #1.

1) Texto y razonamiento

La cifra de capacidad individual más limpia es el Artificial Analysis Intelligence Index — un compuesto de GPQA Diamond, MMLU-Pro, AIME, LiveCodeBench y varios otros benchmarks, normalizado a una sola puntuación.

#	Modelo	Creador	Intelligence Index	Precio combinado /1M	Contexto
1	Claude Fable 5 (máximo esfuerzo)	Anthropic	65	$7.70	1M
2	Claude Opus 4.8 (max)	Anthropic	61	$3.85	1M
3	GPT-5.5 (xhigh)	OpenAI	60	$4.35	922k
4	GPT-5.5 (high)	OpenAI	59	$4.35	922k
5	Gemini 3.1 Pro Preview	Google	57	$1.74	1M
5	Qwen3.7 Max	Alibaba	57	$1.43	1M
5	Claude Opus 4.7 (max)	Anthropic	57	$3.85	1M
8	Gemini 3.5 Flash	Google	55	$1.31	1M
8	MiniMax-M3 (abierto)	MiniMax	55	$0.22	1M
10	Kimi K2.6 (abierto)	Moonshot	54	$0.70	256k

Fuente: Artificial Analysis Intelligence Index, junio de 2026.

Léelo así: los cinco primeros están separados por ~8 puntos en una amplia batería de razonamiento — lo bastante cerca como para que, en la mayoría de las cargas de trabajo reales, sean intercambiables en calidad. Donde se separan con fuerza es en precio. Gemini 3.1 Pro ofrece razonamiento de índice 57 a $1.74; Qwen3.7 Max lo iguala a $1.43; MiniMax-M3 alcanza el índice 55 a $0.22. Pagar precios de Fable 5 ($7.70 combinado) solo tiene sentido para el 5–10% de tareas genuinamente más difíciles. Si tu gasto está dominado por un alto volumen de llamadas de dificultad media, el nivel de relación calidad-precio no es un compromiso — es el valor predeterminado correcto, y puedes contrastar el equilibrio en los rankings de Mindber.

Preferencia humana vs benchmarks: LMArena (votación A/B a ciegas) y el Intelligence Index miden cosas diferentes — uno capta lo que a la gente le gusta, el otro lo que los modelos pueden hacer. Las familias Claude y Gemini se intercambian la cima del ranking de texto de LMArena, y esos rankings cambian de una semana a otra. Cuando los dos rankings discrepan, esa brecha suele significar que un modelo está sobreajustado o infraajustado para el estilo de chat, no que una fuente esté "equivocada". Esto es exactamente por lo que la metodología de puntuación de Mindber mantiene la capacidad y la preferencia como ejes separados en lugar de colapsarlos en un solo número.

2) Programación

Esta es la categoría con las cifras más engañosas de internet, así que lee con atención.

#	Modelo	SWE-bench Verified	Precio /1M (entrada/salida)
1	Claude Fable 5	95.0%	$10 / $50
2	Claude Opus 4.8	88.6%	$5 / $25
3	GPT-5.5	82.6%	$5 / $30
4	Claude Opus 4.7	~82%	$5 / $25
5	MiniMax-M3 (abierto)	80.5%	$0.30 / $1.20
5	Gemini 3.5 Flash	78.8%	$1.31 combinado

Fuente: vals.ai SWE-bench Verified, junio de 2026. (Las puntuaciones reportadas de Opus 4.7 varían entre 82–88% según la arquitectura — consulta la advertencia.)

⚠️ La comprobación de realidad que la mayoría de los rankings no te dará

SWE-bench Verified está parcialmente saturado y parcialmente memorizado. La propia auditoría de OpenAI encontró que los modelos de frontera pueden reproducir literalmente los parches "gold" de algunas tareas — las 500 incidencias de Python se filtraron en los datos de entrenamiento antes de que el benchmark se publicara ampliamente. OpenAI dejó de reportar las puntuaciones de Verified y ahora remite a SWE-bench Pro en su lugar.

En el ranking estandarizado SEAL de Scale AI (andamiaje idéntico para cada modelo), las cifras se desploman:

Mejor puntuación pública estandarizada: ~59.1% (GPT-5.4 xHigh)
Conjunto comercial privado: ningún modelo supera ~47.1%
Caída típica al pasar de Verified → Pro: 15–35 puntos

Así que cuando veas "95% en SWE-bench", tradúcelo a: "benchmark saturado, la tasa de éxito en el mundo real es aproximadamente la mitad de eso sobre código no visto y más difícil." Usa las cifras de Pro / estandarizadas para decisiones de adquisición, y Verified solo para un ranking relativo aproximado. La lección más profunda es una en la que se apoya con firmeza la metodología de verificación de Mindber: una cifra de benchmark destacada es una hipótesis de partida, no una decisión de compra.

3) Agentes y uso de herramientas

Para el trabajo con agentes, la arquitectura importa tanto como el modelo. El mismo modelo puntúa de forma diferente dentro de Codex CLI que en Claude Code sobre Opus 4.8 o en un andamiaje personalizado — los rankings de agentes clasifican pares de agente + modelo, no modelos por sí solos.

Terminal-Bench 2.1 (operar un ordenador real a través de la terminal — compilar código, configurar servidores, ejecutar flujos de datos):

#	Agente + modelo	Puntuación
1	Codex CLI sobre GPT-5.5	83.4%
2	Claude Code sobre Opus 4.8	78.9%
3	Gemini CLI sobre Gemini 3.1 Pro	70.7% (±2.9)

Fuente: tbench.ai, junio de 2026.

Atención al cliente / uso estructurado de herramientas (τ²-bench): un panorama completamente distinto — los modelos de la familia GLM (p. ej. GLM-4.7-Flash con 98.8%) encabezan las tareas de llamadas a herramientas de retail/aerolíneas. Un modelo que gana en automatización de terminal puede perder en el uso de herramientas de atención al cliente multironda. Elige tu agente según la tarea que realmente ejecutas, no según un único ranking — y si no estás seguro de qué modelos siquiera pertenecen a tu lista de candidatos, parte del directorio de herramientas de IA filtrado a tu caso de uso.

4) Generación de imágenes

La carrera de la imagen se ha dividido en carriles claros — no hay un #1 general, solo un mejor por carril.

Mejor todoterreno / consistencia de personajes: Nano Banana 2 (Gemini 3.1 Flash Image). 4K nativo, mantiene caras y estilos estables a lo largo de las ediciones — ideal para contenido seriado (mascotas, storyboards, campañas). Premium a ~$0.13–0.24/imagen.
Mejor en texto y tipografía: GPT Image (1.5 / 2). Un espacio latente "que piensa" y razona a través de instrucciones espaciales — el único modelo en el que puedes confiar para escribir un titular correctamente. Calificado de forma consistente entre los mejores en Arena.ai por su adherencia al prompt.
Mejor relación calidad-precio / alto volumen: Seedream 5.0 (ByteDance). 4K de calidad de producción a ~$0.026–0.032/imagen — diseñado para catálogos de e-commerce y calendarios de contenido.
Mejor para logos y pósteres: Ideogram v3.
Mejor para fijar marca/estilo y pesos abiertos: Flux 2 Pro (niveles dev/pro/max).
Mejor para prompts en otros idiomas: Qwen Image (fuerte en chino, árabe y español).
Más rápido: Z-Image Turbo (~1 segundo por imagen).

Para creadores del Sudeste Asiático / multilingües: Qwen Image y Seedream manejan prompts en chino y de escritura mixta de forma más fiable que los modelos ajustados a Occidente, y la economía por imagen de Seedream hace realistas las tomas de producto por lotes con un presupuesto reducido. Puedes explorar el campo de la generación de imágenes, con las puntuaciones de Mindber y precios en vivo, en el directorio de descubrimiento.

5) Generación de vídeo

La gran noticia es una despedida: Sora 2 está cerrando (web/app el 26 de abril de 2026; API el 24 de septiembre de 2026). Si lo estás usando, planifica tu migración ahora. Este es el campo que queda:

Mejor calidad cinematográfica + audio nativo: Veo 3.1 (Google). El único modelo que genera diálogo sincronizado a 48kHz — no solo efectos de sonido. Mejor fotorrealismo en sujetos humanos y luz natural. ~$0.15–1.20 por clip de 5 segundos según el nivel.
Mejor relación calidad-precio: Kling 3.0 (Kuaishou). 4K nativo, 60fps, sincronización labial multilingüe, ~$0.10/segundo — el caballo de batalla de la iteración.
Más prometedor en imagen-a-vídeo: Seedance 2.0 (ByteDance). Movimiento estilizado potente y contenido vertical de formato corto.
Nuevo aspirante de frontera: HappyHorse-1.0 (Alibaba). Audio-vídeo conjunto, sincronización labial en 7 idiomas, escalando en el ranking de vídeo de Artificial Analysis; disponible en fal.ai.
Mejor control creativo: Runway Gen-4.5. Pinceles de movimiento, consistencia de escena y un editor de línea de tiempo real — perdió el liderazgo del ranking pero sigue ganando para el trabajo dirigido y de varias tomas.
Mejor HDR: Luma Ray3.14 (HDR nativo de 16 bits).

Nota: las puntuaciones de las arenas de vídeo se miden en escalas diferentes (LMArena texto-a-vídeo vs Artificial Analysis), por lo que las comparaciones de cifras entre rankings no son fiables. Trátalos como líderes de carril, no como una única escalera clasificada.

6) Mejor relación calidad-precio y pesos abiertos (el carril bootstrap)

Si estás lanzando un producto y vigilando los márgenes, esta es la tabla más importante de este informe. Los pesos abiertos están ahora cerca de la frontera a una fracción del coste:

Modelo	Índice	Precio /1M	Por qué elegirlo
Gemini 3.1 Pro	57	$1.74	Mejor valor de la frontera cerrada
Qwen3.7 Max	57	$1.43	Razonamiento de frontera, contexto de 1M, fuerte multilingüe
MiniMax-M3 (abierto)	55	$0.22	Casi de frontera, pesos abiertos, contexto de 1M
Kimi K2.6 (abierto)	54	$0.70	Razonamiento abierto potente
DeepSeek V4 Pro (abierto)	52	$0.18	El caballo de batalla creíble más barato; los aciertos de caché reducen aún más la entrada
GLM-5.1 (abierto)	51	$0.90	Fuerte uso de herramientas / agentes

Fuente: Artificial Analysis, junio de 2026.

La jugada del enrutamiento: la configuración óptima en coste no es un único modelo — es un router. Fija ~80% del tráfico a un caballo de batalla barato (DeepSeek V4 / MiniMax-M3 / un Gemini Flash pequeño) y reserva un modelo de frontera (Opus 4.8 / Fable 5) para el 20% difícil. Bien hecho, esto supera a cualquier suscripción de un solo modelo tanto en coste como en calidad. La economía de esa división — y por qué la tarifa publicada es solo una fracción de la factura real — se desarrolla de principio a fin en El verdadero coste de las herramientas de IA 2026.

7) Velocidad (para tiempo real y cadenas largas de agentes)

Cuando la latencia se acumula a lo largo de muchos pasos secuenciales, el rendimiento (throughput) se convierte en la métrica decisiva:

Mercury 2 (Inception, LLM de difusión) — ~889 tokens/seg
Granite 4.0 H Small (IBM) — ~524 t/s
Step 3.7 Flash — ~385 t/s
gpt-oss-120b (high) — ~338 t/s
Gemini 3.1 Flash-Lite — ~326 t/s

Fuente: velocidad mediana de salida de Artificial Analysis, junio de 2026. Para la experiencia de chat, cualquier cosa por encima de ~150 t/s se siente instantánea; la velocidad importa más en los bucles de agentes y los trabajos por lotes, donde cada segundo extra se multiplica por el número de pasos secuenciales de la cadena.

Cómo elegir un modelo de verdad

Deja de optimizar para la fila #1. Adapta el modelo a la tarea:

Razonamiento más difícil, sin importar el dinero → Claude Fable 5 u Opus 4.8.
Mejor calidad por dólar en la frontera → Gemini 3.1 Pro o Qwen3.7 Max.
Autoalojamiento / residencia de datos / menor coste → MiniMax-M3, DeepSeek V4 o Qwen3.7 Max.
Programación dentro de un agente → GPT-5.5 vía Codex, u Opus 4.8 vía Claude Code.
Imagen — general → Nano Banana 2; texto en imagen → GPT Image; alto volumen → Seedream 5.
Vídeo — cinematográfico + audio → Veo 3.1; valor/iteración → Kling 3.0.
Tiempo real / alto rendimiento → Mercury 2 o un modelo de nivel Flash.

La cuadrícula de decisión de abajo es la misma lógica en un formato que puedes entregar a un comprador:

La cuadrícula de decisión del comprador

Calidad por encima del coste

Razonamiento más difícil

Claude Fable 5 (índice 65) u Opus 4.8 (61)
Vale la pena para el 5–10% de tareas más difíciles
Enruta el trabajo fácil a otra parte — no lo uses por defecto

Calidad por dólar

Mejor valor en la frontera

Gemini 3.1 Pro ($1.74) o Qwen3.7 Max ($1.43)
Índice 57 — a ~8 puntos de la cima
El valor predeterminado correcto para la mayor parte del tráfico de producción

Márgenes o residencia de datos

Menor coste / autoalojamiento

MiniMax-M3 ($0.22), DeepSeek V4 ($0.18)
Pesos abiertos, contexto de 1M, autoalojables
Los aciertos de caché reducen aún más la tarifa de entrada

La arquitectura importa tanto como el modelo

Programación dentro de un agente

GPT-5.5 vía Codex encabeza Terminal-Bench 2.1
Opus 4.8 vía Claude Code está justo detrás
Clasifica pares de agente+modelo, no modelos por sí solos

Mejor por carril, sin un #1 general

Imagen y vídeo

Imagen: Nano Banana 2 / GPT Image / Seedream 5
Vídeo: Veo 3.1 (audio) o Kling 3.0 (valor)
La API de Sora 2 cierra el 24 sep 2026 — migra

La latencia se acumula en los bucles de agentes

Tiempo real / alto rendimiento

Mercury 2 (~889 t/s) o un modelo de nivel Flash
>150 t/s ya se siente instantáneo en el chat
La velocidad es decisiva para lotes + cadenas de varios pasos

Preguntas frecuentes

¿Cuál es el mejor modelo de IA ahora mismo (junio de 2026)?

Para capacidad bruta, Claude Fable 5 lidera el Artificial Analysis Intelligence Index (65). Pero "mejor" depende de la tarea: GPT-5.5 lidera la programación con agentes, Gemini 3.1 Pro es la mejor relación calidad-precio, y modelos abiertos como MiniMax-M3 son los mejores para despliegues sensibles al coste. La perspectiva en vivo de Mindber está en el ranking de Model Arena.

¿Es Claude mejor que GPT-5.5?

En el Intelligence Index compuesto, Claude Fable 5 (65) y Opus 4.8 (61) se sitúan por encima de GPT-5.5 (60). En programación con agentes (Terminal-Bench 2.1), GPT-5.5 vía Codex (83.4%) supera actualmente por poco a Opus 4.8 vía Claude Code (78.9%). Están lo bastante cerca como para que el encaje en el flujo de trabajo y el precio suelan decidir — la calculadora de costes de Opus 4.8 ayuda con el lado económico.

¿Cuál es el mejor modelo de IA gratuito o de código abierto?

MiniMax-M3 (Intelligence Index 55) es el modelo de pesos abiertos cercano a la frontera más fuerte, seguido de Kimi K2.6 (54) y DeepSeek V4 Pro (52). Todos son autoalojables y drásticamente más baratos que los modelos de frontera cerrados.

¿Cuál es el modelo de IA bueno más barato?

DeepSeek V4 Pro (~~$0.18 combinado /1M tokens, índice 52) y MiniMax-M3 (~~$0.22, índice 55) ofrecen calidad cercana a la frontera a aproximadamente una décima parte del precio de los principales modelos cerrados.

¿Cuál es el mejor modelo de IA para programar?

Por modelo: Claude Fable 5 / Opus 4.8 lideran SWE-bench Verified. Por agente de programación: GPT-5.5 (Codex) encabeza Terminal-Bench 2.1. Ten en cuenta que SWE-bench Verified está parcialmente saturado — consulta SWE-bench Pro para una señal del mundo real.

¿Por qué son tan altas las puntuaciones de SWE-bench — son reales?

Trata con cautela las puntuaciones de 90%+ en SWE-bench Verified. El benchmark tiene una contaminación conocida de los datos de entrenamiento; OpenAI dejó de reportarlo. En el ranking estandarizado SEAL de Scale la mejor puntuación pública es ~59%, y ningún modelo supera ~47% en el conjunto privado. El éxito de programación en el mundo real es aproximadamente la mitad del titular de Verified.

¿Cuál es el mejor generador de imágenes con IA en 2026?

Nano Banana 2 para uso general y consistencia de personajes, GPT Image para texto/tipografía, y Seedream 5.0 para producción de alto volumen y sensible al coste.

¿Cuál es el mejor generador de vídeo con IA ahora que Sora ya no está?

Veo 3.1 para calidad cinematográfica con audio sincronizado nativo, y Kling 3.0 para la mejor relación calidad-precio (~$0.10/segundo). La API de Sora 2 se cierra el 24 de septiembre de 2026.

¿Con qué frecuencia se actualiza este ranking?

Mensualmente. Esta es la edición de junio de 2026; la próxima actualización llega a mediados de julio de 2026. Entre ediciones, el ranking de Model Arena y el feed de Novedades siguen los lanzamientos a medida que ocurren.

Método y fuentes

No ejecutamos nuestros propios benchmarks privados ni inventamos puntuaciones. Este ranking agrega resultados publicados de fuentes independientes y atribuye cada cifra a su origen y fecha — esa transparencia es el objetivo, y es el mismo estándar al que nuestra metodología de puntuación somete cada página de producto.

Capacidad / precio / velocidad: Artificial Analysis Intelligence Index (381 modelos), junio de 2026.
Programación: vals.ai (SWE-bench Verified) y Scale AI SEAL (SWE-bench Pro, andamiaje estandarizado), junio de 2026.
Agentes: tbench.ai (Terminal-Bench 2.1) y τ²-bench, junio de 2026.
Preferencia humana: LMArena (votación A/B a ciegas), junio de 2026.
Precios y especificaciones de los proveedores: páginas de precios de Anthropic, OpenAI y Google Gemini, junio de 2026.

Los precios son combinados/ilustrativos y cambian con frecuencia — verifícalos contra los precios vigentes de cada proveedor antes de comprometer presupuesto. Algunos modelos en vista previa de investigación (p. ej. las previews de nivel Mythos) aparecen en los rankings pero no están disponibles de forma general; clasificamos el campo de uso público. Para la imagen completa de lo que un modelo realmente cuesta una vez contados los reintentos, la asimetría de salida y los asientos inactivos, lee El verdadero coste de las herramientas de IA 2026.

¿Detectaste un error o un nuevo lanzamiento que se nos escapó? Esa es la forma más rápida de mejorar un ranking — cuéntanoslo.

Explora más en Mindber: el ranking en vivo de Model Arena · Novedades · el ranking semanal de LLM · el directorio completo de herramientas de IA · todas nuestras guías.

Relacionado en Mindber

Última verificación: 2026-06-15 (SGT/MYT) · Próxima actualización: mediados de julio de 2026. Mindber Data Drop v2026.06. Cada cifra se atribuye a su fuente publicada y su fecha — consulta Método y fuentes más abajo. Los precios son combinados/ilustrativos y cambian con frecuencia; verifícalos contra los precios vigentes de cada proveedor antes de comprometer presupuesto.

Por Mindber Research · Seguimiento de modelos de IA. Cifras contrastadas con los rankings citados el 2026-06-15.

Cómo lo evaluamos: Análisis editorial asistido por IA que agrega resultados publicados de rankings independientes (Artificial Analysis, vals.ai, Scale AI SEAL, tbench.ai, τ²-bench, LMArena) y páginas de precios de los proveedores, a fecha de junio de 2026. Mindber no ejecutó sus propios benchmarks privados y esto no es una prueba práctica del producto. Cada número se atribuye a su origen y fecha; cualquier cifra que no pudimos confirmar contra una fuente activa se descartó, no se adivinó.

Tres cifras que definen junio de 2026

Claude Fable 5 — cabeza del Intelligence Index de Artificial Analysis, ~8 puntos por delante del nivel de relación calidad-precio

Artificial Analysis, junio de 2026

83.4%

Codex CLI sobre GPT-5.5 — el líder en programación con agentes en Terminal-Bench 2.1, por delante de Claude Code sobre Opus 4.8 (78.9%)

tbench.ai, junio de 2026

~$0.18

DeepSeek V4 Pro combinado por cada 1M de tokens — calidad cercana a la frontera a aproximadamente una décima parte del precio de los principales modelos cerrados

Artificial Analysis, junio de 2026

Resumen — mejor modelo por categoría (junio de 2026)

Tarea	Mejor opción	Mejor alternativa por valor	La cifra que importa
Texto y razonamiento	Claude Fable 5	Gemini 3.1 Pro / Qwen3.7 Max	AA Intelligence Index 65 vs 57
Programación (modelo)	Claude Fable 5 / Opus 4.8	DeepSeek V4 / MiniMax-M3	SWE-bench Verified — pero lee la advertencia
Agente de programación (herramienta)	GPT-5.5 (Codex CLI)	Claude Opus 4.8 (Claude Code)	Terminal-Bench 2.1: 83.4% vs 78.9%
Agente general / uso de herramientas	GPT-5.5	Familia GLM-5 (tareas de atención al cliente)	Depende del benchmark — no hay ganador universal
Imagen	Nano Banana 2	Seedream 5.0 (volumen)	Arena de preferencia humana + coste por imagen
Vídeo	Veo 3.1 (cinematográfico + audio)	Kling 3.0 (~$0.10/seg)	Sora 2 está cerrando — migra fuera de él
Más barato con calidad de frontera	DeepSeek V4 Pro	MiniMax-M3	~$0.18–0.22 combinado /1M tokens
Salida más rápida	Mercury 2	Gemini 3.1 Flash-Lite	~889 t/s vs ~326 t/s

Qué cambió este mes

La frontera volvió a moverse a finales de mayo y principios de junio:

Claude Fable 5 pasó a disponibilidad general el 9 de junio de 2026 ($10 / $50 por 1M de tokens, contexto de 1M de tokens). Debutó en el #1 del Artificial Analysis Intelligence Index (65) y en lo más alto de SWE-bench Verified (95.0%). Desglosamos el acceso, las salvaguardas y los prompts en la guía de Claude Fable 5, y puedes ver el enfoque de la propia Anthropic en su anuncio.
Claude Opus 4.8 se lanzó el 28 de mayo de 2026 ($5 / $25). Registra un 88.6% en SWE-bench Verified y un 74.6% en Terminal-Bench 2.1 — el punto más fuerte de relación precio-capacidad de la línea Claude. Consulta su ficha de puntuación y la calculadora de costes de Opus 4.8 para las cuentas del punto de equilibrio.
GPT-5.5 (23 de abril de 2026) es el modelo predeterminado de uso diario de OpenAI, con una caída reportada de ~60% en las alucinaciones frente a GPT-5.4. Actualmente lidera la programación con agentes vía Codex; las tarifas vigentes están en la página de precios de OpenAI.
Sora 2 está siendo retirado. OpenAI cerró la web/app de Sora el 26 de abril de 2026; la API se cierra el 24 de septiembre de 2026. No inicies nuevos flujos de vídeo sobre él.
Los pesos abiertos casi alcanzaron a los demás. DeepSeek V4, MiniMax-M3 y Qwen3.7 Max ahora se sitúan a ~0.2 puntos de Gemini 3.1 Pro en SWE-bench Verified — a aproximadamente una décima parte del precio por token.

La conclusión principal: la cima de la tabla es ahora una meseta, no una brecha. Las decisiones interesantes en 2026 tienen que ver con coste, velocidad y encaje — no con perseguir la fila #1.

1) Texto y razonamiento

#	Modelo	Creador	Intelligence Index	Precio combinado /1M	Contexto
1	Claude Fable 5 (máximo esfuerzo)	Anthropic	65	$7.70	1M
2	Claude Opus 4.8 (max)	Anthropic	61	$3.85	1M
3	GPT-5.5 (xhigh)	OpenAI	60	$4.35	922k
4	GPT-5.5 (high)	OpenAI	59	$4.35	922k
5	Gemini 3.1 Pro Preview	Google	57	$1.74	1M
5	Qwen3.7 Max	Alibaba	57	$1.43	1M
5	Claude Opus 4.7 (max)	Anthropic	57	$3.85	1M
8	Gemini 3.5 Flash	Google	55	$1.31	1M
8	MiniMax-M3 (abierto)	MiniMax	55	$0.22	1M
10	Kimi K2.6 (abierto)	Moonshot	54	$0.70	256k

Fuente: Artificial Analysis Intelligence Index, junio de 2026.

2) Programación

Esta es la categoría con las cifras más engañosas de internet, así que lee con atención.

#	Modelo	SWE-bench Verified	Precio /1M (entrada/salida)
1	Claude Fable 5	95.0%	$10 / $50
2	Claude Opus 4.8	88.6%	$5 / $25
3	GPT-5.5	82.6%	$5 / $30
4	Claude Opus 4.7	~82%	$5 / $25
5	MiniMax-M3 (abierto)	80.5%	$0.30 / $1.20
5	Gemini 3.5 Flash	78.8%	$1.31 combinado

Fuente: vals.ai SWE-bench Verified, junio de 2026. (Las puntuaciones reportadas de Opus 4.7 varían entre 82–88% según la arquitectura — consulta la advertencia.)

⚠️ La comprobación de realidad que la mayoría de los rankings no te dará

En el ranking estandarizado SEAL de Scale AI (andamiaje idéntico para cada modelo), las cifras se desploman:

Mejor puntuación pública estandarizada: ~59.1% (GPT-5.4 xHigh)
Conjunto comercial privado: ningún modelo supera ~47.1%
Caída típica al pasar de Verified → Pro: 15–35 puntos

3) Agentes y uso de herramientas

Terminal-Bench 2.1 (operar un ordenador real a través de la terminal — compilar código, configurar servidores, ejecutar flujos de datos):

#	Agente + modelo	Puntuación
1	Codex CLI sobre GPT-5.5	83.4%
2	Claude Code sobre Opus 4.8	78.9%
3	Gemini CLI sobre Gemini 3.1 Pro	70.7% (±2.9)

Fuente: tbench.ai, junio de 2026.

4) Generación de imágenes

La carrera de la imagen se ha dividido en carriles claros — no hay un #1 general, solo un mejor por carril.

Mejor todoterreno / consistencia de personajes: Nano Banana 2 (Gemini 3.1 Flash Image). 4K nativo, mantiene caras y estilos estables a lo largo de las ediciones — ideal para contenido seriado (mascotas, storyboards, campañas). Premium a ~$0.13–0.24/imagen.
Mejor en texto y tipografía: GPT Image (1.5 / 2). Un espacio latente "que piensa" y razona a través de instrucciones espaciales — el único modelo en el que puedes confiar para escribir un titular correctamente. Calificado de forma consistente entre los mejores en Arena.ai por su adherencia al prompt.
Mejor relación calidad-precio / alto volumen: Seedream 5.0 (ByteDance). 4K de calidad de producción a ~$0.026–0.032/imagen — diseñado para catálogos de e-commerce y calendarios de contenido.
Mejor para logos y pósteres: Ideogram v3.
Mejor para fijar marca/estilo y pesos abiertos: Flux 2 Pro (niveles dev/pro/max).
Mejor para prompts en otros idiomas: Qwen Image (fuerte en chino, árabe y español).
Más rápido: Z-Image Turbo (~1 segundo por imagen).

5) Generación de vídeo

Mejor calidad cinematográfica + audio nativo: Veo 3.1 (Google). El único modelo que genera diálogo sincronizado a 48kHz — no solo efectos de sonido. Mejor fotorrealismo en sujetos humanos y luz natural. ~$0.15–1.20 por clip de 5 segundos según el nivel.
Mejor relación calidad-precio: Kling 3.0 (Kuaishou). 4K nativo, 60fps, sincronización labial multilingüe, ~$0.10/segundo — el caballo de batalla de la iteración.
Más prometedor en imagen-a-vídeo: Seedance 2.0 (ByteDance). Movimiento estilizado potente y contenido vertical de formato corto.
Nuevo aspirante de frontera: HappyHorse-1.0 (Alibaba). Audio-vídeo conjunto, sincronización labial en 7 idiomas, escalando en el ranking de vídeo de Artificial Analysis; disponible en fal.ai.
Mejor control creativo: Runway Gen-4.5. Pinceles de movimiento, consistencia de escena y un editor de línea de tiempo real — perdió el liderazgo del ranking pero sigue ganando para el trabajo dirigido y de varias tomas.
Mejor HDR: Luma Ray3.14 (HDR nativo de 16 bits).

6) Mejor relación calidad-precio y pesos abiertos (el carril bootstrap)

Si estás lanzando un producto y vigilando los márgenes, esta es la tabla más importante de este informe. Los pesos abiertos están ahora cerca de la frontera a una fracción del coste:

Modelo	Índice	Precio /1M	Por qué elegirlo
Gemini 3.1 Pro	57	$1.74	Mejor valor de la frontera cerrada
Qwen3.7 Max	57	$1.43	Razonamiento de frontera, contexto de 1M, fuerte multilingüe
MiniMax-M3 (abierto)	55	$0.22	Casi de frontera, pesos abiertos, contexto de 1M
Kimi K2.6 (abierto)	54	$0.70	Razonamiento abierto potente
DeepSeek V4 Pro (abierto)	52	$0.18	El caballo de batalla creíble más barato; los aciertos de caché reducen aún más la entrada
GLM-5.1 (abierto)	51	$0.90	Fuerte uso de herramientas / agentes

Fuente: Artificial Analysis, junio de 2026.

7) Velocidad (para tiempo real y cadenas largas de agentes)

Cuando la latencia se acumula a lo largo de muchos pasos secuenciales, el rendimiento (throughput) se convierte en la métrica decisiva:

Mercury 2 (Inception, LLM de difusión) — ~889 tokens/seg
Granite 4.0 H Small (IBM) — ~524 t/s
Step 3.7 Flash — ~385 t/s
gpt-oss-120b (high) — ~338 t/s
Gemini 3.1 Flash-Lite — ~326 t/s