Mindber
InicioDescubrirRankingsModel ArenaNovedadesCompararPreciosBlog
Mindber

Directorio independiente para descubrir, comparar y monitorear aplicaciones de IA, agentes de IA y software de automatización por categoría, precios, tráfico, demanda regional, alternativas y señales de actividad verificadas.

Todos los sistemas operativos
ENEnglishCN中文ESEspañolIDIndonesiaVITiếng ViệtTHไทย

Producto

  • Descubrir
  • Rankings
  • Comparar
  • Precios
  • Enviar una herramienta

Recursos

  • Metodología
  • Señales de actividad
  • Metodología de rankings
  • Niveles de verificación
  • Historial de metodología
  • Fuentes de datos
  • Blog
  • Informes

Empresa

  • Acerca de
  • Reclamar un perfil
  • Reportar corrección
  • Contacto

Legal

  • Términos
  • Privacidad
  • Aviso legal
  • DMCA
  • Retirada

Inteligencia asistida por IA, revisada por humanos antes de publicarse. Mindber agrega datos públicos; no es asesoramiento de inversión, legal ni de compra.

Mindber Score™, Mindber Innovation Index™, Mindber Functionality Score™ y Mindber Activity Score™ son marcas comerciales de Mindber.

© 2026 Mindber. Todos los derechos reservados.v2.5
  • Home
  • Discover
  • Rankings
  • Model Arena
  • Compare
  • Sign in
Saltar al contenido principal
BlogLos mejores modelos de IA, clasificados — Ranking de junio de 2026 para texto, programación, agentes, imagen y vídeo (con fuentes)

Los mejores modelos de IA, clasificados — Ranking de junio de 2026 para texto, programación, agentes, imagen y vídeo (con fuentes)

GuíaActualizado 15 de junio de 202616 min de lectura

El mejor modelo de IA en junio de 2026 depende de la tarea: Claude Fable 5 lidera en capacidad, GPT-5.5 en agentes de programación, Gemini 3.1 Pro en relación calidad-precio. Clasificados, con fuentes.

#best AI model 2026#AI model leaderboard#best LLM 2026#best AI model for coding#Claude Fable 5#GPT-5.5#Gemini 3.1 Pro#open-weight models#AI models
Los mejores modelos de IA, clasificados — Ranking de junio de 2026 para texto, programación, agentes, imagen y vídeo (con fuentes) — El mejor modelo de IA en junio de 2026 depende de la tarea: Claude Fable 5 lidera en capacidad, GPT-5.5 en agentes de programación, Gemini 3.1 Pro en relación calidad-precio. Clasificados, con fuentes.

Última verificación: 2026-06-15 (SGT/MYT) · Próxima actualización: mediados de julio de 2026. Mindber Data Drop v2026.06. Cada cifra se atribuye a su fuente publicada y su fecha — consulta Método y fuentes más abajo. Los precios son combinados/ilustrativos y cambian con frecuencia; verifícalos contra los precios vigentes de cada proveedor antes de comprometer presupuesto.

Por Mindber Research · Seguimiento de modelos de IA. Cifras contrastadas con los rankings citados el 2026-06-15.

Cómo lo evaluamos: Análisis editorial asistido por IA que agrega resultados publicados de rankings independientes (Artificial Analysis, vals.ai, Scale AI SEAL, tbench.ai, τ²-bench, LMArena) y páginas de precios de los proveedores, a fecha de junio de 2026. Mindber no ejecutó sus propios benchmarks privados y esto no es una prueba práctica del producto. Cada número se atribuye a su origen y fecha; cualquier cifra que no pudimos confirmar contra una fuente activa se descartó, no se adivinó.

La respuesta corta: no existe un único "mejor modelo de IA" en junio de 2026 — existe un mejor modelo por tarea, por presupuesto. Ahora mismo Claude Fable 5 encabeza la capacidad bruta, GPT-5.5 lidera en agentes de programación, Gemini 3.1 Pro es la mejor relación calidad-precio de la frontera, los modelos de pesos abiertos (MiniMax-M3, DeepSeek V4, Qwen3.7 Max) cierran casi toda la brecha por una fracción del precio, Nano Banana 2 y GPT Image lideran en imagen, y Veo 3.1 / Kling 3.0 lideran en vídeo ahora que Sora 2 ha sido retirado.

A continuación encontrarás el desglose completo — y, lo que es más importante, la parte que la mayoría de los rankings omite: qué cifras son reales y cuáles ignorar. Para ver la perspectiva en vivo de Mindber sobre el mismo panorama, consulta el ranking de Model Arena y el ranking semanal de LLM; para comparar dos modelos cara a cara en precio y capacidad, usa la herramienta de comparación.

Tres cifras que definen junio de 2026

65
Claude Fable 5 — cabeza del Intelligence Index de Artificial Analysis, ~8 puntos por delante del nivel de relación calidad-precio
Artificial Analysis, junio de 2026
83.4%
Codex CLI sobre GPT-5.5 — el líder en programación con agentes en Terminal-Bench 2.1, por delante de Claude Code sobre Opus 4.8 (78.9%)
tbench.ai, junio de 2026
~$0.18
DeepSeek V4 Pro combinado por cada 1M de tokens — calidad cercana a la frontera a aproximadamente una décima parte del precio de los principales modelos cerrados
Artificial Analysis, junio de 2026

Resumen — mejor modelo por categoría (junio de 2026)

TareaMejor opciónMejor alternativa por valorLa cifra que importa
Texto y razonamientoClaude Fable 5Gemini 3.1 Pro / Qwen3.7 MaxAA Intelligence Index 65 vs 57
Programación (modelo)Claude Fable 5 / Opus 4.8DeepSeek V4 / MiniMax-M3SWE-bench Verified — pero lee la advertencia
Agente de programación (herramienta)GPT-5.5 (Codex CLI)Claude Opus 4.8 (Claude Code)Terminal-Bench 2.1: 83.4% vs 78.9%
Agente general / uso de herramientasGPT-5.5Familia GLM-5 (tareas de atención al cliente)Depende del benchmark — no hay ganador universal
ImagenNano Banana 2Seedream 5.0 (volumen)Arena de preferencia humana + coste por imagen
VídeoVeo 3.1 (cinematográfico + audio)Kling 3.0 (~$0.10/seg)Sora 2 está cerrando — migra fuera de él
Más barato con calidad de fronteraDeepSeek V4 ProMiniMax-M3~$0.18–0.22 combinado /1M tokens
Salida más rápidaMercury 2Gemini 3.1 Flash-Lite~889 t/s vs ~326 t/s

Cifras de capacidad: Artificial Analysis Intelligence Index, junio de 2026 (381 modelos). Programación: vals.ai SWE-bench Verified + Scale AI SEAL. Agentes: tbench.ai Terminal-Bench 2.1. Atribuimos cada número a su fuente y fecha — consulta Método más abajo.

Qué cambió este mes

La frontera volvió a moverse a finales de mayo y principios de junio:

  • Claude Fable 5 pasó a disponibilidad general el 9 de junio de 2026 ($10 / $50 por 1M de tokens, contexto de 1M de tokens). Debutó en el #1 del Artificial Analysis Intelligence Index (65) y en lo más alto de SWE-bench Verified (95.0%). Desglosamos el acceso, las salvaguardas y los prompts en la guía de Claude Fable 5, y puedes ver el enfoque de la propia Anthropic en su anuncio.
  • Claude Opus 4.8 se lanzó el 28 de mayo de 2026 ($5 / $25). Registra un 88.6% en SWE-bench Verified y un 74.6% en Terminal-Bench 2.1 — el punto más fuerte de relación precio-capacidad de la línea Claude. Consulta su ficha de puntuación y la calculadora de costes de Opus 4.8 para las cuentas del punto de equilibrio.
  • GPT-5.5 (23 de abril de 2026) es el modelo predeterminado de uso diario de OpenAI, con una caída reportada de ~60% en las alucinaciones frente a GPT-5.4. Actualmente lidera la programación con agentes vía Codex; las tarifas vigentes están en la página de precios de OpenAI.
  • Sora 2 está siendo retirado. OpenAI cerró la web/app de Sora el 26 de abril de 2026; la API se cierra el 24 de septiembre de 2026. No inicies nuevos flujos de vídeo sobre él.
  • Los pesos abiertos casi alcanzaron a los demás. DeepSeek V4, MiniMax-M3 y Qwen3.7 Max ahora se sitúan a ~0.2 puntos de Gemini 3.1 Pro en SWE-bench Verified — a aproximadamente una décima parte del precio por token.

La conclusión principal: la cima de la tabla es ahora una meseta, no una brecha. Las decisiones interesantes en 2026 tienen que ver con coste, velocidad y encaje — no con perseguir la fila #1.

La frontera es una meseta, no una escalera

Para la mayoría de las cargas de trabajo reales, los cinco mejores modelos de razonamiento son intercambiables en calidad — se diferencian en precio, latencia y en lo bien que encajan en tu arquitectura. Perseguir la fila #1 es la forma más común en que los equipos pagan de más. Elige el modelo más barato que supere el listón de calidad de tu tarea, y reserva el nivel de frontera para la franja genuinamente difícil.

1) Texto y razonamiento

La cifra de capacidad individual más limpia es el Artificial Analysis Intelligence Index — un compuesto de GPQA Diamond, MMLU-Pro, AIME, LiveCodeBench y varios otros benchmarks, normalizado a una sola puntuación.

#ModeloCreadorIntelligence IndexPrecio combinado /1MContexto
1Claude Fable 5 (máximo esfuerzo)Anthropic65$7.701M
2Claude Opus 4.8 (max)Anthropic61$3.851M
3GPT-5.5 (xhigh)OpenAI60$4.35922k
4GPT-5.5 (high)OpenAI59$4.35922k
5Gemini 3.1 Pro PreviewGoogle57$1.741M
5Qwen3.7 MaxAlibaba57$1.431M
5Claude Opus 4.7 (max)Anthropic57$3.851M
8Gemini 3.5 FlashGoogle55$1.311M
8MiniMax-M3 (abierto)MiniMax55$0.221M
10Kimi K2.6 (abierto)Moonshot54$0.70256k

Fuente: Artificial Analysis Intelligence Index, junio de 2026.

Léelo así: los cinco primeros están separados por ~8 puntos en una amplia batería de razonamiento — lo bastante cerca como para que, en la mayoría de las cargas de trabajo reales, sean intercambiables en calidad. Donde se separan con fuerza es en precio. Gemini 3.1 Pro ofrece razonamiento de índice 57 a $1.74; Qwen3.7 Max lo iguala a $1.43; MiniMax-M3 alcanza el índice 55 a $0.22. Pagar precios de Fable 5 ($7.70 combinado) solo tiene sentido para el 5–10% de tareas genuinamente más difíciles. Si tu gasto está dominado por un alto volumen de llamadas de dificultad media, el nivel de relación calidad-precio no es un compromiso — es el valor predeterminado correcto, y puedes contrastar el equilibrio en los rankings de Mindber.

Preferencia humana vs benchmarks: LMArena (votación A/B a ciegas) y el Intelligence Index miden cosas diferentes — uno capta lo que a la gente le gusta, el otro lo que los modelos pueden hacer. Las familias Claude y Gemini se intercambian la cima del ranking de texto de LMArena, y esos rankings cambian de una semana a otra. Cuando los dos rankings discrepan, esa brecha suele significar que un modelo está sobreajustado o infraajustado para el estilo de chat, no que una fuente esté "equivocada". Esto es exactamente por lo que la metodología de puntuación de Mindber mantiene la capacidad y la preferencia como ejes separados en lugar de colapsarlos en un solo número.

2) Programación

Esta es la categoría con las cifras más engañosas de internet, así que lee con atención.

#ModeloSWE-bench VerifiedPrecio /1M (entrada/salida)
1Claude Fable 595.0%$10 / $50
2Claude Opus 4.888.6%$5 / $25
3GPT-5.582.6%$5 / $30
4Claude Opus 4.7~82%$5 / $25
5MiniMax-M3 (abierto)80.5%$0.30 / $1.20
5Gemini 3.5 Flash78.8%$1.31 combinado

Fuente: vals.ai SWE-bench Verified, junio de 2026. (Las puntuaciones reportadas de Opus 4.7 varían entre 82–88% según la arquitectura — consulta la advertencia.)

⚠️ La comprobación de realidad que la mayoría de los rankings no te dará

SWE-bench Verified está parcialmente saturado y parcialmente memorizado. La propia auditoría de OpenAI encontró que los modelos de frontera pueden reproducir literalmente los parches "gold" de algunas tareas — las 500 incidencias de Python se filtraron en los datos de entrenamiento antes de que el benchmark se publicara ampliamente. OpenAI dejó de reportar las puntuaciones de Verified y ahora remite a SWE-bench Pro en su lugar.

En el ranking estandarizado SEAL de Scale AI (andamiaje idéntico para cada modelo), las cifras se desploman:

  • Mejor puntuación pública estandarizada: ~59.1% (GPT-5.4 xHigh)
  • Conjunto comercial privado: ningún modelo supera ~47.1%
  • Caída típica al pasar de Verified → Pro: 15–35 puntos

Así que cuando veas "95% en SWE-bench", tradúcelo a: "benchmark saturado, la tasa de éxito en el mundo real es aproximadamente la mitad de eso sobre código no visto y más difícil." Usa las cifras de Pro / estandarizadas para decisiones de adquisición, y Verified solo para un ranking relativo aproximado. La lección más profunda es una en la que se apoya con firmeza la metodología de verificación de Mindber: una cifra de benchmark destacada es una hipótesis de partida, no una decisión de compra.

3) Agentes y uso de herramientas

Para el trabajo con agentes, la arquitectura importa tanto como el modelo. El mismo modelo puntúa de forma diferente dentro de Codex CLI que en Claude Code sobre Opus 4.8 o en un andamiaje personalizado — los rankings de agentes clasifican pares de agente + modelo, no modelos por sí solos.

Terminal-Bench 2.1 (operar un ordenador real a través de la terminal — compilar código, configurar servidores, ejecutar flujos de datos):

#Agente + modeloPuntuación
1Codex CLI sobre GPT-5.583.4%
2Claude Code sobre Opus 4.878.9%
3Gemini CLI sobre Gemini 3.1 Pro70.7% (±2.9)

Fuente: tbench.ai, junio de 2026.

Atención al cliente / uso estructurado de herramientas (τ²-bench): un panorama completamente distinto — los modelos de la familia GLM (p. ej. GLM-4.7-Flash con 98.8%) encabezan las tareas de llamadas a herramientas de retail/aerolíneas. Un modelo que gana en automatización de terminal puede perder en el uso de herramientas de atención al cliente multironda. Elige tu agente según la tarea que realmente ejecutas, no según un único ranking — y si no estás seguro de qué modelos siquiera pertenecen a tu lista de candidatos, parte del directorio de herramientas de IA filtrado a tu caso de uso.

4) Generación de imágenes

La carrera de la imagen se ha dividido en carriles claros — no hay un #1 general, solo un mejor por carril.

  • Mejor todoterreno / consistencia de personajes: Nano Banana 2 (Gemini 3.1 Flash Image). 4K nativo, mantiene caras y estilos estables a lo largo de las ediciones — ideal para contenido seriado (mascotas, storyboards, campañas). Premium a ~$0.13–0.24/imagen.
  • Mejor en texto y tipografía: GPT Image (1.5 / 2). Un espacio latente "que piensa" y razona a través de instrucciones espaciales — el único modelo en el que puedes confiar para escribir un titular correctamente. Calificado de forma consistente entre los mejores en Arena.ai por su adherencia al prompt.
  • Mejor relación calidad-precio / alto volumen: Seedream 5.0 (ByteDance). 4K de calidad de producción a ~$0.026–0.032/imagen — diseñado para catálogos de e-commerce y calendarios de contenido.
  • Mejor para logos y pósteres: Ideogram v3.
  • Mejor para fijar marca/estilo y pesos abiertos: Flux 2 Pro (niveles dev/pro/max).
  • Mejor para prompts en otros idiomas: Qwen Image (fuerte en chino, árabe y español).
  • Más rápido: Z-Image Turbo (~1 segundo por imagen).

Para creadores del Sudeste Asiático / multilingües: Qwen Image y Seedream manejan prompts en chino y de escritura mixta de forma más fiable que los modelos ajustados a Occidente, y la economía por imagen de Seedream hace realistas las tomas de producto por lotes con un presupuesto reducido. Puedes explorar el campo de la generación de imágenes, con las puntuaciones de Mindber y precios en vivo, en el directorio de descubrimiento.

5) Generación de vídeo

La gran noticia es una despedida: Sora 2 está cerrando (web/app el 26 de abril de 2026; API el 24 de septiembre de 2026). Si lo estás usando, planifica tu migración ahora. Este es el campo que queda:

  • Mejor calidad cinematográfica + audio nativo: Veo 3.1 (Google). El único modelo que genera diálogo sincronizado a 48kHz — no solo efectos de sonido. Mejor fotorrealismo en sujetos humanos y luz natural. ~$0.15–1.20 por clip de 5 segundos según el nivel.
  • Mejor relación calidad-precio: Kling 3.0 (Kuaishou). 4K nativo, 60fps, sincronización labial multilingüe, ~$0.10/segundo — el caballo de batalla de la iteración.
  • Más prometedor en imagen-a-vídeo: Seedance 2.0 (ByteDance). Movimiento estilizado potente y contenido vertical de formato corto.
  • Nuevo aspirante de frontera: HappyHorse-1.0 (Alibaba). Audio-vídeo conjunto, sincronización labial en 7 idiomas, escalando en el ranking de vídeo de Artificial Analysis; disponible en fal.ai.
  • Mejor control creativo: Runway Gen-4.5. Pinceles de movimiento, consistencia de escena y un editor de línea de tiempo real — perdió el liderazgo del ranking pero sigue ganando para el trabajo dirigido y de varias tomas.
  • Mejor HDR: Luma Ray3.14 (HDR nativo de 16 bits).

Nota: las puntuaciones de las arenas de vídeo se miden en escalas diferentes (LMArena texto-a-vídeo vs Artificial Analysis), por lo que las comparaciones de cifras entre rankings no son fiables. Trátalos como líderes de carril, no como una única escalera clasificada.

6) Mejor relación calidad-precio y pesos abiertos (el carril bootstrap)

Si estás lanzando un producto y vigilando los márgenes, esta es la tabla más importante de este informe. Los pesos abiertos están ahora cerca de la frontera a una fracción del coste:

ModeloÍndicePrecio /1MPor qué elegirlo
Gemini 3.1 Pro57$1.74Mejor valor de la frontera cerrada
Qwen3.7 Max57$1.43Razonamiento de frontera, contexto de 1M, fuerte multilingüe
MiniMax-M3 (abierto)55$0.22Casi de frontera, pesos abiertos, contexto de 1M
Kimi K2.6 (abierto)54$0.70Razonamiento abierto potente
DeepSeek V4 Pro (abierto)52$0.18El caballo de batalla creíble más barato; los aciertos de caché reducen aún más la entrada
GLM-5.1 (abierto)51$0.90Fuerte uso de herramientas / agentes

Fuente: Artificial Analysis, junio de 2026.

La jugada del enrutamiento: la configuración óptima en coste no es un único modelo — es un router. Fija ~80% del tráfico a un caballo de batalla barato (DeepSeek V4 / MiniMax-M3 / un Gemini Flash pequeño) y reserva un modelo de frontera (Opus 4.8 / Fable 5) para el 20% difícil. Bien hecho, esto supera a cualquier suscripción de un solo modelo tanto en coste como en calidad. La economía de esa división — y por qué la tarifa publicada es solo una fracción de la factura real — se desarrolla de principio a fin en El verdadero coste de las herramientas de IA 2026.

7) Velocidad (para tiempo real y cadenas largas de agentes)

Cuando la latencia se acumula a lo largo de muchos pasos secuenciales, el rendimiento (throughput) se convierte en la métrica decisiva:

  • Mercury 2 (Inception, LLM de difusión) — ~889 tokens/seg
  • Granite 4.0 H Small (IBM) — ~524 t/s
  • Step 3.7 Flash — ~385 t/s
  • gpt-oss-120b (high) — ~338 t/s
  • Gemini 3.1 Flash-Lite — ~326 t/s

Fuente: velocidad mediana de salida de Artificial Analysis, junio de 2026. Para la experiencia de chat, cualquier cosa por encima de ~150 t/s se siente instantánea; la velocidad importa más en los bucles de agentes y los trabajos por lotes, donde cada segundo extra se multiplica por el número de pasos secuenciales de la cadena.

Cómo elegir un modelo de verdad

Deja de optimizar para la fila #1. Adapta el modelo a la tarea:

  • Razonamiento más difícil, sin importar el dinero → Claude Fable 5 u Opus 4.8.
  • Mejor calidad por dólar en la frontera → Gemini 3.1 Pro o Qwen3.7 Max.
  • Autoalojamiento / residencia de datos / menor coste → MiniMax-M3, DeepSeek V4 o Qwen3.7 Max.
  • Programación dentro de un agente → GPT-5.5 vía Codex, u Opus 4.8 vía Claude Code.
  • Imagen — general → Nano Banana 2; texto en imagen → GPT Image; alto volumen → Seedream 5.
  • Vídeo — cinematográfico + audio → Veo 3.1; valor/iteración → Kling 3.0.
  • Tiempo real / alto rendimiento → Mercury 2 o un modelo de nivel Flash.

La cuadrícula de decisión de abajo es la misma lógica en un formato que puedes entregar a un comprador:

La cuadrícula de decisión del comprador

Calidad por encima del coste

Razonamiento más difícil

  • Claude Fable 5 (índice 65) u Opus 4.8 (61)
  • Vale la pena para el 5–10% de tareas más difíciles
  • Enruta el trabajo fácil a otra parte — no lo uses por defecto
Calidad por dólar

Mejor valor en la frontera

  • Gemini 3.1 Pro ($1.74) o Qwen3.7 Max ($1.43)
  • Índice 57 — a ~8 puntos de la cima
  • El valor predeterminado correcto para la mayor parte del tráfico de producción
Márgenes o residencia de datos

Menor coste / autoalojamiento

  • MiniMax-M3 ($0.22), DeepSeek V4 ($0.18)
  • Pesos abiertos, contexto de 1M, autoalojables
  • Los aciertos de caché reducen aún más la tarifa de entrada
La arquitectura importa tanto como el modelo

Programación dentro de un agente

  • GPT-5.5 vía Codex encabeza Terminal-Bench 2.1
  • Opus 4.8 vía Claude Code está justo detrás
  • Clasifica pares de agente+modelo, no modelos por sí solos
Mejor por carril, sin un #1 general

Imagen y vídeo

  • Imagen: Nano Banana 2 / GPT Image / Seedream 5
  • Vídeo: Veo 3.1 (audio) o Kling 3.0 (valor)
  • La API de Sora 2 cierra el 24 sep 2026 — migra
La latencia se acumula en los bucles de agentes

Tiempo real / alto rendimiento

  • Mercury 2 (~889 t/s) o un modelo de nivel Flash
  • >150 t/s ya se siente instantáneo en el chat
  • La velocidad es decisiva para lotes + cadenas de varios pasos

Preguntas frecuentes

¿Cuál es el mejor modelo de IA ahora mismo (junio de 2026)?

Para capacidad bruta, Claude Fable 5 lidera el Artificial Analysis Intelligence Index (65). Pero "mejor" depende de la tarea: GPT-5.5 lidera la programación con agentes, Gemini 3.1 Pro es la mejor relación calidad-precio, y modelos abiertos como MiniMax-M3 son los mejores para despliegues sensibles al coste. La perspectiva en vivo de Mindber está en el ranking de Model Arena.

¿Es Claude mejor que GPT-5.5?

En el Intelligence Index compuesto, Claude Fable 5 (65) y Opus 4.8 (61) se sitúan por encima de GPT-5.5 (60). En programación con agentes (Terminal-Bench 2.1), GPT-5.5 vía Codex (83.4%) supera actualmente por poco a Opus 4.8 vía Claude Code (78.9%). Están lo bastante cerca como para que el encaje en el flujo de trabajo y el precio suelan decidir — la calculadora de costes de Opus 4.8 ayuda con el lado económico.

¿Cuál es el mejor modelo de IA gratuito o de código abierto?

MiniMax-M3 (Intelligence Index 55) es el modelo de pesos abiertos cercano a la frontera más fuerte, seguido de Kimi K2.6 (54) y DeepSeek V4 Pro (52). Todos son autoalojables y drásticamente más baratos que los modelos de frontera cerrados.

¿Cuál es el modelo de IA bueno más barato?

DeepSeek V4 Pro ($0.18 combinado /1M tokens, índice 52) y MiniMax-M3 ($0.22, índice 55) ofrecen calidad cercana a la frontera a aproximadamente una décima parte del precio de los principales modelos cerrados.

¿Cuál es el mejor modelo de IA para programar?

Por modelo: Claude Fable 5 / Opus 4.8 lideran SWE-bench Verified. Por agente de programación: GPT-5.5 (Codex) encabeza Terminal-Bench 2.1. Ten en cuenta que SWE-bench Verified está parcialmente saturado — consulta SWE-bench Pro para una señal del mundo real.

¿Por qué son tan altas las puntuaciones de SWE-bench — son reales?

Trata con cautela las puntuaciones de 90%+ en SWE-bench Verified. El benchmark tiene una contaminación conocida de los datos de entrenamiento; OpenAI dejó de reportarlo. En el ranking estandarizado SEAL de Scale la mejor puntuación pública es ~59%, y ningún modelo supera ~47% en el conjunto privado. El éxito de programación en el mundo real es aproximadamente la mitad del titular de Verified.

¿Cuál es el mejor generador de imágenes con IA en 2026?

Nano Banana 2 para uso general y consistencia de personajes, GPT Image para texto/tipografía, y Seedream 5.0 para producción de alto volumen y sensible al coste.

¿Cuál es el mejor generador de vídeo con IA ahora que Sora ya no está?

Veo 3.1 para calidad cinematográfica con audio sincronizado nativo, y Kling 3.0 para la mejor relación calidad-precio (~$0.10/segundo). La API de Sora 2 se cierra el 24 de septiembre de 2026.

¿Con qué frecuencia se actualiza este ranking?

Mensualmente. Esta es la edición de junio de 2026; la próxima actualización llega a mediados de julio de 2026. Entre ediciones, el ranking de Model Arena y el feed de Novedades siguen los lanzamientos a medida que ocurren.

Método y fuentes

No ejecutamos nuestros propios benchmarks privados ni inventamos puntuaciones. Este ranking agrega resultados publicados de fuentes independientes y atribuye cada cifra a su origen y fecha — esa transparencia es el objetivo, y es el mismo estándar al que nuestra metodología de puntuación somete cada página de producto.

  • Capacidad / precio / velocidad: Artificial Analysis Intelligence Index (381 modelos), junio de 2026.
  • Programación: vals.ai (SWE-bench Verified) y Scale AI SEAL (SWE-bench Pro, andamiaje estandarizado), junio de 2026.
  • Agentes: tbench.ai (Terminal-Bench 2.1) y τ²-bench, junio de 2026.
  • Preferencia humana: LMArena (votación A/B a ciegas), junio de 2026.
  • Precios y especificaciones de los proveedores: páginas de precios de Anthropic, OpenAI y Google Gemini, junio de 2026.

Los precios son combinados/ilustrativos y cambian con frecuencia — verifícalos contra los precios vigentes de cada proveedor antes de comprometer presupuesto. Algunos modelos en vista previa de investigación (p. ej. las previews de nivel Mythos) aparecen en los rankings pero no están disponibles de forma general; clasificamos el campo de uso público. Para la imagen completa de lo que un modelo realmente cuesta una vez contados los reintentos, la asimetría de salida y los asientos inactivos, lee El verdadero coste de las herramientas de IA 2026.

¿Detectaste un error o un nuevo lanzamiento que se nos escapó? Esa es la forma más rápida de mejorar un ranking — cuéntanoslo.

Explora más en Mindber: el ranking en vivo de Model Arena · Novedades · el ranking semanal de LLM · el directorio completo de herramientas de IA · todas nuestras guías.

Relacionado en Mindber

El verdadero coste de las herramientas de IA en 2026: precio de catálogo vs realidad

Por qué el coste real de una herramienta de IA es ~8x la tarifa publicada — un modelo de TCO totalmente documentado con los siete costes ocultos.

Calculadora de costes de Opus 4.8: cuándo supera a Sonnet y GPT-5.5

Cargas de trabajo de punto de equilibrio, ahorros con enrutamiento inteligente y tarifas de caché por modelo para los modelos de frontera actuales.

Claude Fable 5: qué es, cómo usarlo y los prompts que lo aprovechan

El primer modelo público de clase Mythos de Anthropic — precios, salvaguardas, benchmarks, acceso y prompts listos para copiar y pegar.

Share this article

Aviso legal

Esta publicación constituye comentario editorial sobre información disponible públicamente y no constituye asesoramiento financiero, legal, de inversión ni profesional. Los nombres de productos, marcas comerciales y marcas registradas mencionados pertenecen a sus respectivos propietarios; su aparición no implica respaldo ni afiliación. El análisis de Mindber refleja juicio editorial basado en señales públicas y puede cambiar sin previo aviso. Las puntuaciones no son recomendaciones de compra, venta o mantenimiento. No existe relación comercial entre Mindber y los proveedores evaluados salvo que se indique por escrito. Esta publicación se rige por las leyes de Malasia. Cualquier disputa derivada de esta publicación o relacionada con ella se someterá a la jurisdicción exclusiva de los tribunales de Malasia.

Generado por IA · Este informe fue generado con modelos de lenguaje de IA entrenados con datos disponibles públicamente. Refleja análisis editorial en el momento de generación y no es resultado de pruebas prácticas del producto, verificación independiente por un analista humano ni respaldo comercial. Todas las puntuaciones, evaluaciones y afirmaciones se derivan de señales indexadas por Mindber en el momento de generación y pueden cambiar sin previo aviso. Mindber y sus operadores no garantizan exactitud, integridad ni idoneidad para ningún propósito de toma de decisiones comerciales. Este informe es solo informativo.

MI

Mindber Research

Editorial de Mindber — seguimiento de modelos de IA.

Agrega resultados de benchmarks publicados (Artificial Analysis, vals.ai, Scale AI SEAL, tbench.ai, LMArena) y atribuye cada cifra a su fuente y fecha.

On this page
  • Resumen — mejor modelo por categoría (junio de 2026)
  • Qué cambió este mes
  • 1) Texto y razonamiento
  • 2) Programación
  • ⚠️ La comprobación de realidad que la mayoría de los rankings no te dará
  • 3) Agentes y uso de herramientas
  • 4) Generación de imágenes
  • 5) Generación de vídeo
  • 6) Mejor relación calidad-precio y pesos abiertos (el carril bootstrap)
  • 7) Velocidad (para tiempo real y cadenas largas de agentes)
  • Cómo elegir un modelo de verdad
  • Preguntas frecuentes
  • Método y fuentes

Artículos relacionados

Claude Fable 5: qué es, cómo usarlo y los prompts que lo explotan

9 jun12 min

El gobierno de EE.UU. suspende Claude Fable 5

13 jun12 min

El coste real de las herramientas de IA en 2026: precio de etiqueta vs realidad

5 jun12 min
Iniciar sesión
Saltar al contenido principal
BlogLos mejores modelos de IA, clasificados — Ranking de junio de 2026 para texto, programación, agentes, imagen y vídeo (con fuentes)

Los mejores modelos de IA, clasificados — Ranking de junio de 2026 para texto, programación, agentes, imagen y vídeo (con fuentes)

GuíaActualizado 15 de junio de 202616 min de lectura

El mejor modelo de IA en junio de 2026 depende de la tarea: Claude Fable 5 lidera en capacidad, GPT-5.5 en agentes de programación, Gemini 3.1 Pro en relación calidad-precio. Clasificados, con fuentes.

#best AI model 2026#AI model leaderboard#best LLM 2026#best AI model for coding#Claude Fable 5#GPT-5.5#Gemini 3.1 Pro#open-weight models#AI models
Los mejores modelos de IA, clasificados — Ranking de junio de 2026 para texto, programación, agentes, imagen y vídeo (con fuentes) — El mejor modelo de IA en junio de 2026 depende de la tarea: Claude Fable 5 lidera en capacidad, GPT-5.5 en agentes de programación, Gemini 3.1 Pro en relación calidad-precio. Clasificados, con fuentes.

Última verificación: 2026-06-15 (SGT/MYT) · Próxima actualización: mediados de julio de 2026. Mindber Data Drop v2026.06. Cada cifra se atribuye a su fuente publicada y su fecha — consulta Método y fuentes más abajo. Los precios son combinados/ilustrativos y cambian con frecuencia; verifícalos contra los precios vigentes de cada proveedor antes de comprometer presupuesto.

Por Mindber Research · Seguimiento de modelos de IA. Cifras contrastadas con los rankings citados el 2026-06-15.

Cómo lo evaluamos: Análisis editorial asistido por IA que agrega resultados publicados de rankings independientes (Artificial Analysis, vals.ai, Scale AI SEAL, tbench.ai, τ²-bench, LMArena) y páginas de precios de los proveedores, a fecha de junio de 2026. Mindber no ejecutó sus propios benchmarks privados y esto no es una prueba práctica del producto. Cada número se atribuye a su origen y fecha; cualquier cifra que no pudimos confirmar contra una fuente activa se descartó, no se adivinó.

La respuesta corta: no existe un único "mejor modelo de IA" en junio de 2026 — existe un mejor modelo por tarea, por presupuesto. Ahora mismo Claude Fable 5 encabeza la capacidad bruta, GPT-5.5 lidera en agentes de programación, Gemini 3.1 Pro es la mejor relación calidad-precio de la frontera, los modelos de pesos abiertos (MiniMax-M3, DeepSeek V4, Qwen3.7 Max) cierran casi toda la brecha por una fracción del precio, Nano Banana 2 y GPT Image lideran en imagen, y Veo 3.1 / Kling 3.0 lideran en vídeo ahora que Sora 2 ha sido retirado.

A continuación encontrarás el desglose completo — y, lo que es más importante, la parte que la mayoría de los rankings omite: qué cifras son reales y cuáles ignorar. Para ver la perspectiva en vivo de Mindber sobre el mismo panorama, consulta el ranking de Model Arena y el ranking semanal de LLM; para comparar dos modelos cara a cara en precio y capacidad, usa la herramienta de comparación.

Tres cifras que definen junio de 2026

65
Claude Fable 5 — cabeza del Intelligence Index de Artificial Analysis, ~8 puntos por delante del nivel de relación calidad-precio
Artificial Analysis, junio de 2026
83.4%
Codex CLI sobre GPT-5.5 — el líder en programación con agentes en Terminal-Bench 2.1, por delante de Claude Code sobre Opus 4.8 (78.9%)
tbench.ai, junio de 2026
~$0.18
DeepSeek V4 Pro combinado por cada 1M de tokens — calidad cercana a la frontera a aproximadamente una décima parte del precio de los principales modelos cerrados
Artificial Analysis, junio de 2026

Resumen — mejor modelo por categoría (junio de 2026)

TareaMejor opciónMejor alternativa por valorLa cifra que importa
Texto y razonamientoClaude Fable 5Gemini 3.1 Pro / Qwen3.7 MaxAA Intelligence Index 65 vs 57
Programación (modelo)Claude Fable 5 / Opus 4.8DeepSeek V4 / MiniMax-M3SWE-bench Verified — pero lee la advertencia
Agente de programación (herramienta)GPT-5.5 (Codex CLI)Claude Opus 4.8 (Claude Code)Terminal-Bench 2.1: 83.4% vs 78.9%
Agente general / uso de herramientasGPT-5.5Familia GLM-5 (tareas de atención al cliente)Depende del benchmark — no hay ganador universal
ImagenNano Banana 2Seedream 5.0 (volumen)Arena de preferencia humana + coste por imagen
VídeoVeo 3.1 (cinematográfico + audio)Kling 3.0 (~$0.10/seg)Sora 2 está cerrando — migra fuera de él
Más barato con calidad de fronteraDeepSeek V4 ProMiniMax-M3~$0.18–0.22 combinado /1M tokens
Salida más rápidaMercury 2Gemini 3.1 Flash-Lite~889 t/s vs ~326 t/s

Cifras de capacidad: Artificial Analysis Intelligence Index, junio de 2026 (381 modelos). Programación: vals.ai SWE-bench Verified + Scale AI SEAL. Agentes: tbench.ai Terminal-Bench 2.1. Atribuimos cada número a su fuente y fecha — consulta Método más abajo.

Qué cambió este mes

La frontera volvió a moverse a finales de mayo y principios de junio:

  • Claude Fable 5 pasó a disponibilidad general el 9 de junio de 2026 ($10 / $50 por 1M de tokens, contexto de 1M de tokens). Debutó en el #1 del Artificial Analysis Intelligence Index (65) y en lo más alto de SWE-bench Verified (95.0%). Desglosamos el acceso, las salvaguardas y los prompts en la guía de Claude Fable 5, y puedes ver el enfoque de la propia Anthropic en su anuncio.
  • Claude Opus 4.8 se lanzó el 28 de mayo de 2026 ($5 / $25). Registra un 88.6% en SWE-bench Verified y un 74.6% en Terminal-Bench 2.1 — el punto más fuerte de relación precio-capacidad de la línea Claude. Consulta su ficha de puntuación y la calculadora de costes de Opus 4.8 para las cuentas del punto de equilibrio.
  • GPT-5.5 (23 de abril de 2026) es el modelo predeterminado de uso diario de OpenAI, con una caída reportada de ~60% en las alucinaciones frente a GPT-5.4. Actualmente lidera la programación con agentes vía Codex; las tarifas vigentes están en la página de precios de OpenAI.
  • Sora 2 está siendo retirado. OpenAI cerró la web/app de Sora el 26 de abril de 2026; la API se cierra el 24 de septiembre de 2026. No inicies nuevos flujos de vídeo sobre él.
  • Los pesos abiertos casi alcanzaron a los demás. DeepSeek V4, MiniMax-M3 y Qwen3.7 Max ahora se sitúan a ~0.2 puntos de Gemini 3.1 Pro en SWE-bench Verified — a aproximadamente una décima parte del precio por token.

La conclusión principal: la cima de la tabla es ahora una meseta, no una brecha. Las decisiones interesantes en 2026 tienen que ver con coste, velocidad y encaje — no con perseguir la fila #1.

La frontera es una meseta, no una escalera

Para la mayoría de las cargas de trabajo reales, los cinco mejores modelos de razonamiento son intercambiables en calidad — se diferencian en precio, latencia y en lo bien que encajan en tu arquitectura. Perseguir la fila #1 es la forma más común en que los equipos pagan de más. Elige el modelo más barato que supere el listón de calidad de tu tarea, y reserva el nivel de frontera para la franja genuinamente difícil.

1) Texto y razonamiento

La cifra de capacidad individual más limpia es el Artificial Analysis Intelligence Index — un compuesto de GPQA Diamond, MMLU-Pro, AIME, LiveCodeBench y varios otros benchmarks, normalizado a una sola puntuación.

#ModeloCreadorIntelligence IndexPrecio combinado /1MContexto
1Claude Fable 5 (máximo esfuerzo)Anthropic65$7.701M
2Claude Opus 4.8 (max)Anthropic61$3.851M
3GPT-5.5 (xhigh)OpenAI60$4.35922k
4GPT-5.5 (high)OpenAI59$4.35922k
5Gemini 3.1 Pro PreviewGoogle57$1.741M
5Qwen3.7 MaxAlibaba57$1.431M
5Claude Opus 4.7 (max)Anthropic57$3.851M
8Gemini 3.5 FlashGoogle55$1.311M
8MiniMax-M3 (abierto)MiniMax55$0.221M
10Kimi K2.6 (abierto)Moonshot54$0.70256k

Fuente: Artificial Analysis Intelligence Index, junio de 2026.

Léelo así: los cinco primeros están separados por ~8 puntos en una amplia batería de razonamiento — lo bastante cerca como para que, en la mayoría de las cargas de trabajo reales, sean intercambiables en calidad. Donde se separan con fuerza es en precio. Gemini 3.1 Pro ofrece razonamiento de índice 57 a $1.74; Qwen3.7 Max lo iguala a $1.43; MiniMax-M3 alcanza el índice 55 a $0.22. Pagar precios de Fable 5 ($7.70 combinado) solo tiene sentido para el 5–10% de tareas genuinamente más difíciles. Si tu gasto está dominado por un alto volumen de llamadas de dificultad media, el nivel de relación calidad-precio no es un compromiso — es el valor predeterminado correcto, y puedes contrastar el equilibrio en los rankings de Mindber.

Preferencia humana vs benchmarks: LMArena (votación A/B a ciegas) y el Intelligence Index miden cosas diferentes — uno capta lo que a la gente le gusta, el otro lo que los modelos pueden hacer. Las familias Claude y Gemini se intercambian la cima del ranking de texto de LMArena, y esos rankings cambian de una semana a otra. Cuando los dos rankings discrepan, esa brecha suele significar que un modelo está sobreajustado o infraajustado para el estilo de chat, no que una fuente esté "equivocada". Esto es exactamente por lo que la metodología de puntuación de Mindber mantiene la capacidad y la preferencia como ejes separados en lugar de colapsarlos en un solo número.

2) Programación

Esta es la categoría con las cifras más engañosas de internet, así que lee con atención.

#ModeloSWE-bench VerifiedPrecio /1M (entrada/salida)
1Claude Fable 595.0%$10 / $50
2Claude Opus 4.888.6%$5 / $25
3GPT-5.582.6%$5 / $30
4Claude Opus 4.7~82%$5 / $25
5MiniMax-M3 (abierto)80.5%$0.30 / $1.20
5Gemini 3.5 Flash78.8%$1.31 combinado

Fuente: vals.ai SWE-bench Verified, junio de 2026. (Las puntuaciones reportadas de Opus 4.7 varían entre 82–88% según la arquitectura — consulta la advertencia.)

⚠️ La comprobación de realidad que la mayoría de los rankings no te dará

SWE-bench Verified está parcialmente saturado y parcialmente memorizado. La propia auditoría de OpenAI encontró que los modelos de frontera pueden reproducir literalmente los parches "gold" de algunas tareas — las 500 incidencias de Python se filtraron en los datos de entrenamiento antes de que el benchmark se publicara ampliamente. OpenAI dejó de reportar las puntuaciones de Verified y ahora remite a SWE-bench Pro en su lugar.

En el ranking estandarizado SEAL de Scale AI (andamiaje idéntico para cada modelo), las cifras se desploman:

  • Mejor puntuación pública estandarizada: ~59.1% (GPT-5.4 xHigh)
  • Conjunto comercial privado: ningún modelo supera ~47.1%
  • Caída típica al pasar de Verified → Pro: 15–35 puntos

Así que cuando veas "95% en SWE-bench", tradúcelo a: "benchmark saturado, la tasa de éxito en el mundo real es aproximadamente la mitad de eso sobre código no visto y más difícil." Usa las cifras de Pro / estandarizadas para decisiones de adquisición, y Verified solo para un ranking relativo aproximado. La lección más profunda es una en la que se apoya con firmeza la metodología de verificación de Mindber: una cifra de benchmark destacada es una hipótesis de partida, no una decisión de compra.

3) Agentes y uso de herramientas

Para el trabajo con agentes, la arquitectura importa tanto como el modelo. El mismo modelo puntúa de forma diferente dentro de Codex CLI que en Claude Code sobre Opus 4.8 o en un andamiaje personalizado — los rankings de agentes clasifican pares de agente + modelo, no modelos por sí solos.

Terminal-Bench 2.1 (operar un ordenador real a través de la terminal — compilar código, configurar servidores, ejecutar flujos de datos):

#Agente + modeloPuntuación
1Codex CLI sobre GPT-5.583.4%
2Claude Code sobre Opus 4.878.9%
3Gemini CLI sobre Gemini 3.1 Pro70.7% (±2.9)

Fuente: tbench.ai, junio de 2026.

Atención al cliente / uso estructurado de herramientas (τ²-bench): un panorama completamente distinto — los modelos de la familia GLM (p. ej. GLM-4.7-Flash con 98.8%) encabezan las tareas de llamadas a herramientas de retail/aerolíneas. Un modelo que gana en automatización de terminal puede perder en el uso de herramientas de atención al cliente multironda. Elige tu agente según la tarea que realmente ejecutas, no según un único ranking — y si no estás seguro de qué modelos siquiera pertenecen a tu lista de candidatos, parte del directorio de herramientas de IA filtrado a tu caso de uso.

4) Generación de imágenes

La carrera de la imagen se ha dividido en carriles claros — no hay un #1 general, solo un mejor por carril.

  • Mejor todoterreno / consistencia de personajes: Nano Banana 2 (Gemini 3.1 Flash Image). 4K nativo, mantiene caras y estilos estables a lo largo de las ediciones — ideal para contenido seriado (mascotas, storyboards, campañas). Premium a ~$0.13–0.24/imagen.
  • Mejor en texto y tipografía: GPT Image (1.5 / 2). Un espacio latente "que piensa" y razona a través de instrucciones espaciales — el único modelo en el que puedes confiar para escribir un titular correctamente. Calificado de forma consistente entre los mejores en Arena.ai por su adherencia al prompt.
  • Mejor relación calidad-precio / alto volumen: Seedream 5.0 (ByteDance). 4K de calidad de producción a ~$0.026–0.032/imagen — diseñado para catálogos de e-commerce y calendarios de contenido.
  • Mejor para logos y pósteres: Ideogram v3.
  • Mejor para fijar marca/estilo y pesos abiertos: Flux 2 Pro (niveles dev/pro/max).
  • Mejor para prompts en otros idiomas: Qwen Image (fuerte en chino, árabe y español).
  • Más rápido: Z-Image Turbo (~1 segundo por imagen).

Para creadores del Sudeste Asiático / multilingües: Qwen Image y Seedream manejan prompts en chino y de escritura mixta de forma más fiable que los modelos ajustados a Occidente, y la economía por imagen de Seedream hace realistas las tomas de producto por lotes con un presupuesto reducido. Puedes explorar el campo de la generación de imágenes, con las puntuaciones de Mindber y precios en vivo, en el directorio de descubrimiento.

5) Generación de vídeo

La gran noticia es una despedida: Sora 2 está cerrando (web/app el 26 de abril de 2026; API el 24 de septiembre de 2026). Si lo estás usando, planifica tu migración ahora. Este es el campo que queda:

  • Mejor calidad cinematográfica + audio nativo: Veo 3.1 (Google). El único modelo que genera diálogo sincronizado a 48kHz — no solo efectos de sonido. Mejor fotorrealismo en sujetos humanos y luz natural. ~$0.15–1.20 por clip de 5 segundos según el nivel.
  • Mejor relación calidad-precio: Kling 3.0 (Kuaishou). 4K nativo, 60fps, sincronización labial multilingüe, ~$0.10/segundo — el caballo de batalla de la iteración.
  • Más prometedor en imagen-a-vídeo: Seedance 2.0 (ByteDance). Movimiento estilizado potente y contenido vertical de formato corto.
  • Nuevo aspirante de frontera: HappyHorse-1.0 (Alibaba). Audio-vídeo conjunto, sincronización labial en 7 idiomas, escalando en el ranking de vídeo de Artificial Analysis; disponible en fal.ai.
  • Mejor control creativo: Runway Gen-4.5. Pinceles de movimiento, consistencia de escena y un editor de línea de tiempo real — perdió el liderazgo del ranking pero sigue ganando para el trabajo dirigido y de varias tomas.
  • Mejor HDR: Luma Ray3.14 (HDR nativo de 16 bits).

Nota: las puntuaciones de las arenas de vídeo se miden en escalas diferentes (LMArena texto-a-vídeo vs Artificial Analysis), por lo que las comparaciones de cifras entre rankings no son fiables. Trátalos como líderes de carril, no como una única escalera clasificada.

6) Mejor relación calidad-precio y pesos abiertos (el carril bootstrap)

Si estás lanzando un producto y vigilando los márgenes, esta es la tabla más importante de este informe. Los pesos abiertos están ahora cerca de la frontera a una fracción del coste:

ModeloÍndicePrecio /1MPor qué elegirlo
Gemini 3.1 Pro57$1.74Mejor valor de la frontera cerrada
Qwen3.7 Max57$1.43Razonamiento de frontera, contexto de 1M, fuerte multilingüe
MiniMax-M3 (abierto)55$0.22Casi de frontera, pesos abiertos, contexto de 1M
Kimi K2.6 (abierto)54$0.70Razonamiento abierto potente
DeepSeek V4 Pro (abierto)52$0.18El caballo de batalla creíble más barato; los aciertos de caché reducen aún más la entrada
GLM-5.1 (abierto)51$0.90Fuerte uso de herramientas / agentes

Fuente: Artificial Analysis, junio de 2026.

La jugada del enrutamiento: la configuración óptima en coste no es un único modelo — es un router. Fija ~80% del tráfico a un caballo de batalla barato (DeepSeek V4 / MiniMax-M3 / un Gemini Flash pequeño) y reserva un modelo de frontera (Opus 4.8 / Fable 5) para el 20% difícil. Bien hecho, esto supera a cualquier suscripción de un solo modelo tanto en coste como en calidad. La economía de esa división — y por qué la tarifa publicada es solo una fracción de la factura real — se desarrolla de principio a fin en El verdadero coste de las herramientas de IA 2026.

7) Velocidad (para tiempo real y cadenas largas de agentes)

Cuando la latencia se acumula a lo largo de muchos pasos secuenciales, el rendimiento (throughput) se convierte en la métrica decisiva:

  • Mercury 2 (Inception, LLM de difusión) — ~889 tokens/seg
  • Granite 4.0 H Small (IBM) — ~524 t/s
  • Step 3.7 Flash — ~385 t/s
  • gpt-oss-120b (high) — ~338 t/s
  • Gemini 3.1 Flash-Lite — ~326 t/s

Fuente: velocidad mediana de salida de Artificial Analysis, junio de 2026. Para la experiencia de chat, cualquier cosa por encima de ~150 t/s se siente instantánea; la velocidad importa más en los bucles de agentes y los trabajos por lotes, donde cada segundo extra se multiplica por el número de pasos secuenciales de la cadena.

Cómo elegir un modelo de verdad

Deja de optimizar para la fila #1. Adapta el modelo a la tarea:

  • Razonamiento más difícil, sin importar el dinero → Claude Fable 5 u Opus 4.8.
  • Mejor calidad por dólar en la frontera → Gemini 3.1 Pro o Qwen3.7 Max.
  • Autoalojamiento / residencia de datos / menor coste → MiniMax-M3, DeepSeek V4 o Qwen3.7 Max.
  • Programación dentro de un agente → GPT-5.5 vía Codex, u Opus 4.8 vía Claude Code.
  • Imagen — general → Nano Banana 2; texto en imagen → GPT Image; alto volumen → Seedream 5.
  • Vídeo — cinematográfico + audio → Veo 3.1; valor/iteración → Kling 3.0.
  • Tiempo real / alto rendimiento → Mercury 2 o un modelo de nivel Flash.

La cuadrícula de decisión de abajo es la misma lógica en un formato que puedes entregar a un comprador:

La cuadrícula de decisión del comprador

Calidad por encima del coste

Razonamiento más difícil

  • Claude Fable 5 (índice 65) u Opus 4.8 (61)
  • Vale la pena para el 5–10% de tareas más difíciles
  • Enruta el trabajo fácil a otra parte — no lo uses por defecto
Calidad por dólar

Mejor valor en la frontera

  • Gemini 3.1 Pro ($1.74) o Qwen3.7 Max ($1.43)
  • Índice 57 — a ~8 puntos de la cima
  • El valor predeterminado correcto para la mayor parte del tráfico de producción
Márgenes o residencia de datos

Menor coste / autoalojamiento

  • MiniMax-M3 ($0.22), DeepSeek V4 ($0.18)
  • Pesos abiertos, contexto de 1M, autoalojables
  • Los aciertos de caché reducen aún más la tarifa de entrada
La arquitectura importa tanto como el modelo

Programación dentro de un agente

  • GPT-5.5 vía Codex encabeza Terminal-Bench 2.1
  • Opus 4.8 vía Claude Code está justo detrás
  • Clasifica pares de agente+modelo, no modelos por sí solos
Mejor por carril, sin un #1 general

Imagen y vídeo

  • Imagen: Nano Banana 2 / GPT Image / Seedream 5
  • Vídeo: Veo 3.1 (audio) o Kling 3.0 (valor)
  • La API de Sora 2 cierra el 24 sep 2026 — migra
La latencia se acumula en los bucles de agentes

Tiempo real / alto rendimiento

  • Mercury 2 (~889 t/s) o un modelo de nivel Flash
  • >150 t/s ya se siente instantáneo en el chat
  • La velocidad es decisiva para lotes + cadenas de varios pasos

Preguntas frecuentes

¿Cuál es el mejor modelo de IA ahora mismo (junio de 2026)?

Para capacidad bruta, Claude Fable 5 lidera el Artificial Analysis Intelligence Index (65). Pero "mejor" depende de la tarea: GPT-5.5 lidera la programación con agentes, Gemini 3.1 Pro es la mejor relación calidad-precio, y modelos abiertos como MiniMax-M3 son los mejores para despliegues sensibles al coste. La perspectiva en vivo de Mindber está en el ranking de Model Arena.

¿Es Claude mejor que GPT-5.5?

En el Intelligence Index compuesto, Claude Fable 5 (65) y Opus 4.8 (61) se sitúan por encima de GPT-5.5 (60). En programación con agentes (Terminal-Bench 2.1), GPT-5.5 vía Codex (83.4%) supera actualmente por poco a Opus 4.8 vía Claude Code (78.9%). Están lo bastante cerca como para que el encaje en el flujo de trabajo y el precio suelan decidir — la calculadora de costes de Opus 4.8 ayuda con el lado económico.

¿Cuál es el mejor modelo de IA gratuito o de código abierto?

MiniMax-M3 (Intelligence Index 55) es el modelo de pesos abiertos cercano a la frontera más fuerte, seguido de Kimi K2.6 (54) y DeepSeek V4 Pro (52). Todos son autoalojables y drásticamente más baratos que los modelos de frontera cerrados.

¿Cuál es el modelo de IA bueno más barato?

DeepSeek V4 Pro ($0.18 combinado /1M tokens, índice 52) y MiniMax-M3 ($0.22, índice 55) ofrecen calidad cercana a la frontera a aproximadamente una décima parte del precio de los principales modelos cerrados.

¿Cuál es el mejor modelo de IA para programar?

Por modelo: Claude Fable 5 / Opus 4.8 lideran SWE-bench Verified. Por agente de programación: GPT-5.5 (Codex) encabeza Terminal-Bench 2.1. Ten en cuenta que SWE-bench Verified está parcialmente saturado — consulta SWE-bench Pro para una señal del mundo real.

¿Por qué son tan altas las puntuaciones de SWE-bench — son reales?

Trata con cautela las puntuaciones de 90%+ en SWE-bench Verified. El benchmark tiene una contaminación conocida de los datos de entrenamiento; OpenAI dejó de reportarlo. En el ranking estandarizado SEAL de Scale la mejor puntuación pública es ~59%, y ningún modelo supera ~47% en el conjunto privado. El éxito de programación en el mundo real es aproximadamente la mitad del titular de Verified.

¿Cuál es el mejor generador de imágenes con IA en 2026?

Nano Banana 2 para uso general y consistencia de personajes, GPT Image para texto/tipografía, y Seedream 5.0 para producción de alto volumen y sensible al coste.

¿Cuál es el mejor generador de vídeo con IA ahora que Sora ya no está?

Veo 3.1 para calidad cinematográfica con audio sincronizado nativo, y Kling 3.0 para la mejor relación calidad-precio (~$0.10/segundo). La API de Sora 2 se cierra el 24 de septiembre de 2026.

¿Con qué frecuencia se actualiza este ranking?

Mensualmente. Esta es la edición de junio de 2026; la próxima actualización llega a mediados de julio de 2026. Entre ediciones, el ranking de Model Arena y el feed de Novedades siguen los lanzamientos a medida que ocurren.

Método y fuentes

No ejecutamos nuestros propios benchmarks privados ni inventamos puntuaciones. Este ranking agrega resultados publicados de fuentes independientes y atribuye cada cifra a su origen y fecha — esa transparencia es el objetivo, y es el mismo estándar al que nuestra metodología de puntuación somete cada página de producto.

  • Capacidad / precio / velocidad: Artificial Analysis Intelligence Index (381 modelos), junio de 2026.
  • Programación: vals.ai (SWE-bench Verified) y Scale AI SEAL (SWE-bench Pro, andamiaje estandarizado), junio de 2026.
  • Agentes: tbench.ai (Terminal-Bench 2.1) y τ²-bench, junio de 2026.
  • Preferencia humana: LMArena (votación A/B a ciegas), junio de 2026.
  • Precios y especificaciones de los proveedores: páginas de precios de Anthropic, OpenAI y Google Gemini, junio de 2026.

Los precios son combinados/ilustrativos y cambian con frecuencia — verifícalos contra los precios vigentes de cada proveedor antes de comprometer presupuesto. Algunos modelos en vista previa de investigación (p. ej. las previews de nivel Mythos) aparecen en los rankings pero no están disponibles de forma general; clasificamos el campo de uso público. Para la imagen completa de lo que un modelo realmente cuesta una vez contados los reintentos, la asimetría de salida y los asientos inactivos, lee El verdadero coste de las herramientas de IA 2026.

¿Detectaste un error o un nuevo lanzamiento que se nos escapó? Esa es la forma más rápida de mejorar un ranking — cuéntanoslo.

Explora más en Mindber: el ranking en vivo de Model Arena · Novedades · el ranking semanal de LLM · el directorio completo de herramientas de IA · todas nuestras guías.

Relacionado en Mindber

El verdadero coste de las herramientas de IA en 2026: precio de catálogo vs realidad

Por qué el coste real de una herramienta de IA es ~8x la tarifa publicada — un modelo de TCO totalmente documentado con los siete costes ocultos.

Calculadora de costes de Opus 4.8: cuándo supera a Sonnet y GPT-5.5

Cargas de trabajo de punto de equilibrio, ahorros con enrutamiento inteligente y tarifas de caché por modelo para los modelos de frontera actuales.

Claude Fable 5: qué es, cómo usarlo y los prompts que lo aprovechan

El primer modelo público de clase Mythos de Anthropic — precios, salvaguardas, benchmarks, acceso y prompts listos para copiar y pegar.

Share this article

Aviso legal

Esta publicación constituye comentario editorial sobre información disponible públicamente y no constituye asesoramiento financiero, legal, de inversión ni profesional. Los nombres de productos, marcas comerciales y marcas registradas mencionados pertenecen a sus respectivos propietarios; su aparición no implica respaldo ni afiliación. El análisis de Mindber refleja juicio editorial basado en señales públicas y puede cambiar sin previo aviso. Las puntuaciones no son recomendaciones de compra, venta o mantenimiento. No existe relación comercial entre Mindber y los proveedores evaluados salvo que se indique por escrito. Esta publicación se rige por las leyes de Malasia. Cualquier disputa derivada de esta publicación o relacionada con ella se someterá a la jurisdicción exclusiva de los tribunales de Malasia.

Generado por IA · Este informe fue generado con modelos de lenguaje de IA entrenados con datos disponibles públicamente. Refleja análisis editorial en el momento de generación y no es resultado de pruebas prácticas del producto, verificación independiente por un analista humano ni respaldo comercial. Todas las puntuaciones, evaluaciones y afirmaciones se derivan de señales indexadas por Mindber en el momento de generación y pueden cambiar sin previo aviso. Mindber y sus operadores no garantizan exactitud, integridad ni idoneidad para ningún propósito de toma de decisiones comerciales. Este informe es solo informativo.

MI

Mindber Research

Editorial de Mindber — seguimiento de modelos de IA.

Agrega resultados de benchmarks publicados (Artificial Analysis, vals.ai, Scale AI SEAL, tbench.ai, LMArena) y atribuye cada cifra a su fuente y fecha.

On this page
  • Resumen — mejor modelo por categoría (junio de 2026)
  • Qué cambió este mes
  • 1) Texto y razonamiento
  • 2) Programación
  • ⚠️ La comprobación de realidad que la mayoría de los rankings no te dará
  • 3) Agentes y uso de herramientas
  • 4) Generación de imágenes
  • 5) Generación de vídeo
  • 6) Mejor relación calidad-precio y pesos abiertos (el carril bootstrap)
  • 7) Velocidad (para tiempo real y cadenas largas de agentes)
  • Cómo elegir un modelo de verdad
  • Preguntas frecuentes
  • Método y fuentes

Artículos relacionados

Claude Fable 5: qué es, cómo usarlo y los prompts que lo explotan

9 jun12 min

El gobierno de EE.UU. suspende Claude Fable 5

13 jun12 min

El coste real de las herramientas de IA en 2026: precio de etiqueta vs realidad

5 jun12 min