Anthropic acaba de retomar el liderazgo — Claude Opus 4.7 cruza el 87% en SWE-bench, y los números cuentan una historia más limpia que la propaganda
Por una vez, el titular "liderazgo retomado" sobrevive a las matemáticas de referencia. Opus 4.7 salta SWE-bench Verified de 80,8 a 87,6 por ciento — por delante de Gemini 3.1 Pro en 80,6 — y se despeja en las métricas que importan a los equipos que envían código.
Totalmente verificado
FLASHFEED Desk··Updated: 17 Apr 2026, 21:29:07·4 min read
El lanzamiento de Claude Opus 4.7 retoma estrechamente el trono del modelo de lenguaje grande generalmente disponible más poderoso — y a diferencia de la mayoría de los ciclos de prensa "liderazgo retomado", las matemáticas de referencia realmente respaldan el titular. SWE-bench Verified salta de 80,8 a 87,6 por ciento, una ganancia de casi siete puntos que lo coloca por delante de Gemini 3.1 Pro en 80,6. SWE-bench Pro, la prueba de codificación multi-idioma más difícil, salta de 53,4 a 64,3. Estas no son mejoras marginales. Es la diferencia entre un modelo que maneja tareas de ingeniería comunes y un modelo que maneja las desordenadas en las que la generación anterior tropezaba regularmente.
Compare la curva con su predecesor. Opus 4.6 ya era el mejor modelo de propósito general para trabajo de codificación agéntica a fines de 2025; la brecha con GPT-5.4 era real pero discutible. Opus 4.7 amplía esa brecha en las métricas que importan a los equipos que realmente envían código — SWE-bench, MCP-Atlas en 77,3 por ciento para orquestación multi-herramienta, y un punto de referencia de visión que salta de 57,7 a 79,5 por ciento para navegación visual sin herramientas. Cada uno de esos números, tomado solo, es una mejora generacional normal. Tomados juntos, describen un modelo que es significativamente más útil que lo que vino antes.
La métrica más subdiscutida es GDPVal-AA, la evaluación del trabajo del conocimiento. Opus 4.7 lidera con un Elo de 1753, con GPT-5.4 en 1674 y Gemini 3.1 Pro en 1314. Esa brecha no es un artefacto de referencia — refleja lo que los usuarios reales siguen observando en comparaciones lado a lado. Donde los puntos de referencia de codificación miden lo que los modelos pueden hacer, GDPVal-AA mide lo que realmente hacen para el tipo de trabajo profesional por el que la gente paga. La brecha de 79 puntos Elo con GPT-5.4 corresponde a aproximadamente un 60 por ciento de tasa de victoria en partidos cara a cara. La brecha de 439 puntos con Gemini 3.1 Pro es, en este tipo de evaluación, una distancia generacional.
Anthropic también concedió algo raro en este lanzamiento — que Opus 4.7 todavía está por debajo de su vista previa Mythos no lanzada, disponible solo para un grupo selecto de clientes. Esa franqueza es la parte de este lanzamiento más digna de ser leída. Señala que el modelo público ya no es el filo cortante de lo que un laboratorio de frontera puede enviar, y que el próximo lanzamiento público probablemente cerrará la brecha. Para los desarrolladores, constructores y el mercado más amplio que depende del modelo disponible más fuerte, Opus 4.7 es el nuevo piso. El techo ahora está más cerca de lo que nunca ha estado.