Anthropic vient de reprendre la tête — Claude Opus 4.7 dépasse 87 % sur SWE-bench, et les chiffres racontent une histoire plus propre que le battage
Pour une fois, le titre "tête reprise" survit aux mathématiques de référence. Opus 4.7 fait passer SWE-bench Verified de 80,8 à 87,6 pour cent — devant Gemini 3.1 Pro à 80,6 — et se détache sur les métriques qui comptent pour les équipes qui livrent du code.
Entièrement vérifié
FLASHFEED Desk··Updated: 17 Apr 2026, 23:21:02·4 min read
La sortie de Claude Opus 4.7 reprend de justesse le trône du modèle de langage généralement disponible le plus puissant — et contrairement à la plupart des cycles de presse "tête reprise", les mathématiques de référence soutiennent réellement le titre. SWE-bench Verified passe de 80,8 à 87,6 pour cent, un gain de près de sept points qui le place devant Gemini 3.1 Pro à 80,6. SWE-bench Pro, le test de codage multi-langage plus difficile, passe de 53,4 à 64,3. Ce ne sont pas des améliorations marginales. C'est la différence entre un modèle qui gère les tâches d'ingénierie communes et un modèle qui gère les tâches désordonnées sur lesquelles la génération précédente trébuchait régulièrement.
Comparez la courbe à son prédécesseur. Opus 4.6 était déjà le meilleur modèle généraliste pour le travail de codage agentique fin 2025 ; l'écart avec GPT-5.4 était réel mais contestable. Opus 4.7 élargit cet écart sur les métriques qui comptent pour les équipes qui livrent réellement du code — SWE-bench, MCP-Atlas à 77,3 pour cent pour l'orchestration multi-outils, et un benchmark de vision qui passe de 57,7 à 79,5 pour cent pour la navigation visuelle sans outils. Chacun de ces chiffres, pris seul, est une amélioration générationnelle normale. Pris ensemble, ils décrivent un modèle qui est significativement plus utile que ce qui est venu avant.
La métrique la plus sous-discutée est GDPVal-AA, l'évaluation du travail de connaissance. Opus 4.7 mène avec un Elo de 1753, GPT-5.4 à 1674 et Gemini 3.1 Pro à 1314. Cet écart n'est pas un artefact de référence — il reflète ce que les vrais utilisateurs continuent d'observer dans les comparaisons côte à côte. Là où les benchmarks de codage mesurent ce que les modèles peuvent faire, GDPVal-AA mesure ce qu'ils font réellement pour le type de travail professionnel pour lequel les gens paient. L'écart de 79 points Elo avec GPT-5.4 correspond à environ 60 pour cent de taux de victoire dans les matchs en tête-à-tête. L'écart de 439 points avec Gemini 3.1 Pro est, dans ce type d'évaluation, une distance générationnelle.
Anthropic a également concédé quelque chose de rare dans cette sortie — qu'Opus 4.7 reste en deçà de son aperçu Mythos non publié, disponible uniquement pour un groupe sélectionné de clients. Cette franchise est la partie de ce lancement la plus digne d'être lue. Elle signale que le modèle public n'est plus le bord saignant de ce qu'un laboratoire de pointe peut livrer, et que la prochaine sortie publique comblera probablement l'écart. Pour les développeurs, les constructeurs et le marché plus large qui dépend du modèle disponible le plus puissant, Opus 4.7 est le nouveau plancher. Le plafond est maintenant plus proche qu'il ne l'a jamais été.