Le 7 août 2025, OpenAI a officiellement présenté GPT-5, déployant progressivement son modèle le plus avancé dans ChatGPT. Disponible par défaut pour tous les utilisateurs avec des quotas gratuits limités et des capacités étendues pour les abonnés Plus et Pro, cette sortie marque une nouvelle étape dans l’évolution multimodale. Le modèle, classé 5e mondial avec un score Elo de 1150, affronte directement Google Gemini (1218 points) sur le terrain de la création visuelle native. La question centrale est désormais de savoir si ce nouveau venu peut rivaliser avec l’hégémonie de Google, dont les modèles trustent actuellement le haut du classement des générateurs d’images.
Les spécificités techniques et le positionnement stratégique de gpt-5
GPT-5 se décline en six versions distinctes, conçues pour répondre à des besoins variés, allant du GPT-5 standard au GPT-5 Pro dédié aux tâches complexes et au raisonnement avancé. OpenAI a cherché un équilibre entre vitesse, coût et profondeur de raisonnement, promettant un modèle plus stable, adaptable et transparent dans ses opérations.
En matière de génération d’images, les performances de novembre 2025 placent GPT-5 à la 5e place du top 10 mondial, avec un score Elo de 1150, soit une progression de 15 points par rapport au mois d’octobre. Le modèle démontre des capacités à interpréter des prompts complexes pour produire des visuels réalistes, avec une intégration texte-image fluide dans ses réponses. Par exemple, il peut générer une illustration détaillée à partir d’une description narrative élaborée, s’efforçant de combler l’écart avec les leaders du marché.
Un paysage concurrentiel dominé par la suprématie de google
La rivalité fait rage. Le classement de novembre 2025 des générateurs d’images est largement dominé par les technologies de Google, qui place trois modèles dans le top 8.
| Classement | Modèle | Entreprise | Score Elo |
|---|---|---|---|
| 1 | Nano Banana Pro (Gemini 3.0 Pro Image) | 1218 | |
| 2 | Gemini 2.5 Flash Image | 1165 | |
| 3 | Imagen 4 Preview | 1158 | |
| 4 | ImagineArt 1.5 Preview | ImagineArt | 1152 |
| 5 | GPT-5 | OpenAI | 1150 |
Le défi pour OpenAI est de taille : les modèles Gemini excellent notamment dans la gestion précise du texte au sein des visuels et offrent un contrôle créatif approfondi sur les détails. Pour un prompt comme « une recette de gâteau avec une image étape par étape », Gemini montre souvent une intégration plus cohérente. Cette domination technique de Google traduit une consolidation accélérée du marché autour de quelques acteurs majeurs, un obstacle majeur pour tout nouvel entrant.
L’évolution interne et les correctifs apportés au modèle
GPT-5 s’appuie sur les progrès réalisés avec GPT-4.5, le modèle grand public le plus avancé d’OpenAI jusqu’alors, reconnu pour son vaste champ de connaissances, la réduction des hallucinations et une fiabilité accrue des réponses. Le lancement de GPT-5 n’a pas été sans accroc ; des utilisateurs ont initialement rapporté une certaine lenteur et des réponses trop concises comparé à GPT-4o. Le PDG Sam Altman est intervenu dès le 9 août sur X pour annoncer des correctifs, affirmant que le modèle « paraîtra plus intelligent dès aujourd’hui ». OpenAI a également doublé les crédits mensuels pour les abonnés Pro en réponse aux feedbacks. Sur le front des images, GPT-5 reprend et améliore la multimodalité de GPT-4o, cherchant à atteindre une fluidité accrue entre l’analyse et la création.
Un écosystème en pleine mutation et consolidation
Le marché de la génération d’images par IA connaît une consolidation rapide. Au-delà du duel OpenAI-Google, d’autres acteurs notables émergent ou maintiennent leur position :
- ImagineArt 1.5 (4e, 1152 points), présenté mi-novembre comme « le modèle d’IA le plus réaliste au monde ».
- Seedream 3.0 de ByteDance (6e, 1144 points).
- Wan 2.5 d’Alibaba (7e, 1136 points).
À l’inverse, d’anciens leaders comme Midjourney (34e), Adobe Firefly (37e) ou Grok (49e) reculent significativement dans ce classement basé sur les scores Elo.
Les enjeux sont clairs : la course au score Elo reflète l’importance stratégique de la génération d’images native, parfaitement intégrée à des assistants capables de raisonnement multimodal (texte, image, audio). Les modèles comme Gemini 2.0 Flash ont montré la voie avec une production et une modification d’images en plusieurs étapes et une intégration texte-image dans des réponses unifiées (recettes, tutoriels). Pour GPT-5, la maîtrise de cette fluidité créative est un impératif, d’autant que ses bénéfices se répercutent sur l’ensemble de l’écosystème utilisateur, de la personnalisation d’outils comme Gmail à la création de contenu visuel sur demande.
En résumé, GPT-5 renforce l’arsenal d’OpenAI avec un score de 1150 et une multimodalité améliorée, mais se heurte à la supériorité technique actuelle de Google. La bataille pour l’image IA la plus réaliste et intuitive est engagée. Testez dès maintenant ses capacités dans ChatGPT pour vous faire votre propre opinion.