Les développeurs disent que GPT-5 est un sac mélangé

La semaine dernière, lors du lancement de GPT-5 , OpenAI a expliqué aux ingénieurs logiciels que le modèle était conçu pour être un « véritable outil de collaboration en codage », capable de générer du code de haute qualité et d'exécuter des tâches logicielles automatisées. Bien que l'entreprise ne l'ait pas explicitement indiqué, OpenAI semblait viser directement Claude Code d'Anthropic , rapidement devenu l'outil privilégié de nombreux développeurs pour le codage assisté par IA.
Cependant, les développeurs confient à WIRED que GPT-5 a jusqu'à présent donné des résultats mitigés. Il excelle dans le raisonnement technique et la planification des tâches de codage, mais certains affirment que les nouveaux modèles de raisonnement Opus et Sonnet d'Anthropic produisent toujours un meilleur code. Selon la version de GPT-5 utilisée par les développeurs (faible, moyenne ou élevée en termes de verbosité), le modèle peut être plus élaboré, ce qui peut parfois générer des lignes de code inutiles ou redondantes.
Certains ingénieurs logiciels ont également critiqué la manière dont OpenAI a évalué les performances de GPT-5 en matière de codage, arguant que les benchmarks utilisés étaient trompeurs. Un cabinet d'études a qualifié de « crime graphique » un graphique publié par OpenAI vantant les capacités de GPT-5.
GPT-5 se distingue au moins sur un point : plusieurs personnes ont souligné que, comparé aux modèles concurrents, il s'agit d'une option bien plus rentable. « GPT-5 est largement surpassé par d'autres modèles d'IA lors de nos tests, mais il est vraiment bon marché », explique Sayash Kapoor, doctorant en informatique et chercheur à l'Université de Princeton, co-auteur de l'ouvrage AI Snake Oil .
Kapoor explique que son équipe et lui effectuent des tests comparatifs pour évaluer les capacités de GPT-5 depuis la publication du modèle la semaine dernière. Il précise que le test standard utilisé par son équipe – qui mesure la capacité d'un modèle de langage à écrire du code reproduisant les résultats de 45 articles scientifiques – coûte 30 dollars avec un niveau de verbosité moyen (ou intermédiaire) pour GPT-5. Le même test, réalisé avec Opus 4.1 d'Anthropic, coûte 400 dollars. Au total, Kapoor indique que son équipe a dépensé environ 20 000 dollars pour tester GPT-5 jusqu'à présent.
Bien que GPT-5 soit bon marché, les tests de Kapoor indiquent que le modèle est également moins précis que certains de ses concurrents. Le modèle haut de gamme de Claude a atteint une précision de 51 %, mesurée par le nombre d'articles scientifiques reproduits fidèlement. La version intermédiaire de GPT-5 a obtenu une précision de 27 %. (Kapoor n'a pas encore effectué le même test avec GPT-5 haut de gamme ; il s'agit donc d'une comparaison indirecte, étant donné qu'Opus 4.1 est le modèle le plus puissant d'Anthropic.)
Lindsay McCallum, porte-parole d'OpenAI, a renvoyé WIRED à son blog, où elle a indiqué avoir entraîné GPT-5 sur des « tâches de codage concrètes, en collaboration avec des testeurs précoces issus de startups et d'entreprises ». L'entreprise a également mis en avant certaines de ses mesures de précision internes pour GPT-5, qui ont montré que le modèle « pensée » GPT-5, qui raisonne de manière plus délibérée, obtenait le meilleur score de précision parmi tous les modèles d'OpenAI. Cependant, GPT-5 « principal » restait en deçà des modèles précédemment publiés sur l'échelle de précision d'OpenAI.
Amie Rotherham, porte-parole d'Anthropic, a déclaré dans un communiqué que « les performances annoncées et les modèles de tarification semblent souvent différents une fois que les développeurs commencent à les utiliser en production. Puisque les modèles de raisonnement peuvent rapidement utiliser de nombreux jetons lors de la réflexion, le secteur évolue vers un monde où le prix par résultat compte davantage que le prix par jeton. »
Certains développeurs affirment avoir eu des expériences globalement positives avec GPT-5 jusqu'à présent. Jenny Wang, ingénieure, investisseuse et créatrice de l'outil de stylisation personnelle Alta, a déclaré à WIRED que le modèle semble plus performant que d'autres pour réaliser des tâches de codage complexes en une seule fois. Elle l'a comparé aux modèles o3 et 4o d'OpenAI, qu'elle utilise fréquemment pour la génération de code et les corrections simples, « comme le formatage, ou si je souhaite créer un point de terminaison d'API similaire à celui que j'utilise déjà », explique Wang.
Lors de ses tests avec GPT-5, Wang explique avoir demandé au modèle de générer le code d'une page presse pour le site web de son entreprise, incluant des éléments de design spécifiques qui s'harmoniseraient avec l'esthétique du site. GPT-5 a réalisé la tâche en une seule fois, alors qu'auparavant, Wang aurait dû revoir ses instructions en cours de route. Une erreur majeure a toutefois été constatée : « Il y avait une hallucination des URL », explique Wang.
Un autre développeur, qui a parlé sous couvert d'anonymat parce que son employeur ne l'avait pas autorisé à parler à la presse, affirme que GPT-5 excelle dans la résolution de problèmes techniques profonds.
Le projet amateur actuel du développeur consiste à développer un outil d'analyse de réseau programmatique, qui nécessiterait l'isolation du code pour des raisons de sécurité. « J'ai présenté mon projet et quelques pistes que j'envisageais, et GPT-5 a tout analysé et a formulé quelques recommandations, accompagnées d'un calendrier réaliste », explique le développeur. « Je suis impressionné. »
Plusieurs entreprises partenaires et clients d'OpenAI, dont Cursor, Windsurf et Notion, ont publiquement reconnu les capacités de codage et de raisonnement de GPT-5. (OpenAI a repris nombre de ces remarques dans sonbillet de blog annonçant le nouveau modèle.) Notion a également indiqué sur X qu'il était « rapide, complet et qu'il gérait les tâches complexes 15 % mieux que les autres modèles que nous avons testés ».
Mais quelques jours après la sortie de GPT-5, certains développeurs se sont plaints en ligne. Nombre d'entre eux ont déclaré que les capacités de codage de GPT-5 semblaient en retard pour ce qui était censé être un modèle de pointe et ultra-performant de l'entreprise d'IA la plus en vogue au monde.
« Le GPT-5 d'OpenAI est excellent, mais il semble avoir été lancé il y a un an », déclare Kieran Klassen, développeur qui développe un assistant IA pour les boîtes de réception. « Ses capacités de codage me rappellent Sonnet 3.5 », ajoute-t-il, faisant référence à un modèle Anthropic lancé en juin 2024.
Amir Salihefendić, fondateur de la startup Doist, a déclaré sur les réseaux sociaux qu'il utilisait GPT-5 dans Cursor et qu'il le trouvait « assez décevant » et qu'il « était particulièrement mauvais en codage ». Il a déclaré que la sortie de GPT-4 ressemblait à un « moment Llama 4 », en référence au modèle d'IA de Meta, qui avait également déçu certains membres de la communauté de l'IA.
Sur X, le développeur Mckay Wrigley a écrit que GPT-5 est un « modèle de chat quotidien phénoménal », mais lorsqu'il s'agit de coder, « j'utiliserai toujours Claude Code + Opus ».
D'autres développeurs décrivent GPT-5 comme « exhaustif » ; parfois utile, mais souvent agaçant par sa longueur. Wang, globalement satisfaite du projet de codage front-end qu'elle a confié à GPT-5, indique avoir remarqué que le modèle était « plus redondant. Il aurait clairement pu proposer une solution plus claire ou plus concise. » (Kapoor souligne que la verbosité de GPT-5 peut être ajustée, de sorte que les utilisateurs peuvent demander qu'il soit moins bavard, voire moins raisonné, en échange de meilleures performances ou d'un prix plus avantageux.)
Itamar Friedman, cofondateur et PDG de la plateforme de codage d'IA Qodo, estime que certaines critiques à l'encontre de GPT-5 découlent de l'évolution des attentes concernant les versions de modèles d'IA. « Je pense que beaucoup pensaient que GPT-5 marquerait une nouvelle avancée majeure en matière d'IA, grâce à cette évolution vers l'AGI. Or, le modèle a en réalité progressé sur quelques sous-tâches clés », explique-t-il.
Friedman qualifie la période précédant 2022 d'« Avant l'ère ChatGPT » (Before ChatGPT Era), époque où les modèles d'IA se sont considérablement améliorés. Après ChatGPT, les nouveaux modèles d'IA sont souvent plus performants sur certains points. « Claude Sonnet 3.5, par exemple, était le modèle qui les a tous dominés en matière de codage. Et Google Gemini est devenu très performant en matière de revue de code, pour vérifier sa qualité », explique Friedman.
OpenAI a également été critiqué pour la méthodologie utilisée pour réaliser ses tests d'évaluation et ses déclarations de performance concernant GPT-5, bien que ces tests varient considérablement selon le secteur. SemiAnalysis, un cabinet d'études spécialisé dans le secteur des semi-conducteurs et de l'IA, a constaté qu'OpenAI n'avait exécuté que 477 des 500 tests généralement inclus dans SWE-bench , un framework d'IA relativement récent pour tester de grands modèles de langage. (Il s'agissait d'évaluer les performances globales du modèle, et pas seulement le codage.)
OpenAI indique qu'elle teste systématiquement ses modèles d'IA sur un sous-ensemble fixe de 477 tâches plutôt que sur les 500 du test SWE-bench, car ces 477 tests sont ceux que l'entreprise a validés sur son infrastructure interne. McCallum a également souligné la fiche système de GPT-5 , qui indique que des modifications du paramètre de verbosité du modèle peuvent « entraîner des variations dans les performances d'évaluation ».
Kapoor affirme que les entreprises d'IA de pointe sont confrontées à des compromis difficiles. « Lorsque les développeurs de modèles entraînent de nouveaux modèles, ils introduisent également de nouvelles contraintes et doivent prendre en compte de nombreux facteurs : les attentes des utilisateurs quant au comportement de l'IA et ses performances dans certaines tâches comme le codage agentique, tout en maîtrisant les coûts », explique-t-il. « D'une certaine manière, je pense qu'OpenAI savait qu'elle ne dépasserait pas tous ces critères, et a donc créé quelque chose qui plairait généralement à un large public. »
wired