Gli sviluppatori affermano che GPT-5 è un mix di cose

La scorsa settimana, quando OpenAI ha lanciato GPT-5 , ha dichiarato agli ingegneri del software che il modello era stato progettato per essere un "vero e proprio collaboratore di programmazione " in grado di generare codice di alta qualità ed eseguire attività software agentiche, o automatizzate. Sebbene l'azienda non lo abbia dichiarato esplicitamente, OpenAI sembrava prendere di mira direttamente Claude Code di Anthropic , che è rapidamente diventato lo strumento preferito da molti sviluppatori per la programmazione assistita dall'intelligenza artificiale.
Tuttavia, gli sviluppatori affermano a WIRED che GPT-5 ha finora dato risultati contrastanti. Eccelle nel ragionamento tecnico e nella pianificazione delle attività di codifica, ma alcuni sostengono che i più recenti modelli di ragionamento Opus e Sonnet di Anthropic producano comunque codice migliore. A seconda della versione di GPT-5 utilizzata dagli sviluppatori – bassa, media o alta verbosità – il modello può essere più elaborato, il che a volte porta alla generazione di righe di codice inutili o ridondanti.
Alcuni ingegneri del software hanno anche criticato il modo in cui OpenAI ha valutato le prestazioni di GPT-5 nella codifica, sostenendo che i benchmark utilizzati sono fuorvianti. Una società di ricerca ha definito un grafico pubblicato da OpenAI, che vantava le capacità di GPT-5, un "crimine grafico".
GPT-5 si distingue almeno per un aspetto: diversi utenti hanno notato che, rispetto ai modelli concorrenti, è un'opzione molto più conveniente. "GPT-5 è ampiamente superato da altri modelli di intelligenza artificiale nei nostri test, ma è davvero economico", afferma Sayash Kapoor, dottorando in informatica e ricercatore presso la Princeton University, coautore del libro AI Snake Oil .
Kapoor afferma che lui e il suo team hanno eseguito test di benchmark per valutare le capacità di GPT-5 da quando il modello è stato rilasciato al pubblico la scorsa settimana. Osserva che il test standard utilizzato dal suo team – che misura la capacità di un modello linguistico di scrivere codice in grado di riprodurre i risultati di 45 articoli scientifici – costa 30 dollari con GPT-5 impostato su un livello di verbosità medio. Lo stesso test, che utilizza Opus 4.1 di Anthropic, costa 400 dollari. In totale, Kapoor afferma che il suo team ha speso finora circa 20.000 dollari per testare GPT-5.
Sebbene GPT-5 sia economico, i test di Kapoor indicano che il modello è anche meno accurato di alcuni dei suoi concorrenti. Il modello premium di Claude ha raggiunto un indice di accuratezza del 51%, misurato in base al numero di articoli scientifici riprodotti accuratamente. La versione media di GPT-5 ha ottenuto un indice di accuratezza del 27%. (Kapoor non ha ancora eseguito lo stesso test utilizzando GPT-5 high, quindi si tratta di un confronto indiretto, dato che Opus 4.1 è il modello più potente di Anthropic.)
Lindsay McCallum, portavoce di OpenAI, ha rimandato WIRED al suo blog, dove afferma di aver addestrato GPT-5 su "attività di codifica reali in collaborazione con i primi tester di startup e aziende". L'azienda ha anche evidenziato alcune delle sue misurazioni interne di accuratezza per GPT-5, che hanno dimostrato che il modello "pensante" di GPT-5, che esegue un ragionamento più ponderato, ha ottenuto il punteggio più alto in termini di accuratezza tra tutti i modelli di OpenAI. GPT-5 "principale", tuttavia, era ancora inferiore ai modelli rilasciati in precedenza sulla scala di accuratezza di OpenAI.
Amie Rotherham, portavoce di Anthropic, ha dichiarato in una nota che "le dichiarazioni sulle prestazioni e i modelli di prezzo spesso appaiono diversi quando gli sviluppatori iniziano a utilizzarli negli ambienti di produzione. Poiché i modelli di ragionamento possono utilizzare rapidamente molti token durante il ragionamento, il settore si sta muovendo verso un mondo in cui il prezzo per risultato conta più del prezzo per token".
Alcuni sviluppatori affermano di aver avuto finora esperienze ampiamente positive con GPT-5. Jenny Wang, ingegnere, investitrice e creatrice dell'agente di personal styling Alta, ha dichiarato a WIRED che il modello sembra essere più efficace nel completare attività di codifica complesse in un'unica soluzione rispetto ad altri modelli. Lo ha confrontato con o3 e 4o di OpenAI, che usa frequentemente per la generazione di codice e per semplici correzioni "come la formattazione, o se voglio creare un endpoint API simile a quello che ho già", afferma Wang.
Nei suoi test con GPT-5, Wang afferma di aver chiesto al modello di generare il codice per una pagina stampa per il sito web della sua azienda, includendo elementi di design specifici che si adattassero al resto dell'estetica del sito. GPT-5 ha completato l'attività in una sola volta, mentre in passato Wang avrebbe dovuto rivedere i suoi prompt durante il processo. C'era però un errore significativo: "Ha allucinato gli URL", afferma Wang.
Un altro sviluppatore, che ha parlato a condizione di rimanere anonimo perché il suo datore di lavoro non lo ha autorizzato a parlare con la stampa, afferma che GPT-5 eccelle nel risolvere problemi tecnici complessi.
L'attuale progetto amatoriale dello sviluppatore è scrivere uno strumento di analisi di rete programmatica, che richiederebbe l'isolamento del codice per motivi di sicurezza. "Ho presentato il mio progetto e alcuni percorsi che stavo prendendo in considerazione, e GPT-5 ha recepito tutto e mi ha fornito alcune raccomandazioni, insieme a una tempistica realistica", spiega lo sviluppatore. "Sono impressionato".
Alcuni partner e clienti aziendali di OpenAI, tra cui Cursor, Windsurf e Notion, hanno pubblicamente garantito le capacità di codifica e ragionamento di GPT-5. (OpenAI ha incluso molte di queste osservazioni nel suopost sul blog che annunciava il nuovo modello.) Notion ha anche condiviso su X che è "veloce, completo e gestisce lavori complessi il 15% meglio rispetto ad altri modelli che abbiamo testato".
Ma a pochi giorni dal rilascio di GPT-5, alcuni sviluppatori hanno iniziato a lamentarsi online. Molti hanno affermato che le capacità di programmazione di GPT-5 sembravano inadeguate per quello che avrebbe dovuto essere un modello all'avanguardia e ultra-efficiente, prodotto dall'azienda di intelligenza artificiale più in voga al mondo.
"GPT-5 di OpenAI è molto buono, ma sembra qualcosa che sarebbe uscito un anno fa", afferma Kieran Klassen, uno sviluppatore che sta sviluppando un assistente AI per le caselle di posta elettronica. "Le sue capacità di programmazione mi ricordano Sonnet 3.5", aggiunge, riferendosi a un modello di Anthropic lanciato nel giugno 2024.
Amir Salihefendić, fondatore della startup Doist, ha dichiarato in un post sui social media di aver utilizzato GPT-5 in Cursor e di averlo trovato "piuttosto deludente" e "particolarmente pessimo nella programmazione". Ha affermato che il rilascio di GPT-4 è stato come un "momento Llama 4", riferendosi al modello di intelligenza artificiale di Meta, che aveva deluso anche alcuni membri della comunità dell'intelligenza artificiale.
Su X, lo sviluppatore Mckay Wrigley ha scritto che GPT-5 è un "modello di chat quotidiano fenomenale", ma quando si tratta di codifica, "continuerò a usare Claude Code + Opus".
Altri sviluppatori descrivono GPT-5 come "esaustivo", a volte utile, ma spesso irritante per la sua prolissità. Wang, che nel complesso era soddisfatta del progetto di codifica frontend che aveva assegnato a GPT-5, afferma di aver notato che il modello era "più ridondante. Avrebbe chiaramente potuto fornire una soluzione più pulita o più breve". (Kapoor sottolinea che la verbosità di GPT-5 può essere regolata, in modo che gli utenti possano chiedergli di essere meno prolisso o persino di ragionare meno in cambio di prestazioni migliori o prezzi più bassi.)
Itamar Friedman, cofondatore e CEO della piattaforma di programmazione AI Qodo, ritiene che alcune delle critiche a GPT-5 derivino dall'evoluzione delle aspettative relative al rilascio dei modelli di AI. "Credo che molti pensassero che GPT-5 avrebbe rappresentato un altro momento di miglioramento per tutto ciò che riguarda l'AI, grazie a questa marcia verso l'AGI. Quando in realtà, il modello ha migliorato alcuni sotto-compiti chiave", afferma.
Friedman si riferisce al periodo precedente al 2022 come "BCE" (Before ChatGPT Era), quando i modelli di intelligenza artificiale sono migliorati in modo olistico. Nell'era post-ChatGPT, i nuovi modelli di intelligenza artificiale sono spesso migliori in determinati ambiti. "Claude Sonnet 3.5, ad esempio, è stato l'unico modello a dominare la scena in termini di programmazione. E Google Gemini è diventato davvero bravo nella revisione del codice, per verificarne l'alta qualità", afferma Friedman.
OpenAI è stata anche criticata per la metodologia utilizzata per eseguire i suoi test di benchmark e per le dichiarazioni sulle prestazioni di GPT-5, sebbene i test di benchmark varino notevolmente a seconda del settore. SemiAnalysis, una società di ricerca specializzata nel settore dei semiconduttori e dell'intelligenza artificiale, ha osservato che OpenAI ha eseguito solo 477 dei 500 test tipicamente inclusi in SWE-bench , un framework relativamente nuovo per il settore dell'intelligenza artificiale per testare modelli linguistici di grandi dimensioni. (Questo riguardava le prestazioni complessive del modello, non solo la codifica.)
OpenAI afferma di testare sempre i propri modelli di intelligenza artificiale su un sottoinsieme fisso di 477 task anziché sui 500 completi del test SWE-bench, perché quei 477 test sono quelli che l'azienda ha convalidato sulla propria infrastruttura interna. McCallum ha anche fatto riferimento alla scheda di sistema di GPT-5 , che ha osservato come le modifiche all'impostazione del livello di verbosità del modello possano "portare a variazioni nelle prestazioni di valutazione".
Kapoor afferma che le aziende di intelligenza artificiale di frontiera si trovano in ultima analisi ad affrontare difficili compromessi. "Quando gli sviluppatori di modelli addestrano nuovi modelli, introducono anche nuovi vincoli e devono considerare molti fattori: come gli utenti si aspettano che l'intelligenza artificiale si comporti e come si comporta in determinate attività come la codifica agentica, il tutto gestendo i costi", afferma. "In un certo senso, credo che OpenAI sapesse di non superare tutti quei parametri di riferimento, quindi ha creato qualcosa che in generale avrebbe soddisfatto una vasta gamma di persone".
wired