Geliştiriciler GPT-5'in Karma Bir Çanta Olduğunu Söylüyor

Geçtiğimiz hafta OpenAI, GPT-5'i piyasaya sürdüğünde , yazılım mühendislerine modelin yüksek kaliteli kod üretme ve aracı veya otomatik yazılım görevlerini yerine getirme konusunda üstünlük sağlayan "gerçek bir kodlama iş birlikçisi " olarak tasarlandığını söyledi. Şirket bunu açıkça belirtmese de, OpenAI, yapay zeka destekli kodlama için hızla birçok geliştiricinin tercih ettiği araç haline gelen Anthropic'in Claude Code'unu doğrudan hedef alıyor gibiydi.
Ancak geliştiriciler, WIRED'a GPT-5'in şimdiye kadar karmaşık bir yapıda olduğunu söylüyor. Teknik muhakeme ve kodlama görevlerini planlamada parlıyor, ancak bazıları Anthropic'in en yeni Opus ve Sonnet muhakeme modellerinin hala daha iyi kod ürettiğini söylüyor. Geliştiricilerin kullandığı GPT-5 sürümüne (düşük, orta veya yüksek ayrıntı düzeyi) bağlı olarak model daha ayrıntılı olabiliyor ve bu da bazen gereksiz veya tekrarlayan kod satırları üretmesine yol açıyor.
Bazı yazılım mühendisleri, OpenAI'nin GPT-5'in kodlama performansını değerlendirme biçimini eleştirerek, kullandığı kıyaslama ölçütlerinin yanıltıcı olduğunu savundu. Bir araştırma şirketi, OpenAI'nin GPT-5'in yetenekleriyle övünerek yayınladığı bir grafiği "grafik suçu" olarak nitelendirdi.
GPT-5 en azından bir açıdan öne çıkıyor: Birçok kişi, rakip modellere kıyasla çok daha uygun maliyetli bir seçenek olduğunu belirtti. "GPT-5, testlerimizde diğer yapay zeka modellerinden çoğunlukla daha iyi performans gösteriyor, ancak gerçekten ucuz," diyor Princeton Üniversitesi'nde bilgisayar bilimleri doktora öğrencisi ve AI Snake Oil kitabının ortak yazarı araştırmacı Sayash Kapoor.
Kapoor, GPT-5 modelinin geçen hafta kamuoyuna sunulmasından bu yana ekibiyle birlikte modelin yeteneklerini değerlendirmek için kıyaslama testleri yürüttüğünü söylüyor. Ekibinin kullandığı standart testin (bir dil modelinin 45 bilimsel makalenin sonuçlarını yeniden üretebilecek kodu ne kadar iyi yazabildiğini ölçen) GPT-5 orta veya orta düzey ayrıntı düzeyine ayarlandığında çalıştırılmasının 30 dolara mal olduğunu belirtiyor. Anthropic'in Opus 4.1 sürümünü kullanan aynı testin maliyeti ise 400 dolar. Kapoor, ekibinin GPT-5'i test etmek için şimdiye kadar yaklaşık 20.000 dolar harcadığını söylüyor.
GPT-5 ucuz olmasına rağmen, Kapoor'un testleri modelin bazı rakiplerinden daha az doğru olduğunu gösteriyor. Claude'un premium modeli, bilimsel makalelerin ne kadarını doğru bir şekilde kopyaladığına göre ölçülen %51 doğruluk oranına ulaştı. GPT-5'in orta versiyonu ise %27 doğruluk oranına sahipti. (Kapoor henüz aynı testi GPT-5 high ile yapmadığı için, Opus 4.1'in Anthropic'in en güçlü modeli olduğu düşünüldüğünde, bu dolaylı bir karşılaştırmadır.)
OpenAI sözcüsü Lindsay McCallum, WIRED'ın bloguna atıfta bulunarak, GPT-5'i "yeni kurulan şirketler ve işletmelerdeki erken test uzmanlarıyla iş birliği içinde gerçek dünya kodlama görevlerinde" eğittiğini belirtti. Şirket ayrıca, GPT-5 için yaptığı bazı dahili doğruluk ölçümlerine de değindi ve bu ölçümlerde, daha bilinçli akıl yürütme yapan GPT-5 "düşünme" modelinin, tüm OpenAI modelleri arasında doğruluk açısından en yüksek puanı aldığını gösterdi. Ancak GPT-5'in "ana modeli", OpenAI'nin kendi doğruluk ölçeğinde daha önce yayınlanan modellerin gerisinde kaldı.
Anthropic sözcüsü Amie Rotherham yaptığı açıklamada, "Geliştiriciler bunları üretim ortamlarında kullanmaya başladığında performans iddiaları ve fiyatlandırma modelleri genellikle farklı görünür. Muhakeme modelleri düşünürken hızla çok sayıda token kullanabildiğinden, sektör, token başına fiyattan ziyade sonuç başına fiyatın daha önemli olduğu bir dünyaya doğru ilerliyor." dedi.
Bazı geliştiriciler, GPT-5 ile şimdiye kadar büyük ölçüde olumlu deneyimler yaşadıklarını söylüyor. Mühendis, yatırımcı ve kişisel stil danışmanı Alta'nın yaratıcısı Jenny Wang, WIRED'a verdiği demeçte, modelin karmaşık kodlama görevlerini tek seferde tamamlamada diğer modellere göre daha iyi göründüğünü söyledi. Wang, bunu kod oluşturma ve "biçimlendirme gibi" basit düzeltmeler için sıklıkla kullandığı OpenAI'nin o3 ve 4o modelleriyle karşılaştırdı. "Zaten sahip olduğum API uç noktasına benzer bir API uç noktası oluşturmak istiyorum." diyor Wang.
Wang, GPT-5 testlerinde modelden, şirketinin web sitesi için bir basın sayfası kodu oluşturmasını istediğini ve bu kodda sitenin geri kalan estetiğiyle uyumlu belirli tasarım öğelerinin yer aldığını söylüyor. GPT-5 görevi tek seferde tamamladı; oysa geçmişte Wang, süreç boyunca komutlarını revize etmek zorunda kalırdı. Ancak önemli bir hata vardı: "URL'leri halüsinasyona uğrattı," diyor Wang.
İşverenlerinin basına konuşma yetkisi vermemesi nedeniyle isminin açıklanmaması koşuluyla konuşan bir diğer geliştirici ise GPT-5'in derin teknik sorunları çözmede üstün olduğunu söylüyor.
Geliştiricinin şu anki hobi projesi, güvenlik amacıyla kod izolasyonu gerektiren bir programatik ağ analiz aracı yazmak. Geliştirici, "Projemi ve düşündüğüm bazı yolları sundum ve GPT-5 hepsini değerlendirip gerçekçi bir zaman çizelgesiyle birlikte birkaç öneri sundu," diye açıklıyor. "Etkilendim."
Cursor, Windsurf ve Notion da dahil olmak üzere OpenAI'nin bir avuç kurumsal ortağı ve müşterisi, GPT-5'in kodlama ve muhakeme becerilerine alenen kefil oldu. (OpenAI, bu açıklamaların çoğunu yeni modeli duyuran kendiblog yazısında da dile getirdi.) Notion da X'te, "hızlı, kapsamlı ve test ettiğimiz diğer modellere göre karmaşık işleri yüzde 15 daha iyi hallediyor" ifadelerini kullandı.
Ancak GPT-5'in piyasaya sürülmesinden birkaç gün sonra, bazı geliştiriciler çevrimiçi ortamda şikayetlerini dile getirmeye başladı. Birçoğu, GPT-5'in kodlama becerilerinin, dünyanın en çok konuşulan yapay zeka şirketinin son teknoloji ürünü ve ultra yetenekli modelinin gerisinde kaldığını söyledi.
E-posta kutuları için bir yapay zeka asistanı geliştiren geliştirici Kieran Klassen, "OpenAI'nin GPT-5'i çok iyi, ancak bir yıl önce piyasaya sürülecek bir şey gibi görünüyor," diyor. Haziran 2024'te piyasaya sürülen Anthropic modeline atıfta bulunarak, "Kodlama yetenekleri bana Sonnet 3.5'i hatırlatıyor," diye ekliyor.
Yeni kurulan Doist şirketinin kurucusu Amir Salihefendić, sosyal medyada yaptığı paylaşımda Cursor'da GPT-5 kullandığını ve "oldukça yetersiz" bulduğunu, "özellikle kodlamada kötü" olduğunu söyledi . GPT-4'ün yayınlanmasının, yapay zeka topluluğundaki bazı kişileri hayal kırıklığına uğratan Meta'nın yapay zeka modeline atıfta bulunarak bir "Llama 4 anı" gibi hissettirdiğini söyledi.
Geliştirici Mckay Wrigley, X'te GPT-5'in "olağanüstü bir günlük sohbet modeli" olduğunu ancak kodlama söz konusu olduğunda "Claude Code + Opus kullanmaya devam edeceğim" dedi .
Diğer geliştiriciler GPT-5'i "kapsamlı" olarak tanımlıyor; zaman zaman yardımcı olsa da, uzun soluklu yapısıyla çoğu zaman sinir bozucu. GPT-5'e atadığı ön uç kodlama projesinden genel olarak memnun olan Wang, modelin "daha gereksiz" olduğunu fark ettiğini söylüyor. "Açıkça daha temiz veya daha kısa bir çözüm bulunabilirdi." (Kapoor, GPT-5'in ayrıntı düzeyinin ayarlanabileceğini, böylece kullanıcıların daha iyi performans veya daha ucuz fiyatlandırma karşılığında daha az gevezelik etmesini veya hatta daha az akıl yürütmesini isteyebileceğini belirtiyor.)
Yapay zeka kodlama platformu Qodo'nun kurucu ortağı ve CEO'su Itamar Friedman, GPT-5'e yöneltilen eleştirilerin bir kısmının, yapay zeka modellerinin piyasaya sürülmesiyle ilgili beklentilerin değişmesinden kaynaklandığına inanıyor. "Sanırım birçok kişi, yapay zekaya doğru bu ilerleme sayesinde GPT-5'in yapay zekayla ilgili her şeyin gelişeceği bir başka dönem olacağını düşünüyordu. Oysa model, birkaç önemli alt görevde gelişme kaydetti," diyor.
Friedman, 2022 öncesine "BCE" (ChatGPT Dönemi Öncesi) adını veriyor; yani yapay zeka modellerinin bütünsel olarak geliştiği döneme. ChatGPT sonrası dönemde, yeni yapay zeka modelleri genellikle belirli konularda daha iyi oluyor. Friedman, "Örneğin Claude Sonnet 3.5, kodlama konusunda hepsini geride bırakan tek modeldi. Google Gemini ise kodun yüksek kalitede olup olmadığını kontrol etmek için kod incelemesinde gerçekten başarılı oldu," diyor.
OpenAI, kıyaslama testlerini yürütmek ve GPT-5 hakkında performans iddialarında bulunmak için kullandığı metodoloji nedeniyle de eleştirilere maruz kaldı; ancak kıyaslama testleri sektör genelinde önemli ölçüde farklılık gösteriyor. Yarı iletken ve yapay zeka sektörüne odaklanan bir araştırma şirketi olan SemiAnalysis, OpenAI'nin büyük dil modellerini test etmek için nispeten yeni bir yapay zeka endüstri çerçevesi olan SWE-bench'te genellikle yer alan 500 testten yalnızca 477'sini gerçekleştirdiğini belirtti . (Bu, yalnızca kodlama için değil, modelin genel performansı içindi.)
OpenAI, yapay zeka modellerini SWE-bench testindeki 500 görevin tamamı yerine her zaman sabit bir 477 görev alt kümesinde test ettiğini, çünkü bu 477 testin şirketin kendi iç altyapısında doğruladığı testler olduğunu belirtiyor. McCallum ayrıca, modelin ayrıntı düzeyindeki değişikliklerin "değerlendirme performansında çeşitliliğe yol açabileceğini" belirten GPT-5'in sistem kartına da dikkat çekti.
Kapoor, öncü yapay zeka şirketlerinin nihayetinde zorlu uzlaşmalarla karşı karşıya kaldığını söylüyor. "Model geliştiriciler yeni modeller eğitirken, yeni kısıtlamalar da getiriyorlar ve birçok faktörü göz önünde bulundurmaları gerekiyor: kullanıcıların yapay zekanın nasıl davranmasını beklediği ve aracı kodlama gibi belirli görevlerde nasıl performans gösterdiği gibi, tüm bunları yaparken maliyeti de göz önünde bulundurmaları gerekiyor," diyor. "Bir bakıma, OpenAI'nin tüm bu ölçütleri aşmayacağını bildiğine ve bu yüzden genel olarak geniş bir kitleyi memnun edecek bir şey ürettiğine inanıyorum."
wired