Google'ın AlphaEvolve'u: Google'ın hesaplamasının %0,7'sini geri alan yapay zeka aracı ve onu nasıl kopyalayacağınız

Sektör lideri AI kapsamı hakkında en son güncellemeler ve özel içerikler için günlük ve haftalık bültenlerimize katılın. Daha Fazla Bilgi Edinin
Google'ın yeni AlphaEvolve'u, bir yapay zeka aracının laboratuvar demosundan üretim çalışmasına geçtiğinde neler olacağını gösteriyor ve bunu yönlendiren en yetenekli teknoloji şirketlerinden birine sahipsiniz.
Google'ın DeepMind'ı tarafından oluşturulan sistem, kritik kodları otonom olarak yeniden yazıyor ve Google içinde zaten kendini ödüyor. Matris çarpımında (birçok makine öğrenimi iş yükünün çekirdeği) 56 yıllık bir rekoru kırdı ve şirketin küresel veri merkezleri genelindeki hesaplama kapasitesinin %0,7'sini geri aldı.
Bu başlık başarıları önemlidir, ancak kurumsal teknoloji liderleri için daha derin ders, AlphaEvolve'un bunları nasıl başardığıdır. Mimarisi -denetleyici, hızlı taslak modelleri, derin düşünme modelleri, otomatik değerlendiriciler ve sürümlü bellek- otonom ajanların ölçekte dağıtılmasını güvenli hale getiren üretim sınıfı tesisatın türünü göstermektedir.
Google'ın AI teknolojisi tartışmasız bir şekilde eşsizdir . Bu yüzden püf noktası, ondan nasıl öğrenileceğini veya hatta doğrudan nasıl kullanılacağını bulmaktır. Google, akademik ortaklar için bir Erken Erişim Programının geldiğini ve "daha geniş kullanılabilirliğin " araştırıldığını söylüyor, ancak ayrıntılar yetersiz. O zamana kadar, AlphaEvolve en iyi uygulama şablonudur: Yüksek değerli iş yüklerine dokunan aracılar istiyorsanız, karşılaştırılabilir orkestrasyon, test ve korumalara ihtiyacınız olacak.
Sadece veri merkezi kazanımını düşünün. Google geri kazanılan %0,7'ye bir fiyat etiketi koymayacak, ancak yıllık sermaye harcamaları onlarca milyar dolar . Kaba bir tahmin bile tasarrufun yıllık yüz milyonlarca dolar olduğunu gösteriyor; bağımsız geliştirici Sam Witteveen'in yakın zamanda podcast'imizde belirttiği gibi, Gemini Ultra gibi bir versiyon için 191 milyon doların üzerinde bir maliyete sahip olduğu tahmin edilen amiral gemisi Gemini modellerinden birinin eğitimini karşılamaya yetecek kadar.
VentureBeat, AlphaEvolve haberini bu hafta başında ilk bildiren kuruluştu. Şimdi daha derinlere ineceğiz: Sistemin nasıl çalıştığı, mühendislik çubuğunun gerçekten nerede olduğu ve işletmelerin benzer bir şey inşa etmek (veya satın almak) için atabilecekleri somut adımlar.
AlphaEvolve, en iyi şekilde bir aracı işletim sistemi olarak tanımlanabilecek bir şeyde çalışır - ölçekte sürekli iyileştirme için oluşturulmuş dağıtılmış, asenkron bir boru hattı. Temel parçaları bir denetleyici, bir çift büyük dil modeli (genişlik için Gemini Flash; derinlik için Gemini Pro), sürümlü bir program belleği veritabanı ve düşük gecikmeden ziyade yüksek verim için ayarlanmış bir değerlendirici işçi filosudur.

Bu mimari kavramsal olarak yeni değil, ancak uygulama yeni. Witteveen, "Bu inanılmaz derecede iyi bir uygulama," diyor.
AlphaEvolve makalesinde orkestratör , “otomatik değerlendirme ölçütlerindeki puanı iyileştiren programları kademeli olarak geliştiren bir evrimsel algoritma” (s. 3) olarak tanımlanıyor; kısaca, “kodda doğrudan değişiklikler yaparak bir algoritmayı iyileştirme görevi olan otonom bir LLM hattı” (s. 1) olarak tanımlanıyor.
İşletmeler için çıkarım: Eğer aracı planlarınız yüksek değerli görevlerde gözetimsiz çalıştırmayı içeriyorsa benzer bir altyapı planlayın: iş kuyrukları, sürüm kontrollü bellek deposu, servis ağı izleme ve aracının ürettiği tüm kodlar için güvenli sanal alan.
AlphaEvolve'un temel bir unsuru, titiz değerlendirme çerçevesidir. LLM çifti tarafından önerilen her yineleme, makine tarafından derecelendirilebilir metrikler döndüren kullanıcı tarafından sağlanan bir "değerlendir" işlevine göre kabul edilir veya reddedilir. Bu değerlendirme sistemi, her önerilen kod değişikliğinde ultra hızlı birim testi kontrolleriyle başlar - basit, otomatik testler (geliştiricilerin zaten yazdığı birim testlerine benzer) parçacığın hala derlendiğini ve bir avuç mikro girdide doğru yanıtları ürettiğini doğrular - hayatta kalanları daha ağır ölçütlere ve LLM tarafından oluşturulan incelemelere geçirmeden önce. Bu paralel olarak çalışır, böylece arama hızlı ve güvenli kalır.
Kısaca: Modellerin düzeltmeler önermesine izin verin, sonra her birini güvendiğiniz testlerle doğrulayın. AlphaEvolve ayrıca çok amaçlı optimizasyonu (gecikmeyi ve doğruluğu aynı anda optimize ederek) destekler ve aynı anda birkaç metriğe ulaşan programları geliştirir. Sezgiye aykırı olarak, birden fazla hedefi dengelemek daha çeşitli çözümleri teşvik ederek tek bir hedef metriği iyileştirebilir.
İşletmeler için çıkarım: Üretim ajanlarının kesin puan tutuculara ihtiyacı vardır. İster birim testleri, ister tam simülatörler veya kanarya trafiği analizi olsun. Otomatik değerlendiriciler hem güvenlik ağınız hem de büyüme motorunuzdur. Bir ajan projesi başlatmadan önce şunu sorun: "Ajanın kendisini puanlayabileceği bir metriğimiz var mı?"
AlphaEvolve her kodlama sorununu iki model ritmiyle ele alır. İlk olarak, Gemini Flash hızlı taslaklar başlatır ve sisteme keşfedilecek geniş bir fikir seti verir. Ardından Gemini Pro bu taslakları daha derinlemesine inceler ve daha güçlü adaylardan oluşan daha küçük bir set döndürür. Her iki modeli de besleyen hafif bir "istem oluşturucu", her modelin gördüğü soruyu bir araya getiren bir yardımcı betiktir. Üç tür bağlamı birleştirir: bir proje veritabanında kaydedilen önceki kod denemeleri, mühendislik ekibinin yazdığı herhangi bir koruma veya kural ve araştırma makaleleri veya geliştirici notları gibi ilgili harici materyal. Bu daha zengin arka planla, Gemini Flash geniş bir şekilde dolaşabilirken Gemini Pro kaliteye odaklanır.
Bir seferde bir işlevi değiştiren birçok ajan demosunun aksine, AlphaEvolve tüm depoları düzenler. Her değişikliği standart bir diff bloğu olarak tanımlar - mühendislerin GitHub'a gönderdiği aynı yama biçimi - böylece izini kaybetmeden düzinelerce dosyaya dokunabilir. Daha sonra, otomatik testler yamanın tutunup tutunmayacağına karar verir. Tekrarlanan döngüler boyunca, ajanın başarı ve başarısızlık hafızası büyür, böylece daha iyi yamalar önerir ve çıkmaz sokaklarda daha az işlem israf eder.
İşletmeler için çıkarım: Daha ucuz, daha hızlı modellerin beyin fırtınasını yönetmesine izin verin, ardından en iyi fikirleri geliştirmek için daha yetenekli bir model çağırın. Her denemeyi aranabilir bir geçmişte saklayın, çünkü bu bellek daha sonraki çalışmaları hızlandırır ve ekipler arasında yeniden kullanılabilir. Buna göre, satıcılar geliştiricilere bellek gibi şeyler etrafında yeni araçlar sağlamak için acele ediyor. Taşınabilir bir bellek deposu sağlayan OpenMemory MCP gibi ürünler ve LlamaIndex'teki yeni uzun ve kısa süreli bellek API'leri, bu tür kalıcı bağlamı günlük kaydı kadar kolay bir şekilde takmayı sağlıyor.
Bugün yayınlanan OpenAI'nin Codex-1 yazılım mühendisliği aracısı da aynı örüntüyü vurguluyor. Güvenli bir sanal alanda paralel görevler başlatıyor, birim testleri çalıştırıyor ve çekme isteği taslakları döndürüyor; AlphaEvolve'un daha geniş arama ve değerlendirme döngüsünün koda özgü bir yankısı.
AlphaEvolve'un somut kazanımları (veri merkezi kapasitesinin %0,7'sini geri kazanmak, Gemini eğitim çekirdeği çalışma zamanını %23 azaltmak, FlashAttention'ı %32 hızlandırmak ve TPU tasarımını basitleştirmek) bir ortak özelliğe sahip: Alanlara kusursuz ölçümlerle ulaşıyorlar.
Veri merkezi planlaması için AlphaEvolve, Google'ın veri merkezlerinin geçmiş iş yüklerine dayalı bir simülatörü kullanılarak değerlendirilen bir sezgisel yöntem geliştirdi. Çekirdek optimizasyonu için amaç, gerçekçi çekirdek giriş şekillerinin bir veri kümesi boyunca TPU hızlandırıcılarında gerçek çalışma süresini en aza indirmekti.
İşletmeler için çıkarımlar: Aracı AI yolculuğunuza başlarken, öncelikle "daha iyi"nin sisteminizin hesaplayabileceği ölçülebilir bir sayı olduğu iş akışlarına bakın - gecikme, maliyet, hata oranı veya verim olabilir. Bu odaklanma, otomatik arama ve risksiz dağıtıma izin verir çünkü aracının çıktısı (genellikle AlphaEvolve'un durumunda olduğu gibi insan tarafından okunabilen kod) mevcut inceleme ve doğrulama kanallarına entegre edilebilir.
Bu açıklık, temsilcinin kendini geliştirmesine ve net bir değer ortaya koymasına olanak tanır.
AlphaEvolve'un başarıları ilham verici olsa da Google'ın makalesi, kapsamı ve gereklilikleri konusunda da net.
Birincil sınırlama, otomatik bir değerlendiriciye duyulan ihtiyaçtır; manuel deney veya "ıslak laboratuvar" geri bildirimi gerektiren sorunlar şu anda bu özel yaklaşımın kapsamı dışındadır. Sistem önemli miktarda hesaplama tüketebilir - "herhangi bir yeni çözümü değerlendirmek için 100 hesaplama saati mertebesinde" (AlphaEvolve makalesi, sayfa 8 ), bu da paralelleştirme ve dikkatli kapasite planlamasını gerektirir.
Karmaşık aracı sistemlere önemli bir bütçe ayırmadan önce, teknik liderler kritik soruları sormalıdır:
- Makine tarafından derecelendirilebilir bir sorun mu? Aracının kendi performansını puanlayabileceği net, otomatikleştirilebilir bir metriğimiz var mı?
- Hesaplama kapasitesi? Özellikle geliştirme ve eğitim aşamasında, üretim, değerlendirme ve iyileştirme gibi potansiyel olarak hesaplama ağırlıklı iç döngüyü karşılayabilir miyiz?
- Kod tabanı ve bellek hazırlığı? Kod tabanınız yinelemeli, muhtemelen diff tabanlı değişiklikler için yapılandırılmış mı? Ve bir etkenin evrimsel geçmişinden öğrenmesi için hayati önem taşıyan araçlandırılmış bellek sistemlerini uygulayabilir misiniz?
İşletmeler için çıkarım: Frontegg, Auth0 ve diğerleri gibi platformlarda görüldüğü gibi, sağlam aracı kimliği ve erişim yönetimine artan odaklanma, aynı zamanda birden fazla kurumsal sistemle güvenli bir şekilde etkileşim kuran aracıları dağıtmak için gereken olgunlaşan altyapıya da işaret ediyor.
AlphaEvolve'un kurumsal ekiplere mesajı çok yönlüdür. İlk olarak, aracılar etrafındaki işletim sisteminiz artık model zekasından çok daha önemlidir. Google'ın planı atlanamayacak üç temel sütun göstermektedir:
- Temsilcinin her değişiklik yaptığında ona net bir puan veren deterministik değerlendiriciler.
- Gemini Flash gibi hızlı "taslak" modelleri, Google'ın yığını veya LangChain'in LangGraph gibi bir çerçevesi olsun, daha yavaş ve daha titiz modellerle birleştirebilen uzun vadeli orkestrasyon.
- Her yinelemenin sıfırdan yeniden öğrenmek yerine bir öncekinin üzerine inşa edilmesi için kalıcı bellek.
Zaten günlük kaydı, test koşumları ve sürümlü kod depoları olan işletmeler düşündüklerinden daha yakındır. Bir sonraki adım, bu varlıkları kendi kendine hizmet veren bir değerlendirme döngüsüne bağlamaktır, böylece birden fazla aracı tarafından oluşturulan çözüm rekabet edebilir ve yalnızca en yüksek puanı alan yama gönderilir.
Cisco'nun Kurumsal Bağlantı ve İşbirliği Başkan Yardımcısı ve Genel Müdürü Anurag Dhingra, bu hafta VentureBeat'e verdiği bir röportajda şunları söyledi: Üretim, depolar ve müşteri iletişim merkezlerinde AI aracıları kullanan kuruluşlar hakkında "Bu gerçekleşiyor, çok, çok gerçek" dedi. "Bu gelecekte olacak bir şey değil. Bugün orada gerçekleşiyor." Bu aracılar daha yaygın hale geldikçe ve "insan benzeri işler" yaptıkça mevcut sistemler üzerindeki yükün muazzam olacağı konusunda uyardı: "Ağ trafiği tavan yapacak" dedi Dhingra. Ağınız, bütçeniz ve rekabet avantajınız, abartı döngüsü yerleşmeden önce muhtemelen bu yükü hissedecektir. Bu çeyrekte, sınırlı, metrik odaklı bir kullanım durumunu kanıtlamaya başlayın - sonra işe yarayanı ölçekleyin.
Geliştirici Sam Witteveen ile yaptığım video podcast'i izleyin; burada üretim düzeyindeki aracılar hakkında derinlemesine bilgi ediniyoruz ve AlphaEvolve'un bu konuda nasıl yol gösterdiğini ele alıyoruz:
Patronunuzu etkilemek istiyorsanız, VB Daily sizin için burada. Şirketlerin üretken yapay zeka ile ilgili olarak düzenleyici değişikliklerden pratik dağıtımlara kadar neler yaptıklarına dair içeriden bilgiler veriyoruz, böylece maksimum yatırım getirisi için içgörüler paylaşabilirsiniz.
Gizlilik Politikamızı okuyun
Abone olduğunuz için teşekkürler. Daha fazla VB bültenine buradan göz atın.
Bir hata oluştu.

venturebeat