Aracı yapay zekaya güven: Değerlendirme altyapısı neden önce gelmeli?

Yapay zeka ajanları gerçek dünya dağıtımına girerken, kuruluşlar nereye ait olduklarını, bunları etkili bir şekilde nasıl oluşturacaklarını ve bunları ölçekte nasıl işlevsel hale getireceklerini tanımlama konusunda baskı altındadır. VentureBeat'in Transform 2025'inde teknoloji liderleri, ajanlarla işlerini nasıl dönüştürdüklerini konuşmak üzere bir araya geldi: Foundation Capital'de genel ortak olan Joanne Chen; Sendbird'de proje yönetimi başkan yardımcısı olan Shailesh Nalawadi; Cognigy'de yapay zeka dönüşümü kıdemli başkan yardımcısı olan Thys Waanders; ve Rocket Companies'da CTO olan Shawn Malhotra.
"AI ajanları için bu dağıtımların herhangi birinin ilk çekiciliği insan sermayesinden tasarruf etmekle ilgilidir - matematik oldukça basittir," dedi Nalawadi. "Ancak bu, AI ajanlarıyla elde ettiğiniz dönüşümsel yeteneği küçümsüyor."
Rocket'ta yapay zeka aracılarının web sitesi dönüşümlerini artırmada güçlü araçlar olduğu kanıtlandı.
Malhotra, "Acenteye dayalı deneyimimiz ve web sitesindeki konuşma deneyimi sayesinde, müşterilerin bu kanaldan geldiklerinde dönüşüm sağlama olasılıklarının üç kat daha fazla olduğunu gördük" dedi.
Ama bu sadece yüzeysel bir bilgi. Örneğin, bir Rocket mühendisi, ipotek teminatı sırasında transfer vergilerini hesaplama gibi oldukça uzmanlaşmış bir görevi otomatikleştirmek için sadece iki günde bir acente inşa etti.
Malhotra, "Bu iki günlük çaba bize yılda bir milyon dolarlık masraftan tasarruf sağladı," dedi. "2024'te, çoğunlukla AI çözümlerimiz sayesinde bir milyondan fazla ekip üyesi saatinden tasarruf ettik. Bu sadece masraftan tasarruf etmek değil. Ayrıca ekip üyelerimizin zamanlarını, hayatlarının en büyük finansal işlemini yapan insanlara odaklamalarına da olanak sağlıyor."
Temsilciler esasen bireysel ekip üyelerini aşırı şarj ediyorlar. Tasarruf edilen o bir milyon saat, birinin işinin birçok kez tekrarlanan tamamı değil. İşin, çalışanların yapmaktan hoşlanmadığı veya müşteriye değer katmayan kısımlarıdır. Ve tasarruf edilen o bir milyon saat, Rocket'a daha fazla işi idare etme kapasitesi sağlar.
Malhotra, "Ekibimizin bazı üyeleri geçen yıl bir önceki yıla göre %50 daha fazla müşteriyle ilgilenebildi," diye ekledi. "Bu, daha yüksek bir verim elde edebileceğimiz, daha fazla iş yapabileceğimiz ve yine daha yüksek dönüşüm oranları görebileceğimiz anlamına geliyor çünkü zamanlarını müşterilerin ihtiyaçlarını anlamaya harcıyorlar ve yapay zekanın şu anda yapabildiği çok daha fazla ezber işi yapmıyorlar."
"Mühendislik ekiplerimiz için yolculuğun bir kısmı, yazılım mühendisliğinin zihniyetinden - bir kez yaz ve test et, çalışsın ve aynı cevabı 1.000 kez versin - daha olasılıkçı yaklaşıma geçmektir; burada bir LLM'ye aynı şeyi sorarsınız ve o da bazı olasılıklar yoluyla farklı cevaplar verir," dedi Nalawadi. "Bunun çoğu insanları da beraberinde getiriyor. Sadece yazılım mühendislerini değil, ürün yöneticilerini ve UX tasarımcılarını da."
Waanders, LLM'lerin uzun bir yol kat etmiş olmasının yardımcı olduğunu söyledi. 18 ay veya iki yıl önce bir şey inşa ettilerse, gerçekten doğru modeli seçmeleri gerekiyordu, aksi takdirde ajan beklendiği gibi performans göstermeyecekti. Şimdi, diyor, ana akım modellerin çoğunun çok iyi davrandığı bir aşamadayız. Daha öngörülebilirler. Ancak bugün zorluk, modelleri birleştirmek, duyarlılığı garantilemek, doğru modelleri doğru sırayla düzenlemek ve doğru verileri iç içe geçirmek.
Waanders, "Yılda on milyonlarca sohbeti yönlendiren müşterilerimiz var," dedi. "Diyelim ki yılda 30 milyon sohbeti otomatikleştirirseniz, bu LLM dünyasında nasıl ölçeklenir? Bunların hepsi keşfetmemiz gereken şeylerdi, basit şeyler, hatta bulut sağlayıcılarıyla model kullanılabilirliğini elde etmekten bile. Örneğin, bir ChatGPT modeliyle yeterli kotaya sahip olmak. Bunların hepsi bizim ve müşterilerimizin de içinden geçmek zorunda kaldığı derslerdi. Yepyeni bir dünya."
LLM'yi düzenlemenin bir üst katmanı, bir ajan ağı düzenlemektir, dedi Malhotra. Bir konuşma deneyiminin perde arkasında bir ajan ağı vardır ve düzenleyici, isteğin mevcut ajanlar arasından hangi ajana iletileceğine karar verir.
"Bunu ileri götürürseniz ve farklı şeyler yapabilen yüzlerce veya binlerce aracınız olduğunu düşünürseniz, gerçekten ilginç teknik sorunlarla karşılaşırsınız," dedi. "Daha büyük bir sorun haline geliyor, çünkü gecikme ve zaman önemlidir. Bu aracı yönlendirmesi önümüzdeki yıllarda çözülmesi gereken çok ilginç bir sorun olacak."
Bu noktaya kadar, çoğu şirketin aracı AI'yı başlatmasının ilk adımı şirket içinde inşa etmek olmuştur, çünkü henüz uzmanlaşmış araçlar mevcut değildi. Ancak genel LLM altyapısı veya AI altyapısı inşa ederek farklılaşamaz ve değer yaratamazsınız ve ilk inşanın ötesine geçmek, inşa edileni hata ayıklamak, yinelemek ve iyileştirmek ve ayrıca altyapıyı sürdürmek için uzmanlaşmış uzmanlığa ihtiyacınız vardır.
Nalawadi, "Genellikle potansiyel müşterilerimizle yaptığımız en başarılı görüşmelerin, halihazırda şirket içinde bir şeyler inşa etmiş kişilerle olduğunu görüyoruz," dedi. "1.0'a ulaşmanın sorun olmadığını hemen anlıyorlar, ancak dünya ve altyapı evrimleştikçe ve teknolojiyi yeni bir şeyle değiştirmeleri gerektikçe, tüm bunları düzenleme yetenekleri olmuyor."
Teorik olarak, aracı AI karmaşıklık açısından daha da büyüyecek — bir organizasyondaki aracı sayısı artacak ve birbirlerinden öğrenmeye başlayacaklar ve kullanım örneklerinin sayısı patlayacak. Organizasyonlar bu zorluğa nasıl hazırlanabilir?
Malhotra, "Bu, sisteminizdeki denetim ve dengelerin daha fazla strese gireceği anlamına geliyor" dedi. "Düzenleyici bir süreci olan bir şey için, bunun üzerinde birinin imza attığından emin olmak için döngüde bir insanınız var. Kritik dahili süreçler veya veri erişimi için gözlemlenebilirliğiniz var mı? Bir şey ters giderse, ters gittiğini bilmeniz için doğru uyarı ve izlemeye sahip misiniz? Tespitinizi ikiye katlamak, döngüde bir insana nerede ihtiyaç duyduğunuzu anlamak ve ardından bir şey ters giderse bu süreçlerin yakalayacağına güvenmek. Ancak açığa çıkardığı güç nedeniyle bunu yapmak zorundasınız."
Peki bir yapay zeka aracının evrimleştikçe güvenilir bir şekilde davranacağından nasıl emin olabilirsiniz?
"Eğer bunu en başından düşünmediyseniz, bu kısım gerçekten zordur," dedi Nalawadi. "Kısa cevap, onu inşa etmeye başlamadan önce, yerinde bir değerlendirme altyapısına sahip olmanız gerektiğidir. Bir AI aracısından iyi görünenin ne olduğunu bildiğiniz ve bu test setine sahip olduğunuz titiz bir ortamınız olduğundan emin olun. İyileştirmeler yaparken buna geri dönmeye devam edin. Değerlendirme hakkında düşünmenin çok basit bir yolu, bunun aracı sisteminiz için birim testleri olduğudur."
Sorun, bunun kesin olmamasıdır, diye ekledi Waanders. Birim testi kritiktir, ancak en büyük zorluk, neyi bilmediğinizi bilmemenizdir — bir etkenin hangi yanlış davranışları sergileyebileceği, herhangi bir durumda nasıl tepki verebileceği.
Waanders, "Bunu ancak büyük ölçekte konuşmaları simüle ederek, binlerce farklı senaryoya sokarak ve sonra nasıl dayandığını ve nasıl tepki verdiğini analiz ederek öğrenebilirsiniz" dedi.
venturebeat