Yıllar boyunca, Big Tech CEO’nun yönünü tanıttı AI ajanları İnsanlar için görevleri tamamlamak için otonom yazılım uygulamalarını kullanabilir. Ama opera olsun, bugünün tüketici ozanlarını yürümek için zaman aldı Chatzipt Ajanı Veya karışıklık UçurtmaVe teknolojinin ne kadar sınırlı olduğunu hızlı bir şekilde anlayacaksınız. AI ajanları, endüstrinin hala icat edildiği yeni bir dizi strateji alabilir.
Bu tekniklerden biri, ajanların güçlendirilmiş öğrenme ortamı (RL) olarak bilinen birkaç adımda eğitilebileceği işyerlerini dikkatlice taklit etmektir. AI’nın son dalgasında yayınlanan veri setlerinin buna benzer, RL ortamı ajanların gelişiminde önemli bir bileşen gibi görünmektedir.
IA araştırmacıları, kurucular ve yatırımcılar TechCrunch’a AI’nın ana laboratuvarlarının artık daha fazla RL ortamı talep ettiğini ve bunları tedarik etme umuduyla yeni şirketlerin sıkıntısı olmadığını söyledi.
TechCunch ile yapılan bir röportajda, Andresen Horovits’in genel ortağı Jennifer Lee, “AI’nın tüm büyük laboratuvarı dahili bir RL ortamı yaratıyor.” “Ancak tahmin edebileceğiniz gibi, bu veri setlerini oluşturmak çok karmaşıktır, bu nedenle IA laboratuvarları da yüksek kaliteli ortam ve değerlendirme yaratabilen üçüncü taraf tedarikçileri arıyor. Herkes bu yere bakıyor.”
RL ortamının eğilimi, mekanizasyon ve ana zeka olarak yeni bir sınıf girişimleri yarattı ve bu da alana liderlik etmeyi amaçladı. Bu arada, Markers ve Args gibi büyük veri markası şirketleri, veri kümesi endüstrisindeki etkileşimli simülasyonlarda değişimi korumak için RL ortamına daha fazla yatırım yaptıklarını söylüyor. Ana laboratuvarlar da çok yatırım düşünüyor: Verilere göre, ANTROP liderleri bundan daha fazla masraf tartıştılar. RL ortamında 1 milyar dolar Gelecek yıl boyunca.
Yatırımcılar ve kurucular, bu yeni şirketlerden birinin “çevre için bir ölçek” olarak büyüdüğünü umuyor, 29 milyar dolarlık veri etiketleme gücü Chatboat dönemini tanıttı.
Soru, RL ortamının gerçekten AI ilerlemesinin sınırı olup olmadığıdır.
TechCrunch Etkinliği
San Francisco
|
27 Ekim 2025
RL ortamı nedir?
Kısacası, RL ortamı, bir AI temsilcisinin gerçek bir yazılım uygulamasında ne yapacağını taklit ettiği eğitimin nedenleridir. Bir kurucu, içlerindeki binayı tanımlar Son Röportaj “Çok sinir bozucu bir video oyunu nasıl yapılır.”
Örneğin, bir ortam bir krom tarayıcı ve AI aracı görevini Amazon’da bir dizi çorapla taklit edebilir. Temsilci performansına hak kazanır ve başarılı olduğunda bir ödül sinyali gönderir (bu durumda bir dizi iyi çorap).
Bu ulusal çalışma nispeten kolay görünse de, bir AI ajanının tökezleyebileceği birçok yer var. Web sitesinin düşme menüleri veya çok sayıda çorap satın almasıyla kaybolabilir. Ve geliştiriciler bir ajanın tam olarak neyi kabul edeceğini tahmin edemediğinden, çevrenin kendisi beklenmedik bir davranışı yakalamak için yeterli olmalı ve yine de yararlı yorumlar sunmalıdır. İnşaat ortamını statik veri kümelerinden daha karmaşık hale getirir.
Bazı ortamlar oldukça yaygındır, AI aracılarının araçları kullanmasına, İnternet’e erişmesine veya belirli bir görevi tamamlamak için bir dizi yazılım uygulaması kullanmasına izin verir. Diğerleri dardır, bir ajanın iş yazılımı uygulamalarında belirli görevleri öğrenmesine yardımcı olmaya yöneliktir.
Şu anda Silikon Vadisi’nde RL ortamı sıcak olmasına rağmen, bu tekniği kullanmak için birçok örnek vardır. 20 2016’da Openai’deki ilk projelerden biri ”RL Spor Salonu“Modern çevre kavramına oldukça benziyorlardı. Aynı yıl Google Dipmind Alfago AI AI Sistem Kurulu’nda bir dünya şampiyonunu yendi, git. Ayrıca simüle edilmiş ortamda RL teknikleri kullandı.
Bugünün ortamındaki tek nokta, araştırmacıların büyük transformatör modellerine sahip bilgisayar kullanan AI ajanları oluşturmaya çalışmalarıdır. Kapalı ortamda çalışan özel bir AI sistemi olan Alfago’nun aksine, bugünün ajanları daha genel becerilere sahip olmak için eğitiliyor. Bugünün araştırmacıları daha güçlü bir başlangıç noktasına sahipler, ancak bu daha da yanlış olabileceği karmaşık bir amaç.
İnsanlarla dolu bir alan
AI, Ölçek AI, Marorian veri etiketleme şirketleri anı doldurmaya ve bir RL ortamı yaratmaya çalışıyor. Bu şirketler, AI laboratuvarıyla derin ilişkilerin yanı sıra uzayda birçok yeni şirketten daha fazla kaynağa sahiptir.
Ariz CEO’su Edwin Chen Techcrunch, TechCrunch’a yakın zamanda RL ortamını talep eden AI laboratuvarlarında “önemli büyümeyi” gördüğünü söyledi. Üretilen rapora göre, yükseltilen Gelir 1,2 milyar dolar Geçen yıl, Openai, Google, Anthrop ve Meta, yakın zamanda Openai, Google, Anthrop ve Meta gibi AI laboratuvarlarıyla çalışmak için RL ortamı oluşturmaktan sorumlu yeni bir dahili şirket oluşturdu.
Markor, 10 milyar dolarlık bir girişim olan Markor, Openai, Meta ve Antropo ile de çalıştı. Markor iş yatırımcılarını açıyor Çevreyi inşa etmek için RL Kodlama, tedavi bakımı ve TechCrunch tarafından gözlemlenen pazarlama materyalleri tarafından belirtilen yasa, belirtilen alan çalışması içindir.
Maroria CEO’su Brendon Fudi Techcranch’a verdiği röportajda Brendon Foodie, “RL ortamında ne kadar büyük olduğunu nadiren anlıyor” dedi.
AI ölçekli veri etiketleme alanı hakim olmak için kullanıldı, ancak bitiş çizgisinden zemini kaybetti Yatırım 14 milyar dolar Ve genel müdürünü işe alın. O zamandan beri google ve opena Dalma Veri Tedarikçisi ve Startup, veri etiketleme işleri için rekabetle bile karşı karşıya Bitiş çizgisindeAncak, ölçek anı doldurmaya ve bir ortam yaratmaya çalışıyor.
RL ajanları ve çevre için AI ölçek yöneticisi Chatton Rain, “Bu sadece işin doğasıdır.” “Otonom aracın ilk işi çıktı ve AI onu ve tekrar getirdi.
Bazı yeni oyuncular en başından beri çevreye odaklanıyorlar. Bunlardan, yaklaşık altı ay önce “tüm eserleri otomatikleştirmek” için kurulan bir girişim. Bununla birlikte, CO -Founter Matthew Burnett, TechCrunch’a şirketinin AI kodlama maddeleri için RL ortamından başladığını söyledi.
Mekanizmanın amacı, AI’nın laboratuvarlarına az sayıda güçlü RL ortamı sağlamaktır, Burnett, çok çeşitli sıradan RL ortamı yaratan daha büyük veri firmaları yerine. Buna kadar, başlangıç yazılım mühendisleri sunuyor 500.000 $ ödeme Bir RL ortamı oluşturmak için, bir saatten çok daha uzun -Yüklenici AI ölçeğini artırmak veya artırmak için çalışabilir.
TechCrunch Matter’a aşina olan iki kaynak, Makine’nin zaten RL ortamında antropologlar üzerinde çalıştığını söyledi. Mekanik ve etnografik dernek hakkında yorum yapmayı reddediyor.
Diğer yeni şirketler, RL ortamının IA laboratuvarı dışında baskın olacağına bahse girmiştir. Başbakan ilgi, IA Andrhez karpati araştırmacısı, kurucu fonu ve RL ortamlarıyla küçük geliştiricilerin hedefi Menlo Venture için bir başlangıç desteği.
Geçen ay, ana akılda RL Çevre Merkezi, Amacı “RL ortamı için yüz sarılmak”. Fikir, büyük bir AI laboratuvarı olan açık kaynak geliştiricilerinin aynı kaynaklarına erişim sağlamak ve bu geliştiriciler sürecinde bilgisayar kaynaklarına erişim satmaktır.
Prime Intelekt araştırmacısı Will Brown’a göre, eğitim ajanları genellikle önceki eğitim stratejilerinden daha pahalı olabilirler. GPU tedarikçileri için süreci besleyebilecek RL ortamını oluşturan yeni şirketlerle birlikte başka bir fırsat daha var.
Brown bir röportajda, “RL ortamı herhangi bir domine şirketi için çok büyük olacak” dedi. “Yaptığımız şeyin bir kısmı sadece etrafında iyi bir açık kaynaklı altyapı yaratmaya çalışmak. Sattığımız hizmetler hesap makinesi, bu yüzden GPU’yu kullanmak için uygun bir rampa, ancak bu uzun vadeli düşünüyoruz.”
Tırmanıyor musun?
RL ortamındaki açık soru, stratejinin önceki eğitim yöntemi olarak ölçülüp ölçülmeyeceğidir.
Öğrenme, AI’nın geçtiğimiz yıl en iyi atlamalarından bazılarını, modeller de dahil olmak üzere teşvik etti. Opera o 1 Etnografik Clod Opas 4Bunlar özellikle önemli ilerlemedir çünkü daha önce AI modellerini geliştirmek için kullanılan prosedürler şimdi Azaltılmış getiri gösteriyor।
Çevre, AI Labs’ın RL’ye olan taahhüdünün bir parçasıdır, bu da birçoğu daha fazla veri eklenmesi ve sürece kaynak hesaplaması nedeniyle ilerlemeyi teşvik etmeye devam edeceklerine inanmaktadır. Back 1’deki Openai araştırmacılarından bazıları, daha önce TechCrunch’a şirketin başlangıçta RL ve test-zaman kompleks yatırımı tarafından oluşturulan AI rasyonel modellerine yatırım yaptığını söylemişti, çünkü Tırmanacağını düşündüler Kuyu
RL RL’yi erken yapmanın en iyi yolu hala açıktır, ancak çevre kararlı bir yarışmacıya benziyor. Metin reaksiyonları için sadece chatbot’u ödüllendirmek yerine, ajanların ekipmanlarını ve bilgisayarlarını simülasyonlarda ele almasına izin verir. Kaynaklarda çok daha yoğundur, ancak potansiyel daha ödüllendiricidir.
Bazıları tüm bu RL ortamının işe yarayacağından şüpheleniyor. Genel olarak eski AI araştırmacı lideri Ross Taylor, TechCrunch’a RL ortamının korsan ödülleri riski altında olduğunu söyledi. Bu, AI modellerinin gerçekten ödev olmadan ödül almayı aldattığı bir süreçtir.
Taylor, “Sanırım insanlar çevreye tırmanmanın ne kadar zor olduğunu hafife alıyorlar.” Dedi. “Genel olarak mevcut (RL ortamları) bile, ciddi bir değişiklik olmadan çalışmaz.”
Mühendislik şefi Sherwin Wu, API işi için OPII işlerinden biri Podcast RL ortamındaki yeni şirketlerde “kısa” olduğunu. UO, çok rekabetçi bir yer olduğunu, ancak IA araştırmalarının o kadar hızlı geliştirildiğini belirtti ki AI laboratuvarlarının iyi hizmet edilmesi zor.
RL ortamı adı verilen orijinal aklın yatırımcısı Carpathi, potansiyel bir ilerleme, RL alanı için daha yaygın bir uyarı olduğunu ifade etti. İçinde X’de ifade edildiRL’den AI’da ne kadar ilerleme kaydedilebileceğine dair endişeleri artırdı.
Carpathi, “Ajanlar ve etkileşimler konusunda iyimserim, ama özellikle takviye öğrenmede temelim” dedi.
GÜNCELLEME: Bu makalenin önceki bir sürümü mekanik bir çalışma olarak mekanizasyonu ifade eder. Kuruluşun resmi adını yansıtacak şekilde güncellendi.