Questo robot ha bisogno di un solo modello di intelligenza artificiale per padroneggiare i movimenti umani

Atlas, il robot umanoide famoso per le sue coreografie di parkour e danza , ha recentemente iniziato a dimostrare qualcosa di molto più sottile ma anche molto più significativo: ha imparato sia a camminare che ad afferrare oggetti utilizzando un unico modello di intelligenza artificiale .
Inoltre, il modello di apprendimento unico del robot sta mostrando alcune abilità "emergenti" e allettanti, come la capacità di riprendersi istintivamente quando lascia cadere un oggetto senza essere stato addestrato a farlo.
Boston Dynamics, l'azienda produttrice di Atlas, insieme al Toyota Research Institute (TRI), ha sviluppato un modello generalista che impara a controllare sia le braccia che le gambe a partire da una serie di azioni di esempio. Questo è diverso dalla norma: i robot dotati di capacità di apprendimento solitamente si affidano a un modello per camminare e saltare e a un altro per afferrare oggetti.
"In un certo senso, i piedi sono come mani aggiuntive per il modello", afferma Russ Tedrake, esperto di robotica presso il Toyota Research Institute e il Massachusetts Institute of Technology, che ha guidato il lavoro attuale. "E funziona, il che è semplicemente fantastico".
Per gentile concessione di Boston Dynamics
Il modello utilizzato per controllare Atlas riceve immagini dai sensori visivi del robot, dati propriocettivi dai sensori corporei (che gli forniscono un senso continuo della sua posizione e del suo movimento) e prompt linguistici relativi alle diverse azioni. Al modello vengono mostrati esempi di Atlas che esegue una serie di compiti utilizzando un mix di teleoperazione, simulazione e video dimostrativi. Il modello comportamentale di grandi dimensioni (LBM) risultante controlla il robot umanoide in un modo apparentemente più naturale. Quando raccoglie oggetti da un contenitore, ad esempio, il robot riposiziona le gambe come una persona per riequilibrarsi quando si allunga verso il basso. L'LBM mostra anche alcuni comportamenti emergenti di base. Quando il robot lascia cadere un oggetto, ad esempio, dimostra una nuova capacità di "recupero" chinandosi per raccoglierlo.
Questo è molto più entusiasmante di quanto possa sembrare. Proprio come i modelli linguistici di grandi dimensioni (LLM), alimentati da enormi quantità di dati testuali, a volte mostrano capacità inaspettate, come la capacità di programmare, i robotici sperano che una strategia simile produrrà robot che dimostrino molte nuove e sorprendenti abilità quando cercano di portare a termine un compito.
Tedrake afferma che Atlas e altri robot stanno iniziando a mostrare segni di apprendimento più generalizzato. Il suo laboratorio sta anche sperimentando diversi tipi di bracci robotici addestrati a svolgere vari compiti, tra cui affettare le verdure e raccogliere i chicchi di caffè rovesciati.
Sebbene ci sia ancora molto lavoro da fare, Tedrake afferma che tutte le prove finora raccolte suggeriscono che gli approcci utilizzati per gli LLM funzionano anche per i robot. "Penso che stia cambiando tutto", afferma.
Valutare i progressi della robotica è diventato ovviamente più difficile ultimamente, con videoclip che mostrano umanoidi commerciali che svolgono compiti complessi, come caricare frigoriferi o portare fuori la spazzatura con apparente facilità. I video di YouTube, però, possono essere ingannevoli e i robot umanoidi tendono a essere telecomandati, programmati con cura in anticipo o addestrati a svolgere un singolo compito in condizioni estremamente controllate.
Il nuovo lavoro di Atlas è un chiaro segnale che i robot stanno iniziando a sperimentare lo stesso tipo di progressi nella robotica che hanno portato ai modelli linguistici generali che ci hanno dato ChatGPT nel campo dell'intelligenza artificiale generativa. Alla fine, tali progressi potrebbero darci robot in grado di operare con facilità in un'ampia gamma di ambienti complessi e in grado di apprendere rapidamente nuove competenze, dalla saldatura di tubi alla preparazione di caffè espresso, senza bisogno di una lunga formazione.
"È sicuramente un passo avanti", afferma Ken Goldberg, esperto di robotica presso l'Università della California a Berkeley, che riceve finanziamenti dal TRI ma non è stato coinvolto nel progetto Atlas. "La coordinazione di gambe e braccia è fondamentale".
Goldberg sostiene, tuttavia, che l'idea di un comportamento robotico emergente debba essere trattata con cautela. Proprio come le sorprendenti capacità dei grandi modelli linguistici possono talvolta essere ricondotte a esempi inclusi nei loro dati di addestramento, afferma che i robot possono dimostrare abilità che sembrano più innovative di quanto non siano in realtà. Aggiunge che è utile conoscere i dettagli sulla frequenza con cui un robot riesce e in che modo fallisce durante gli esperimenti. Il TRI è stato in precedenza trasparente in merito al lavoro svolto sui modelli di linguaggio a basso volume (LBM) e potrebbe pubblicare ulteriori dati sul nuovo modello.
Resta da vedere se il semplice ampliamento dei dati utilizzati per addestrare i modelli robotici consentirà di scoprire comportamenti sempre più emergenti. In un dibattito tenutosi a maggio alla Conferenza Internazionale su Robotica e Automazione di Atlanta, Goldberg e altri hanno sottolineato che anche i metodi ingegneristici svolgeranno un ruolo importante in futuro.
Tedrake, ad esempio, è convinto che la robotica si stia avvicinando a un punto di svolta, che consentirà un maggiore utilizzo pratico di umanoidi e altri robot. "Penso che dobbiamo eliminare questi robot dal mondo e iniziare a lavorare sul serio", afferma.
Cosa ne pensi delle nuove competenze di Atlas? E pensi che ci stiamo dirigendo verso una svolta nella robotica in stile ChatGPT? Fammi sapere cosa ne pensi scrivendo a [email protected].
Questa è un'edizione della newsletter AI Lab di Will Knight . Leggi le newsletter precedenti qui.
wired