Toyota zmienia sposób uczenia się robotów
Toyota, MIT i Columbia Engineering zaprezentowały niesamowite wyniki nowego podejścia do uczenia się sztucznej inteligencji, które znacznie przyspiesza tempo, w jakim roboty mogą zdobywać nowe umiejętności.
Dziesiątki firm zdecydowały, że nadszedł czas, aby zainwestować duże środki w roboty humanoidalne, które mogą autonomicznie poruszać się po istniejących przestrzeniach roboczych i zacząć przejmować zadania od ludzkich pracowników.
Większość wczesnych przypadków użycia należy jednak do kategorii Planet Fitness: roboty będą podnosić i odkładać przedmioty. Będzie to świetne rozwiązanie dla logistyki magazynowej, załadunku i rozładunku ciężarówek, palet i innych rzeczy, a także przenoszenia rzeczy w fabrykach. Nie jest to jednak zbyt efektowne i z pewnością nie zbliża się do użyteczności ludzkiego pracownika.
Aby rozszerzyć te możliwości do punktu, w którym roboty mogą wędrować do dowolnego miejsca pracy i zacząć przejmować szeroki zakres zadań, potrzebują sposobu na szybkie podnoszenie kwalifikacji w oparciu o ludzkie instrukcje lub demonstracje. I właśnie w tym obszarze Toyota twierdzi, że dokonała ogromnego przełomu, dzięki nowemu podejściu do uczenia się opartemu na polityce dyfuzji, które według niej otwiera drzwi do koncepcji dużych modeli zachowań.
Polityka dyfuzji to koncepcja opracowana przez Toyotę we współpracy z Columbia Engineering i MIT, i chociaż szczegóły szybko stają się bardzo tajemnicze, gdy zagłębisz się w te rzeczy, grupa opisuje ogólną ideę jako "nowy sposób generowania zachowania robota poprzez reprezentowanie policji wizualno-ruchowej robota jako warunkowego procesu dyfuzji denoisingu".
Zasadniczo, tam gdzie duże modele językowe (LLM), takie jak ChatGPT, mogą przyjmować miliardy słów ludzkiego pisma i uczyć się pisać i kodować - a nawet rozumować na poziomie zadziwiająco zbliżonym do ludzi, polityka dyfuzji pozwala robotycznym sztucznym inteligencjom obserwować, jak człowiek wykonuje dane zadanie fizyczne w świecie rzeczywistym, a następnie zasadniczo zaprogramować się do wykonywania tego zadania w elastyczny sposób.
Podczas gdy niektóre startupy uczą swoje roboty poprzez teleobecność VR - dając ludzkiemu operatorowi dokładnie to, co widzą oczy robota i pozwalając mu kontrolować ręce i ramiona robota, aby wykonać zadanie - podejście Toyoty jest bardziej skoncentrowane na haptyce. Operatorzy nie noszą zestawu słuchawkowego VR, ale otrzymują dotykowe informacje zwrotne z miękkich, elastycznych chwytaków robota za pośrednictwem ręcznych elementów sterujących, co pozwala im w pewnym sensie poczuć to, co czuje robot, gdy jego manipulatory wchodzą w kontakt z obiektami.
Gdy ludzki operator pokaże robotom, jak wykonać zadanie kilka razy, w nieco innych warunkach, sztuczna inteligencja robota buduje własny wewnętrzny model tego, jak wygląda sukces i porażka, a następnie uruchamia tysiące symulacji opartych na fizyce w oparciu o wewnętrzne modele zadania, aby znaleźć zestaw technik do wykonania zadania.
– Proces rozpoczyna się od nauczyciela demonstrującego niewielki zestaw umiejętności za pomocą teleoperacji – mówi Ben Burchfiel, który nosi zabawny tytuł Managera Manipulacji Zręcznościowej. – Nasza oparta na sztucznej inteligencji polityka dyfuzji uczy się następnie w tle w ciągu kilku godzin. Często zdarza się, że uczymy robota po południu, pozwalamy mu uczyć się przez noc, a następnego ranka przychodzimy z nowym, działającym zachowaniem.
Zespół wykorzystał to podejście do szybkiego wyszkolenia botów w ponad 60 małych, głównie kuchennych zadaniach - każde z nich jest stosunkowo proste dla przeciętnego dorosłego człowieka, ale każde wymaga od robotów samodzielnego wymyślenia, jak chwytać, trzymać i manipulować różnymi rodzajami przedmiotów, używając szeregu narzędzi i przyborów kuchennych.
Mówimy tu o używaniu noża do równomiernego rozprowadzania smarowidła na kromce chleba, używaniu łopatki do odwracania naleśnika lub używaniu obieraczki do ziemniaków do obierania ziemniaków. Nauczy się rozwałkowywać ciasto na spód pizzy, a następnie nakładać na niego sos i rozprowadzać go łyżką. Przypomina to obserwowanie, jak małe dzieci radzą sobie z różnymi rzeczami.
MOŻE ZAINTERESUJE CIĘ TAKŻE
Toyota twierdzi, że do końca roku będzie mieć pod kontrolą setki zadań, a do końca 2024 r. zamierza wykonać ponad 1000 zadań. W związku z tym opracowuje coś, co według niej będzie pierwszym dużym modelem zachowania (Large Behavior Model, LBM) - strukturą, która ostatecznie rozszerzy się, aby stać się czymś w rodzaju ucieleśnionego odpowiednika ChatGPT dla robotów. Oznacza to, że całkowicie wygenerowany przez sztuczną inteligencję model tego, jak robot może wchodzić w interakcje ze światem fizycznym w celu osiągnięcia określonych wyników, który przejawia się jako gigantyczny stos danych, który jest całkowicie niezrozumiały dla ludzkiego oka.
Zespół skutecznie wdraża procedurę, dzięki której przyszli właściciele robotów i operatorzy we wszelkiego rodzaju sytuacjach będą mogli szybko uczyć swoje boty nowych zadań w razie potrzeby - ulepszając całe floty robotów o nowe umiejętności.
– Zadania, które wykonują te roboty, są po prostu niesamowite - nawet rok temu nie przewidziałbym, że zbliżymy się do tego poziomu różnorodnej zręczności – mówi Russ Tedrake, wiceprezes ds. badań nad robotyką w Toyota Research Institute. – To, co jest tak ekscytujące w tym nowym podejściu, to szybkość i niezawodność, z jaką możemy dodawać nowe umiejętności. Ponieważ umiejętności te działają bezpośrednio na podstawie obrazów z kamery i czujników dotykowych, wykorzystując jedynie wyuczone reprezentacje, są one w stanie dobrze wykonywać nawet zadania związane z odkształcalnymi obiektami, tkaninami i cieczami - z których wszystkie tradycyjnie były niezwykle trudne dla robotów.
Przypuszczalnie LBM, który Toyota obecnie buduje, będzie wymagał robotów tego samego typu, których używa obecnie - niestandardowych jednostek zaprojektowanych do "zręcznościowych zadań manipulacji dwoma ramionami, ze szczególnym naciskiem na umożliwienie haptycznego sprzężenia zwrotnego i wykrywania dotyku". Nie trzeba jednak wiele wyobraźni, aby ekstrapolować ten pomysł na ramy, które humanoidalne roboty z palcami i przeciwstawnymi kciukami mogą wykorzystać do uzyskania kontroli nad jeszcze szerszym zakresem narzędzi zaprojektowanych do użytku przez ludzi.
Przypuszczalnie, w miarę jak LBM rozwija coraz bardziej kompleksowe "rozumienie" świata fizycznego w tysiącach różnych zadań, obiektów, narzędzi, lokalizacji i sytuacji, a także zdobywa doświadczenie z szeregiem dynamicznych, rzeczywistych zakłóceń i nieoczekiwanych rezultatów, będzie coraz lepiej uogólniać różne zadania.
Źródło: Toyota