AI i robotyka: Symulacje multiversum otwierają nowe możliwości
Modele zachowań sztucznej inteligencji, które kontrolują sposób, w jaki roboty wchodzą w interakcję ze światem fizycznym, nie rozwijają się w tak zawrotnym tempie jak modele językowe GPT. Jednak nowe symulatory „światów równoległych” od Nvidii i Google mogą to diametralnie zmienić.
Modele sztucznej inteligencji oparte na dużych modelach językowych (LLM) korzystają z ogromnych zasobów danych treningowych, ponieważ Internet obfituje w tekst, obrazy, wideo i dźwięk. Tymczasem dane dla dużych modeli zachowań są znacznie mniej dostępne. Roboty i pojazdy autonomiczne są drogie i mają fizyczny charakter, co sprawia, że pozyskiwanie i integrowanie danych dotyczących trójwymiarowych reprezentacji rzeczywistych sytuacji jest znacznie bardziej czasochłonne.
Przykładem takiej strategii jest Tesla, która już na wczesnym etapie wyposażyła swoje samochody w sprzęt do autonomicznej jazdy, aby zdobyć przewagę w zbieraniu danych potrzebnych do rozwoju pojazdów autonomicznych.
Jednak ostatnie zapowiedzi Nvidii sugerują, że wąskie gardło danych wkrótce zniknie, co pozwoli na gwałtowne przyspieszenie rozwoju fizycznej sztucznej inteligencji.
Symulacje w stylu multiversum mogą przewidzieć skutki nieskończonej liczby ścieżek decyzyjnych dla robotów AI.
Przyspieszenie AI dzięki symulacji danych rzeczywistych
Nowatorski pomysł zakłada generowanie ogromnych ilości wiarygodnych danych treningowych przy użyciu symulatorów światów w stylu multiversum. Dzięki nim można wziąć jedną sytuację z rzeczywistości – lub nawet zwykły tekstowy opis – stworzyć jej wirtualny model, a następnie rozdzielić na nieskończoną liczbę lekko zmodyfikowanych wersji.
Na przykład, mając dane z sześciu kamer autonomicznego samochodu, który jedzie ulicą w słoneczny dzień, można stworzyć wirtualny model 3D tej sytuacji. Następnie symulator może wygenerować setki wariantów tej samej sytuacji w różnych porach dnia i w różnych warunkach pogodowych, takich jak deszcz, śnieg, silny wiatr czy gęsta mgła.
Każdy z tych scenariuszy może obejmować różne zachowania pojazdów na drodze, pieszych, zwierząt lub obiektów, które spadają i odbijają się w różnych kierunkach. Można również symulować reakcje samego autonomicznego pojazdu, tworząc różnorodne kursy działania.
Wirtualny model 3D pozwala generować wysokiej jakości wideo symulacyjne dla kamer samochodu oraz dane dla pozostałych sensorów systemu robotycznego. Dzięki temu jeden zestaw danych może przekształcić się w tysiące lub miliony unikalnych scenariuszy treningowych, opracowanych z wykorzystaniem zaawansowanych symulatorów fizyki i materiałów.
MOŻE ZAINTERESUJE CIĘ TAKŻE
– Moment ChatGPT dla robotyki nadchodzi – powiedział Jensen Huang, założyciel i CEO Nvidii, ogłaszając premierę modelu symulacji światów Cosmos podczas swojego wystąpienia na CES. – Podobnie jak duże modele językowe są podstawą rozwoju AI, modele symulacji światów są kluczowe dla postępu robotyki i pojazdów autonomicznych. Stworzyliśmy Cosmos, aby demokratyzować fizyczną AI i umożliwić każdemu deweloperowi dostęp do robotyki ogólnej.
Rewolucja wymaga ogromnych zasobów
Oczywiście takie rozwiązanie wymaga olbrzymich ilości danych i mocy obliczeniowej. Nvidia odpowiedziała na to wyzwaniem, tworząc Cosmos Tokenizer, który przekształca obrazy i wideo w tokeny przetwarzane przez modele AI przy użyciu o 1/8 mniej danych niż dzisiejsze wiodące rozwiązania, co zapewnia 12-krotne przyspieszenie przetwarzania.
Jako lider sprzętu AI, Nvidia zyskała wsparcie kluczowych graczy w branży robotyki. Firmy takie jak 1X, Figure AI, Fourier i Agility korzystają z Cosmos, aby przyspieszyć rozwój humanoidów. Z kolei firmy z sektora pojazdów autonomicznych, takie jak Xpeng, Uber, Waavi i Wayve, również zaangażowały się w ten projekt.
Źródło: Nvidia