ByteDance prezentuje Astrę: dwumodelową architekturę dla autonomicznej nawigacji robotów
ByteDance wprowadza Astrę, innowacyjną architekturę dwumodelową, która ma zrewolucjonizować nawigację robotów w złożonych środowiskach wewnętrznych, rozwiązując kluczowe wyzwania tradycyjnych systemów.

ByteDance zaprezentowało Astrę, innowacyjną architekturę dwumodelową, która ma zrewolucjonizować nawigację robotów w złożonych środowiskach wewnętrznych. System ten odpowiada na rosnące zapotrzebowanie na zaawansowane systemy nawigacyjne, które sprostają wyzwaniom integracji robotów w różnych sektorach, od przemysłu po życie codzienne.
Tradycyjne systemy nawigacyjne, składające się z wielu mniejszych, często opartych na regułach modułów, napotykają ograniczenia w różnorodnych i skomplikowanych przestrzeniach. Astra ma za zadanie rozwiązać fundamentalne problemy, takie jak precyzyjna lokalizacja celu, samolokalizacja oraz planowanie ścieżki, umożliwiając stworzenie uniwersalnych robotów mobilnych.
Wyzwania tradycyjnej nawigacji i odpowiedź Astry
Dotychczasowe systemy nawigacyjne bazują na rozdrobnionych modułach. Lokalizacja celu wymaga interpretacji języka naturalnego lub obrazów, aby wskazać miejsce docelowe na mapie. Samolokalizacja jest wyzwaniem, zwłaszcza w powtarzalnych środowiskach, takich jak magazyny, gdzie często stosuje się sztuczne punkty orientacyjne (np. kody QR). Planowanie ścieżki dzieli się na planowanie globalne (generowanie ogólnej trasy) i lokalne (unikanie przeszkód w czasie rzeczywistym i osiąganie punktów pośrednich).
Podczas gdy modele fundamentowe wykazały potencjał w integrowaniu mniejszych modeli do szerszych zadań, optymalna liczba modeli i ich efektywna integracja dla kompleksowej nawigacji pozostawała otwartą kwestią. ByteDance, w artykule „Astra: Toward General-Purpose Mobile Robots via Hierarchical Multimodal Learning”, przedstawia Astrę jako rozwiązanie tych ograniczeń. Architektura ta, wzorowana na paradygmacie System 1/System 2, składa się z dwóch głównych podmodeli: Astra-Global i Astra-Local.
Astra-Global: Inteligentne jądro systemu
Astra-Global odpowiada za zadania niskiej częstotliwości, takie jak samolokalizacja i lokalizacja celu. Działa jako Multimodalny Duży Model Językowy (MLLM), przetwarzając zarówno dane wizualne, jak i językowe, aby osiągnąć precyzyjne pozycjonowanie globalne na mapie. Jego siła tkwi w wykorzystaniu hybrydowego grafu topologiczno-semantycznego jako danych kontekstowych, co pozwala na dokładne lokalizowanie pozycji na podstawie obrazów zapytań lub podpowiedzi tekstowych.
Proces lokalizacji wizualno-językowej w Astra-Global odbywa się dwuetapowo: od ogólnego do szczegółowego. W etapie ogólnym analizowane są obrazy wejściowe i podpowiedzi lokalizacyjne, wykrywane są punkty orientacyjne, a następnie dopasowywane do wstępnie zbudowanej mapy punktów orientacyjnych. W etapie szczegółowym, na podstawie obrazu zapytania i wyników etapu ogólnego, próbkowane są referencyjne węzły mapy z mapy offline, a ich informacje wizualne i pozycyjne są porównywane w celu bezpośredniego wyjścia przewidywanej pozycji.
Do lokalizacji celu opartej na języku, model interpretuje instrukcje w języku naturalnym, identyfikuje odpowiednie punkty orientacyjne na podstawie ich opisów funkcjonalnych na mapie, a następnie wykorzystuje mechanizmy kojarzenia punktów orientacyjnych z węzłami, aby zlokalizować odpowiednie węzły, pobierając obrazy celu i pozycje 6-DoF.
Zespół ByteDance zastosował rygorystyczną metodologię szkoleniową, wykorzystując Qwen2.5-VL jako podstawę. Połączono Supervised Fine-Tuning (SFT) z Group Relative Policy Optimization (GRPO). Eksperymenty wykazały, że GRPO znacząco poprawiło zdolność Astra-Global do generalizacji zero-shot, osiągając 99,9% dokładności lokalizacji w nieznanych środowiskach domowych, przewyższając metody oparte wyłącznie na SFT.
Astra-Local: Asystent zadań wysokiej częstotliwości
Astra-Local pełni rolę inteligentnego asystenta dla zadań wysokiej częstotliwości. Jest to sieć wielozadaniowa, zdolna do efektywnego generowania lokalnych ścieżek i dokładnego szacowania odometrii na podstawie danych z czujników. Architektura składa się z trzech głównych komponentów:
- 4D spatio-temporal encoder: Zastępuje tradycyjne moduły percepcji i przewidywania. Przetwarza obrazy wszechkierunkowe za pomocą Vision Transformer (ViT) i Lift-Splat-Shoot, przekształcając cechy obrazu 2D w cechy wokseli 3D. Następnie buduje na tym 3D encoderze, przewidując przyszłe cechy wokseli na podstawie przeszłych cech i przyszłych znaczników czasu, dostarczając reprezentacje środowiska dla planowania i odometrii.
- Planning head: Na podstawie wstępnie wytrenowanych cech 4D, prędkości robota i informacji o zadaniu, generuje wykonalne trajektorie za pomocą Transformer-based flow matching. Aby zapobiec kolizjom, moduł ten wykorzystuje masked ESDF loss, co znacząco redukuje wskaźniki kolizji.
- Odometry head: Przewiduje względną pozycję robota, wykorzystując bieżące i przeszłe cechy 4D oraz dodatkowe dane z czujników (np. IMU, dane z kół). Trenuje model Transformer do łączenia informacji z różnych czujników, co znacząco poprawia dokładność rotacyjną i zmniejsza ogólny błąd trajektorii.
Przeprowadzono szeroko zakrojone eksperymenty w różnorodnych środowiskach wewnętrznych, takich jak magazyny, biura i domy, aby kompleksowo ocenić wydajność Astry.
Rozwiązanie ByteDance, dzięki dwumodelowej architekturze, stanowi znaczący krok w kierunku stworzenia bardziej autonomicznych i wszechstronnych robotów mobilnych. Zdolność Astry do precyzyjnej nawigacji w złożonych, nieznanych środowiskach może przyspieszyć adopcję robotyki w wielu branżach, otwierając nowe możliwości dla automatyzacji i interakcji człowiek-robot.
Źródło: syncedreview.com
Komentarze
Zaloguj się, aby dołączyć do dyskusji.
Nikt jeszcze nie skomentował. Bądź pierwszy!
Powiązane w Newsy

OpenAI rozszerza inicjatywę Daybreak: GPT-5.5-Cyber i partnerstwa w cyberbezpieczeństwie
OpenAI rozwija swoją inicjatywę Daybreak, wprowadzając model GPT-5.5-Cyber, który ma przewyższać konkurencję w testach cyberbezpieczeństwa. Firma stawia na automatyzację łatania luk i współpracę z ponad 25 firmami oraz r
Redakcja Aigest3 godz. temu

Fugu od Sakana AI: orkiestracja wielu modeli LLM rzuca wyzwanie gigantom
Japoński startup Sakana AI wprowadza Fugu – system, który dynamicznie koordynuje wiele modeli językowych, działając jak jeden model. Twórcy twierdzą, że Fugu dorównuje, a nawet przewyższa najlepsze modele Anthropic w tes
Redakcja Aigest4 godz. temu

Nvidia stawia na chłodzenie cieczą i wyższe temperatury, by zredukować zużycie wody w centrach danych
Nvidia ogłosiła, że jej nowa referencyjna konstrukcja centrum danych, oparta na chłodzeniu cieczą i wyższych temperaturach pracy, ma niemal całkowicie wyeliminować zużycie wody.
Redakcja Aigest14 godz. temu
Bądź na bieżąco ze światem AI
Najważniejsze newsy, recenzje i poradniki — raz w tygodniu, prosto na maila. Bez spamu.