Aigest.
Newsy

MIT przedstawia SEAL: Przełom w samodoskonalącej się sztucznej inteligencji

Naukowcy z MIT opracowali SEAL, nowatorski framework umożliwiający dużym modelom językowym samodzielną edycję i aktualizację własnych wag poprzez uczenie ze wzmocnieniem, co stanowi znaczący krok w kierunku samoewoluując

RA

Udostępnij
MIT przedstawia SEAL: Przełom w samodoskonalącej się sztucznej inteligencji
Fot. Synced

Naukowcy z MIT zaprezentowali SEAL (Self-Adapting Language Models) – innowacyjny framework, który umożliwia dużym modelom językowym (LLM) samodzielną aktualizację własnych wag. To osiągnięcie jest postrzegane jako kluczowy krok w kierunku realizacji prawdziwie samoewoluującej sztucznej inteligencji, wzbudzając szerokie dyskusje w środowisku badawczym i wśród czołowych postaci branży, takich jak Sam Altman, CEO OpenAI.

Jak działa SEAL?

Opublikowany wczoraj artykuł naukowy opisuje metodę, w której LLM może generować własne dane treningowe poprzez „samoedytowanie”, a następnie aktualizować swoje wagi w oparciu o nowe dane wejściowe. Kluczowe jest, że ten proces samoedycji jest uczony za pomocą uczenia ze wzmocnieniem (reinforcement learning), gdzie mechanizm nagrody jest ściśle związany z poprawą wydajności zaktualizowanego modelu w docelowych zadaniach.

Podstawowa koncepcja SEAL polega na tym, aby modele językowe mogły doskonalić się, napotykając nowe dane, generując własne syntetyczne dane i optymalizując swoje parametry poprzez samoedycję. Cel treningowy modelu to bezpośrednie generowanie tych samoedycji (SE) z wykorzystaniem danych dostarczonych w kontekście modelu. Generowanie samoedycji jest uczone poprzez uczenie ze wzmocnieniem: model jest nagradzany, gdy zastosowane samoedycje prowadzą do poprawy wydajności w docelowym zadaniu.

SEAL można zatem postrzegać jako algorytm z dwiema zagnieżdżonymi pętlami:

  • Zewnętrzna pętla uczenia ze wzmocnieniem (RL), która optymalizuje generowanie samoedycji.
  • Wewnętrzna pętla aktualizacji, która wykorzystuje wygenerowane samoedycje do aktualizacji modelu za pomocą spadku gradientu.

Metoda ta jest przykładem meta-uczenia, koncentrującego się na tym, jak generować skuteczne samoedycje. W implementacji SEAL działa na pojedynczej instancji zadania (C,τ), gdzie C to informacje kontekstowe, a τ definiuje ocenę w dół strumienia dla oceny adaptacji modelu. Na przykład, w zadaniu integracji wiedzy, C może być fragmentem tekstu do zintegrowania z wewnętrzną wiedzą modelu, a τ zestawem pytań dotyczących tego fragmentu.

Naukowcy odkryli, że tradycyjne metody polityki online, takie jak GRPO i PPO, prowadziły do niestabilnego treningu. Ostatecznie zdecydowali się na ReST^EM, prostsze podejście klonowania behawioralnego oparte na filtrowaniu, zaczerpnięte z pracy DeepMind. Metodę tę można postrzegać jako proces Expectation-Maximization (EM), gdzie krok E próbkuje kandydatów wyjść z bieżącej polityki modelu, a krok M wzmacnia tylko te próbki, które przynoszą pozytywną nagrodę poprzez nadzorowane dostrajanie.

Wyniki eksperymentalne i kontekst rynkowy

Zespół MIT zastosował SEAL w dwóch konkretnych obszarach: integracji wiedzy i uczeniu z niewielu przykładów (few-shot learning). Wyniki eksperymentalne w obu domenach potwierdzają skuteczność frameworku.

W przypadku uczenia z niewielu przykładów, wykorzystując model Llama-3.2-1B-Instruct, SEAL znacząco poprawił wskaźniki sukcesu adaptacji, osiągając 72,5% w porównaniu do 20% dla modeli używających podstawowych samoedycji bez treningu RL i 0% bez adaptacji. Choć wynik ten jest nadal poniżej idealizowanej linii bazowej „Oracle TTT”, wskazuje na znaczący postęp.

Przy integracji wiedzy, używając większego modelu Qwen2.5-7B do integracji nowych faktów z artykułów SQuAD, SEAL konsekwentnie przewyższał metody bazowe. Trening z syntetycznie generowanymi danymi z bazowego modelu Qwen-2.5-7B już wykazał zauważalne ulepszenia, a późniejsze uczenie ze wzmocnieniem dodatkowo zwiększyło wydajność. Dokładność szybko poprawiała się w kolejnych iteracjach RL, często przewyższając konfiguracje wykorzystujące dane generowane przez GPT-4.1 już po dwóch iteracjach.

Badacze podkreślają, że choć obecna implementacja wykorzystuje jeden model do generowania i uczenia się z samoedycji, role te mogłyby zostać rozdzielone w konfiguracji „nauczyciel-uczeń”. Wskazują również na pewne ograniczenia SEAL, takie jak katastrofalne zapominanie, narzuty obliczeniowe i ocena zależna od kontekstu, które są szczegółowo omówione w oryginalnym artykule.

Publikacja ta pojawia się w czasie wzmożonego zainteresowania samoewolucją AI. Wcześniej w tym miesiącu uwagę przyciągnęły inne projekty, takie jak „Darwin-Gödel Machine (DGM)” od Sakana AI i University of British Columbia, „Self-Rewarding Training (SRT)” od CMU, framework „MM-UPT” od Shanghai Jiao Tong University oraz „UI-Genie” od The Chinese University of Hong Kong we współpracy z vivo. Dodatkowo, Sam Altman z OpenAI podzielił się swoją wizją przyszłości z samo-ulepszającą się AI i robotami w swoim blogu „The Gentle Singularity”, sugerując, że roboty mogłyby samodzielnie budować całe łańcuchy dostaw. Niezależnie od spekulacji dotyczących wewnętrznych prac OpenAI, artykuł MIT dostarcza konkretnych dowodów na postęp AI w kierunku samoewolucji.

Szersze konsekwencje dla rozwoju AI

Prace nad SEAL z MIT stanowią istotny krok w kierunku autonomicznych systemów AI, które potrafią adaptować się i uczyć w sposób ciągły. Możliwość samodzielnego generowania danych treningowych i aktualizowania wag modelu otwiera nowe perspektywy dla tworzenia bardziej elastycznych i wydajnych rozwiązań w dziedzinie sztucznej inteligencji. Chociaż istnieją wyzwania, takie jak stabilność treningu i narzuty obliczeniowe, kierunek wyznaczony przez SEAL wskazuje na przyszłość, w której AI będzie w stanie samodzielnie ewoluować, minimalizując potrzebę interwencji człowieka w procesie doskonalenia.

Źródło: syncedreview.com

Komentarze

Zaloguj się, aby dołączyć do dyskusji.

Nikt jeszcze nie skomentował. Bądź pierwszy!

Czytaj dalej

Subquadratic twierdzi, że przełamało kluczową barierę w rozwoju LLM
Od chatbota do cyfrowego współpracownika: AI musi kończyć zadania, nie tylko odpowiadać
Chińska firma Qihoo 360 tworzy narzędzia AI jako odpowiedź na Mythos, porównując rywalizację do odstraszania cybernuklea
Wiceprezes Apple odpowiedzialny za Vision Pro przechodzi do OpenAI
Jak założyciel startupu wykorzystał AI do walki z rakiem
NYT oskarża Microsoft o budowę superkomputera naruszającego prawa autorskie dla OpenAI

Bądź na bieżąco ze światem AI

Najważniejsze newsy, recenzje i poradniki — raz w tygodniu, prosto na maila. Bez spamu.